SQL Server 2019 Daten-Virtualisierung ersetzt ETL
In den Bereichen Big Data, KI und Daten-Virtualisierung hat Microsoft umfangreiche Neuerungen eingeführt. Data-Warehouse-Umgebungen werden vereinfacht. In viele Fällen lassen sich Legacy ETL/Data-Warehouse-Systeme vollständig ablösen.
SQL Server 2022
Microsoft hat mittlerweile die neue Version SQL Server 2022 veröffentlicht. Aktuelle Informationen und Preise finden Sie auf unseren neuen Seiten:
Im Fokus stehen Big Data und Analytics
Fokus beim neuen SQL Server 2019 liegt auf Big Data, Analytics und KI. Betrieb und Verwaltung von Big Data Umgebungen wird merkbar vereinfacht. Hadoop Distributed File System (HDFS), Apache Spark und neue Analytics-/KI-Werkzeuge sind nun nativ im SQL Server 2019 integriert. Big Data Analytics wird vereinfacht.
Daten-Virtualisierung über alle gängigen Datenquellen
Bereits seit SQL Server 2016 können in T-SQL Abfragen externe Daten von Hadoop eingebunden werden. Eine Bereitstellung über Copy/Move ist nicht mehr erforderlich. Dieses Grundkonzept der Daten-Virtualisierung wurde im SQL Server 2019 erweitert. Eine Vielzahl neuer Datenquellen können virtualisiert und direkt in T-SQL Abfragen verwendet werden. Dazu gehören beispielsweise Oracle, Teradata, MongoDB, Cosmos DB, Azure Database, HDFS und IBM DB2.
Externe Daten lassen sich im SQL Server virtualisieren. Einheitliche Data-Layer entstehen, gespeist aus unterschiedlichen Quellen mit jeweils eigenen Datenformaten. Damit steht ein virtualisierter, standardisierter Data-Layer allen Applikationen und Benutzern zur Verfügung und kann in T-SQL-Queries verwendet werden.
Extract, Transform, Load (ETL) ist überflüssig
Traditionell werden einheitliche Datenpools mittels ETL (extract, transform, load) erzeugt. Zunächst werden relevante Daten aus den Quellen extrahiert, in geeignete Formate umgewandelt und Zielsystemen in Form von Kopien zur Verfügung gestellt. Ändern sich Datenquellen muss der Prozess erneut durchlaufen werden. ETL ist ein aufwändiges Verfahren. Die aufbereiteten Daten sind nicht “Live” und stehen nur verzögert oder periodisch zur Verfügung. Es wird kopiert, was zusätzlichen externen Speicher erfordert. Datenschutz und sicherheitsrelevante Aspekte müssen auf die zusätzlichen Speichersystem ausgeweitet werden. Der Aufwand für Einrichtung, Unterhalt und Betrieb von ETL ist hoch.
Daten-Virtualisierung mit SQL Server 2019 beseitigt viele Nachteile von ETL-Verfahren. Änderungen werden transparent in Echtzeit berücksichtigt. Zusätzliche externe Speicher entfallen. Einrichtung, Unterhalt und Betrieb wird zentral vom SQL Server Administrator unterstützt. Das mindert den personellen Aufwand. Microsoft SQL Server verfügt über ausgezeichnete Security-Features. Zusätzlicher Aufwand für den Schutz weiterer Datenspeicher entfällt.
Die Vereinfachung erleichtert allen Beteiligten ihre Arbeit. Administratoren, Software-Entwickler und Daten-Analysten profitieren gleichermaßen von vereinheitlichten virtualisierten Datenbeständen. Komplexe ETL Prozesse gehören der Vergangenheit an.
Ein einfaches Beispiel: ETL vs. SQL Server 2019
Angenommen Sie möchten ihrem Management Verkaufserlöse nach Niederlassung und Kunde zur Verfügung stellen. Dazu extrahieren Sie aus ihrem ERP-System Datum, Niederlassung, Kunde und Umsatz und erstellen ein interaktives Dashboard. Nach einer ersten Analyse der Zahlen möchte das Management tatsächliche Erlöse mit prognostizierten Verkaufserlösen vergleichen. Diese Daten liegen jedoch nicht im ERP sondern in separaten Excel-Tabellen und werden in den Niederlassungen gepflegt.
ETL-basiert werden die Excel-Tabellen exportiert, umgewandelt und manuell in neue Datenbanktabellen importiert. Die Tabellen werden mit dem Dashboard verknüpft und stehen dann für Abfragen zur Verfügung. Die Daten repräsentieren einen Snapshot zum Ausführungszeitpunkt des ETL-Prozesses. Spätere Änderungen werden nicht berücksichtigt.
Mit SQL Server 2019 werden Excel-Tabellen als virtuelle Tabellen definiert und stehen sofort im Dashboard zur Verfügung. Änderungen an den Excel-Tabellen erscheinen in Echtzeit im Dashboard.