Business

SQL Server 2019 – das bieten Big Data-Cluster

0

SQL Server Big Data-Cluster – das sollten Sie wissen

Zu den mit besonderer Spannung erwarteten Features von SQL Server 2019 gehörte die Einführung von SQL Server Big Data-Clusters (BDCs), die heutzutage von vielen Unternehmen aktiv genutzt werden. Doch was sind Big Data Clusters und was sind die wichtigsten Anwendungsfälle? In diesem Blogbeitrag erfahren Sie mehr.

Big Data-Cluster – dies Eigenschaften zeichnen das Feature aus

Big Data-Cluster nutzen Erweiterungen von PolyBase in SQL Server 2019, um die Virtualisierung von Daten aus einer Vielzahl von Quellen über externe Tabellen zu ermöglichen. Über externe Tabellen können Daten, die sich nicht physisch auf der lokalen SQL Server-Instanz befinden, so abgefragt werden, als ob sie lokal vorhanden wären. Eine Verknüpfung mit lokalen Tabellen ist möglich und hilft eine nahtlose Ergebnismenge zu erzeugen.

Auf Daten aus Remote-SQL Server-Instanzen, Azure SQL-Datenbank, Azure Cosmos DB, MySQL, PostgreSQL, MongoDB, Oracle und vielen anderen Quellen kann über externe PolyBase-Tabellen zugegriffen werden. In einem Big Data-Cluster bietet die SQL Server-Engine auch integrierte Unterstützung für das Hadoop Distributed File System (HDFS) und kann alle diese Datensätze zusammenführen, was eine einfache Integration von relationalen und nicht relationalen Daten ermöglicht.

Mittels Big Data-Cluster können Datenwissenschaftler und Ingenieure auf Daten in einer skalierbaren, verteilten In-Memory-Rechenschicht zugreifen und diese bearbeiten. Die Daten können für maschinelles Lernen, KI und andere Analyseaufgaben verwendet werden.

Wie funktioniert ein Big-Data-Cluster?

Aus architektonischer Sicht sind Big-Data-Cluster (BDC) Cluster von Containern (zum Beispiel Docker-Containern). Diese skalierbaren Cluster führen SQL Server, Spark, HDFS und andere Dienste aus. Jeder Aspekt eines BDC wird in einem Container ausgeführt, und alle diese Container werden von Kubernetes verwaltet, einem Container-Orchestrierungsdienst. Gruppierungen von Containern, bekannt als Pods, werden in Pools gruppiert, die die Hauptkomponenten eines Big Data-Clusters bilden.

Zu den Komponenten eines Big Data-Clusters zählt die Masterinstanz. Hierbei handelt es sich um eine SQL Server 2019-Instanz, die als Hauptverbindungsendpunkt für SQL-Abfragen dient und Metadaten sowie Benutzerdatenbanken mit Lese-/Schreibzugriff im BDC speichert.

Bei einem SQL-Datenpool handelt es sich um eine Sammlung von SQL Server-Instanzen, über die Datensätze verteilt werden können, wodurch horizontal skalierte Abfragefunktionen für häufig aufgerufene Daten ermöglicht werden. Dies kann sehr nützlich sein, um große Tabellen zu speichern, die sich sonst auf der Masterinstanz befinden würden. Ergebnisse komplexer Abfragen können in einem SQL-Datenpool zwischengespeichert werden.

Als weitere Komponente ist der Speicherpool zu nennen. Hierbei handelt es sich um eine skalierbare Speicherebene, die HDFS, Spark und SQL Server hostet. Unstrukturierte und halbstrukturierte Datendateien wie Text mit Trennzeichen können hier gespeichert und über externe SQL Server-Tabellen oder jedes andere Tool, das eine Verbindung zu HDFS herstellen kann, aufgerufen werden.

Bei einem Compute-Pool handelt es sich um eine Sammlung von SQL Server-Compute-Knoten, die eine Scale-out-Verarbeitung ermöglichen, indem Abfragen von der Masterinstanz erleichtert werden. Endbenutzer haben keinen direkten Zugriff auf den Compute-Pool. Der Anwendungspool besteht aus einer Reihe von Schnittstellen, die es Anwendungen ermöglichen, die R-, Python-, SSIS- und MLeap-Laufzeiten auf dem BDC auszuführen. BDCs enthalten noch mehrere andere Komponenten wie Webdienste für die Überwachung und Verwaltung des Clusters.

Für diejenigen, die lieber eine GUI verwenden, kann Azure Data Studio eine wichtige Rolle bei der Verwaltung von Big Data-Clustern spielen. Zusätzlich zu SQL Server-Aufgaben können Sie mit Azure Data Studio einen BDC erstellen und verwalten,

Was sind einige der wichtigsten Anwendungsfälle für Big Data-Cluster?

Stellen Sie sich vor, ein Data Warehouse (zu deutsch „Datenlager“) für einen großen Einzelhändler zu verwalten, in dem regelmäßig Transaktionsdaten von den Filialen und der Website eingehen. Bei einem Data Warehouse handelt es sich um eine für Analysezwecke optimierte zentrale Datenbank. Während einige Daten im Warehouse definitiv relational sind und als solche gespeichert werden sollten, ist dies bei den Millionen von täglichen Transaktionen, die über Textdateien mit Trennzeichen geliefert werden, nicht der Fall.

Während ein ETL-Prozess verwendet werden könnte, um all diese Daten in eine relationale Datenbank zu laden, würde dies eine zusätzliche Komplexitätsebene hinzufügen, einen weiteren zu wartenden Prozess erstellen und Zeit für die Ausführung benötigen.

Big Data-Cluster ermöglichen es, die großen Datenbestände in ihrem nativen Format zu speichern und ohne weitere Verarbeitung zu analysieren. Darüber hinaus können sowohl relationale als auch Big Data kombiniert werden, indem physische und virtuelle Tabellen wie jede andere SQL-Abfrage verknüpft werden. Zusätzlich stehen die großen Datenbestände für die Analyse mit Spark oder R zur Verfügung.

Die Flexibilität, die ein SQL Server Big Data-Cluster bietet, eröffnen viele Anwendungsfälle. Wenn eine Kombination von relationalen Daten, nicht relationalen Daten und/oder Big Data gefragt ist, sollte ein SQL Server Big Data-Cluster in Erwägung gezogen werden. Auch wenn ein sofortiger Zugriff auf Daten durch Datenvirtualisierung gewünscht ist, stellt das SQL Server 2019 Feature eine denkbare Lösung dar. Ohne Duplizierung können dieselben Daten sowohl über SQL Server als auch über Spark abgefragt werden. Wer eine konsistente Lösung einsetzen mochte, die innerhalb von Azure, in anderen öffentlichen Clouds oder lokal bereitgestellt werden kann, ist mit einem SQL Server Big Data-Cluster gut beraten.

Zusammenfassend lässt sich sagen, dass SQL Server Big Data-Cluster eine sehr willkommene und innovative Ergänzung der Microsoft Data Platform sind. Wenn Sie SQL Server 2019 günstig kaufen möchten, werden Sie bei BestSoftware fündig. Wir bieten Ihnen die effiziente Serversoftware zu einem herausragenden Preis-Leistungs-Verhältnis an

Künstliche Intelligenz (KI) – das sind die Ziele und Herausforderungen

Previous article

WISO Mein Verein 365 – die professionelle Vereinssoftware

Next article

You may also like

Comments

Comments are closed.