Data Lakehouse Ultra

Datenanalyse in Realtime

Kontinuierlich werden Daten in Echtzeit generiert. Schöpft man die Möglichkeiten der innovativen Data Lakehouse Architektur voll aus, können diese Daten auch – in Realtime – erfasst, verarbeitet und analysiert werden. Unternehmen, für die Geschwindigkeit Trumpf ist, profitieren von dieser technologischen Lösung besonders: Sie gewinnen direkt und schnell wertvolle Einblicke, um fundierte Geschäftsentscheidungen zu treffen. Welche Möglichkeiten sich durch den Data Lakehouse Ansatz eröffnen, stellen wir Ihnen an einem Architektur-Beispiel vor.

In vielen Branchen reicht die Auswertung vorhandener Daten im Nachhinein nicht mehr aus. Vielmehr ist es wettbewerbsentscheidend, auf Ereignisse in Realtime zu reagieren. Deshalb haben viele Unternehmen den Wert und die Vorteile von analysierten Echtzeit-Datenströmen (Streaming Data) und Daten in Bewegung (Data in Motion) erkannt. Denn nur durch die Echtzeit-Datenanalyse können Unternehmen sofortige Einblicke in aktuelle Daten erhalten und schnell handeln, um auf Chancen oder Bedrohungen zu reagieren. Dies ermöglicht eine proaktive Geschäftssteuerung und verbessert die Wettbewerbsfähigkeit.

Das Extra: Delta, speziell für Live-Analysen

Für die Verarbeitung von Live-Streaming-Daten, gibt es speziell konzipierte Data Lakehouse-Architekturen, wie etwa die Delta-Architektur von Databricks. Sie ermöglicht eine einheitliche, skalierbare und sichere Plattform für Data Engineering, maschinelles Lernen und Datenanalyse. Durch den Einsatz von Technologien, wie Delta Live Tables, werden hier Streaming-Datenverarbeitung und Echtzeit-Analysefunktionen implementiert. Dadurch können Unternehmen ihre Datenpipelines vereinfachen und die Datenverarbeitung in Echtzeit optimieren.

Delta Live Tables ist ein deklaratives Framework zum Aufbau von zuverlässigen, wartbaren und testbaren Datenverarbeitungspipelines. Anstatt Ihre Datenpipelines als eine Reihe separater Aufgaben zu definieren, definieren Sie Streaming-Tabellen und materialisierte Ansichten, die das System erstellen und aktuell halten sollte. Sie ermöglichen Streaming- und Batch-Daten in einer einzigen Pipeline zu kombinieren, was die Komplexität der Datenverarbeitung erheblich reduziert. Darüber hinaus bieten Delta Live Tables eine zuverlässige und konsistente Datenverarbeitung, die die Aktualität und Korrektheit aller Daten sicherstellt.

Eine Streaming-Tabelle ist eine Delta-Tabelle mit zusätzlicher Unterstützung für Streaming- oder inkrementelle Datenverarbeitung. Streaming-Tabellen ermöglichen es Ihnen, ein wachsendes Dataset zu verarbeiten und jede Zeile nur einmal zu behandeln. Streaming-Tabellen sind optimal für Pipelines, die Datenaktualität und niedrige Latenz erfordern. Sie können aber auch für massive Skalentransformationen nützlich sein, da die Ergebnisse inkrementell berechnet werden können, wenn neue Daten eintreffen. Ein grosser Vorteil, der aktuelle Ergebnisse ohne vollständige Neuberechnung aller Quelldaten bei jedem Update ermöglicht.

Man kann darüber hinaus auch die Datenqualität mit Delta Live Tables-Erwartungen durchsetzen. Hier kann die zu erwartende Datenqualität definieren werden, gleichzeitig erfolgt eine Weisung, wie mit Datensätzen umgegangen werden soll, die diese Erwartungen nicht erfüllen.

Wenn’s ein bisschen mehr sein darf: Integration von Synapse Analytics

Die als Open-Source Technologie bereitgestellten Delta-Tables sind mittlerweile unabdingbar in jeder Data Lakehouse Architektur. Wer das Ganze noch optimieren möchte, arbeitet zusätzlich mit Synapse Analytics. Der von Microsoft bereitgestellte Service ist eine Analytics-Service-Plattform, die das Erstellen von Big Data- und KI-Lösungen vereinfacht. Synapse Analytics kann nahtlos mit Delta-Tabellen integriert werden, um eine logische Datenschicht für Analysezwecke bereitzustellen und Batch-ML-Workloads über Pipelines zu generieren.

Dabei ermöglicht Synapse Analytics das Zusammenbringen und Verarbeiten grosser Datenmengen. Durch Synapse Analytics innerhalb der Data Lakehouse Delta-Architektur können umfassende Einblicke in Daten erhalten und komplexe Analysen und Vorhersagen auch auf Echtzeit-Daten durchgeführt werden.

Data-Lakehouse-Ultra-analytics

Ein Beispiel: Echte Wertschöpfung durch Realtime-Analyse

Für unsere Kunden bauen wir derzeit leistungsstarke und skalierbare Data Lakehouse Lösungen auf, die je nach Kundenbedürfnis mit Echtzeit-Daten umgehen können. Um Geschäftsprozesse durch datengesteuerte Entscheidungsfindungen zu optimieren, können also beispielsweise Echtzeit-Einblicke in Verkaufs-, Kunden- und Logistikdaten erhalten werden. Dabei ermöglicht uns die vielseitige und flexible Cloud-Architektur von Microsoft Azure unseren Kunden schnell mit passenden Lösungen zu bedienen:

  • Live Daten werden über IoT Broker in die Datenplattform eingespeist und anhand von Stream Analytics und Databricks in Echtzeit verwertbar gemacht.
  • Live Dashboards mit Thingsboard und Power BI Streaming Datasets ermöglichen Echtzeit Analysen und Alerting.
  • Moderne KI Tools reichern die Daten an und helfen neue Einsichten aus den Daten zu generieren.

Durch Echtzeit-Einblicke in Daten lassen sich Echtzeit-Dashboards erstellen, um etwa Verkaufstrends, Kundensegmente, Lagerbestände und Logistikinformationen zu überwachen. Dies ermöglicht im Bedarfsfall eine schnelle Reaktion auf Markttrends, eine Verbesserung der Kundenbetreuung (z. B. personalisierte Angebote) und die Optimierung der Lagerhaltung.
Selbstverständlich stehen bei uns Datensicherheit und Governance immer an oberster Stelle und Azure Purview hilft diese zu gewährleisten: Von Datenerhebung, Transport, Speicherung, Weiterverarbeitung und Sichtung. So ist neben der betrieblichen Effizienz auch die Sicherheit mit der Data Lakehouse -Architektur garantiert.

Die Zukunft im Auge behalten

Das heutige Beispiel zeigt eine weitere Einsatzmöglichkeit von «Data Lakehouse» und beendet zugleich unsere Mini-Serie.

Da sich Daten- und Analyseanforderungen ständig weiterentwickeln, gilt es, die Zukunft immer im Auge zu behalten. Wir sind gespannt, welche innovativen Lösungen die Technologiebranche demnächst präsentieren wird. Wir bleiben auf jeden Fall am Ball!

Sie möchten mehr über Data Lakehouse erfahren?

Wenn Sie mehr über Data Lakehouses erfahren oder auch selbst unter Anleitung ein Data Lakehouse aufsetzen möchten, empfehlen wir Ihnen unseren Workshop «Creating a Modern Data Lakehouse», den mein Kollege Nicolas Rehder und ich am 22.06.2023 im Rahmen der «IEEE Swiss Conference on Data Science» (SDS2023) in Zürich halten. Weitere Informationen dazu finden Sie auch hier.

;