Data Lakehouse Pro

Die Revolution im Datenmanagement

Daten sind das Gold unserer Zeit. Dabei geht es jedoch nicht nur um das reine Ansammeln von Informationen, sondern vor allem um ihre Verwertung. Mit der Entwicklung von Data Lakehouses hat sich die Nutzung und Wertschöpfung von Daten noch einmal grundlegend verändert, denn die neuartige Architektur bietet erhebliche Vorteile. Im zweiten Teil unserer Serie stellen wir Ihnen umfänglichere Funktionen eines Data Lakehouse vor und erklären anhand eines Beispiels seine Einsatzmöglichkeiten.

Im letzten Data Lakehouse-Artikel haben wir bereits mit einer sogenannten Light-Variante die schnelle und einfache Erstellung eines Data Lakehouse dargestellt. Insbesondere für kleinere und mittlere Unternehmen mit geringer Datenbasis ist das ein interessantes Konzept. Wer aber auf ausreichend Daten-Ressourcen zurückgreifen kann und umfängliche Analysen für fundierte Handlungsempfehlungen benötigt, kann sein Data Lakehouse umfassender aufbauen und somit einen deutlich grösseren Mehrwert daraus ziehen. Ein solches erweitertes Data Lakehouse-Konzept «Pro» stellen wir hier vor.

Data Lakehouses basieren auf einer Weiterentwicklung des traditionellen Data Warehouse-Ansatzes, das aber die wichtigsten Funktionen von Data Lakes und Data Warehouses vereint. Doch bevor man gezielt in die Auswertung der vielen Informationen gehen kann, müssen Daten überhaupt erst verfügbar gemacht werden – was in der Regel die eigentliche Herausforderung darstellt. Und genau da beginnen auch schon die vielfältigen Vorzüge von Data Lakehouse.

Sammeln, speichern und aufbereiten

Grundlage aller Data Lakehouse Funktionen ist die Speicherung und Verwaltung sowohl von unstrukturierten als auch strukturierten Daten in einem einzigen Respository. Und während man sich bei der Verwaltung von Daten bis vor kurzem noch zwischen Kosten / Effektivität (Data Lake) und Struktur / Geschwindigkeit (Data Warehouse) entscheiden musste, ermöglicht die neue Architektur von Data Lakehouse tatsächlich das Beste aus beiden Welten – wie in «Die Magie von Data Lakehouse» schon aufgezeigt.

Dabei unterstützt die Anwendung Unternehmen dabei, ihre Daten aus verschiedenen Systemen zusammenzuführen und diese sogar bei schlechter oder unzureichender Datenqualität aufzubereiten und auszuwerten. Man spricht in diesem Zusammenhang auch von einer Medaillen-Architektur. Dabei stehen Rohdaten für Bronze, gereinigte Daten für Silber und aggregierte bzw. angereicherte Daten für Gold. Mit diesen drei Ebenen können Unternehmen ihre gesammelten Informationen effizient organisieren, optimal auswerten und die daraus gewonnen Erkenntnisse passgenau adressieren.

Mehrwerte eines erweiterten Data Lakehouse

Ein Data Lakehouse ist extrem flexibel und bietet in einer erweiterten Implementierung zahlreiche Möglichkeiten:

Es kann sowohl strukturierte als auch unstrukturierte und halbstrukturierte Daten verarbeiten, und diese sowohl sammeln, speichern als auch bereinigen. Dies ist besonders wichtig im Kontext von Master Data Management (MDM), da Stammdaten oft aus einer Vielzahl von Quellen und in verschiedenen Formaten kommen. Data Lakehouse kann diese verschiedenen Datenarten nahtlos integrieren und gleichzeitig eine hohe Datenqualität gewährleisten.

Skalierung:
Ob klein oder gross oder riesig, jede Datenmenge kann verarbeitet werden. Dies bedeutet, dass ein Lakehouse in der Lage ist, die wachsenden Anforderungen des MDM in Bezug auf Volumen, Geschwindigkeit und Vielfalt der Daten zu bewältigen.

Historisierung dank Delta-Dateiformat:
Mit dem Delta-Dateiformat wird jede Änderung der Daten nachverfolgt und die Rekonstruktion der Datenhistorie ermöglicht – insbesondere für Compliance, Audits und Datenanalyse äusserst wertvoll. Damit fällt dem Delta-Dateiformat eine Schlüsselfunktion zu, die ausserdem ACID-Transaktionen unterstützt, was wiederum für die Konsistenz und Zuverlässigkeit der Daten unerlässlich ist.

Intelligente Analysen und Prognosen:
Von besonderem Wert eines erweiterten Data Lakehouses ist die Integration mit Machine Learning (ML) und Künstlicher Intelligenz (AI). ML- und AI-Algorithmen verwenden Unternehmensdaten, um Muster und Trends zu erkennen, Vorhersagen zu treffen und datengesteuerte Entscheidungen zu unterstützen – je grösser das Datenvolumen ist, desto präziser die Prognostik.

Blog_Data-Lakehouse-Pro

Aus der Gastronomie: Einsatzplanung ist Umsatzgestaltung

Für einen grossen Händler in Deutschland haben wir eine skalierbare und performante Data Lakehouse Architektur gemäss unseres vorgestellten «Pro»-Ansatzes anhand von Azure Storage und Synapse aufgebaut. Dafür haben wir die klassisch die Medaillen-Architektur angewandt:

Das Daten-Niveau Bronze wurde definiert durch Rohdaten aus verschiedenen Kassensystemen, Lohnsystemen und SUSA Standards, die via Pipelines abzulegen waren. Das Silber-Niveau steht für die Homogenisierung. In unserem Praxisbeispiel wurden also heterogene Kassensysteme in einheitliche Umsatzschemas gebracht, verschiedene Buchhaltungsstandards wurden für die Gastronomiebranche vereinheitlicht und Arbeitszeiten, Abwesenheiten und Personalkosten wurden aus mehreren Lohnsystemen in ein zentrales Schema gebracht.

Für das Gold-Niveau galt es nun, die vorhandenen Daten mit weiteren, externen Quellen anzureichern und so die Wertschöpfung noch zu steigern. In diesem Beispiel geschah das durch die Hinzunahme von Wetterdaten und Feiertagen. Mithilfe von Machine Learning , konnte nun aus internen Daten (Umsatz) und externen Informationen (Wetter und Feiertage) tagesaktuelle, bedarfsoptimierte Vorhersagen für die Personalplanung gemacht werden.

Ausserdem wurde ein massiv heterogener Produktstamm für dutzende Betriebe mit Machine Learning vereinheitlicht und dient nun als Grundlage für Benchmarking und Preisvergleiche. Sowohl die effizientere Personal-Einsatzplanung als auch bessere Entscheidungen im Einkauf machten sich für die Gastronomen direkt im Umsatz bemerkbar.

Wenn es «Live» sein muss: Data Lakehouse Ultra

Das heutige Praxisbeispiel zeigt nur eine Einsatzmöglichkeit von Data Lakehouse. Wie auch Ihr Unternehmen von Analysen und Handlungsempfehlungen durch Streaming-Datenverarbeitung und Echtzeit-Analysen profitieren kann, zeigen wir Ihnen in unserem nächsten Data Lakehouse-Beitrag. Bei «Data Lakehouse Ultra» geht es nämlich um die moderne Lakehouse-Architektur mit Technologien, wie Delta Live Tables, die die Erstellung, Verwaltung und Aktualisierung von Daten-Pipelines erleichtern.

Sie möchten mehr über Data Lakehouse erfahren?

Wenn Sie selbst unter Anleitung ein Data Lakehouse aufsetzen möchten, empfehlen wir Ihnen unseren Workshop «Creating a Modern Data Lakehouse», den mein Kollege Nicolas Rehder und ich am 22.06.2023 im Rahmen der «IEEE Swiss Conference on Data Science» (SDS2023) in Zürich halten. Weitere Informationen dazu finden Sie auch hier.