Die Revolution im Datenmanagement
Daten sind das Gold unserer Zeit. Dabei geht es jedoch nicht nur um das reine Ansammeln von Informationen, sondern vor allem um ihre Verwertung. Mit der Entwicklung von Data Lakehouses hat sich die Nutzung und Wertschöpfung von Daten noch einmal grundlegend verändert, denn die neuartige Architektur bietet erhebliche Vorteile. Im zweiten Teil unserer Serie stellen wir Ihnen umfänglichere Funktionen eines Data Lakehouse vor und erklären anhand eines Beispiels seine Einsatzmöglichkeiten.
Sammeln, speichern und aufbereiten
Grundlage aller Data Lakehouse Funktionen ist die Speicherung und Verwaltung sowohl von unstrukturierten als auch strukturierten Daten in einem einzigen Respository. Und während man sich bei der Verwaltung von Daten bis vor kurzem noch zwischen Kosten / Effektivität (Data Lake) und Struktur / Geschwindigkeit (Data Warehouse) entscheiden musste, ermöglicht die neue Architektur von Data Lakehouse tatsächlich das Beste aus beiden Welten – wie in «Die Magie von Data Lakehouse» schon aufgezeigt.
Dabei unterstützt die Anwendung Unternehmen dabei, ihre Daten aus verschiedenen Systemen zusammenzuführen und diese sogar bei schlechter oder unzureichender Datenqualität aufzubereiten und auszuwerten. Man spricht in diesem Zusammenhang auch von einer Medaillen-Architektur. Dabei stehen Rohdaten für Bronze, gereinigte Daten für Silber und aggregierte bzw. angereicherte Daten für Gold. Mit diesen drei Ebenen können Unternehmen ihre gesammelten Informationen effizient organisieren, optimal auswerten und die daraus gewonnen Erkenntnisse passgenau adressieren.
Mehrwerte eines erweiterten Data Lakehouse
Ein Data Lakehouse ist extrem flexibel und bietet in einer erweiterten Implementierung zahlreiche Möglichkeiten:
Es kann sowohl strukturierte als auch unstrukturierte und halbstrukturierte Daten verarbeiten, und diese sowohl sammeln, speichern als auch bereinigen. Dies ist besonders wichtig im Kontext von Master Data Management (MDM), da Stammdaten oft aus einer Vielzahl von Quellen und in verschiedenen Formaten kommen. Data Lakehouse kann diese verschiedenen Datenarten nahtlos integrieren und gleichzeitig eine hohe Datenqualität gewährleisten.
Skalierung:
Ob klein oder gross oder riesig, jede Datenmenge kann verarbeitet werden. Dies bedeutet, dass ein Lakehouse in der Lage ist, die wachsenden Anforderungen des MDM in Bezug auf Volumen, Geschwindigkeit und Vielfalt der Daten zu bewältigen.
Historisierung dank Delta-Dateiformat:
Mit dem Delta-Dateiformat wird jede Änderung der Daten nachverfolgt und die Rekonstruktion der Datenhistorie ermöglicht – insbesondere für Compliance, Audits und Datenanalyse äusserst wertvoll. Damit fällt dem Delta-Dateiformat eine Schlüsselfunktion zu, die ausserdem ACID-Transaktionen unterstützt, was wiederum für die Konsistenz und Zuverlässigkeit der Daten unerlässlich ist.
Intelligente Analysen und Prognosen:
Von besonderem Wert eines erweiterten Data Lakehouses ist die Integration mit Machine Learning (ML) und Künstlicher Intelligenz (AI). ML- und AI-Algorithmen verwenden Unternehmensdaten, um Muster und Trends zu erkennen, Vorhersagen zu treffen und datengesteuerte Entscheidungen zu unterstützen – je grösser das Datenvolumen ist, desto präziser die Prognostik.

Aus der Gastronomie: Einsatzplanung ist Umsatzgestaltung
Für einen grossen Händler in Deutschland haben wir eine skalierbare und performante Data Lakehouse Architektur gemäss unseres vorgestellten «Pro»-Ansatzes anhand von Azure Storage und Synapse aufgebaut. Dafür haben wir die klassisch die Medaillen-Architektur angewandt:
Das Daten-Niveau Bronze wurde definiert durch Rohdaten aus verschiedenen Kassensystemen, Lohnsystemen und SUSA Standards, die via Pipelines abzulegen waren. Das Silber-Niveau steht für die Homogenisierung. In unserem Praxisbeispiel wurden also heterogene Kassensysteme in einheitliche Umsatzschemas gebracht, verschiedene Buchhaltungsstandards wurden für die Gastronomiebranche vereinheitlicht und Arbeitszeiten, Abwesenheiten und Personalkosten wurden aus mehreren Lohnsystemen in ein zentrales Schema gebracht.
Für das Gold-Niveau galt es nun, die vorhandenen Daten mit weiteren, externen Quellen anzureichern und so die Wertschöpfung noch zu steigern. In diesem Beispiel geschah das durch die Hinzunahme von Wetterdaten und Feiertagen. Mithilfe von Machine Learning , konnte nun aus internen Daten (Umsatz) und externen Informationen (Wetter und Feiertage) tagesaktuelle, bedarfsoptimierte Vorhersagen für die Personalplanung gemacht werden.
Ausserdem wurde ein massiv heterogener Produktstamm für dutzende Betriebe mit Machine Learning vereinheitlicht und dient nun als Grundlage für Benchmarking und Preisvergleiche. Sowohl die effizientere Personal-Einsatzplanung als auch bessere Entscheidungen im Einkauf machten sich für die Gastronomen direkt im Umsatz bemerkbar.
Wenn es «Live» sein muss: Data Lakehouse Ultra
Das heutige Praxisbeispiel zeigt nur eine Einsatzmöglichkeit von Data Lakehouse. Wie auch Ihr Unternehmen von Analysen und Handlungsempfehlungen durch Streaming-Datenverarbeitung und Echtzeit-Analysen profitieren kann, zeigen wir Ihnen in unserem nächsten Data Lakehouse-Beitrag. Bei «Data Lakehouse Ultra» geht es nämlich um die moderne Lakehouse-Architektur mit Technologien, wie Delta Live Tables, die die Erstellung, Verwaltung und Aktualisierung von Daten-Pipelines erleichtern.