Durch Cloud Technologien hat die Menge an generierten Daten in den letzten Jahren exponentiell zugenommen. Frei nach dem Motto «storage is cheap» sind deshalb regelrechte «Datenmüllhalden» strukturierter und unstrukturierter Daten entstanden, so genannte Data Lakes. Dieses Konvolut an verschiedenen Daten konnte anfangs noch gut mit traditionellen Data Warehouse (DWH) Lösungen bewältigt werden. Doch mit der Zeit kamen DWH Lösungen an ihre Grenzen – also musste ein neues Datenmanagement her. Das war die die Geburtsstunde von Data Lakehouse, einem modernen Ansatz, der die besten Aspekte eines Data Lakes und eines Data Warehouse miteinander kombiniert. Welche Datenmanagementtools sich für fundierte Datenanalysen eignen, erklären wir im folgenden Blogbeitrag.
Data Lakehouse ist ein relativ junger Datenmanagementansatz, mit dem sich enorme Datenmengen unter Berücksichtigung modernster BI-Lösungen verwalten lassen. Data Lakehouse zeichnet sich durch seine offene Architektur aus und vereint die Flexibilität und Kosteneffizienz von Data Lakes mit der kontextbezogenen und schnellen Abfragefunktion eines Data Warehouse. Durch diese Kombination können sowohl strukturierte als auch unstrukturierte Daten verarbeitet werden.
Data Lakehouses kommen im Zuge von Data Analytics oder beim Aufbau themenbezogener Data Marts, Dashboards oder Machine-Learning-Anwendungen zum Einsatz.
Technisch gliedert sich ein Data Lakehouse in drei Schichten:
Durch eine Kombination von Schema-on-Write und Schema-on-Read-Ansätzen bietet Data Lakehouse eine einheitliche Sicht auf Daten, die aus verschiedenen Quellen generiert werden. Diese erlaubt Benutzern, Daten mit ihren bevorzugten Tools und Sprachen abzufragen und zu analysieren.
Mittlerweile sind verschiedene Data Lakehouse Technologien auf dem Markt. Zu den Pionieren auf dem Gebiet zählten Databricks mit Spark & Hadoop, danach lancierten Microsoft, Google und Amazon ihre Data Lakehouse Lösungen. Derzeit bieten auch kleinere Anbieter, wie zum Beispiel Snowflake, einen cloud-agnostischen High-Performance-Ansatz.
Microsoft bietet beispielsweise mit Azure Synapse Analytics eine Cloud-DWH-Lösung, die (als rein cloud-basierte Plattform) Datenintegration, Data Warehousing und Big Data Analyse in einer einzigen Lösung zusammenführt. So ermöglicht Azure Synapse Analytics Benutzern das Extrahieren von Daten aus verschiedenen Quellen, um sie im Anschluss zu transformieren und zu analysieren. Es ist in der Lage, sowohl traditionelle Data-Warehouse-Abfragen als auch Big Data-Analysen durchzuführen und verfügt sogar über integrierte Tools zur Erstellung von Machine-Learning-Modellen.
Azure Synapse Analytics bietet eine vollständige Integration mit Azure Data Lake Storage inkl. Echtzeit-Analyse. Dank der Serverless Komponenten von Azure Synapse sind Unternehmen nicht mehr gezwungen, monatlich tausende Franken für DWH-Kapazitäten auszugeben, die vermutlich ohnehin wenig genutzt werden. Dank Serverless zahlt man nur die Leseaktivitäten, mit denen Daten für Analysezwecke vom Data Lake abgerufen werden.
Zusammenfassend führt Azure Synapse Analytics die Data Lakes und Data Warehouses in einer einzigen Data Lakehouse Lösung zusammen. Dadurch können Unternehmen ihre Daten effizienter verwalten und fundierte Entscheidungen treffen.
Liest man nun von den Vorteilen eines Data Lakehouse, stellt sich die Frage, warum Unternehmen heute überhaupt noch in eine traditionelle Data Warehouse Lösung investieren sollten. Ein Hauptargument für ein DWH, das wir oft bei Kunden vortreffen, ist die Konsolidierung von verschiedenen Datenquellen. Diese Funktion bieten mittlerweile viele Tools an – einige davon sogar live. Datenvirtualisierungstools, wie etwa Starburst, glänzen mit ihren Query- und Caching-Algorithmen und legen eine fantastische Performance an den Tag. Auch Microsoft Power BI ist eine gute Alternative, um verschiedene Datenquellen zu vereinen.
Ein anderes Feature, das oft für die Begründung von Data Warehouse Ansätzen verwendet wird ist die Historisierung von Daten. Schliesslich wollen Geschäftsführer nicht nur wissen, wie es heute oder morgen um ihr Unternehmen steht, sondern möchten auch rückblickend auf die letzten sechs Monate schauen und herausfinden, was gut und was weniger gut gelaufen ist.
Wenn sich Daten jedoch ständig ändern (z.B. durch Verschiebungen von Lieferterminen, Anpassung von lieferbaren Stückzahlen durch Lieferanten etc.), kann man ohne die Historisierung von Daten unmöglich verstehen, warum sich ein Unternehmen so und nicht anders entwickelt hat. Eine Art Zeitmaschine wäre hier sinnvoll – oder die Historisierungsfunktion, die eine Analyse der Betriebskennzahlen von vor 3, 6, 12 etc. Monaten ermöglicht.
Eine saubere Historisierung von Daten ist jedoch nicht nur in einem komplexen DWH-Konstrukt, sondern auch im Data Lake, möglich.
Wie baut man nun eine Historisierung in einen Data Lake ein und wie kann man dabei zwischen aktuellen und historischen Daten unterscheiden? Die Lösung hierfür lautet Delta Lake bzw. genauer gesagt «Delta Live Tables». Delta Live Tables ermöglichen die Change Data Capture (CDC) einer Source, wobei die jeweiligen Anpassungen mit Start- und End-Zeitstempeln versehen und direkt in der Delta Datei gespeichert werden.
Entwickelt wurde das Delta Dateiformat von Databricks und gilt mittlerweile als Open Source Standard, der in den meisten Data Lakehouse Technologien implementiert wird. Delta Lake ermöglicht ACID Transactions (atomicity, consistency, isolation, and durability) und somit eine Reihe an wichtigen Datenmanagement-Tasks, wie z.B. die Historisierung von Daten und Datenschemas, die transparente Umbenennung von Spalten, eingebaute Abhängigkeitsbedingungen und vieles mehr. Das Beste daran? Azure Synapse unterstützt die Auswertung von Delta Dateien in einem kostengünstigen Serverless SQL Angebot sowie die Bearbeitung von Delta Dateien durch integrierte Spark Pools. Dank Delta Dateien bietet Snowflake allen Kunden ein 24h Time Travel Feature an. Enterprise Kunden können Time Travel (ohne eine eigene Historisierungslogik einbauen zu müssen) bis zu 90 Tage lang in Anspruch nehmen.
Sie möchten mehr über Data Lakehouse und Delta Lakes erfahren? Oder selbst ein Lakehouse aufbauen? Dann besuchen Sie am 22.06.2023 um 13:00 Uhr den Hands-on Workshop «Data Lakehouse: Creating a Modern Lakehouse», den mein Kollege Nicolas Rehder und ich, im Rahmen der Swiss Data Science Conference halten.
Wer steckt eigentlich hinter Allgeier? Marina verstärkt bei Allgeier seit Juli 2023 das Finanzteam. Im Interview erfahren wir mehr über ihre beruflichen Herausforderungen, worauf es in ihrem Job ankommt und wo man sie in ihrer Freizeit findet.
Ausgestattet mit modernster KI-Technologie, bietet die Plattform eine optimierte Verwaltung und Analyse digitaler Inhalte.
Kann AR die Produktion revolutionieren? Wo liegen mögliche Einsatzfelder und konkrete Vorteile? Im vierten Blog der Smart Maintenance Reihe werfen wir einen Blick in die Zukunft.
Smart Maintenance ist kein Trend, sondern eine Notwendigkeit, um wettbewerbsfähig zu bleiben. Doch welche Phasen durchläuft die Implementierung einer intelligenten Wartung?
Dass Smart Maintenance nicht nur für die Industrie relevant ist, zeigte der Vortrag von Mirko Maurer bei der maintenance Schweiz. Was Resilienz damit zu tun hat, erfahren Sie hier.
KI goes Microsoft 365: Was der intelligente Assistent Copilot kann und wie er die Zusammenarbeit auf neue Beine stellt.
Smarte Technologien, wertvolle Daten und vernetzte Mitarbeiter: Von der Herausforderung Smart Maintenance zu implementieren und wie man sie bewältigt. Alles im aktuellen Blog!
Vernetzt, automatisiert und mit Echtzeit-Daten gespickt – das sind die Kennzeichen von Industrie 4.0. Doch welche Rolle spielt Smart Maintenance dabei konkret? Wie kann es zur Effizienzsteigerung und Kostenreduktion führen – das verraten wir im neuen Blogbeitrag.
Zwischen Flexibilität und Festungsanlage: Wie Unternehmen in der modernen Arbeitswelt Sicherheit gewährleisten können. Ein Expertengespräch mit Christian Dunkel über Secure Workplace.
Cookie | Dauer | Beschreibung |
---|---|---|
__hssc | 30 minutes | HubSpot sets this cookie to keep track of sessions and to determine if HubSpot should increment the session number and timestamps in the __hstc cookie. |
__hssrc | session | This cookie is set by Hubspot whenever it changes the session cookie. The __hssrc cookie set to 1 indicates that the user has restarted the browser, and if the cookie does not exist, it is assumed to be a new session. |
_GRECAPTCHA | 5 months 27 days | Google Recaptcha service sets this cookie to identify bots to protect the website against malicious spam attacks. |
cookielawinfo-checkbox-advertisement | 1 year | Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Advertisement" category. |
cookielawinfo-checkbox-analytics | 1 year | Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Analytics" category. |
cookielawinfo-checkbox-functional | 1 year | The GDPR Cookie Consent plugin sets the cookie to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 1 year | Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Necessary" category. |
cookielawinfo-checkbox-others | 1 year | Set by the GDPR Cookie Consent plugin, this cookie stores user consent for cookies in the category "Others". |
cookielawinfo-checkbox-performance | 1 year | Set by the GDPR Cookie Consent plugin, this cookie stores the user consent for cookies in the category "Performance". |
CookieLawInfoConsent | 1 year | CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie. |
elementor | never | The website's WordPress theme uses this cookie. It allows the website owner to implement or change the website's content in real-time. |
Cookie | Dauer | Beschreibung |
---|---|---|
cookietest | session | Description is currently not available. |
Cookie | Dauer | Beschreibung |
---|---|---|
test_cookie | 15 minutes | doubleclick.net sets this cookie to determine if the user's browser supports cookies. |
VISITOR_INFO1_LIVE | 5 months 27 days | YouTube sets this cookie to measure bandwidth, determining whether the user gets the new or old player interface. |
YSC | session | Youtube sets this cookie to track the views of embedded videos on Youtube pages. |
yt.innertube::nextId | never | YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen. |
yt.innertube::requests | never | YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen. |
Cookie | Dauer | Beschreibung |
---|---|---|
__hstc | 5 months 27 days | Hubspot set this main cookie for tracking visitors. It contains the domain, initial timestamp (first visit), last timestamp (last visit), current timestamp (this visit), and session number (increments for each subsequent session). |
_ga | 1 year 1 month 4 days | Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors. |
_gat_UA-* | 1 minute | Google Analytics sets this cookie for user behaviour tracking.n |
_gcl_au | 3 months | Google Tag Manager sets the cookie to experiment advertisement efficiency of websites using their services. |
_gid | 1 day | Google Analytics sets this cookie to store information on how visitors use a website while also creating an analytics report of the website's performance. Some of the collected data includes the number of visitors, their source, and the pages they visit anonymously. |
CONSENT | 2 years | YouTube sets this cookie via embedded YouTube videos and registers anonymous statistical data. |
hubspotutk | 5 months 27 days | HubSpot sets this cookie to keep track of the visitors to the website. This cookie is passed to HubSpot on form submission and used when deduplicating contacts. |
Cookie | Dauer | Beschreibung |
---|---|---|
__cf_bm | 30 minutes | Cloudflare set the cookie to support Cloudflare Bot Management. |