Kontinuierlich werden Daten in Echtzeit generiert. Schöpft man die Möglichkeiten der innovativen Data Lakehouse Architektur voll aus, können diese Daten auch – in Realtime – erfasst, verarbeitet und analysiert werden. Unternehmen, für die Geschwindigkeit Trumpf ist, profitieren von dieser technologischen Lösung besonders: Sie gewinnen direkt und schnell wertvolle Einblicke, um fundierte Geschäftsentscheidungen zu treffen. Welche Möglichkeiten sich durch den Data Lakehouse Ansatz eröffnen, stellen wir Ihnen an einem Architektur-Beispiel vor.
Für die Verarbeitung von Live-Streaming-Daten, gibt es speziell konzipierte Data Lakehouse-Architekturen, wie etwa die Delta-Architektur von Databricks. Sie ermöglicht eine einheitliche, skalierbare und sichere Plattform für Data Engineering, maschinelles Lernen und Datenanalyse. Durch den Einsatz von Technologien, wie Delta Live Tables, werden hier Streaming-Datenverarbeitung und Echtzeit-Analysefunktionen implementiert. Dadurch können Unternehmen ihre Datenpipelines vereinfachen und die Datenverarbeitung in Echtzeit optimieren.
Delta Live Tables ist ein deklaratives Framework zum Aufbau von zuverlässigen, wartbaren und testbaren Datenverarbeitungspipelines. Anstatt Ihre Datenpipelines als eine Reihe separater Aufgaben zu definieren, definieren Sie Streaming-Tabellen und materialisierte Ansichten, die das System erstellen und aktuell halten sollte. Sie ermöglichen Streaming- und Batch-Daten in einer einzigen Pipeline zu kombinieren, was die Komplexität der Datenverarbeitung erheblich reduziert. Darüber hinaus bieten Delta Live Tables eine zuverlässige und konsistente Datenverarbeitung, die die Aktualität und Korrektheit aller Daten sicherstellt.
Eine Streaming-Tabelle ist eine Delta-Tabelle mit zusätzlicher Unterstützung für Streaming- oder inkrementelle Datenverarbeitung. Streaming-Tabellen ermöglichen es Ihnen, ein wachsendes Dataset zu verarbeiten und jede Zeile nur einmal zu behandeln. Streaming-Tabellen sind optimal für Pipelines, die Datenaktualität und niedrige Latenz erfordern. Sie können aber auch für massive Skalentransformationen nützlich sein, da die Ergebnisse inkrementell berechnet werden können, wenn neue Daten eintreffen. Ein grosser Vorteil, der aktuelle Ergebnisse ohne vollständige Neuberechnung aller Quelldaten bei jedem Update ermöglicht.
Man kann darüber hinaus auch die Datenqualität mit Delta Live Tables-Erwartungen durchsetzen. Hier kann die zu erwartende Datenqualität definieren werden, gleichzeitig erfolgt eine Weisung, wie mit Datensätzen umgegangen werden soll, die diese Erwartungen nicht erfüllen.
Die als Open-Source Technologie bereitgestellten Delta-Tables sind mittlerweile unabdingbar in jeder Data Lakehouse Architektur. Wer das Ganze noch optimieren möchte, arbeitet zusätzlich mit Synapse Analytics. Der von Microsoft bereitgestellte Service ist eine Analytics-Service-Plattform, die das Erstellen von Big Data- und KI-Lösungen vereinfacht. Synapse Analytics kann nahtlos mit Delta-Tabellen integriert werden, um eine logische Datenschicht für Analysezwecke bereitzustellen und Batch-ML-Workloads über Pipelines zu generieren.
Dabei ermöglicht Synapse Analytics das Zusammenbringen und Verarbeiten grosser Datenmengen. Durch Synapse Analytics innerhalb der Data Lakehouse Delta-Architektur können umfassende Einblicke in Daten erhalten und komplexe Analysen und Vorhersagen auch auf Echtzeit-Daten durchgeführt werden.
Für unsere Kunden bauen wir derzeit leistungsstarke und skalierbare Data Lakehouse Lösungen auf, die je nach Kundenbedürfnis mit Echtzeit-Daten umgehen können. Um Geschäftsprozesse durch datengesteuerte Entscheidungsfindungen zu optimieren, können also beispielsweise Echtzeit-Einblicke in Verkaufs-, Kunden- und Logistikdaten erhalten werden. Dabei ermöglicht uns die vielseitige und flexible Cloud-Architektur von Microsoft Azure unseren Kunden schnell mit passenden Lösungen zu bedienen:
Durch Echtzeit-Einblicke in Daten lassen sich Echtzeit-Dashboards erstellen, um etwa Verkaufstrends, Kundensegmente, Lagerbestände und Logistikinformationen zu überwachen. Dies ermöglicht im Bedarfsfall eine schnelle Reaktion auf Markttrends, eine Verbesserung der Kundenbetreuung (z. B. personalisierte Angebote) und die Optimierung der Lagerhaltung.
Selbstverständlich stehen bei uns Datensicherheit und Governance immer an oberster Stelle und Azure Purview hilft diese zu gewährleisten: Von Datenerhebung, Transport, Speicherung, Weiterverarbeitung und Sichtung. So ist neben der betrieblichen Effizienz auch die Sicherheit mit der Data Lakehouse -Architektur garantiert.
Das heutige Beispiel zeigt eine weitere Einsatzmöglichkeit von «Data Lakehouse» und beendet zugleich unsere Mini-Serie.
Da sich Daten- und Analyseanforderungen ständig weiterentwickeln, gilt es, die Zukunft immer im Auge zu behalten. Wir sind gespannt, welche innovativen Lösungen die Technologiebranche demnächst präsentieren wird. Wir bleiben auf jeden Fall am Ball!
Wenn Sie mehr über Data Lakehouses erfahren oder auch selbst unter Anleitung ein Data Lakehouse aufsetzen möchten, empfehlen wir Ihnen unseren Workshop «Creating a Modern Data Lakehouse», den mein Kollege Nicolas Rehder und ich am 22.06.2023 im Rahmen der «IEEE Swiss Conference on Data Science» (SDS2023) in Zürich halten. Weitere Informationen dazu finden Sie auch hier.
Wer steckt eigentlich hinter Allgeier? Marina verstärkt bei Allgeier seit Juli 2023 das Finanzteam. Im Interview erfahren wir mehr über ihre beruflichen Herausforderungen, worauf es in ihrem Job ankommt und wo man sie in ihrer Freizeit findet.
Ausgestattet mit modernster KI-Technologie, bietet die Plattform eine optimierte Verwaltung und Analyse digitaler Inhalte.
Kann AR die Produktion revolutionieren? Wo liegen mögliche Einsatzfelder und konkrete Vorteile? Im vierten Blog der Smart Maintenance Reihe werfen wir einen Blick in die Zukunft.
Smart Maintenance ist kein Trend, sondern eine Notwendigkeit, um wettbewerbsfähig zu bleiben. Doch welche Phasen durchläuft die Implementierung einer intelligenten Wartung?
Dass Smart Maintenance nicht nur für die Industrie relevant ist, zeigte der Vortrag von Mirko Maurer bei der maintenance Schweiz. Was Resilienz damit zu tun hat, erfahren Sie hier.
KI goes Microsoft 365: Was der intelligente Assistent Copilot kann und wie er die Zusammenarbeit auf neue Beine stellt.
Smarte Technologien, wertvolle Daten und vernetzte Mitarbeiter: Von der Herausforderung Smart Maintenance zu implementieren und wie man sie bewältigt. Alles im aktuellen Blog!
Vernetzt, automatisiert und mit Echtzeit-Daten gespickt – das sind die Kennzeichen von Industrie 4.0. Doch welche Rolle spielt Smart Maintenance dabei konkret? Wie kann es zur Effizienzsteigerung und Kostenreduktion führen – das verraten wir im neuen Blogbeitrag.
Zwischen Flexibilität und Festungsanlage: Wie Unternehmen in der modernen Arbeitswelt Sicherheit gewährleisten können. Ein Expertengespräch mit Christian Dunkel über Secure Workplace.
Cookie | Dauer | Beschreibung |
---|---|---|
__hssc | 30 minutes | HubSpot sets this cookie to keep track of sessions and to determine if HubSpot should increment the session number and timestamps in the __hstc cookie. |
__hssrc | session | This cookie is set by Hubspot whenever it changes the session cookie. The __hssrc cookie set to 1 indicates that the user has restarted the browser, and if the cookie does not exist, it is assumed to be a new session. |
_GRECAPTCHA | 5 months 27 days | Google Recaptcha service sets this cookie to identify bots to protect the website against malicious spam attacks. |
cookielawinfo-checkbox-advertisement | 1 year | Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Advertisement" category. |
cookielawinfo-checkbox-analytics | 1 year | Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Analytics" category. |
cookielawinfo-checkbox-functional | 1 year | The GDPR Cookie Consent plugin sets the cookie to record the user consent for the cookies in the category "Functional". |
cookielawinfo-checkbox-necessary | 1 year | Set by the GDPR Cookie Consent plugin, this cookie records the user consent for the cookies in the "Necessary" category. |
cookielawinfo-checkbox-others | 1 year | Set by the GDPR Cookie Consent plugin, this cookie stores user consent for cookies in the category "Others". |
cookielawinfo-checkbox-performance | 1 year | Set by the GDPR Cookie Consent plugin, this cookie stores the user consent for cookies in the category "Performance". |
CookieLawInfoConsent | 1 year | CookieYes sets this cookie to record the default button state of the corresponding category and the status of CCPA. It works only in coordination with the primary cookie. |
elementor | never | The website's WordPress theme uses this cookie. It allows the website owner to implement or change the website's content in real-time. |
Cookie | Dauer | Beschreibung |
---|---|---|
cookietest | session | Description is currently not available. |
Cookie | Dauer | Beschreibung |
---|---|---|
test_cookie | 15 minutes | doubleclick.net sets this cookie to determine if the user's browser supports cookies. |
VISITOR_INFO1_LIVE | 5 months 27 days | YouTube sets this cookie to measure bandwidth, determining whether the user gets the new or old player interface. |
YSC | session | Youtube sets this cookie to track the views of embedded videos on Youtube pages. |
yt.innertube::nextId | never | YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen. |
yt.innertube::requests | never | YouTube sets this cookie to register a unique ID to store data on what videos from YouTube the user has seen. |
Cookie | Dauer | Beschreibung |
---|---|---|
__hstc | 5 months 27 days | Hubspot set this main cookie for tracking visitors. It contains the domain, initial timestamp (first visit), last timestamp (last visit), current timestamp (this visit), and session number (increments for each subsequent session). |
_ga | 1 year 1 month 4 days | Google Analytics sets this cookie to calculate visitor, session and campaign data and track site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognise unique visitors. |
_gat_UA-* | 1 minute | Google Analytics sets this cookie for user behaviour tracking.n |
_gcl_au | 3 months | Google Tag Manager sets the cookie to experiment advertisement efficiency of websites using their services. |
_gid | 1 day | Google Analytics sets this cookie to store information on how visitors use a website while also creating an analytics report of the website's performance. Some of the collected data includes the number of visitors, their source, and the pages they visit anonymously. |
CONSENT | 2 years | YouTube sets this cookie via embedded YouTube videos and registers anonymous statistical data. |
hubspotutk | 5 months 27 days | HubSpot sets this cookie to keep track of the visitors to the website. This cookie is passed to HubSpot on form submission and used when deduplicating contacts. |
Cookie | Dauer | Beschreibung |
---|---|---|
__cf_bm | 30 minutes | Cloudflare set the cookie to support Cloudflare Bot Management. |