SDS 2023: Creating a Modern Data Lakehouse – oder die Kunst der Agilität

Allgeier Blog SDS 2023: Creating a Modern Data Lakehouse – oder die Kunst der Agilität

Am 22. und 23. Juni 2023 brachte die Swiss Data Science Conference (SDS) Fachleute, Lernende und Neugierige mit dem Ziel einer Wissens- und Netzwerkerweiterung auf dem Gebiet der Datenanalytik zusammen. In diesem Blogbeitrag geben wir einen anekdotenreichen Einblick hinter die Kulissen eines zu erfolgreichen Workshops und verraten, was uns Referenten während des Workshops so richtig ins Schwitzen brachte.

Data Lakehouse mit Azure Synapse Analytics: Die Highlights des Workshops

Eines vorab: Als wir unseren Workshop bei der SDS einreichten, waren wir uns anfangs nicht sicher, ob das Thema bei den Schweizer Data Scientists gut ankommen würde. Doch nachdem es der Workshop auf die Shortlist schaffte und im Anschluss daran grünes Licht von der Community kam, die über die eingereichten Vorschläge abstimmte, stand unserem Workshop am 22.06.2023 nichts mehr im Weg – bzw. besser gesagt fast nichts, denn: Die Praxis zeigte, dass man nicht immer alles bis ins letzte Detail planen kann, sondern agil bleiben muss.

Mit unserem dreistündigen Workshop «Creating a Modern Data Lakehouse» wollten wir Teilnehmerinnen und Teilnehmern die Chance geben, ihr Data Lakehouse selbst aufzubauen. Doch mit welcher Technologie sollte das erfolgen? Mit Amazon, Azure oder doch etwas ganz anderem? Da wir Theorie und Praxis miteinander verbinden wollten, entschieden wir uns gegen eine fertige Lakehouse Lösung, wie etwa Snowflake. Als langjähriger Microsoft Partner fiel die Wahl rasch auf Microsoft Azure. In den nächsten 10 Wochen baute Nicolas Rehder die Labs zusammen und dann hiess es: testen, testen, testen.

Zugleich steckten wir die Ziele hoch: Innerhalb von drei Stunden sollten alle ein Data Lakehouse inkl. Data-Ingestion, Veredelung und Historisierung aus dem Boden stampfen, denn mit Bronze oder Silber wollten wir uns nicht zufrieden geben. Dabei sollte die Anleitung stabil sein, alle Schritte erklären und zudem folgendes beinhalten: optionale Aufgaben für Überflieger, eine Zip-Datei für die Ressourcen und ein ARM-Template, um dem Lab mit einem Infrastructure-as-a-Code (Iaac) Ansatz einen Schubs in die richtige Richtung zu geben.

Aus der Sicht der Trainer: Ein erfolgreicher Workshop – aber nicht ohne Tücken

Nach einer intensiven Testphase fehlten uns kurz vor der SDS nur noch die Azure Subscriptions. 20 sollten es insgesamt sein, da wir uns auf 20 Teilnehmer eingestellt hatten. Doch fünf Tage vor der SDS erfuhren wir, dass sich nicht 20, sondern 35 Personen für den Workshop angemeldet hatten. Das bedeutete für uns, dass weitere 15 Subscriptions her mussten, die wir dann tatsächlich rasch auftreiben konnten. Wir fühlten uns startklar – bis wir 2 Stunden vor Workshopbeginn die Information erhielten, dass unser Angebot so beliebt war, dass der Trainingssaal mit sage und schreibe 50 Teilnehmenden bis zum letzten Platz gefüllt war. Argh?

Doch auch diese Herausforderungen konnten wir meistern und 50 Logins auf 30 Subscriptions verteilen – in der Hoffnung, dass wir damit nicht in Quota Probleme rennen würden. Denn wir wussten, dass es knapp werden könnte, wenn alle zur gleichen Zeit Synapse und Spark Pools vom Azure Datacenter beantragen.

Der Workshop ging los, der Raum war gut gefüllt und alle waren gespannt auf die Hands-on Experience. Wir fackelten nicht lange rum und begannen nach 20 Minuten Intro zu Data Lakehouse allgemein und grundlegenden, theoretischen Konzepten mit den konkreten Übungen.

Nach 5 Minuten in den Labs bahnte sich der Supergau an: Die ersten Installationen schlugen fehl und die Teilnehmer wunderten sich, wieso sie nicht weiterkamen. Rasch stellt sich heraus, dass sie gar nichts falsch gemacht hatten – das Problem waren zwei Datacenter, die – wie von uns befürchtet – Quota-Probleme hatten. Nachdem wir diese problematischen Datacenter auf andere umgeleitet hatten, konnten sich alle Teilnehmer wieder ungestört durch die Labs arbeiten. Wir halfen dann da und dort noch bei typischen Problemchen (Typos, Copy-Paste Fehlern, übersprungene Schritte) aus und beantworteten Fragen.

Nach zwei Stunden schlossen wir den Workshop mit einer Demo und einer spannenden Q&A Session erfolgreich ab. Die häufigsten Fragen drehten sich um zusätzliche Informationen rund um das Delta Lake Format: zur Leistung des Data Lakehouse, zu den optimalen Dienstanbietern (Microsoft, Databricks, Google, Amazon oder Snowflake), Implementierungskosten, Open Source Alternativen und zur Zukunft dieser Architektur angesichts der Fortschritte bei Microsoft Fabric.

Interessant für uns war, dass von den Anwesenden nur ca. 30% Azure, 30% Amazon und 10% Google Cloud kannten. Damit trafen wir mit diesem Workshop den Nagel auf den Kopf – selbst Amazon Spezialisten waren beeindruckt, wie leicht sie durch die Aufgaben kamen und wie ähnlich das Setup zu ihren S3 Bucket & Athena Konstrukten war.

Was haben wir aus dem Workshop mitgenommen?

Nicht nur die Teilnehmenden konnten im Workshop etwas lernen, sondern auch wir Trainer haben für uns folgendes mitgenommen:

  • Man ist schnell Opfer des eigenen Erfolges 😉
  • Hands-on Labs sind zwar toll und zeigen, was Technik alles kann – mit so vielen Teilnehmern sollte man sich aber auf eine interaktive Demo beschränken
  • Beim nächsten Mal müssen wir unbedingt auf die richtige Wahl des Datacenter achten
  • Man muss agil sein und sich auf der Stelle drehen können

Ist Data Lakehouse auch etwas für Ihr Unternehmen?

Beim Lesen dieses Blogbeitrags kam eventuell die Frage auf, ob Data Lakehouse womöglich auch etwas für Ihr Unternehmen wäre? Dazu eine wichtige Information vorab: Microsoft Azure ist ein kostenpflichtiger Dienst, jedoch gewährt Microsoft neuen Nutzern ein kostenloses Konto, mit dem man 12 Monate lang alle Azure-Dienste mit einem Guthaben von 200 USD testen kann.

Ob sich Data Lakehouse bzw. die Azure Synapse Lösung für Ihr Unternehmen eignet, hängt in erster Linie von der Grösse des Unternehmens ab. Kleinere Unternehmen mit wenig Daten sollten sich eher für eine einfache Data Lakehouse Lösung entscheiden (wie in unserem Data Lakehouse Light Blogbeitrag beschrieben).

Unternehmen mit grossen Mengen an strukturierten, semi-strukturierten und unstrukturierten Daten hingegen können einen Vorteil aus Data Lakehouse ziehen, allerdings sollte diese Lösung auch zur Unternehmensstrategie passen. Denkbar sind hier Lösungen, wie unser Data Lakehouse Pro oder Data Lakehouse Ultra-Ansatz.

Ich habe den Workshop verpasst, was nun?

Mit unserem Workshop wollten wir Unternehmen dazu animieren, eine neue Datenmanagement-Technologie auszuprobieren. Für alle, die den Workshop im Rahmen der SDS verpasst haben, gibt es eine gute Nachricht: Im Spätsommer präsentieren wir eine zweiteilige Tutorial-Serie, die durch den Einrichtungsprozess führen wird. Weitere Informationen folgen in Kürze!

Sie haben Fragen oder wünschen weitere Infos dazu?

Schreiben Sie uns!

Weitere Artikel

Cloud Governance

Die Cloud stellt erhebliche Herausforderungen an Sicherheit, Compliance und Kostenkontrolle - besonders in hochregulierten Branchen. Hier setzt Cloud Governance an.

5 Erfolgsfaktoren für eine erfolgreiche Cloud-Migration

Die Cloud ist heute weit mehr als nur ein Trend – sie ist ein zentraler Bestandteil moderner IT-Strategien. Doch wie gelingt der Wechsel in die Cloud?

Security Awareness

Cyberangriffe werden immer ausgeklügelter. Technik und menschliches Handeln müssen daher zusammenwirken - da beginnt Security Awareness.

Strategische Fusion: Allgeier (Schweiz) AG und MySign AG bündeln maximale Kundenvorteile

Zum 01.01.2025 fusioniert Allgeier mit der MySign AG und erweitert das Portfolio in Richtung E-Commerce. Damit bietet Allgeier digitale Lösungen und Services entlang der gesamten Wertschöpfungskette.
KaDeWe

The KaDeWe Group: Per Express in eine sichere IT

Ende 2023 sah sich die The KaDeWe Group mit einem bedeutenden Cyberangriff konfrontiert: Die Folgen waren schwerwiegend. Sämtliche Server des Unternehmens waren offline, die Kassen in den Stores konnten nur noch Barzahlung annehmen.
Prompts

Wie die richtigen Prompts den Büroalltag transformieren

Mehr Effizienz durch clevere Prompts und Max! Erfahren Sie, wie Sie smarter arbeiten und Routineaufgaben vereinfachen.

Max – Das neue Level im Kundenservice

Max – Wie die smarte KI-Lösung den Kundenservice bei einem Schweizer Maschinenbauunternehmen bereits verbessern konnte.

Thommen Group und ihr BI-Erfolgsweg

Die Thommen Group stand vor der Herausforderung, eine moderne, flexible und zukunftssichere Analytics-Lösung zu implementieren, die vom internen IT-Team gepflegt und erweitert werden kann und die gegenüber der jetzigen Lösung Kosten spart und die Abhängigkeit von externen Dienstleistern für Support minimiert.