Mit den Data Products und dem Data Mesh weht ein neuer Wind durch die Data Analytics-Stuben. Konzepte, die im Bereich des Software Engineerings bereits etabliert sind, werden für neue Analytics-Vorhaben entsprechend adaptiert. Dies Nähe zur Software Entwicklung ist nicht erstaunlich, stammen doch die Prinzipien des Data Mesh aus dem Umfeld von Martin Fowler. Die Grundgedanken sind bestechend einfach: das Data Product als eine klar abgegrenzte Einheit mit klaren Regeln und Daten, die einen Mehrwert für den Datennutzer bieten. Diese Data Products können in einer Mesh-Architektur miteinander verknüpft und zu einem funktionierenden Ganzen zusammengefügt werden. Damit soll der «Ad-Hoc»-Charakter, der vielen Analytics-Lösungen innewohnt, überwunden werden. Bei der Adaption von Data Products in eine bestehende Analytics-Landschaft müssen technische und organisatorische Hürden genommen und viel Überzeugungsarbeit in der Analytics-Gemeinde geleistet werden. Wir nehmen Euch mit auf diese Reise, die noch nicht zu Ende ist.
2. C2 – Internal
2
• 35’000 employees, 5 business divisions
• 1.5 mio passengers, 5.800 train/day, 3.200 km tracks
• IT departement
• SAFe as organisation model
• 1’300/ 500 FTE intern/ ext employees.
• > 2’500 business applications, thousands of OT
applications
• 120 enterprise architects
• 100 data managers (business)
• Over 100 Data Products, and increasing
• Data Glossary Terms:
• 20 top level concepts
• > 200 high level terms
• > 900 business data types
SBB facts & figures
Stand: Februar 2024
September 2023 SBB - DGOV Architecture
3. C2 – Internal
Wo wir herkommen …
3
Datensilos überwinden
Sprengung. Bild: Giulio Casti, Italien, Sony World Photography Awards 2022, Daily Mail, 15. März 2022
5. C2 – Internal
Was ist ein Data Product?
(noch eine Definition)
5
Ein Data Product ist eine Menge von wertorientierten «Data
Assets», die speziell dazu erstellt und gemanaged werden,
um schnell und sicher genutzt zu werden und das bei hoher
Qualität, Verfügbarkeit und Einhaltung von Vorschriften und
internen Richtlinien.
Als Analogie kann im SW-Devlopement
ein Microservice dienen
E. Broda, Anatomy of a Data Product.
Broda Group Software, 2022. S. 5
6. C2 – Internal
Data Product seit Anfang 2022 Teil der
SBB-Architekturprinzipien
6
Aus unserem «Daten- und Integrationsprinzip» (DIP)
«Wir stellen die Daten unserer Geschäftsfähigkeiten bedarfsorientiert
als Datenprodukt in der Analytical Data Platform bereit. Für den Bezug
von Daten aus den Datenprodukten über die Grenze der Analytical
Data Platform hinaus stellen wir Schnittstellen bereit»
7. C2 – Internal
Weshalb Data Products
7
Durch Data Products sollen
• «analytische Daten» schneller genutzt werden können,
• auffindbar und zugänglich (DIP) werden,
• Verantwortlichkeiten geklärt und dadurch die Datenqualität sichergestellt,
• doppelte Datenimporte durch Transparenz verhindert werden und
• Nutzung der Daten überprüfbar gemacht werden.
Erlaubt eine konsistente Integration in die Konzepte der Domänen der SBB (Digital
Solutions DSO)
8. C2 – Internal
Kompass für die Federated (computational) Governance
8
Governance by Transparenz:
- Dimensionen: Business Criticality,
Datenschutz, Quality, …
- Notwendige Transparenz garantieren
durch:
- Was wird angeboten
- Wer nutzt das Angebot
- Standardisierung im
Schnittstellenbereich ohne
Beeinträchtigung innerhalb der
Datenprodukte
9. C2 – Internal
Typen von «Data Products» bei uns
9
• Raw Data Products
(source-aligned domain data)
Daten aus Quellsystemen und wenn sinnvoll als
Produkt angeboten.
Domänenspezifische einfache Standardisierungen
möglich.
• Foundation Data Products
(aggregate domain data)
die «wirklichen» Data Products, mit Mehrwert für
Datennutzer
• Insight Data Products
(consumer-aligned domain data)
vereinfachte Datenprodukte, die direkt zur
Entscheidungsunterstützung verwendet werden (z.B.
für Reports/Grafiken) oder aber die zu explorativen
Zwecken genutzt werden sollen. werden nicht von
anderen Datenprodukten verwendet.
10. C2 – Internal
Do’s and Don’ts of Data Mesh
Insight von Kimeret Kimhi, BlaBlaCar
10
Data Governance comes first
“[…] Your Data Governance Framework should be ideally set in
place before re-organising. Why? Imagine giving a single team
full autonomy with zero standards nor processes. You'll find
yourself cleaning up a huge and expensive mess, one year down
the line. […]”
K. Kimhi, ‘Do’s and Don’ts of Data Mesh’, BlaBlaCar, Sep. 06, 2022.
https://medium.com/blablacar/dos-and-don-ts-of-data-mesh-e093f1662c2d (accessed Sep. 23).
Quelle: freepik.com
11. C2 – Internal
Minimale Governace: Beispiel der aktuellen Designregeln
11
Dies sind einige der speziellen
Regeln für Data Products.
Natürlich gelten alle Regeln der
allgemeinen Data Governance wie
Datenschutz, etc. hier implizit auch.
Generell verfolgt die SBB ein
«Offenheitsprinzip», das heisst,
Daten sind intern von allen
zugänglich, ausser es handelt sich
um als vertraulich eingestufte
Inhalte.
12. C2 – Internal
Toolunterstützung
12
Data Catalog
Finden von Daten und Data Products
Enterprise Architecture Repository
Data Products und Schnittstellen
designen
Business-Data-Entities managen
Analytical Data Platform
Nutzen von Data Products
data stores
meta data
Raw Foundation Insight
metadata metadata metadata
Data Product-
meta definition
Business Glossary:
Business
Data-Entities
Data architecture
physische Sicht auf „analytische Daten“
Der Data Catalog
verbindet physische
und fachliche
Perspektiven und hält
Benutzer und
Verantwortliche
Data product
data products
meta data
13. C2 – Internal
Ein neues Data Product erstellen
13
System
Architect
was
Verantwortung
– DP Epic/Features
erstellen
– Curator identifizieren
Curator
was
Verantwortung
– DP im Enterprise
Architecture
Repository
erstellen
System
Architect
was
Verantwortung
– DP in Analytical Data
Platform bestellen
– DP in Analytical Data
Platform integrieren/
implementieren
Curator
was
Verantwortung
– DP im Data Catalog
fachlich anreichern
– DP mit Business
Data Entities
(Glossary)
verknüpfen
– DP mit Data Sets
verknüpfen
analytischer
Bedarfsträger
was
Verantwortung
– Data Catalog
konsultieren
– Bedarf für
Anpassung von DP
feststellen oder
neues DP erstellen
Rolle im Fach
Rolle in DSO
Data Product
Bedarf feststellen
planen entwerfen umsetzen dokumentieren
Data Scientist
Data Analyst
Business Analyst
…
Data Product Owner
Business Process Owner
Data Steward (FDM)
…
15. C2 – Internal
Sicht des Data Products im Data Catalog
15
Flussmessung
Flussmessung
16. C2 – Internal
Zusammenspiel der einzelnen Parteien anhand der
Data Mesh Pfeiler
16
Angelehnt an: data-mesh.com
Digital Solution
Lead Analytics Manager
Analytics Services
17. C2 – Internal
Herausforderungen
17
• Übernahme der Verantwortung für Data Products
• Pflege der semantischen Metadaten
• Bedarf an Data Products vs. Geschwindigkeit der Data Products-Erstellung
vs. Qualitätsanforderungen
• Data Products und experimentelle Analytics-Nutzung
• Technisch noch kaum Standards und Plattformen (z.B. DP Market Places)
• Etablierung der Qualitätsmessung für Data Products (Monitoring, Usage, …)
• Grenze/Brücke von Data Products zu operationalen Daten
18. C2 – Internal
Beispiel: Technische Implementierung von Data Products
über 2 technische Plattformen
18
19. C2 – Internal
Ausblick
19
• Automatisierung und Standardisierung (evtl. in Richtung
ODPS) steigern
• Zugang z.B. über internen DP-Marketplace noch
einfacher machen
• Ausweitung des Konzeptes über die Analytical Data
Platform hinaus
20. C2 – Internal
Eine etwas ausschweifende Definition aus unserm
Wörterbuch
(… noch eine)
20
Ein Data Product ist ein IT-Komponente, welches dazu dient, Daten in
nutzerorientierter Form für jegliche Datenkonsumentin bereitzustellen.
Dazu bezieht es Daten aus Anwendungen oder anderen Data Products und
transformiert diese in ein definiertes Format.
Ein Data Product besteht aus Dateninhalt, Metadaten sowie dem
Programmcode zu deren Transformation und Bereitstellung. Die
Bereitstellung erfolgt auf einer dafür vorgesehenen Plattform, der Zugriff
über vordefinierte Schnittstellen.
Für ein Data Product ist immer eine verantwortliche Person festgelegt, die
für deren Inhalte verantwortlich zeichnet.