Von Ordnung zu Mehrwert: Metadatenmanagement mit dem Data Catalog
- DATA Catalog, SAP Datasphere
- 7 Min Lesezeit
Franziskus Heep
Ein Data Catalog ist ein zentrales Verzeichnis, das Informationen über die in einem Unternehmen verfügbaren Datenbestände bereitstellt. Er hilft Nutzern, die relevanten Datenquellen zu finden, zu verstehen und zu nutzen. Ein Data Catalog enthält in der Regel Metadaten, also strukturierte Daten, die übergreifende Informationen über die eigentlichen Daten enthalten.
Das Ziel? Jeder im Unternehmen – vom Datenexperten bis hin zum Business-Analysten – wird in die Lage versetzt die Unternehmensdaten anhand strukturierter Metadaten schnell und ohne technisches Vorwissen oder mühsames Navigieren durch verschiedene Systeme zu verstehen.
Dieser Artikel bietet einen kurzen Überblick über den aktuellen Funktionsumfang und Anwendungsmöglichkeiten des SAP Datasphere Data Catalogs.
Inhaltsverzeichnis
1. Einführung in den SAP Dataspere Data Catalog
1.1 Navigation
Der in SAP Datasphere integrierte Data Catalog ist über die linke Navigationsleiste auf der Hauptoberfläche zugänglich.
1.2 Benutzer
Im Data Catalog lassen sich die Nutzer in zwei Benutzergruppen unterscheiden:
Catalog Administratoren
Sind für die Verbindung zu den Quellsystemen und die Extraktion der Metadaten sowie deren Anreicherung mit zusätzlicher Semantik verantwortlich.
Catalog User
Nutzen den Katalog primär, um ihn zu durchsuchen, entdecken und die verfügbaren Daten zu verstehen.
Beide Rollen müssen jeweils in Kombination mit einer anderen Datasphere-Rolle wie DW-Viewer oder DW-Modeler verwendet werden, damit der Benutzer Zugriff erhält.
1.3 Monitoring
Im Bereich Monitoring verwaltet der Catalog Administrator die angebundenen Catalog-Remote-Systeme sowie die Metadatenextraktionen der in den Systemen vorhandenen Artefakte.
Bei der Metadatenextraktion werden Informationen über die Assets aus den Quellsystemen in den Katalog übertragen.
Neben den beiden Quellsystemen SAP Analytics Cloud und SAP Datasphere, sollen in Zukunft weitere SAP-Anwendungen als Quellsysteme, mit der Möglichkeit einer Anbindung und automatischer Extraktion von Metadaten, zur Verfügung stehen.
Angekündigt sind hier die SAP-Anwendungen, für die in der Datasphere bereits eine Replizierungsfunktion für den Datenimport existiert: SAP HANA, SAP BW, SAP ECC und SAP S/4HANA.
2. Objekte im Data Catalog
Zur Verwaltung und Nutzung von Metadaten im Data Catalog gibt es die folgenden fünf Bereiche: Assets, Terms, KPIs, Data Products, Data Providers
Assets sind Daten- oder Analyseobjekte der SAP Datasphere und der SAP Analytics Cloud wie beispielsweise lokale Tabellen, Remote Tabellen, Views, Analytic Models, Planungsmodelle, Data Flows, Intelligent Lookups, SAC Stories oder Predictive Scenarios.
Terms dienen als Dictionary für Geschäftsbegriffe, um ein unternehmensweites, einheitliches Verständnis zu fördern und ermöglichen die Beschreibung von Synonymen. Terms können mit Assets, KPIs oder anderen Terms verknüpft werden.
Neben der Beschreibung der Kennzahlen können Informationen zum Typ, Schwellenwerte, Standardeinheit, Berechnungsdetails, detaillierte Dokumentation und die Beziehung zu anderen Assets, Terms oder anderen KPIs gepflegt werden.
Data Products bestehen aus gebündelten, wiederverwendbaren Dateneinheiten, die in der Regel domänenspezifisch und gezielt für konkrete Geschäftsanforderungen entwickelt werden. Durch dieses Konzept können Datenanbieter eigene Datenprodukte konzipieren und diese anschliessend über den SAP Data Marketplace extern oder auch intern im Unternehmen, zum Beispiel für unterschiedlichen Fachbereichen, veröffentlichen.
Data Provider sind Personen oder Unternehmen, die ihre Data Products über den Data Marketplace zur Verfügung stellen. Abhängig von der Situation oder den Erfordernissen kann die Datenbereitstellung intern oder auch extern erfolgen. Sie sind verantwortlich für die Entwicklung der Datenprodukte, das Management ihres Lebenszyklus sowie die Aktualisierung der Versionen.
3. Einblick in ein Asset
Assets werden nicht manuell angelegt, sondern werden durch die Extraktion der Metadaten aus den angebundenen Systemen generiert. Diese Metadatenextraktion wird vom Data Catalog Administrator ausgeführt und ist derzeit für SAP Datasphere und SAC verfügbar.
Overview
Beim Öffnen eines spezifischen Assets, wie beispielsweise der „Sales Orders View“, erhält man eine detaillierte Übersicht zu den relevanten Metadaten.
Im Overview sind Name und Typ des Assets, Erstellungs- und Änderungsdatum sowie DSP-Space, in welchem sich das Objekt befindet, einsehbar.
Im Bereich Details werden die im Asset enthaltene Kennzahlen (z. B. „GROSSAMOUNT“, „TAXAMOUNT“) und Attribute (z.B. “BILLINGSTATUS”) beschrieben. Ergänzt werden diese um technische Informationen wie Datentypen, Aggregationsarten, und weitere relevante Informationen.
Diese beiden Bereiche werden automatisch durch die Übernahme der Metadaten aus dem System gepflegt, ohne dass eine aktive Pflege durch den Benutzer erforderlich ist
Semantic Enrichment
Der Bereich Semantic Enrichment wird nicht automatisch durch die Extraktion der Metadaten befüllt. Um diesen Bereich mit «Leben» zu befüllen, ist eine manuelle Pflege der Metadaten durch einen Benutzer erforderlich.
In der Regel wird ein Term, KPI oder Tag zuerst im Catalog angelegt, um anschliessend mit einem Asset verknüpft zu werden
Sobald einem Asset ein Term oder eine KPI wie beispielsweise “Sales Revenue Archievement Rate” zugeordnet wurde, besteht eine Beziehung zwischen diesen Objekten. Dadurch kann der Nutzer sowohl vom Asset zum verknüpften Term oder KPI navigieren, als auch umgekehrt von einem Term oder KPI zu einem entsprechenden Asset.
Zusätzlich kann das Verknüpfen eines Assets mit passenden Tags, welche auch hierachisch aufgebaut werden können, das zukünftige Suchen, Filtern und Browsen nach diesen Objekten erleichtern.
Empfehlenswert ist prinzipiell, sich bereits vor oder während der eigentlichen Entwicklung oder Anpassung eines Datenobjekts mit dessen Metadatenpflege zu beschäftigen. Einige Informationen, die in der Objektpflege im Quellsystem eingegeben werden können, wie zum Beispiel dem Business Purpose, werden beim Abspeichern automatisch in die Metadaten des Assets im Data Catalogs übertragen. Dadurch kann eine redundante Pflege dieser Informationen vermieden werden.
Derzeit gibt es noch keine Möglichkeit von der Oberfläche des Quellsystems, in welchem das Entwicklungsobjekt bearbeitet wird, unmittelbar zur Metadatenpflege des entsprechenden Assets im Data Catalog zu navigieren. Dafür ist es erforderlich, den Data Catalog zu starten, das entsprechende Asset manuell herauszusuchen und zu öffnen.
Umgekehrt bietet der Data Catalog jedoch die praktische Möglichkeit von der Metadatenpflege direkt in die DSP-Objektpflege des geöffneten Assets zu navigieren.
3.1 Lineage- und Impact- Analyse
Besonders hilfreich für das Verständnis der Daten ist die Lineage- und Impact-Analyse. Im Lineage (Herkunft) werden die Objekte dargestellt, die das analysierte Asset als Ziel verwenden, während der Impact (Auswirkung) die Objekte zeigt, die das Asset als Quelle nutzt. Aktuell ist diese Analyse nur für Assets als zentrales Element verfügbar. SAP plant jedoch, diese Funktionalität zeitnah auch u.a. für Data Products zur Verfügung zu stellen.
Die grafische Darstellung hilft Catalog Usern, die Herkunft und Nutzung der Daten besser nachzuvollziehen, die Auswirkungen von Änderungen an den Daten einzuschätzen und fundierte Entscheidungen in der Datenmodellierung und -verwaltung zu treffen.
In der Impact- und Lineage-Analyse wird das untersuchte Asset (DSP Analytical Model: Sales_Order_AM) zentral und farblich hervorgehoben, dargestellt. Links davon wird die Datenherkunft und rechts die Datennutzung grafisch aufbereitet. Da die automatische Extraktion von Metadaten aus den Systemen SAP HANA, SAP BW, SAP HANA und SAP S/4HANA in den Data Catalog momentan noch nicht möglich ist, gibt es auch keine entsprechenden Assets dieser Systeme. Daher werden sie auch nicht in die Analyse der Datenherkunft einbezogen.
In der Lineage-Analyse kann die Herkunft bis in den Datasphere-Space zurückverfolgt werden. Im obigen Beispiel sind das die Remote-Tables der transaktionalen S/4-Tabellen MARA, VBAP, MAKT und VBAK im Space “Showroom S/4 Living Company”.
Auf der rechten Seite zeigt die Impact-Analyse, wie das Analytical Model innerhalb einer SAC-Story konsumiert wird. Hierbei ist zu beachten, dass nur Objekte angezeigt werden, auf welche der Benutzer auch Zugriff hat.
Sehr hilfreich für das Verständnis der Daten finde ich hierbei die Möglichkeit einer Vorschau der wichtigsten Metadaten jedes Knotens, welche sich der Nutzer als Tooltip anzeigen lassen kann.
Derzeit ist die Lineage- und Impact-Analyse im Data Catalog lediglich auf Datenobjektebene realisierbar. Eine Nachverfolgung der Datenherkunft auf der Ebene einzelner Spalten ist nicht möglich. Um eine solche, detaillierte Nachverfolgung durchzuführen, muss vom Data Catalog zur Datengrundlage in der SAP Datasphere gewechselt werden.
Dabei besteht der Nachteil, dass keine Objekte der Ziel-Systeme, wie der SAP Analytics Cloud, angezeigt werden.
4. Einblick in eine KPI
Zusätzlich zu der Möglichkeit, KPIs zu definieren und Beschreibungen hinzuzufügen, bietet der Data Catalog die Möglichkeit, Schwellenwerte (Thresholds) zu definieren und stellt diese anschliessend grafisch dar.
KPIs können auch miteinander in Beziehung gesetzt werden. Dies funktioniert analog zu Relations zwischen anderen Objekten im Data Catalog und wird im nächsten Abschnitt genauer erklärt.
5. Einblick in einen Term
Terms dienen als Dictionary für Geschäftsbegriffe, um ein unternehmensweites, einheitliches Verständnis zu fördern. Terms können in Glossaries gebündelt und damit besser organisiert werden.
Nachdem ein Term definiert und gepflegt wurde, können unter Manage Relationships beliebig viele Beziehungen zwischen den Objekten von Assets, KPIs und anderen Terms definiert werden.
Terms können als separate Objekte in verschiedenen Sprachen verwaltet werden. Im vorliegenden Beispiel wurde der Begriff „Billing Status“ sowie das entsprechende deutsche Pendant „Fakturastatus“ erstellt und gepflegt. Anschliessend wurde das Assets „Sales Orders View“ innerhalb des Semantic Enrichments mit dem Term „Billing Status“ verknüpft
Zusätzlich wurden die beiden Terms „Billing Status“ und „Fakturastatus“ durch eine Beziehung miteinander verknüpft. Auf diese Weise ermöglicht der Data Catalog, die Metadaten eines Assets so anzureichern, dass der Nutzer sich durch verschiedene Sprachen hindurch navigieren kann.
6. Fazit
Der Data Catalog erleichtert es, Wissen, welches zuvor nur lokal an einer Stelle vorhanden war, zentral durchsuchbar und leicht zugänglich zu machen. Dabei wird vom Catalog User wenig technisches Wissen vorausgesetzt.
Wie auch bei anderen Konzepten wird es wichtig sein, wie konsequent das Metadatenmanagement im Unternehmen „gelebt“ wird. Erst bei einer konsequenten Pflege und Nutzung kann ein Tool wie der Data Catalog seine Mächtigkeit entfalten und einen Mehrwert generieren.
Ich persönlich finde, dass der Data Catalog gut in die Datasphere integriert ist und insgesamt ein nützliches Tool für das Metadatenmanagement darstellt.
Mir hilft die zentrale Dokumentation sowie die Nutzung und Suche von Metadaten, mich in der Vielzahl von Datenmodellen und ihren gegenseitigen Beziehungen und Abhängigkeiten besser zurechtzufinden.
Die grafische Darstellung der Lineage- und Impact-Analyse, über verschiedene Systeme hinweg, empfinde ich als besonders wertvoll, da sie mir die Abhängigkeiten und Auswirkungen strukturiert visualisiert.
Wenn weitere Systeme dann auch in der Lineage- und Impact-Analyse abgebildet werden können, würde das für mich persönlichen einen erheblichen Mehrwert bieten.
SAP scheint den Data Catalog als zentrales Metadatenmanagement-Tool, integriert in die Datasphere, zu positionieren und kündigt kontinuierlich neue Funktionen für zukünftige Releases an.
Während man heute bestimmte Features noch ein wenig vermisst, plant SAP für das Release 2025 unter anderem die Möglichkeit, bestimmte Metadaten über Excel zu importieren sowie die im Artikel erwähnte Metadatenextraktion für S/4HANA (z.B. CDS View), HANA Cloud, und ERP ECC.
Zudem lässt mich die strategische Partnerschaft, die SAP 2023 mit dem Datenkatalog-Anbieter Collibra eingegangen ist, hoffen, dass in Zukunft neben SAP-Datenquellen auch andere Anwendungen integriert werden können.
Mehr wissen?
Published by:
Franziskus Heep
Professional Analytics Consultant
Franziskus Heep
Wie hat Ihnen der Artikel gefallen?
Wie hilfreich war dieser Beitrag?
Klicken Sie auf einen Stern, um zu bewerten!
Durchschnittliche Bewertung 4.8 / 5.
Anzahl Bewertungen: 16
Bislang keine Stimmen! Seien Sie die erste Person, die diesen Beitrag bewertet!