De l'ordre à la valeur ajoutée : la gestion des métadonnées avec le Data Catalog
- DATA Catalog, SAP Datasphere
- 7 min de lecture
Franziskus Heep
Un Data Catalog est un répertoire central qui fournit des informations sur les ensembles de données disponibles dans une entreprise. Il aide les utilisateurs à trouver, comprendre et utiliser les sources de données pertinentes. Un Data Catalog contient généralement des métadonnées, c'est-à-dire des données structurées qui contiennent des informations globales sur les données elles-mêmes.
L'objectif ? Permettre à chaque personne de l'entreprise, de l'expert en données à l'analyste commercial, de comprendre rapidement les données de l'entreprise à l'aide de métadonnées structurées, sans connaissances techniques préalables ni navigation fastidieuse dans différents systèmes.
Cet article offre un bref aperçu des fonctionnalités actuelles et des possibilités d'application du catalogue de données SAP Datasphere.
Table des matières
1. Introduction au Data Catalog de SAP Datasphere
1.1 Navigation
Le Data Catalog intégré à SAP Datasphere est accessible via la barre de navigation de gauche sur l'interface principale.
1.2 Utilisateur
Dans le Data Catalog, les utilisateurs peuvent être divisés en deux groupes :
Administrateurs de catalogue
Sont responsables de la connexion aux systèmes sources et de l'extraction des métadonnées, ainsi que de leur enrichissement avec une sémantique supplémentaire.
Utilisateur de catalogue
Utilisez principalement le catalogue pour effectuer des recherches, faire des découvertes et comprendre les données disponibles.
Les deux rôles doivent être utilisés en combinaison avec un autre rôle Datasphere, tel que DW-Viewer ou DW-Modeler, afin que l'utilisateur ait accès.
1.3 Suivi
Dans la section Monitoring, l'administrateur du catalogue gère les systèmes distants du catalogue connectés ainsi que les extractions de métadonnées des artefacts présents dans les systèmes.
L'extraction de métadonnées transfère les informations sur les actifs des systèmes sources vers le catalogue.
Outre les deuxsystèmes sources SAP Analytics Cloud et SAP Datasphere, d'autres applications SAP devraient à l'avenir être disponibles en tant que systèmes sources, avec la possibilité d'une connexion et d'une extraction automatique des métadonnées.
Les applications SAP pour lesquelles il existe déjà une fonction de réplication pour l'importation de données dans Datasphere sont annoncées ici : SAP HANA, SAP BW, SAP ECC et SAP S/4HANA.
2. Objets dans le catalogue de données
Pour la gestion et l'utilisation des métadonnées dans le catalogue de données, il existe les cinq domaines suivants: Actifs, Termes, KPIs, Produits de données, Fournisseur de donnéess
Les actifs sont des données ou des objets d'analyse de SAP Datasphere et de SAP Analytics Cloud, tels que des tables locales, des tables distantes, des vues, des modèles analytiques, des modèles de planification, des flux de données, des recherches intelligentes, des SAC Stories ou des scénarios prédictifs.
Les termes servent de dictionnaire pour les concepts métier, afin de favoriser une compréhension uniforme à l'échelle de l'entreprise et permettent la description de synonymes. Les termes peuvent être liés à des actifs, des indicateurs clés de performance ou d'autres termes.
Outre la description des indicateurs clés de performance, il est possible de gérer des informations sur le type, les seuils, l'unité standard, les détails de calcul, la documentation détaillée et la relation avec d'autres actifs, termes ou autres KPI.
Les produits de données sont des ensembles de données regroupées et réutilisables, généralement spécifiques à un domaine et développées spécifiquement pour des besoins métier concrets. Grâce à ce concept, les fournisseurs de données peuvent concevoir leurs propres produits de données et les publier ensuite via SAP Data Marketplace en externe ou en interne dans l'entreprise, par exemple pour différents services spécialisés.
Les fournisseurs de données sont des personnes ou des entreprises qui mettent leurs produits de données à disposition via le Data Marketplace. Selon la situation ou les exigences, la mise à disposition des données peut se faire en interne ou en externe. Ils sont responsables du développement des produits de données, de la gestion de leur cycle de vie ainsi que de la mise à jour des versions.
3. Aperçu d'un actif
Les actifs ne sont pas créés manuellement, mais sont générés par l'extraction des métadonnées dessystèmes connectés. Cette extraction de métadonnéesest effectuée par l'administrateur duDataCatalog et est disponiblepour SAPDatasphereet SAC.
Vue d'ensemble
L'ouverture d'un actif spécifique, comme la « Sales Orders View », donne un aperçu détaillé des métadonnées pertinentes.
Dans l'aperçu, le nom et le type de l'actif, la date de création et de modification, ainsi que l'espace DSP dans lequel se trouve l'objet, sont visibles.
Dans la section Détails, les indicateurs (par exemple, « GROSSAMOUNT », « TAXAMOUNT ») et les attributs (par exemple, « BILLINGSTATUS ») contenus dans l'actif sont décrits. Ceux-ci sont complétés par des informations techniques telles que les types de données, les types d'agrégation et d'autres informations pertinentes.
Ces deux domaines sont automatiquement mis à jour grâce à la reprise des métadonnées du système, sans qu'une maintenance active de l'utilisateur ne soit nécessaire.
Enrichissement sémantique
La zone d'enrichissement sémantique n'est pas automatiquement remplie par l'extraction des métadonnées. Pour donner vie à cette zone, une maintenance manuelle des métadonnées par un utilisateur est nécessaire.
En règle générale, un terme, un KPI ou un tag est d'abord créé dans le catalogue, puis associé à un actif.
Dès qu'un terme ou un indicateur clé de performance (KPI) tel que le « Sales Revenue Achievement Rate » est attribué à un actif, une relation est établie entre ces objets. Cela permet à l'utilisateur de naviguer de l'actif vers le terme ou le KPI lié, et inversement, d'un terme ou d'un KPI vers un actif correspondant.
De plus, la liaison d'un actif avec des tags appropriés, qui peuvent également être structurés de manière hiérarchique, peut faciliter la recherche, le filtrage et la navigation ultérieurs de ces objets.
Il est généralement recommandé de se pencher sur la gestion des métadonnées d'un objet de données avant ou pendant son développement ou son adaptation. Certaines informations qui peuvent être saisies dans la gestion des objets dans le système source, comme le Business Purpose, sont automatiquement transférées dans les métadonnées de l'actif dans le Data Catalog lors de l'enregistrement. Cela permet d'éviter une gestion redondante de ces informations.
Actuellement, il n'est pas possible de naviguer directement de l'interface du système source, dans lequel l'objet de développement est traité, vers la maintenance des métadonnées de l'actif correspondant dans le Data Catalog. Pour ce faire, il est nécessaire de démarrer le Data Catalog, de rechercher et d'ouvrir manuellement l'actif correspondant.
Inversement, le Data Catalog offre cependant la possibilité pratique de naviguer directement de la maintenance des métadonnées à la maintenance des objets DSP de l'actif ouvert.
3.1 Analyse de la traçabilité et de l'impact
L'analyse de la lignée et de l'impact est particulièrement utile pour comprendre les données. La lignée (origine) montre les objets qui utilisent l'actif analysé comme cible, tandis que l'impact (conséquence) montre les objets qui utilisent l'actif comme source. Actuellement, cette analyse n'est disponible que pour les actifs en tant qu'élément central. SAP prévoit toutefois de mettre prochainement cette fonctionnalité à disposition, entre autres, pour les produits de données.
La représentation graphique aide les utilisateurs du catalogue à mieux comprendre l'origine et l'utilisation des données, à évaluer les impacts des modifications apportées aux données et à prendre des décisions éclairées en matière de modélisation et de gestion des données.
Dans l'analyse d'impact et de lignage, l'actif étudié (DSP Analytical Model : Sales_Order_AM) est mis en évidence de manière centrale et colorée. À gauche, l'origine des données et, à droite, l'utilisation des données sont présentées graphiquement. Étant donné que l'extraction automatique des métadonnées des systèmes SAP HANA, SAP BW, SAP HANA et SAP S/4HANA dans le Data Catalog n'est pas encore possible, il n'existe pas non plus d'actifs correspondants de ces systèmes. Par conséquent, ils ne sont pas non plus inclus dans l'analyse de l'origine des données.
Dans l'analyse de la lignée, l'origine peut être retracée jusqu'à l'espace Datasphere. Dans l'exemple ci-dessus, il s'agit des tables distantes des tables S/4 transactionnelles MARA, VBAP, MAKT et VBAK dans l'espace « Showroom S/4 Living Company ».
Sur le côté droit, l'analyse d'impact montre comment le modèle analytique est utilisé dans une Story SAC. Il convient de noter que seuls les objets auxquels l'utilisateur a également accès sont affichés.
Je trouve très utile pour la compréhension des données la possibilité d'avoir un aperçu des métadonnées les plus importantes de chaque nœud, que l'utilisateur peut afficher sous forme d'info-bulle.
Actuellement, l'analyse de la lignée et de l'impact dans le Data Catalog n'est réalisable qu'au niveau des objets de données. Il n'est pas possible de suivre l'origine des données au niveau des colonnes individuelles. Pour effectuer un suivi aussi détaillé, il faut passer du Data Catalog à la base de données dans SAP Datasphere.
L'inconvénient est qu'aucun objet des systèmes cibles, comme SAP Analytics Cloud, n'est affiché.
4. Aperçu d'un indicateur clé de performance (KPI)
Outre la possibilité de définir des indicateurs clés de performance (KPI) et d'ajouter des descriptions, le Data Catalog offre la possibilité de définir des seuils (Thresholds) et de les représenter graphiquement.
Les KPI peuvent également être mis en relation les uns avec les autres. Cela fonctionne de manière analogue à relations entre les d'autres objets dans le Data Catalog et est décrit dans la prochaine section.Le paragraphe suivant l'explique plus en détail.
5. Aperçu d'un terme
Les termes servent de dictionnaire pour les termes commerciaux afin de favoriser une compréhension uniforme à l'échelle de l'entreprise. Les termes peuvent être regroupés dans des glossaires afin d'être mieux organisés.
Une fois qu'un terme a été défini et géré, il est possible de définir sous Manage Relationships autant de relations que l'on veut entre les objets des assets, des KPI et des autres termes.
Les termes peuvent être gérés comme des objets distincts dans différentes langues. Dans l'exemple présent, le terme « Billing Status » ainsi que son équivalent allemand «Fakturastatus » ont été créés et mis à jour. Ensuite, l'actif « Sales Orders View » a été lié au terme « Billing Status » dans le cadre des Semantic Enrichments.
De plus, les deux termes « Billing Status » et « Fakturastatus » sont désormais liés. Ainsi, le Data Catalog permet d'enrichir les métadonnées d'un actif de manière à ce que l'utilisateur puisse naviguer à travers différentes langues.
6. Conclusion
Le Data Catalog facilite la centralisation des connaissances, auparavant disponibles uniquement localement, en les rendant consultables et facilement accessibles. L'utilisateur du catalogue a besoin de peu de connaissances techniques.
Comme pour d'autres concepts, il sera important de voir avec quelle constance la gestion des métadonnées est « vécue » dans l'entreprise. Ce n'est qu'avec une maintenance et une utilisation constantes qu'un outil tel que le catalogue de données peut déployer sa puissance et générer une valeur ajoutée.
Personnellement, je trouve que le Data Catalog est bien intégré à Datasphere et qu'il constitue dans l'ensemble un outil utile pour la gestion des métadonnées.
La documentation centrale ainsi que l'utilisation et la recherche de métadonnées m'aident à mieux m'orienter dans la multitude de modèles de données et leurs relations et dépendances mutuelles.
Je trouve la représentation graphique de l'analyse de la lignée et de l'impact, à travers différents systèmes, particulièrement précieuse, car elle visualise de manière structurée les dépendances et les impacts.
Si d'autres systèmes pouvaient également être représentés dans l'analyse de la lignée et de l'impact, cela représenterait une valeur ajoutée considérable pour moi personnellement.
SAP semble positionner le Data Catalog comme un outil central de gestion des métadonnées, intégré à la Datasphere, et annonce continuellement de nouvelles fonctionnalités pour les versions futures.
Bien que certaines fonctionnalités manquent encore aujourd'hui, SAP prévoit pour la version 2025, entre autres, la possibilité d'importer certaines métadonnées via Excel ainsi que l'extraction de métadonnées mentionnée dans l'article pour S/4HANA (par exemple, CDS View), HANA Cloud et ERP ECC.
De plus, le partenariat stratégique que SAP a conclu en 2023 avec le fournisseur de catalogues de données Collibra me laisse espérer qu'à l'avenir, outre les sources de données SAP, d'autres applications pourront également être intégrées.
En savoir plus ?
Publié par :
Franziskus Heep
Consultant professionnel en analyse
Franziskus Heep
Cet article vous a-t-il plu ?
Cet article vous a-t-il été utile ?
Cliquez sur une étoile pour évaluer !
Note moyenne 4.8 / 5.
Nombre d'évaluations: 25
Aucun vote pour l'instant ! Soyez la première personne à noter ce post !






