Définition courte
Qu’est-ce qu’un data catalog ?
Au fil des dernières années, les entreprises ont compris l’importance de tirer profit des données. En conséquence, les entreprises collectent de plus en plus de données et le nombre de personnes manipulant ces données au sein des entreprises augmente également. Parmi tous les profils pouvant être amenés à manipuler des données, nous en retrouvons 3 principaux :
- Data engineer (créer des pipelines de données mettant à disposition des data analysts et data scientists les données dont ils ont besoin pour réaliser leur travail correctement) ;
- Data analyst (tirer profit des données avec des analyses descriptives en utilisant du SQL) ;
- Data scientist (tirer profit des données avec des analyses descriptives, prédictives, prescriptives en utilisant le machine learning).
Ces 3 profils réunis sont censés tirer profit des données afin de créer de la valeur et de la croissance le plus rapidement possible et dans un contexte sécurisé.
Malheureusement, l’histoire se déroule souvent différemment. En effet, les personnes manipulant quotidiennement des données passent généralement la plus claire partie de leur temps à poser ou répondre à des questions “ennuyeuses” telles que :
- Quelqu’un a-t-il déjà travaillé sur l’analyse de la performance marketing de l’entreprise ? Existe-t-il déjà des dashboards / reportings sur le sujet ?
- Quelles données dois-je utiliser pour analyser la performance marketing de l’entreprise ?
- Que signifie le KPI « marketing_qualified_lead » de la table “marketing_analysed_data” ?
- Puis-je me fier au KPI « marketing_qualified_lead » ?
- Quelles sont les différentes étapes de création du KPI « marketing_qualified_lead » ?
- Qui puis-je contacter si je constate une erreur sur l’une des étapes de création de ce KPI ?
- Etc.
En d’autres termes, les personnes manipulant des données consacrent généralement plus de temps à la gestion des métadonnées qu’à des travaux réellement générateurs de valeur.
Un data catalog centralise, organise intelligemment, et rend accessible les métadonnées relatives aux ensembles de données d’une entreprise, permettent ainsi aux personnes manipulant des données de répondre en un temps record à des questions comme celles énoncées ci-dessus.
Dit autrement, un data catalog permet aux entreprises de trouver, comprendre et utiliser leurs données de manière efficace.
Si vous voulez aller plus loin sur le sujet, c’est un peu plus bas que ça se passe 👇 🤓
10 ressources data marketing à forte valeur ajoutée
1. Formation sur Google Analytics 4
2. Formation sur Google Tag Manager
3. Formation sur les paramètres UTM
4. Formation sur le plan de taggage
5. Formation sur Looker Studio
7. Formation sur Google Tag Manager Server-Side
8. Formation sur l’attribution marketing
Pour aller plus loin
Pourquoi utiliser un data catalog ?
Voici les principaux cas d’usage d’un data catalog :
Rechercher des données
En rassemblant des métadonnées sur les ensembles de données de l’entreprise concernée et en proposant une expérience de recherche très intuitive (comme celle de Google Search par exemple avec un système de filtrage sur tags etc), un data catalog simplifie considérablement le processus de recherche et d’exploration des données (data discovery).
La simplification du processus de recherche et d’exploration des données permet notamment :
- D’accélérer la réalisation des projets data (moins de questions posées, réutilisation des données déjà existantes, etc) ;
- D’augmenter la confiance des personnes de l’entreprise concernée envers les données (car on retrouve un grand nombre d’informations permettant de savoir si une donnée est fiable ou non) et donc l’exploitation de ces dernières.
Comprendre les données
En rassemblant les métadonnées sur les ensembles de données de l’entreprise concernée, un data catalog agit comme un glossaire (business glossary) où tout le monde peut rechercher et trouver facilement les informations importantes concernant une donnée.
Un data catalog pourrait par exemple permettre de rechercher et trouver facilement la définition et/ou la méthode de calcul (propre à l’entreprise concernée) de la CLV (Customer Lifetime Value).
La simplification du processus de compréhension des données permet notamment :
- D’accélérer la réalisation des projets data (moins de questions, moins de temps passé à comprendre une donnée, etc) ;
- D’augmenter la confiance des personnes de l’entreprise concernée envers les données et donc l’utilisation de ces dernières (car moins d’incertitude).
Visualiser et comprendre les flux de données
En rassemblant des métadonnées sur les flux de données provenant des scripts d’ingestion et de transformation utilisés par l’entreprise concernée (Python, SQL, etc) ou encore de son orchestrateur (Airflow), un data catalog met en évidence (sous forme de cartographie) les relations entre les ensembles de données de l’entreprise concernée à différentes étapes de leur transformation. Cette mise en évidence qui permet de mieux visualiser et comprendre les flux de données a un nom : le data lineage.
Comme la généalogie fournit des informations sur la composition familiale des humains d’une génération à l’autre, le data lineage fournit des informations sur la façon dont les données ont été transformées tout au long de leur parcours de la source à la destination.
Le data lineage permet notamment :
- D’identifier facilement quels ensembles de données en aval (et donc quels potentiels dashboard/reportings) pourraient être impactés par la modification d’une requête SQL, d’un script d’ingestion Python, du schéma d’un ensemble de données, etc ;
- D’identifier facilement les différentes étapes de construction d’un KPI présent sur un dashboard ;
- D’optimiser les coûts de stockage et puissance de calcul en identifiant facilement les données dupliquées et les potentielles factorisations qui pourraient permettre de diminuer la puissance de calcul.
Automatiser la documentation liée aux données
En se connectant directement aux différentes API de la stack data de l’entreprise concernée (data warehouse, base de données relationnelle, outil de transformation, orchestrateur, outil de business intelligence) un data catalog permet d’automatiser la récupération des métadonnées et donc d’automatiser la documentation liée aux données.
Cette documentation automatisée permet notamment :
- De gagner du temps sur la création des documentations (c’est un travail qui initialement prend beaucoup de temps) ;
- De bénéficier d’une documentation mise à jour en temps réel (ou chaque jour / semaine) ;
- D’éliminer les éventuelles erreurs liées à l’humain dans la documentation (erreurs de nomenclature par exemple).
Garantir une utilisation sécurisée et conforme des données
Un data catalog assure une utilisation sécurisée et conforme des données en intégrant des mécanismes essentiels pour gérer les informations sensibles, comme les données à caractère personnel (PII), en conformité avec le RGPD. Un data catalog permet d’établir facilement une gouvernance des données en :
- Identifiant automatiquement les données sensibles ;
- Permettant de classifier les données avec des tags ;
- Permettant d’attribuer des permissions d’accès granulaires en fonction des personas et de la classification des données ;
- permettant de suivre la transformation des données sur toute la longueur.
Dit autrement, un data catalog favorise la gouvernance, la traçabilité et le contrôle des données, assurant leur utilisation en toute sécurité et en conformité avec les réglementations.
Collaborer facilement
En centralisant les informations sur les données et en s’intégrant à divers outils de gestion de projets (Monday, Jira, etc), de communication (Slack, Mail, Teams, etc), un data catalog permet aux équipes de collaborer plus efficacement.
Voici 2 exemples :
- Envoyer une question sur un canal Slack directement depuis le data catalog ;
- Créer un ticket Jira directement depuis le data catalog.
Quels sont les principaux data catalog du marché ?
Il existe plusieurs data catalog sur le marché que l’on pourrait classifier en 3 catégories :
- Data catalog de 1ère génération : Data catalog de base, similaire à Excel, qui se synchronise avec le data warehouse de l’entreprise concernée ;
- Data catalog de 2ème génération : Data catalog conçu pour aider les responsables des données à maintenir la documentation des données, leur “lineage” et leur traitement ;
- Data catalog de 3ème génération : Data catalog permettant une meilleure collaboration et intégrant plus d’intelligence et d’automatisation. Un data catalog de 3ème génération est conçu pour fournir automatiquement une valeur commerciale aux utilisateurs finaux quelques heures après le déploiement.
Voici une matrice référençant les principaux data catalog du marché en fonction de leur facilité de déploiement et de leur génération :
Voici un benchmark des principaux data catalog du marché réalisé par Castordoc :
https://notion.castordoc.com/catalog-of-catalogs
À partir de quand faut-il déployer un data catalog ?
Déployer un data catalog correctement nécessite un investissement considérable en termes de temps et d’argent, il est donc important de bien mesurer le besoin et le potentiel ROI avant de se lancer dans son déploiement ou non.
Voici une liste de faits indiquant le potentiel besoin d’un data catalog :
- Vous disposez de beaucoup de données ;
- Un grand nombre de vos employés travaillent avec des données ;
- Vos employés perdent beaucoup de temps à comprendre la signification d’une donnée ;
- Votre environnement data est complexe (beaucoup d’outils) ;
- Vous avez des exigences sécuritaires et réglementaires.
Définitions similaires
OLTP, OLAP, Données non structurées, Données structurées, Docker, Gouvernance des données, DFS, MySQL, PostgreSQL, Data cleaning, Analyse ad hoc, Data lake, Power BI, Analyse descriptive, Analyse multidimensionnelle, SIAD, ARR, Taux de rétention, Taux d’attrition, Data mining, Pie chart, Histogramme, Dashboard, Graphique, Tableau software, Box plot, Bar chart, Area chart, Data visualisation, KPI, Analyse de cohorte, MRR, API, Data warehouse, Data engineering, CLV, ETL, dbt (Data Build Tool), Data catalog, Marketing Automation, Segmentation RFM