What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Comment utiliser DataHub : Un guide pratique et complet pour votre catalogue de données

Prêt à transformer le chaos des données en clarté ? DataHub, une plateforme de métadonnées open source créée initialement chez LinkedIn, aide les équipes à découvrir, à faire confiance et à gouverner les données à travers les entrepôts, les outils de BI, les systèmes d'orchestration, et bien plus encore. Dans ce guide pratique, étape par étape, vous passerez de zéro à une instance DataHub opérationnelle, ingérerez des métadonnées, explorerez la lignée et configurerez la gouvernance, sans vous perdre dans le jargon.

Ce que vous apprendrez en un coup d'œil :

Déployez DataHub localement en quelques minutes

Ingérez des métadonnées à partir de sources courantes (par exemple, Snowflake, BigQuery, dbt)

Explorez la recherche, la lignée, la propriété et la documentation dans l'interface utilisateur

Définissez des politiques, des balises et des termes pour la gouvernance

Mettez en place des processus d'équipe qui fonctionnent réellement

Remarque : Il s'agit d'une présentation pratique et axée sur les solutions, conçue pour correspondre aux flux de travail réels. Nous citerons la documentation officielle pour les détails et les approfondissements si nécessaire.

Démarrage rapide : Exécutez DataHub localement Si vous expérimentez ou pilotez DataHub, le chemin le plus rapide est le démarrage rapide. Assurez-vous d'abord que Docker est installé. Ensuite :

Installez l'interface de ligne de commande (CLI) DataHub

Lancez-le avec une seule commande

Ouvrez l'interface utilisateur et connectez-vous avec les paramètres par défaut

Les détails officiels du démarrage rapide, les commandes et les valeurs par défaut sont disponibles ici. L'introduction explique l'architecture et pourquoi DataHub utilise un modèle de métadonnées en temps réel (entités, aspects et mises à jour en continu) adapté aux piles modernes.

Conseils de configuration intelligents :

Commencez localement même si vous prévoyez de passer à Kubernetes plus tard. C'est plus rapide pour l'adhésion et les démos.

Si vous avez déjà Docker Desktop, vous serez généralement opérationnel en quelques minutes.

Gardez les informations d'identification en sécurité, même dans un bac à sable. Les habitudes prises maintenant seront payantes plus tard.

Comprendre les concepts de base en 5 minutes Avant d'ingérer quoi que ce soit, familiarisez-vous avec le modèle mental de DataHub :

Entités : Éléments tels que les ensembles de données, les tableaux, les graphiques, les tableaux de bord, les pipelines, les utilisateurs.

Aspects : « Facettes » de métadonnées versionnées concernant les entités (schéma, propriété, balises, termes de glossaire, lignée).

Graphe : Les relations (lignée, propriété, dépendances) alimentent l'expérience de recherche et de découverte.

Cette approche basée sur un graphe permet des fonctionnalités telles que l'analyse d'impact (que se passe-t-il si nous modifions cette colonne ?), la cartographie de la lignée en aval et les signaux de confiance (propriétaires, balises, documentation). Un aperçu conceptuel concis se trouve dans le guide d'introduction.

Ingérer des métadonnées : Interface utilisateur vs. CLI (Choisissez votre voie) DataHub prend en charge à la fois l'ingestion conviviale via l'interface utilisateur et les pipelines CLI scriptables. Choisissez ce qui convient le mieux à votre flux de travail aujourd'hui ; de nombreuses équipes utilisent les deux.

Option A : Ingestion basée sur l'interface utilisateur (rapide pour les premières exécutions)

Dans l'interface utilisateur, allez à Ingestion → Nouvelle source.

Choisissez une source (par exemple, Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Entrez les détails de la connexion.

Testez la connexion.

Planifiez ou exécutez l'ingestion à la demande.

Le flux et les étapes de l'interface utilisateur sont décrits ici. C'est idéal pour les non-ingénieurs ou les équipes qui souhaitent valider rapidement la connectivité.

Option B : Ingestion basée sur la CLI (répétable et compatible avec CI)

Créez une recette YAML qui définit votre source, vos filtres et votre mappage.

Exécutez : datahub ingest -c recipe.yml

Validez la recette dans le contrôle de version pour la répétabilité.

L'ingestion et les recettes CLI sont documentées en détail ici. Cette approche est préférable pour les pipelines de développement/production, l'automatisation et la cohérence.

Conseils de pro pour l'ingestion :

Commencez avec une ou deux sources qui comptent le plus (par exemple, Snowflake + dbt). Des victoires rapides créent de l'élan.

Filtrez de manière agressive. N'ingérez pas tous les ensembles de données de bac à sable dès le premier jour ; cela crée du bruit.

Ajoutez des noms d'instance de plateforme (comme snowflake:prod vs snowflake:dev) pour éviter toute confusion.

Explorez l'interface utilisateur : Recherche, lignée et propriété Une fois votre première ingestion terminée, accédez à l'interface utilisateur pour valider rapidement la valeur :

Recherche universelle : Trouvez des ensembles de données, des tableaux de bord et des pipelines par nom, schéma, balises ou termes de glossaire.

Graphe de lignée : Cliquez sur un ensemble de données pour voir les connexions en amont et en aval. C'est de l'or pour l'analyse d'impact.

Propriété et documentation : Ajoutez des propriétaires (équipes ou utilisateurs) et rédigez des descriptions claires. Ce sont les premiers signaux de confiance que votre organisation ressentira.

Schéma et profilage : Passez en revue les noms de colonnes, les types et les statistiques d'échantillon. Repérez les anomalies rapidement.

Ajouter du sens : Glossaire, balises et domaines Les métadonnées brutes ne sont que le début. Vous débloquerez une véritable adoption en superposant la sémantique :

Termes de glossaire : Définissez des concepts conviviaux (Client, ARR, Utilisateur actif). Attachez-les aux ensembles de données/colonnes pour standardiser le langage.

Balises : Étiquettes légères (PII, Critique, Déprécié, Or). Indices visuels rapides pour le risque et l'importance.

Domaines : Groupez les actifs connexes par fonction commerciale (Finance, Marketing) ou par plateforme.

Première taxonomie recommandée :

Trois termes de glossaire que tout le monde comprend (Client, Commande, Revenu)

Un petit ensemble de balises : pii, or, déprécié, expérimental

5 à 7 domaines qui correspondent à votre organigramme ou à vos plateformes de données

Gouvernance à l'échelle : Politiques et accès DataHub prend en charge les politiques basées sur les rôles et les actifs afin que vous puissiez contrôler qui peut faire quoi (modifier la documentation, ajouter des balises, gérer la lignée, etc.). Commencez simplement :

Créez un groupe « Stewards » avec des droits de modification sur les documents, la propriété et les balises.

Donnez aux analystes un accès en lecture à la plupart des actifs, mais limitez les domaines sensibles.

Exigez des propriétaires pour les ensembles de données « or » avant qu'ils n'apparaissent dans « Meilleurs choix ».

Les politiques et la gouvernance résident à l'intérieur de la plateforme, de sorte que l'expérience est cohérente pour les éditeurs et les visionneurs. Au fur et à mesure que votre organisation mûrit, développez-vous avec des autorisations plus granulaires et des flux d'approbation.

Meilleures pratiques opérationnelles : Faites-en une habitude Les programmes de métadonnées échouent lorsqu'ils ressemblent à un travail supplémentaire. Intégrez DataHub dans le flux normal :

Intégrez dans les PR/CI : Lorsque les pipelines de données changent, exécutez une ingestion de métadonnées et comparez les différences de schéma. Signalez automatiquement les changements destructifs.

Alignez-vous sur dbt : Utilisez les documents, les tests et les expositions dbt ; affichez-les dans DataHub pour connecter le code au contexte commercial.

Créez un « Guide d'adoption » : Les propriétaires ajoutent des documents, des balises et des termes de glossaire lors de l'intégration. Récompensez la qualité via des tableaux de bord.

Publiez un contrat de données : Pour les tableaux clés, définissez les règles de SLA, de fraîcheur, de nullité et de stabilité. Affichez-les dans DataHub.

Du pilote à la production : Qu'est-ce qui change ?

Infrastructure : Passez de Docker local à un environnement géré (Kubernetes, services cloud). Envisagez une option hébergée si elle est disponible dans votre organisation.

Auth/SSO : Intégrez-vous à votre fournisseur d'identité (Okta, Azure AD, etc.).

Observabilité : Surveillez les tâches d'ingestion, la taille du graphe et les performances de l'interface utilisateur.

Gestion des changements : Établissez une cadence d'examen des métadonnées (par exemple, synchronisations hebdomadaires de gestion).

Dépannage : Pièges courants et correctifs

« Je ne vois pas mes tableaux. » Vérifiez les règles de réseau, les informations d'identification et les filtres de source. Exécutez une recette d'ingestion minimale pour isoler le problème.

« La lignée est incomplète. » Assurez-vous d'avoir ingéré à partir de l'orchestration (Airflow), de la transformation (dbt) et des sources d'entrepôt. La lignée a souvent besoin de plusieurs connecteurs.

« La recherche semble encombrée. » Resserrez les filtres, ajoutez des balises/glossaire et masquez les actifs dépréciés.

« Les documents sont obsolètes. » Planifiez une ingestion régulière ; encouragez les propriétaires à mettre à jour les descriptions en même temps que les modifications de code.

Exemple : Un chemin rapide vers la valeur en 48 heures Jour 1

Déployez DataHub localement via le démarrage rapide.

Ingérez à partir de votre entrepôt (Snowflake/BigQuery) en utilisant l'ingestion de l'interface utilisateur.

Ajoutez des propriétaires et des descriptions à cinq ensembles de données critiques.

Créez des termes de glossaire pour Client et Revenu ; marquez ces ensembles de données comme or.

Jour 2

Ingérez les métadonnées dbt pour connecter les modèles aux tableaux.

Validez la lignée à travers l'ingestion → la transformation → la BI.

Créez une politique selon laquelle seuls les intendants peuvent modifier les documents d'ensemble de données or.

Présentez la vue de lignée et l'expérience de recherche aux parties prenantes ; recueillez des commentaires.

Références clés

Démarrage rapide : configuration locale, informations d'identification, ports, commandes

Concepts et aperçu de l'architecture

Étapes d'ingestion basées sur l'interface utilisateur

Ingestion CLI et recettes YAML

Où Sider.AI peut aider Si votre équipe recherche fréquemment les meilleures pratiques, rédige des documents d'ensemble de données ou a besoin de résumés digestes des changements de lignée et de schéma, il convient de noter que Sider.AI peut accélérer la documentation et le partage des connaissances. Par exemple, vous pouvez transformer des différences de schéma denses en journaux de modifications lisibles par l'homme, ou générer des premières ébauches de descriptions d'ensemble de données que les intendants affinent, réduisant ainsi le temps nécessaire pour passer des métadonnées brutes à un contexte utilisable.

Aide-mémoire : Vos 10 premières actions

Lancez DataHub localement via le démarrage rapide.

Ajoutez une source d'entrepôt via l'ingestion de l'interface utilisateur.

Ingérez les métadonnées dbt ou d'orchestration pour la lignée.

Ajoutez des propriétaires à 5 à 10 ensembles de données clés.

Rédigez des descriptions concises (2 à 3 phrases chacune).

Créez 3 termes de glossaire et 4 à 6 balises.

Marquez 5 ensembles de données comme or et masquez ceux qui sont dépréciés.

Définissez une politique d'éditeur pour les intendants.

Planifiez une ingestion quotidienne.

Présentez l'interface utilisateur à 2 équipes de parties prenantes et recueillez des commentaires.

Quelle est la prochaine étape ?

Passez à Kubernetes ou à un environnement géré.

Déployez SSO et des groupes pour la gouvernance.

Développez l'ingestion vers la BI et les flux d'événements.

Créez des tableaux de bord pour la qualité des données et l'exhaustivité de la documentation.

Intégrez-vous à CI/CD afin que les modifications de schéma soient toujours reflétées dans le catalogue.

Principaux points à retenir

Commencez petit, offrez de la valeur rapidement et itérez.

Utilisez l'ingestion de l'interface utilisateur pour la vitesse ; la CLI pour la répétabilité.

Superposez tôt le glossaire, les balises et les politiques pour renforcer la confiance.

Connectez l'entrepôt + dbt + la BI pour une lignée complète.

Considérez la documentation comme faisant partie du développement, et non comme une réflexion après coup.

FAQ

Q1 : Qu'est-ce que DataHub et pourquoi devrais-je l'utiliser ? DataHub est une plateforme de métadonnées open source pour la découverte, la lignée et la gouvernance de votre pile de données. Il aide les équipes à trouver des ensembles de données fiables, à comprendre l'impact et à standardiser la documentation. Apprenez les principes fondamentaux dans l'introduction officielle.

Q2 : Comment installer DataHub rapidement ? Utilisez le démarrage rapide : installez Docker, installez la CLI, puis démarrez avec une seule commande. Vous pouvez accéder à l'interface utilisateur localement et vous connecter avec les valeurs par défaut pour valider rapidement la configuration.

Q3 : Dois-je utiliser l'ingestion de l'interface utilisateur ou l'ingestion de la CLI dans DataHub ? Utilisez l'ingestion basée sur l'interface utilisateur pour démarrer rapidement ou impliquer des non-ingénieurs ; c'est idéal pour la connectivité et les démos initiales. Passez à l'ingestion de la CLI pour les recettes versionnées, l'automatisation et l'intégration CI/CD.

Q4 : Comment faire apparaître la lignée dans DataHub ? Ingérez à partir de plusieurs sources : votre entrepôt (par exemple, Snowflake), votre couche de transformation (par exemple, dbt) et l'orchestration (par exemple, Airflow). La lignée émerge au fur et à mesure que DataHub connecte ces éléments.

Q5 : Quelles fonctionnalités de gouvernance dois-je activer en premier dans DataHub ? Commencez par la propriété, des descriptions concises, un petit glossaire et des balises cohérentes comme or, pii et déprécié. Ajoutez ensuite des politiques pour contrôler qui peut modifier les actifs critiques et planifier une ingestion régulière.