What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

So verwenden Sie DataHub: Ein praktischer, durchgängiger Leitfaden für Ihren Datenkatalog

Sind Sie bereit, Datensilos in Klarheit zu verwandeln? DataHub – eine Open-Source-Metadatenplattform, die ursprünglich bei LinkedIn entwickelt wurde – hilft Teams, Daten über Data Warehouses, BI-Tools, Orchestrierungssysteme und mehr hinweg zu entdecken, ihnen zu vertrauen und sie zu verwalten. In dieser praktischen Schritt-für-Schritt-Anleitung gelangen Sie von Null zu einer funktionierenden DataHub-Instanz, erfassen Metadaten, erkunden die Lineage und richten Governance ein – ohne sich in Fachjargon zu verlieren.

Was Sie auf einen Blick lernen werden:

DataHub in wenigen Minuten lokal starten

Metadaten aus gängigen Quellen erfassen (z. B. Snowflake, BigQuery, dbt)

Suche, Lineage, Ownership und Dokumentation in der UI erkunden

Richtlinien, Tags und Begriffe für die Governance definieren

Teamprozesse einführen, die tatsächlich Bestand haben

Hinweis: Dies ist eine praktische und lösungsorientierte Anleitung, die auf reale Workflows zugeschnitten ist. Wir werden bei Bedarf die offizielle Dokumentation für Details und tiefere Einblicke zitieren.

Schnellstart: DataHub lokal ausführen Wenn Sie mit DataHub experimentieren oder es pilotieren, ist der Schnellstart der schnellste Weg. Stellen Sie zunächst sicher, dass Docker installiert ist. Dann:

Die DataHub-CLI installieren

Mit einem einzigen Befehl starten

Die UI öffnen und sich mit den Standardeinstellungen anmelden

Offizielle Schnellstartdetails, Befehle und Standardeinstellungen finden Sie hier. Die Einführung erklärt die Architektur und warum DataHub ein Echtzeit-Metadatenmodell (Entitäten, Aspekte und Streaming-Updates) verwendet, das für moderne Stacks geeignet ist.

Smarte Einrichtungstipps:

Beginnen Sie lokal, auch wenn Sie später zu Kubernetes wechseln möchten. Es ist schneller für die Akzeptanz und für Demos.

Wenn Sie bereits Docker Desktop haben, sind Sie normalerweise innerhalb weniger Minuten startklar.

Bewahren Sie Anmeldeinformationen sicher auf – auch in einer Sandbox. Gewohnheiten, die jetzt aufgebaut werden, zahlen sich später aus.

Die Kernkonzepte in 5 Minuten verstehen Bevor Sie irgendetwas aufnehmen, machen Sie sich mit dem mentalen Modell von DataHub vertraut:

Entitäten: Dinge wie Datasets, Tabellen, Diagramme, Dashboards, Pipelines, Benutzer.

Aspekte: Versionierte „Facetten“ von Metadaten über Entitäten (Schema, Ownership, Tags, Glossarbegriffe, Lineage).

Graph: Beziehungen (Lineage, Ownership, Abhängigkeiten) treiben die Such- und Discovery-Erfahrung an.

Dieser graphbasierte Ansatz ermöglicht Funktionen wie Impact Analysis (was geht kaputt, wenn wir diese Spalte ändern?), Downstream Lineage Mapping und Trust Signals (Owners, Tags, Dokumentation). Einen prägnanten konzeptionellen Überblick finden Sie im Einführungshandbuch.

Metadaten erfassen: UI vs. CLI (Wählen Sie Ihren Weg) DataHub unterstützt sowohl die benutzerfreundliche UI-Erfassung als auch skriptfähige CLI-Pipelines. Wählen Sie, was heute zu Ihrem Workflow passt – viele Teams verwenden beides.

Option A: UI-basierte Erfassung (schnell für erste Ausführungen)

Gehen Sie in der UI zu Ingestion → New Source.

Wählen Sie eine Quelle aus (z. B. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Geben Sie die Verbindungsdetails ein.

Testen Sie die Verbindung.

Planen oder führen Sie die Erfassung bei Bedarf aus.

Der UI-Flow und die Schritte werden hier behandelt. Es ist ideal für Nicht-Ingenieure oder Teams, die die Konnektivität schnell validieren möchten.

Option B: CLI-basierte Erfassung (wiederholbar und CI-freundlich)

Erstellen Sie ein YAML-Rezept, das Ihre Quelle, Filter und Ihr Mapping definiert.

Ausführen: datahub ingest -c recipe.yml

Übertragen Sie das Rezept zur Wiederholbarkeit in die Versionskontrolle.

Die CLI-Erfassung und Rezepte werden hier detailliert dokumentiert. Dieser Ansatz ist besser für Dev/Prod-Pipelines, Automatisierung und Konsistenz geeignet.

Profi-Tipps für die Erfassung:

Beginnen Sie mit ein oder zwei Quellen, die am wichtigsten sind (z. B. Snowflake + dbt). Schnelle Erfolge bauen Dynamik auf.

Filtern Sie aggressiv. Nehmen Sie nicht gleich am ersten Tag jedes Sandbox-Dataset auf; das erzeugt nur Rauschen.

Fügen Sie Platform Instance Names hinzu (wie snowflake:prod vs snowflake:dev), um Verwirrung zu vermeiden.

Die UI erkunden: Suche, Lineage und Ownership Sobald Ihre erste Erfassung abgeschlossen ist, springen Sie in die UI, um den Wert schnell zu validieren:

Universelle Suche: Finden Sie Datasets, Dashboards und Pipelines nach Name, Schema, Tags oder Glossarbegriffen.

Lineage Graph: Klicken Sie auf ein Dataset, um Upstream- und Downstream-Verbindungen anzuzeigen. Dies ist Gold wert für die Impact Analysis.

Ownership & Dokumentation: Fügen Sie Owners (Teams oder Benutzer) hinzu und schreiben Sie klare Beschreibungen. Dies sind die ersten Trust Signals, die Ihre Organisation spüren wird.

Schema & Profiling: Überprüfen Sie Spaltennamen, Typen und Beispielstatistiken. Erkennen Sie Anomalien frühzeitig.

Bedeutung hinzufügen: Glossar, Tags und Domains Rohe Metadaten sind nur der Anfang. Sie werden die Akzeptanz erst richtig ankurbeln, wenn Sie Semantik hinzufügen:

Glossarbegriffe: Definieren Sie geschäftsfreundliche Konzepte (Customer, ARR, Active User). Fügen Sie sie Datasets/Spalten hinzu, um die Sprache zu standardisieren.

Tags: Lightweight Labels (PII, Critical, Deprecated, Gold). Schnelle visuelle Hinweise für Risiko und Bedeutung.

Domains: Gruppieren Sie verwandte Assets nach Geschäftsfunktion (Finance, Marketing) oder Plattform.

Empfohlene erste Taxonomie:

Drei Glossarbegriffe, die jeder versteht (Customer, Order, Revenue)

Ein kleines Tag-Set: pii, gold, deprecated, experimental

5–7 Domains, die Ihrem Organigramm oder Ihren Datenplattformen entsprechen

Governance, die skaliert: Richtlinien und Zugriff DataHub unterstützt rollen- und assetbasierte Richtlinien, sodass Sie steuern können, wer was tun darf (Dokumentation bearbeiten, Tags hinzufügen, Lineage verwalten usw.). Beginnen Sie einfach:

Erstellen Sie eine „Stewards“-Gruppe mit Bearbeitungsrechten für Dokumente, Ownership und Tags.

Geben Sie Analysten Lesezugriff auf die meisten Assets, beschränken Sie aber sensible Domains.

Verlangen Sie Owners für „Gold“-Datasets, bevor diese in „Top Picks“ erscheinen.

Richtlinien und Governance sind in der Plattform integriert, sodass die Erfahrung für Bearbeiter und Betrachter konsistent ist. Wenn Ihre Organisation reifer wird, erweitern Sie sie mit feineren Berechtigungen und Genehmigungsabläufen.

Operationelle Best Practices: Sorgen Sie dafür, dass es funktioniert Metadatenprogramme scheitern, wenn sie sich wie zusätzliche Arbeit anfühlen. Machen Sie DataHub zum Teil des normalen Ablaufs:

In PRs/CI einbetten: Wenn sich Datenpipelines ändern, führen Sie eine Metadatenerfassung durch und vergleichen Sie Schema-Diffs. Kennzeichnen Sie Breaking Changes automatisch.

Mit dbt abstimmen: Verwenden Sie dbt-Dokumente, Tests und Expositions; machen Sie sie in DataHub sichtbar, um Code mit Geschäftskontext zu verbinden.

Erstellen Sie ein „Adoption Playbook“: Owners fügen während des Onboardings Dokumente, Tags und Glossarbegriffe hinzu. Belohnen Sie Qualität über Scorecards.

Veröffentlichen Sie einen Data Contract: Definieren Sie für wichtige Tabellen SLA-, Freshness-, Nullability- und Stability-Regeln. Machen Sie sie in DataHub sichtbar.

Vom Pilot zur Produktion: Was ändert sich?

Infrastruktur: Wechseln Sie von lokalem Docker zu einer verwalteten Umgebung (Kubernetes, Cloud Services). Erwägen Sie eine gehostete Option, falls in Ihrer Organisation verfügbar.

Auth/SSO: Integrieren Sie Ihren Identity Provider (Okta, Azure AD usw.).

Observability: Überwachen Sie Erfassungsaufträge, Graphgröße und UI-Performance.

Change Management: Etablieren Sie einen Metadaten-Review-Zyklus (z. B. wöchentliche Stewardship-Syncs).

Fehlerbehebung: Häufige Fallstricke und Lösungen

„Ich kann meine Tabellen nicht sehen.“ Überprüfen Sie Netzwerkregeln, Anmeldeinformationen und Quellfilter. Führen Sie ein minimales Erfassungsrezept aus, um das Problem zu isolieren.

„Lineage ist unvollständig.“ Stellen Sie sicher, dass Sie von Orchestrierung (Airflow), Transformation (dbt) und Data-Warehouse-Quellen erfasst haben. Lineage benötigt oft mehrere Konnektoren.

„Die Suche ist unübersichtlich.“ Verschärfen Sie Filter, fügen Sie Tags/Glossar hinzu und blenden Sie veraltete Assets aus.

„Dokumente sind veraltet.“ Planen Sie regelmäßige Erfassungen ein; ermutigen Sie Owners, Beschreibungen zusammen mit Codeänderungen zu aktualisieren.

Beispiel: Ein schneller Weg zum Erfolg in 48 Stunden Tag 1

DataHub lokal über Quickstart starten.

Erfassen Sie Daten aus Ihrem Data Warehouse (Snowflake/BigQuery) mithilfe der UI-Erfassung.

Fügen Sie Owners und Beschreibungen zu fünf kritischen Datasets hinzu.

Erstellen Sie Glossarbegriffe für Customer und Revenue; kennzeichnen Sie diese Datasets als Gold.

Tag 2

Erfassen Sie dbt-Metadaten, um Modelle mit Tabellen zu verbinden.

Validieren Sie die Lineage über Erfassung → Transformation → BI.

Erstellen Sie eine Richtlinie, dass nur Stewards Gold Dataset-Dokumente ändern können.

Demonstrieren Sie Stakeholdern die Lineage-Ansicht und die Sucherfahrung; sammeln Sie Feedback.

Wichtige Referenzen

Schnellstart: Lokale Einrichtung, Anmeldeinformationen, Ports, Befehle

Konzepte und Architekturübersicht

UI-basierte Erfassungsschritte

CLI-Erfassung und YAML-Rezepte

Wo Sider.AI helfen kann Wenn Ihr Team häufig Best Practices recherchiert, Dataset-Dokumente verfasst oder verdauliche Zusammenfassungen von Lineage- und Schemaänderungen benötigt, ist es erwähnenswert, dass Sider.AI die Dokumentation und den Wissensaustausch beschleunigen kann. Sie können beispielsweise dichte Schema-Diffs in menschenlesbare Änderungsprotokolle umwandeln oder erste Dataset-Beschreibungen generieren, die Stewards verfeinern – wodurch die Zeit von rohen Metadaten zu nutzbarem Kontext verkürzt wird.

Cheat Sheet: Ihre ersten 10 Aktionen

Starten Sie DataHub lokal über Quickstart.

Fügen Sie eine Data-Warehouse-Quelle über die UI-Erfassung hinzu.

Erfassen Sie dbt- oder Orchestrierungsmetadaten für Lineage.

Fügen Sie 5–10 wichtigen Datasets Owners hinzu.

Schreiben Sie prägnante Beschreibungen (jeweils 2–3 Sätze).

Erstellen Sie 3 Glossarbegriffe und 4–6 Tags.

Kennzeichnen Sie 5 Datasets als Gold und blenden Sie veraltete aus.

Legen Sie eine Editor-Richtlinie für Stewards fest.

Planen Sie die tägliche Erfassung.

Demonstrieren Sie die UI vor 2 Stakeholder-Teams und sammeln Sie Feedback.

Was kommt als Nächstes?

Skalieren Sie auf Kubernetes oder eine verwaltete Umgebung.

Führen Sie SSO und Gruppen für Governance ein.

Erweitern Sie die Erfassung auf BI- und Event-Streams.

Erstellen Sie Scorecards für Datenqualität und Vollständigkeit der Dokumentation.

Integrieren Sie CI/CD, damit sich Schemaänderungen immer im Katalog widerspiegeln.

Wichtigste Erkenntnisse

Klein anfangen, schnell Mehrwert liefern und iterieren.

Verwenden Sie die UI-Erfassung für Geschwindigkeit; CLI für Wiederholbarkeit.

Fügen Sie frühzeitig Glossar, Tags und Richtlinien hinzu, um das Vertrauen zu stärken.

Verbinden Sie Data Warehouse + dbt + BI für eine vollständige Lineage.

Behandeln Sie die Dokumentation als Teil der Entwicklung, nicht als nachträgliche Überlegung.

FAQ

Q1:Was ist DataHub und warum sollte ich es verwenden? DataHub ist eine Open-Source-Metadatenplattform für Discovery, Lineage und Governance über Ihren Daten-Stack hinweg. Es hilft Teams, vertrauenswürdige Datasets zu finden, die Auswirkungen zu verstehen und die Dokumentation zu standardisieren. Erfahren Sie mehr über die Grundlagen in der offiziellen Einführung.

Q2:Wie installiere ich DataHub schnell? Verwenden Sie den Schnellstart: Installieren Sie Docker, installieren Sie die CLI und starten Sie dann mit einem einzigen Befehl. Sie können lokal auf die UI zugreifen und sich mit den Standardeinstellungen anmelden, um die Einrichtung schnell zu validieren.

Q3:Soll ich die UI-Erfassung oder die CLI-Erfassung in DataHub verwenden? Verwenden Sie die UI-basierte Erfassung, um schnell loszulegen oder Nicht-Ingenieure einzubeziehen; sie eignet sich hervorragend für erstmalige Konnektivität und Demos. Wechseln Sie zur CLI-Erfassung für versionierte Rezepte, Automatisierung und CI/CD-Integration.

Q4:Wie bringe ich die Lineage dazu, in DataHub angezeigt zu werden? Erfassen Sie Daten aus mehreren Quellen: Ihrem Data Warehouse (z. B. Snowflake), Ihrer Transformationsschicht (z. B. dbt) und Orchestrierung (z. B. Airflow). Lineage entsteht, wenn DataHub diese Teile verbindet.

Q5:Welche Governance-Funktionen sollte ich zuerst in DataHub aktivieren? Beginnen Sie mit Ownership, prägnanten Beschreibungen, einem kleinen Glossar und konsistenten Tags wie Gold, PII und Veraltet. Fügen Sie dann Richtlinien hinzu, um zu steuern, wer kritische Assets bearbeiten kann, und planen Sie regelmäßige Erfassungen.