What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Sådan bruges DataHub: En praktisk, komplet guide til dit datakatalog

Klar til at forvandle data-spredning til klarhed? DataHub – en open source-metadata platform, der oprindeligt blev skabt hos LinkedIn – hjælper teams med at opdage, stole på og administrere data på tværs af datalagre, BI-værktøjer, orkestreringssystemer og mere. I denne praktiske, trinvise guide går du fra nul til en fungerende DataHub-instans, indtager metadata, udforsker afstamning og opsætter governance – uden at fare vild i jargon.

Hvad du lærer i et overblik:

Spin DataHub op lokalt på få minutter

Indtag metadata fra almindelige kilder (f.eks. Snowflake, BigQuery, dbt)

Udforsk søgning, afstamning, ejerskab og dokumentation i brugergrænsefladen

Definér politikker, tags og termer for governance

Implementér teamprocesser, der faktisk holder

Bemærk: Dette er en praktisk og løsningsorienteret gennemgang, der er designet til at kortlægge reelle arbejdsgange. Vi vil citere de officielle dokumenter for specifikke detaljer og dybere dyk, når det er nødvendigt.

Hurtig start: Få DataHub til at køre lokalt Hvis du eksperimenterer eller piloterer DataHub, er den hurtigste vej hurtigstarten. Sørg for, at du har Docker installeret først. Så:

Installér DataHub CLI

Start med en enkelt kommando

Åbn brugergrænsefladen og log ind med standardindstillinger

Officielle hurtigstartsdetaljer, kommandoer og standardindstillinger findes her. Introduktionen forklarer arkitekturen, og hvorfor DataHub bruger en realtids-metadata model (enheder, aspekter og streamingopdateringer), der er egnet til moderne stacks.

Smarte opsætningstips:

Start lokalt, selvom du planlægger at gå til Kubernetes senere. Det er hurtigere for buy-in og demoer.

Hvis du allerede har Docker Desktop, vil du typisk være oppe at køre inden for få minutter.

Hold legitimationsoplysninger sikre – selv i en sandkasse. Vaner, der er opbygget nu, betaler sig senere.

Forstå de grundlæggende begreber på 5 minutter Før du indtager noget, skal du blive fortrolig med DataHubs mentale model:

Enheder: Ting som datasæt, tabeller, diagrammer, dashboards, pipelines, brugere.

Aspekter: Versionsstyrede “facetter” af metadata om enheder (skema, ejerskab, tags, ordliste-termer, afstamning).

Graf: Relationer (afstamning, ejerskab, afhængigheder) driver søge- og opdagelsesoplevelsen.

Denne grafbaserede tilgang muliggør funktioner som konsekvensanalyse (hvad går i stykker, hvis vi ændrer denne kolonne?), downstream afstamningskortlægning og tillidssignaler (ejere, tags, dokumentation). En kortfattet konceptuel oversigt findes i introduktionsguiden.

Indtag metadata: UI vs. CLI (Vælg din vej) DataHub understøtter både brugervenlig UI-indtagelse og scriptable CLI-pipelines. Vælg det, der passer til din arbejdsgang i dag – mange teams bruger begge dele.

Mulighed A: UI-baseret indtagelse (hurtig til første kørsel)

I brugergrænsefladen skal du gå til Ingestion → New Source.

Vælg en kilde (f.eks. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Indtast forbindelsesoplysninger.

Test forbindelsen.

Planlæg eller kør indtagelse efter behov.

UI-flowet og trinene er dækket her. Det er ideelt for ikke-ingeniører eller teams, der hurtigt vil validere forbindelse.

Mulighed B: CLI-baseret indtagelse (gentagelig og CI-venlig)

Opret en YAML-opskrift, der definerer din kilde, filtre og kortlægning.

Kør: datahub ingest -c recipe.yml

Commit opskriften til versionsstyring for gentagelighed.

CLI-indtagelse og opskrifter er dokumenteret i detaljer her. Denne tilgang er bedre til dev/prod pipelines, automatisering og konsistens.

Pro tips til indtagelse:

Start med en eller to kilder, der betyder mest (f.eks. Snowflake + dbt). Hurtige gevinster opbygger momentum.

Filtrér aggressivt. Indtag ikke alle sandkasse-datasæt på dag ét; det skaber støj.

Tilføj platforminstansnavne (som snowflake:prod vs snowflake:dev) for at undgå forvirring.

Udforsk brugergrænsefladen: Søgning, afstamning og ejerskab Når din første indtagelse er fuldført, skal du hoppe ind i brugergrænsefladen for hurtigt at validere værdien:

Universel søgning: Find datasæt, dashboards og pipelines efter navn, skema, tags eller ordliste-termer.

Afstamningsgraf: Klik ind i et datasæt for at se upstream- og downstream-forbindelser. Dette er guld for konsekvensanalyse.

Ejerskab & dokumentation: Tilføj ejere (teams eller brugere) og skriv klare beskrivelser. Disse er de første tillidssignaler, din organisation vil føle.

Skema & profilering: Gennemgå kolonnenavne, typer og eksempelstatistikker. Spot anomalier tidligt.

Tilføj mening: Ordliste, tags og domæner Rå metadata er kun begyndelsen. Du vil låse op for reel adoption ved at tilføje semantik:

Ordliste-termer: Definér virksomhedsvenlige koncepter (kunde, ARR, aktiv bruger). Vedhæft til datasæt/kolonner for at standardisere sproget.

Tags: Letvægtslabels (PII, Kritisk, Forældet, Guld). Hurtige visuelle stikord for risiko og vigtighed.

Domæner: Gruppér relaterede aktiver efter forretningsfunktion (Finans, Marketing) eller platform.

Anbefalet første taksonomi:

Tre ordliste-termer, som alle forstår (Kunde, Ordre, Omsætning)

Et lille tag-sæt: pii, guld, forældet, eksperimentel

5–7 domæner, der kortlægger dit organisationsdiagram eller dataplatforme

Governance, der skalerer: Politikker og adgang DataHub understøtter rolle- og aktivbaserede politikker, så du kan kontrollere, hvem der kan gøre hvad (redigere dokumentation, tilføje tags, administrere afstamning osv.). Start simpelt:

Opret en “Stewards”-gruppe med redigeringsrettigheder til dokumenter, ejerskab og tags.

Giv analytikere læseadgang til de fleste aktiver, men begræns følsomme domæner.

Kræv ejere for “guld”-datasæt, før de vises i “Top Picks”.

Politikker og governance lever inde i platformen, så oplevelsen er ensartet for redaktører og seere. Efterhånden som din organisation modnes, skal du udvide med mere granulære tilladelser og godkendelsesflows.

Operationelle bedste fremgangsmåder: Få det til at holde Metadata-programmer fejler, når de føles som ekstra arbejde. Gør DataHub til en del af det normale flow:

Integrer i PR'er/CI: Når datapipelines ændres, skal du køre en metadata-indtagelse og sammenligne skema-diffs. Flag brudændringer automatisk.

Tilpas med dbt: Brug dbt docs, tests og eksponeringer; vis dem i DataHub for at forbinde kode til forretningskontekst.

Opret en “Adoptions Playbook”: Ejere tilføjer dokumenter, tags og ordliste-termer under onboarding. Beløn kvalitet via scorecards.

Publicer en datakontrakt: For nøgletabeller skal du definere SLA, friskhed, nullability og stabilitetsregler. Vis det i DataHub.

Fra pilot til produktion: Hvad ændrer sig?

Infrastruktur: Flyt fra lokal Docker til et administreret miljø (Kubernetes, cloud services). Overvej en hosted mulighed, hvis den er tilgængelig i din organisation.

Auth/SSO: Integrer med din identitetsudbyder (Okta, Azure AD osv.).

Observability: Overvåg indtagelsesjobs, grafstørrelse og UI-ydelse.

Ændringsstyring: Etabler en metadata-gennemgangskadence (f.eks. ugentlige stewardship-synkroniseringer).

Fejlfinding: Almindelige faldgruber og rettelser

“Jeg kan ikke se mine tabeller.” Kontroller netværksregler, legitimationsoplysninger og kild filtre. Kør en minimal indtagelsesopskrift for at isolere problemet.

“Afstamningen er ufuldstændig.” Sørg for, at du har indtaget fra orkestrering (Airflow), transformation (dbt) og datalagerkilder. Afstamning har ofte brug for flere konnektorer.

“Søgningen føles rodet.” Stram filtre, tilføj tags/ordliste, og skjul forældede aktiver.

“Dokumenterne er forældede.” Planlæg regelmæssig indtagelse; opfordre ejere til at opdatere beskrivelser sammen med kodeændringer.

Eksempel: En hurtig vej til værdi på 48 timer Dag 1

Spin DataHub op lokalt via hurtigstart.

Indtag fra dit datalager (Snowflake/BigQuery) ved hjælp af UI-indtagelse.

Tilføj ejere og beskrivelser til fem kritiske datasæt.

Opret ordliste-termer for Kunde og Omsætning; tag disse datasæt som guld.

Dag 2

Indtag dbt metadata for at forbinde modeller til tabeller.

Valider afstamning på tværs af indtagelse → transformation → BI.

Opret en politik, der kun tillader stewards at ændre guld-datasæt-dokumenter.

Demo afstamningsvisningen og søgeoplevelsen til interessenter; indsaml feedback.

Vigtige referencer

Hurtigstart: lokal opsætning, legitimationsoplysninger, porte, kommandoer

Koncepter og arkitekturoversigt

UI-baserede indtagelsestrin

CLI-indtagelse og YAML-opskrifter

Hvor Sider.AI kan hjælpe Hvis dit team ofte undersøger bedste praksis, skriver datasæt-dokumenter eller har brug for fordøjelige opsummeringer af afstamnings- og skemaændringer, er det værd at bemærke, at Sider.AI kan fremskynde dokumentation og videndeling. Du kan f.eks. forvandle tætte skema-diffs til menneskeligt læsbare ændringslogger eller generere første udkast til datasæt-beskrivelser, som stewards forfiner – hvilket reducerer tiden fra rå metadata til brugbar kontekst.

Cheat Sheet: Dine første 10 handlinger

Start DataHub lokalt via hurtigstart.

Tilføj en datalagerkilde via UI-indtagelse.

Indtag dbt eller orkestreringsmetadata for afstamning.

Tilføj ejere til 5–10 nøgledatasæt.

Skriv korte beskrivelser (2–3 sætninger hver).

Opret 3 ordliste-termer og 4–6 tags.

Tag 5 datasæt som guld, og skjul forældede.

Indstil en redigeringspolitik for stewards.

Planlæg daglig indtagelse.

Demo brugergrænsefladen til 2 interessent-teams og indsaml feedback.

Hvad er det næste?

Skalér til Kubernetes eller et administreret miljø.

Implementér SSO og grupper for governance.

Udvid indtagelse til BI og event streams.

Opbyg scorecards for datakvalitet og dokumentationsfuldstændighed.

Integrer med CI/CD, så skemaændringer altid afspejles i kataloget.

Afsluttende takeaways

Start småt, lever værdi hurtigt, og iterer.

Brug UI-indtagelse for hastighed; CLI for gentagelighed.

Tilføj ordliste, tags og politikker tidligt for at øge tilliden.

Forbind datalager + dbt + BI for komplet afstamning.

Behandl dokumentation som en del af udviklingen, ikke en eftertanke.

FAQ

Q1: Hvad er DataHub, og hvorfor skal jeg bruge det? DataHub er en open source-metadata platform til opdagelse, afstamning og governance på tværs af din data stack. Det hjælper teams med at finde pålidelige datasæt, forstå indvirkning og standardisere dokumentation. Lær det grundlæggende i den officielle introduktion.

Q2: Hvordan installerer jeg DataHub hurtigt? Brug hurtigstarten: installer Docker, installer CLI, og start derefter med en enkelt kommando. Du kan få adgang til brugergrænsefladen lokalt og logge ind med standardindstillinger for hurtigt at validere opsætningen.

Q3: Skal jeg bruge UI-indtagelse eller CLI-indtagelse i DataHub? Brug UI-baseret indtagelse for at komme hurtigt i gang eller involvere ikke-ingeniører; det er fantastisk til førstegangsforbindelse og demoer. Skift til CLI-indtagelse for versionsstyrede opskrifter, automatisering og CI/CD-integration.

Q4: Hvordan får jeg afstamning til at dukke op i DataHub? Indtag fra flere kilder: dit datalager (f.eks. Snowflake), dit transformationslag (f.eks. dbt) og orkestrering (f.eks. Airflow). Afstamning opstår, når DataHub forbinder disse stykker.

Q5: Hvilke governance-funktioner skal jeg aktivere først i DataHub? Start med ejerskab, korte beskrivelser, en lille ordliste og konsistente tags som guld, pii og forældet. Tilføj derefter politikker for at kontrollere, hvem der kan redigere kritiske aktiver, og planlæg regelmæssig indtagelse.