What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Hvordan bruke DataHub: En praktisk, komplett veiledning for din datakatalog

Klar til å gjøre datajungelen om til klarhet? DataHub—en åpen kildekode metadata-plattform opprinnelig laget hos LinkedIn—hjelper team med å oppdage, stole på og styre data på tvers av datavarehus, BI-verktøy, orkestreringssystemer og mer. I denne praktiske, trinnvise guiden vil du gå fra null til en fungerende DataHub-instans, hente metadata, utforske opphav og sette opp styring—uten å gå deg vill i sjargong.

Hva du vil lære i korte trekk:

Spinn opp DataHub lokalt på få minutter

Hent metadata fra vanlige kilder (f.eks. Snowflake, BigQuery, dbt)

Utforsk søk, opphav, eierskap og dokumentasjon i brukergrensesnittet

Definer retningslinjer, tagger og termer for styring

Rull ut teamprosesser som faktisk fester seg

Merk: Dette er en praktisk og løsningsorientert gjennomgang designet for å kartlegge reelle arbeidsflyter. Vi vil sitere de offisielle dokumentene for spesifikasjoner og dypere dykk når det er nødvendig.

Hurtigstart: Få DataHub til å kjøre lokalt Hvis du eksperimenterer eller piloterer DataHub, er den raskeste veien hurtigstarten. Sørg for at du har Docker installert først. Deretter:

Installer DataHub CLI

Start med en enkelt kommando

Åpne brukergrensesnittet og logg inn med standardinnstillinger

Offisielle hurtigstartdetaljer, kommandoer og standardinnstillinger finner du her. Introduksjonen forklarer arkitekturen og hvorfor DataHub bruker en sanntids metadata-modell (entiteter, aspekter og strømmende oppdateringer) som er egnet for moderne stacker.

Smarte oppsettstips:

Start lokalt, selv om du planlegger å gå til Kubernetes senere. Det er raskere for å få aksept og demoer.

Hvis du allerede har Docker Desktop, vil du vanligvis være oppe og gå i løpet av få minutter.

Hold legitimasjonen trygg—selv i en sandkasse. Vaner som bygges nå, lønner seg senere.

Forstå kjernekonseptene på 5 minutter Før du henter noe, bli komfortabel med DataHubs tankemodell:

Entiteter: Ting som datasett, tabeller, diagrammer, dashboards, pipelines, brukere.

Aspekter: Versjonsstyrte «fasetter» av metadata om entiteter (skjema, eierskap, tagger, ordliste-termer, opphav).

Graf: Relasjoner (opphav, eierskap, avhengigheter) driver søke- og oppdagelsesopplevelsen.

Denne grafbaserte tilnærmingen muliggjør funksjoner som konsekvensanalyse (hva går i stykker hvis vi endrer denne kolonnen?), nedstrøms opphavskartlegging og tillitssignaler (eiere, tagger, dokumentasjon). En kortfattet konseptuell oversikt er i introduksjonsguiden.

Hent metadata: UI vs. CLI (Velg din vei) DataHub støtter både brukervennlig UI-henting og scriptable CLI-pipelines. Velg det som passer din arbeidsflyt i dag—mange team bruker begge deler.

Alternativ A: UI-basert henting (raskt for første gangs kjøringer)

I brukergrensesnittet, gå til Henting → Ny kilde.

Velg en kilde (f.eks. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Skriv inn tilkoblingsdetaljer.

Test tilkoblingen.

Planlegg eller kjør henting ved behov.

UI-flyten og trinnene dekkes her. Det er ideelt for ikke-ingeniører eller team som ønsker å validere tilkobling raskt.

Alternativ B: CLI-basert henting (repeterbart og CI-vennlig)

Opprett en YAML-oppskrift som definerer din kilde, filtre og kartlegging.

Kjør: datahub ingest -c recipe.yml

Commit oppskriften til versjonskontroll for repeterbarhet.

CLI-henting og oppskrifter er dokumentert i detalj her. Denne tilnærmingen er bedre for dev/prod-pipelines, automatisering og konsistens.

Pro-tips for henting:

Start med en eller to kilder som betyr mest (f.eks. Snowflake + dbt). Raske gevinster bygger momentum.

Filtrer aggressivt. Ikke hent hvert sandkasse-datasett på dag én; det skaper støy.

Legg til plattforminstansnavn (som snowflake:prod vs snowflake:dev) for å unngå forvirring.

Utforsk brukergrensesnittet: Søk, opphav og eierskap Når din første henting er fullført, hopp inn i brukergrensesnittet for å validere verdi raskt:

Universelt søk: Finn datasett, dashboards og pipelines etter navn, skjema, tagger eller ordliste-termer.

Opphavsgraf: Klikk inn i et datasett for å se oppstrøms og nedstrøms tilkoblinger. Dette er gull for konsekvensanalyse.

Eierskap og dokumentasjon: Legg til eiere (team eller brukere) og skriv klare beskrivelser. Dette er de første tillitssignalene din organisasjon vil føle.

Skjema og profilering: Gå gjennom kolonnenavn, typer og eksempelstatistikk. Oppdag anomalier tidlig.

Legg til mening: Ordliste, tagger og domener Rå metadata er bare begynnelsen. Du vil låse opp reell adopsjon ved å legge til semantikk:

Ordliste-termer: Definer virksomhetsvennlige konsepter (Kunde, ARR, Aktiv bruker). Fest til datasett/kolonner for å standardisere språket.

Tagger: Lettvekts etiketter (PII, Kritisk, Utgått, Gull). Raske visuelle signaler for risiko og viktighet.

Domener: Grupper relaterte eiendeler etter forretningsfunksjon (Finans, Markedsføring) eller plattform.

Anbefalt første taksonomi:

Tre ordliste-termer alle forstår (Kunde, Ordre, Inntekter)

Et lite taggsett: pii, gull, utgått, eksperimentell

5–7 domener som kartlegger til ditt organisasjonskart eller dataplattformer

Styring som skalerer: Retningslinjer og tilgang DataHub støtter rolle- og eiendelsbaserte retningslinjer slik at du kan kontrollere hvem som kan gjøre hva (redigere dokumentasjon, legge til tagger, administrere opphav osv.). Start enkelt:

Opprett en «Forvaltere»-gruppe med redigeringsrettigheter på dokumenter, eierskap og tagger.

Gi analytikere lesetilgang til de fleste eiendeler, men begrens sensitive domener.

Krev eiere for «gull»-datasett før de vises i «Toppvalg».

Retningslinjer og styring ligger inne i plattformen, så opplevelsen er konsistent for redaktører og seere. Etter hvert som organisasjonen din modnes, utvid med mer detaljerte tillatelser og godkjenningsflyter.

Operasjonelle beste praksiser: Få det til å feste seg Metadata-programmer mislykkes når de føles som ekstra arbeid. Gjør DataHub til en del av den normale flyten:

Bygg inn i PRs/CI: Når datalpipelines endres, kjør en metadata-henting og sammenlign skjemadifferanser. Flagg ødeleggende endringer automatisk.

Juster med dbt: Bruk dbt docs, tester og eksponeringer; overflate dem i DataHub for å koble kode til forretningskontekst.

Opprett en «Adopsjons-spillebok»: Eiere legger til dokumenter, tagger og ordliste-termer under onboarding. Belønn kvalitet via scorecards.

Publiser en datakontrakt: For nøkkeltabeller, definer SLA, ferskhet, nullstillbarhet og stabilitetsregler. Overflate det i DataHub.

Fra pilot til produksjon: Hva endres?

Infrastruktur: Flytt fra lokal Docker til et administrert miljø (Kubernetes, skytjenester). Vurder et hostet alternativ hvis det er tilgjengelig i din organisasjon.

Auth/SSO: Integrer med din identitetsleverandør (Okta, Azure AD, etc.).

Observerbarhet: Overvåk hentingsjobber, grafstørrelse og UI-ytelse.

Endringsledelse: Etabler en metadata-gjennomgangsrytme (f.eks. ukentlige forvaltersynkroniseringer).

Feilsøking: Vanlige fallgruver og løsninger

«Jeg kan ikke se tabellene mine.» Sjekk nettverksregler, legitimasjon og kilde filtre. Kjør en minimal hentings oppskrift for å isolere problemet.

«Opphav er ufullstendig.» Sørg for at du har hentet fra orkestrering (Airflow), transformasjon (dbt) og datavarehuskilder. Opphav trenger ofte flere koblinger.

«Søk føles rotete.» Stram filtre, legg til tagger/ordliste og skjul utgåtte eiendeler.

«Dokumenter er utdaterte.» Planlegg regelmessig henting; oppmuntre eiere til å oppdatere beskrivelser sammen med kodeendringer.

Eksempel: En rask vei til verdi på 48 timer Dag 1

Spinn opp DataHub lokalt via hurtigstart.

Hent fra datavarehuset ditt (Snowflake/BigQuery) ved hjelp av UI-henting.

Legg til eiere og beskrivelser til fem kritiske datasett.

Opprett ordliste-termer for Kunde og Inntekter; tagg disse datasettene som gull.

Dag 2

Hent dbt-metadata for å koble modeller til tabeller.

Valider opphav på tvers av henting → transformasjon → BI.

Opprett en policy som bare forvaltere kan endre gull-datasett dokumenter.

Demo opphavsvisningen og søkeopplevelsen til interessenter; samle tilbakemelding.

Viktige referanser

Hurtigstart: lokalt oppsett, legitimasjon, porter, kommandoer

Konsepter og arkitekturoversikt

UI-baserte hentingstrinn

CLI-henting og YAML-oppskrifter

Hvor Sider.AI kan hjelpe Hvis teamet ditt ofte undersøker beste praksiser, skriver datasett dokumenter eller trenger fordøyelige sammendrag av opphavs- og skjemaendringer, er det verdt å merke seg at Sider.AI kan akselerere dokumentasjon og kunnskapsdeling. For eksempel kan du gjøre tette skjemadifferanser om til menneskelig lesbare endringslogger, eller generere førsteutkast til datasettbeskrivelser som forvaltere forbedrer—redusere tiden fra rå metadata til brukbart innhold.

Jukseark: Dine første 10 handlinger

Start DataHub lokalt via hurtigstart.

Legg til en datavarehuskilde via UI-henting.

Hent dbt eller orkestrerings metadata for opphav.

Legg til eiere til 5–10 nøkkel datasett.

Skriv konsise beskrivelser (2–3 setninger hver).

Opprett 3 ordliste-termer og 4–6 tagger.

Tagg 5 datasett som gull, og skjul utgåtte.

Sett en redigeringspolicy for forvaltere.

Planlegg daglig henting.

Demo brukergrensesnittet til 2 interessentteam og samle tilbakemelding.

Hva er det neste?

Skaler til Kubernetes eller et administrert miljø.

Rull ut SSO og grupper for styring.

Utvid henting til BI og hendelsesstrømmer.

Bygg scorecards for datakvalitet og dokumentasjonsfullstendighet.

Integrer med CI/CD slik at skjemaendringer alltid gjenspeiles i katalogen.

Endelige takeaways

Start smått, lever verdi raskt og iterer.

Bruk UI-henting for hastighet; CLI for repeterbarhet.

Legg til ordliste, tagger og retningslinjer tidlig for å øke tilliten.

Koble datavarehus + dbt + BI for fullstendig opphav.

Behandle dokumentasjon som en del av utviklingen, ikke en ettertanke.

FAQ

Q1:Hva er DataHub og hvorfor bør jeg bruke det? DataHub er en åpen kildekode metadata-plattform for oppdagelse, opphav og styring på tvers av datastacken din. Det hjelper team med å finne pålitelige datasett, forstå innvirkning og standardisere dokumentasjon. Lær det grunnleggende i den offisielle introduksjonen.

Q2:Hvordan installerer jeg DataHub raskt? Bruk hurtigstart: installer Docker, installer CLI, og start deretter med en enkelt kommando. Du kan få tilgang til brukergrensesnittet lokalt og logge inn med standardinnstillinger for å validere oppsettet raskt.

Q3:Bør jeg bruke UI-henting eller CLI-henting i DataHub? Bruk UI-basert henting for å komme i gang raskt eller involvere ikke-ingeniører; det er flott for første gangs tilkobling og demoer. Bytt til CLI-henting for versjonsstyrte oppskrifter, automatisering og CI/CD-integrasjon.

Q4:Hvordan får jeg opphav til å dukke opp i DataHub? Hent fra flere kilder: datavarehuset ditt (f.eks. Snowflake), transformasjonslaget ditt (f.eks. dbt) og orkestrering (f.eks. Airflow). Opphav dukker opp når DataHub kobler sammen disse bitene.

Q5:Hvilke styringsfunksjoner bør jeg aktivere først i DataHub? Start med eierskap, konsise beskrivelser, en liten ordliste og konsistente tagger som gull, pii og utgått. Legg deretter til retningslinjer for å kontrollere hvem som kan redigere kritiske eiendeler og planlegge regelmessig henting.