What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Hur man använder DataHub: En praktisk, komplett guide för din datakatalog

Är du redo att förvandla dataspridning till tydlighet? DataHub – en plattform för metadata med öppen källkod som ursprungligen skapades på LinkedIn – hjälper team att upptäcka, lita på och styra data över lager, BI-verktyg, orkestreringssystem och mer. I denna praktiska steg-för-steg-guide går du från noll till en fungerande DataHub-instans, matar in metadata, utforskar härstamning och ställer in styrning – utan att gå vilse i jargong.

Vad du kommer att lära dig i korthet:

Snurra upp DataHub lokalt på några minuter

Mata in metadata från vanliga källor (t.ex. Snowflake, BigQuery, dbt)

Utforska sökning, härstamning, ägarskap och dokumentation i användargränssnittet

Definiera policyer, taggar och termer för styrning

Rulla ut teamprocesser som faktiskt fastnar

Obs: Detta är en praktisk och lösningsorienterad genomgång utformad för att mappa till verkliga arbetsflöden. Vi kommer att citera de officiella dokumenten för specifikationer och djupare dykningar när det behövs.

Snabbstart: Få DataHub att köras lokalt Om du experimenterar eller piloterar DataHub är den snabbaste vägen snabbstarten. Se till att du har Docker installerat först. Sedan:

Installera DataHub CLI

Starta med ett enda kommando

Öppna användargränssnittet och logga in med standardinställningar

Officiella snabbstartdetaljer, kommandon och standardinställningar finns här. Introduktionen förklarar arkitekturen och varför DataHub använder en metadata modell i realtid (entiteter, aspekter och strömmande uppdateringar) som är lämplig för moderna stackar.

Smarta inställningstips:

Starta lokalt även om du planerar att gå till Kubernetes senare. Det går snabbare för acceptans och demonstrationer.

Om du redan har Docker Desktop kommer du vanligtvis att vara igång inom några minuter.

Håll autentiseringsuppgifterna säkra – även i en sandlåda. Vanor som byggs nu lönar sig senare.

Förstå kärnkoncepten på 5 minuter Innan du matar in något, vänj dig vid DataHubs mentala modell:

Entiteter: Saker som dataset, tabeller, diagram, instrumentpaneler, pipelines, användare.

Aspekter: Versionshanterade "facetter" av metadata om entiteter (schema, ägarskap, taggar, ordlistatermer, härstamning).

Graf: Relationer (härstamning, ägarskap, beroenden) driver sök- och upptäcktsupplevelsen.

Detta grafbaserade tillvägagångssätt möjliggör funktioner som konsekvensanalys (vad går sönder om vi ändrar den här kolumnen?), kartläggning av nedströms härstamning och förtroendesignaler (ägare, taggar, dokumentation). En kortfattad konceptuell översikt finns i introduktionsguiden.

Mata in metadata: UI vs. CLI (Välj din väg) DataHub stöder både användarvänlig UI-inmatning och skriptbara CLI-pipelines. Välj det som passar ditt arbetsflöde idag – många team använder båda.

Alternativ A: UI-baserad inmatning (snabb för första körningar)

I användargränssnittet, gå till Inmatning → Ny källa.

Välj en källa (t.ex. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Ange anslutningsdetaljer.

Testa anslutningen.

Schemalägg eller kör inmatning på begäran.

UI-flödet och stegen beskrivs här. Det är idealiskt för icke-ingenjörer eller team som snabbt vill validera anslutningsmöjligheter.

Alternativ B: CLI-baserad inmatning (upprepningsbar och CI-vänlig)

Skapa ett YAML-recept som definierar din källa, filter och mappning.

Kör: datahub ingest -c recipe.yml

Skicka receptet till versionskontroll för repeterbarhet.

CLI-inmatning och recept dokumenteras i detalj här. Detta tillvägagångssätt är bättre för dev/prod-pipelines, automatisering och konsekvens.

Proffstips för inmatning:

Börja med en eller två källor som är viktigast (t.ex. Snowflake + dbt). Snabba vinster bygger momentum.

Filtrera aggressivt. Mata inte in varje sandlåde-dataset dag ett; det skapar brus.

Lägg till plattformsinstansnamn (som snowflake:prod vs snowflake:dev) för att undvika förvirring.

Utforska användargränssnittet: Sökning, härstamning och ägarskap När din första inmatning är klar, hoppa in i användargränssnittet för att snabbt validera värdet:

Universell sökning: Hitta dataset, instrumentpaneler och pipelines efter namn, schema, taggar eller ordlistatermer.

Härstamningsgraf: Klicka in i ett dataset för att se uppströms- och nedströmsanslutningar. Detta är guld värt för konsekvensanalys.

Ägarskap & Dokumentation: Lägg till ägare (team eller användare) och skriv tydliga beskrivningar. Dessa är de första förtroendesignalerna din organisation kommer att känna.

Schema & Profilering: Granska kolumnnamn, typer och exempelstatistik. Upptäck avvikelser tidigt.

Lägg till mening: Ordlista, taggar och domäner Rå metadata är bara början. Du låser upp verklig användning genom att lägga till semantik:

Ordlistatermer: Definiera affärsvänliga koncept (kund, ARR, aktiv användare). Bifoga till dataset/kolumner för att standardisera språket.

Taggar: Lätta etiketter (PII, kritisk, föråldrad, guld). Snabba visuella ledtrådar för risk och betydelse.

Domäner: Gruppera relaterade tillgångar efter affärsfunktion (ekonomi, marknadsföring) eller plattform.

Rekommenderad första taxonomi:

Tre ordlistatermer som alla förstår (kund, order, intäkt)

En liten tagguppsättning: pii, gold, deprecated, experimental

5–7 domäner som mappar till ditt organisationsschema eller dina dataplattformar

Styrning som skalas: Policyer och åtkomst DataHub stöder roll- och tillgångsbaserade policyer så att du kan kontrollera vem som kan göra vad (redigera dokumentation, lägga till taggar, hantera härstamning etc.). Börja enkelt:

Skapa en "Stewards"-grupp med redigeringsrättigheter för dokument, ägarskap och taggar.

Ge analytiker läsbehörighet till de flesta tillgångar men begränsa känsliga domäner.

Kräv ägare för "guld"-dataset innan de visas i "Toppval".

Policyer och styrning finns inuti plattformen, så upplevelsen är konsekvent för redaktörer och tittare. När din organisation mognar, expandera med mer detaljerade behörigheter och godkännandeflöden.

Operationella bästa metoder: Få det att fastna Metadataprogram misslyckas när de känns som extraarbete. Gör DataHub till en del av det normala flödet:

Bädda in i PRs/CI: När datapipelines ändras, kör en metadata-inmatning och jämför schema-differenser. Flagga automatiskt trasiga ändringar.

Anpassa till dbt: Använd dbt-dokument, tester och exponeringar; visa dem i DataHub för att koppla kod till affärskontext.

Skapa en "Adoptionshandbok": Ägare lägger till dokument, taggar och ordlistatermer under introduktionen. Belöna kvalitet via styrkort.

Publicera ett dataavtal: För viktiga tabeller, definiera SLA, färskhet, nullbarhet och stabilitetsregler. Visa det i DataHub.

Från pilot till produktion: Vad ändras?

Infrastruktur: Flytta från lokal Docker till en hanterad miljö (Kubernetes, molntjänster). Överväg ett värdbaserat alternativ om det är tillgängligt i din organisation.

Auth/SSO: Integrera med din identitetsleverantör (Okta, Azure AD, etc.).

Observerbarhet: Övervaka inmatningsjobb, grafstorlek och UI-prestanda.

Ändringshantering: Upprätta en metadata-granskningskadens (t.ex. veckovisa stewardship-synkroniseringar).

Felsökning: Vanliga fallgropar och korrigeringar

"Jag kan inte se mina tabeller." Kontrollera nätverksregler, autentiseringsuppgifter och källfilter. Kör ett minimalt inmatningsrecept för att isolera problemet.

"Härstamning är ofullständig." Se till att du har matat in från orkestrering (Airflow), transformation (dbt) och lagerkällor. Härstamning behöver ofta flera anslutningar.

"Sökning känns rörig." Dra åt filter, lägg till taggar/ordlista och dölj föråldrade tillgångar.

"Dokumenten är inaktuella." Schemalägg regelbunden inmatning; uppmuntra ägare att uppdatera beskrivningar tillsammans med kodändringar.

Exempel: En snabb väg till värde på 48 timmar Dag 1

Snurra upp DataHub lokalt via snabbstart.

Mata in från ditt lager (Snowflake/BigQuery) med UI-inmatning.

Lägg till ägare och beskrivningar till fem kritiska dataset.

Skapa ordlistatermer för kund och intäkt; tagga dessa dataset som guld.

Dag 2

Mata in dbt-metadata för att koppla modeller till tabeller.

Validera härstamning över inmatning → transformation → BI.

Skapa en policy som endast stewards kan ändra gulddatasetdokument.

Demonstrera härstamningsvyn och sökupplevelsen för intressenter; samla in feedback.

Viktiga referenser

Snabbstart: lokal installation, autentiseringsuppgifter, portar, kommandon

Koncept och arkitekturöversikt

UI-baserade inmatningssteg

CLI-inmatning och YAML-recept

Där Sider.AI kan hjälpa till Om ditt team ofta undersöker bästa praxis, skriver datasetdokument eller behöver lättsmälta sammanfattningar av härstamnings- och schemaändringar, är det värt att notera att Sider.AI kan påskynda dokumentation och kunskapsdelning. Du kan till exempel omvandla täta schema-differenser till läsbara ändringsloggar eller generera första utkast till datasetbeskrivningar som stewards förfinar – vilket minskar tiden från rå metadata till användbar kontext.

Fuskblad: Dina första 10 åtgärder

Starta DataHub lokalt via snabbstart.

Lägg till en lagerkälla via UI-inmatning.

Mata in dbt- eller orkestreringsmetadata för härstamning.

Lägg till ägare till 5–10 viktiga dataset.

Skriv koncisa beskrivningar (2–3 meningar vardera).

Skapa 3 ordlistatermer och 4–6 taggar.

Tagga 5 dataset som guld och dölj föråldrade.

Ställ in en redigeringspolicy för stewards.

Schemalägg daglig inmatning.

Demonstrera användargränssnittet för 2 intressentteam och samla in feedback.

Vad är nästa steg?

Skala till Kubernetes eller en hanterad miljö.

Rulla ut SSO och grupper för styrning.

Utöka inmatningen till BI och händelseströmmar.

Bygg styrkort för datakvalitet och dokumentationsfullständighet.

Integrera med CI/CD så att schemaändringar alltid återspeglas i katalogen.

Slutliga slutsatser

Börja smått, leverera värde snabbt och iterera.

Använd UI-inmatning för snabbhet; CLI för repeterbarhet.

Lägg till ordlista, taggar och policyer tidigt för att öka förtroendet.

Anslut warehouse + dbt + BI för fullständig härstamning.

Behandla dokumentation som en del av utvecklingen, inte en eftertanke.

FAQ

F1: Vad är DataHub och varför ska jag använda det? DataHub är en plattform för metadata med öppen källkod för upptäckt, härstamning och styrning över din datastack. Det hjälper team att hitta betrodda dataset, förstå konsekvenser och standardisera dokumentation. Lär dig grunderna i den officiella introduktionen.

F2: Hur installerar jag DataHub snabbt? Använd snabbstarten: installera Docker, installera CLI och starta sedan med ett enda kommando. Du kan komma åt användargränssnittet lokalt och logga in med standardinställningar för att snabbt validera installationen.

F3: Ska jag använda UI-inmatning eller CLI-inmatning i DataHub? Använd UI-baserad inmatning för att komma igång snabbt eller involvera icke-ingenjörer; det är bra för första gången anslutning och demonstrationer. Byt till CLI-inmatning för versionshanterade recept, automatisering och CI/CD-integration.

F4: Hur får jag härstamning att visas i DataHub? Mata in från flera källor: ditt lager (t.ex. Snowflake), ditt transformationslager (t.ex. dbt) och orkestrering (t.ex. Airflow). Härstamning uppstår när DataHub ansluter dessa delar.

F5: Vilka styrningsfunktioner ska jag aktivera först i DataHub? Börja med ägarskap, koncisa beskrivningar, en liten ordlista och konsekventa taggar som guld, pii och föråldrade. Lägg sedan till policyer för att kontrollera vem som kan redigera kritiska tillgångar och schemalägg regelbunden inmatning.