What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

DataHubin käyttö: käytännönläheinen ja kokonaisvaltainen opas datakatalogillesi

Oletko valmis muuttamaan tiedonhallinnan sekasotkun selkeydeksi? DataHub—avoimen lähdekoodin metadata-alusta, joka on alun perin luotu LinkedInissä—auttaa tiimejä löytämään, luottamaan ja hallitsemaan tietoja eri tietovarastoissa, BI-työkaluissa, orkestrointijärjestelmissä ja muissa. Tässä käytännönläheisessä, vaiheittaisessa oppaassa pääset nollasta toimivaan DataHub-instanssiin, tuot metadataa, tutkit linjausta ja asetat hallinnan—ilman, että eksyt ammattikieleen.

Mitä opit yhdellä silmäyksellä:

Käynnistä DataHub paikallisesti minuuteissa

Tuo metadataa yleisistä lähteistä (esim. Snowflake, BigQuery, dbt)

Tutki hakua, linjausta, omistajuutta ja dokumentaatiota käyttöliittymässä

Määritä käytännöt, tunnisteet ja termit hallintaa varten

Ota käyttöön tiimiprosesseja, jotka todella toimivat

Huomautus: Tämä on käytännönläheinen ja ratkaisukeskeinen läpikäynti, joka on suunniteltu vastaamaan todellisia työnkulkuja. Viittaamme virallisiin dokumentteihin tarkempia tietoja ja syvällisempiä sukelluksia varten tarvittaessa.

Pika-aloitus: DataHubin käynnistäminen paikallisesti Jos kokeilet tai pilotoit DataHubia, nopein tapa on pika-aloitus. Varmista ensin, että Docker on asennettu. Sitten:

Asenna DataHub CLI

Käynnistä yhdellä komennolla

Avaa käyttöliittymä ja kirjaudu sisään oletusarvoilla

Viralliset pika-aloituksen tiedot, komennot ja oletusarvot ovat <a href="{quickstart_link}">täällä</a>. Johdanto selittää arkkitehtuurin ja miksi DataHub käyttää reaaliaikaista metadata-mallia (entiteetit, aspektit ja suoratoistopäivitykset), joka sopii moderneihin pinoihin.

Älykkäät asennusvinkit:

Aloita paikallisesti, vaikka suunnittelisit siirtyväsi Kubernetesiin myöhemmin. Se on nopeampaa sitoutumisen ja demojen kannalta.

Jos sinulla on jo Docker Desktop, olet yleensä valmis muutamassa minuutissa.

Pidä tunnistetiedot turvassa—jopa hiekkalaatikossa. Nyt rakennetut tavat maksavat myöhemmin.

Ymmärrä ydinkonseptit 5 minuutissa Ennen kuin tuot mitään, tutustu DataHubin mentaalimalliin:

Entiteetit: Asioita kuten tietojoukot, taulukot, kaaviot, kojetaulut, putket, käyttäjät.

Aspektit: Versioidut "facetit" metadatasta entiteeteistä (skeema, omistajuus, tunnisteet, sanastotermit, linjaus).

Graafi: Suhteet (linjaus, omistajuus, riippuvuudet) tehostavat haku- ja löytämiskokemusta.

Tämä graafipohjainen lähestymistapa mahdollistaa ominaisuuksia, kuten vaikutusanalyysin (mitä rikkoutuu, jos muutamme tätä saraketta?), alavirran linjauksen kartoituksen ja luottamussignaalit (omistajat, tunnisteet, dokumentaatio). Tiivis käsitteellinen yleiskatsaus on johdanto-oppaassa.

Metadata-aineiston tuominen: UI vs. CLI (Valitse polkusi) DataHub tukee sekä käyttäjäystävällistä UI-aineiston tuontia että skriptattavia CLI-putkia. Valitse se, mikä sopii työnkulkuusi tänään—monet tiimit käyttävät molempia.

Vaihtoehto A: UI-pohjainen aineiston tuonti (nopea ensimmäisille suorituksille)

Siirry käyttöliittymässä kohtaan Ingestion → New Source.

Valitse lähde (esim. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Anna yhteystiedot.

Testaa yhteys.

Aikatauluta tai suorita aineiston tuonti tarpeen mukaan.

Käyttöliittymän kulku ja vaiheet on katettu <a href="{ui_ingestion_link}">täällä</a>. Se on ihanteellinen muille kuin insinööreille tai tiimeille, jotka haluavat vahvistaa yhteyden nopeasti.

Vaihtoehto B: CLI-pohjainen aineiston tuonti (toistettava ja CI-ystävällinen)

Luo YAML-resepti, joka määrittelee lähteesi, suodattimesi ja kartoituksesi.

Suorita: datahub ingest -c recipe.yml

Commitoi resepti versionhallintaan toistettavuuden varmistamiseksi.

CLI-aineiston tuonti ja reseptit on dokumentoitu yksityiskohtaisesti <a href="{cli_ingestion_link}">täällä</a>. Tämä lähestymistapa on parempi kehitys-/tuotantoputkille, automaatiolle ja johdonmukaisuudelle.

Ammattilaisvinkkejä aineiston tuontiin:

Aloita yhdellä tai kahdella lähteellä, jotka ovat tärkeimpiä (esim. Snowflake + dbt). Nopeat voitot rakentavat vauhtia.

Suodata aggressiivisesti. Älä tuo jokaista hiekkalaatikon tietojoukkoa ensimmäisenä päivänä; se luo melua.

Lisää alustan instanssinimet (kuten snowflake:prod vs snowflake:dev) sekaannusten välttämiseksi.

Tutki käyttöliittymää: Haku, linjaus ja omistajuus Kun ensimmäinen aineiston tuonti on valmis, hyppää käyttöliittymään vahvistaaksesi arvon nopeasti:

Yleishaku: Etsi tietojoukkoja, kojetauluja ja putkia nimen, skeeman, tunnisteiden tai sanastotermien perusteella.

Linjauskaavio: Napsauta tietojoukkoa nähdäksesi ylä- ja alavirran yhteydet. Tämä on kultaa vaikutusanalyysille.

Omistajuus ja dokumentaatio: Lisää omistajia (tiimejä tai käyttäjiä) ja kirjoita selkeitä kuvauksia. Nämä ovat ensimmäiset luottamussignaalit, jotka organisaatiosi tuntee.

Skeema ja profilointi: Tarkista sarakkeiden nimet, tyypit ja näytetilastot. Huomaa poikkeamat varhain.

Lisää merkitystä: Sanasto, tunnisteet ja verkkotunnukset Raaka metadata on vasta alkua. Saat todellisen käyttöönoton kerrostamalla semantiikkaa:

Sanastotermit: Määritä liiketoimintaystävällisiä käsitteitä (Asiakas, ARR, Aktiivinen käyttäjä). Liitä tietojoukkoihin/sarakkeisiin standardoidaksesi kielen.

Tunnisteet: Kevyet etiketit (PII, Kriittinen, Vanhentunut, Kulta). Nopeat visuaaliset vihjeet riskille ja tärkeydelle.

Verkkotunnukset: Ryhmittele liittyviä resursseja liiketoimintafunktion (Rahoitus, Markkinointi) tai alustan mukaan.

Suositeltava ensimmäinen taksonomia:

Kolme sanastotermiä, jotka kaikki ymmärtävät (Asiakas, Tilaus, Liikevaihto)

Pieni tunnistepaketti: pii, kulta, vanhentunut, kokeellinen

5–7 verkkotunnusta, jotka vastaavat organisaatiokaaviotasi tai tietoalustojasi

Skaalautuva hallinta: Käytännöt ja pääsy DataHub tukee rooli- ja resurssipohjaisia käytäntöjä, joten voit hallita, kuka voi tehdä mitä (muokata dokumentaatiota, lisätä tunnisteita, hallita linjausta jne.). Aloita yksinkertaisesti:

Luo "Stewards"-ryhmä, jolla on muokkausoikeudet dokumentteihin, omistajuuteen ja tunnisteisiin.

Anna analyytikoille lukuoikeus useimpiin resursseihin, mutta rajoita arkaluonteisia verkkotunnuksia.

Vaadi omistajia "kulta"-tietojoukoille, ennen kuin ne näkyvät "Suosituimmat valinnat" -kohdassa.

Käytännöt ja hallinta ovat alustan sisällä, joten kokemus on yhtenäinen muokkaajille ja katsojille. Kun organisaatiosi kypsyy, laajenna tarkemmilla käyttöoikeuksilla ja hyväksyntätyönkuluilla.

Operatiiviset parhaat käytännöt: Tee siitä pysyvää Metadata-ohjelmat epäonnistuvat, kun ne tuntuvat ylimääräiseltä työltä. Tee DataHubista osa normaalia työnkulkua:

Upota PR:iin/CI:hin: Kun tietoputket muuttuvat, suorita metadata-aineiston tuonti ja vertaa skeeman eroja. Merkitse rikkovat muutokset automaattisesti.

Kohdista dbt:hen: Käytä dbt-dokumentteja, testejä ja paljastuksia; tuo ne esiin DataHubissa yhdistääksesi koodin liiketoimintakontekstiin.

Luo "Käyttöönotto-opas": Omistajat lisäävät dokumentteja, tunnisteita ja sanastotermejä perehdytyksen aikana. Palkitse laatua tuloskorttien avulla.

Julkaise datasopimus: Määritä keskeisille taulukoille SLA, tuoreus, nollaus ja vakaussäännöt. Tuo se esiin DataHubissa.

Pilottihankkeesta tuotantoon: Mitä muutoksia?

Infrastruktuuri: Siirry paikallisesta Dockerista hallittuun ympäristöön (Kubernetes, pilvipalvelut). Harkitse isännöityä vaihtoehtoa, jos sellainen on saatavilla organisaatiossasi.

Todennus/SSO: Integroi identiteettipalveluntarjoajaasi (Okta, Azure AD jne.).

Observabiliteetti: Valvo aineiston tuontitöitä, graafin kokoa ja käyttöliittymän suorituskykyä.

Muutoshallinta: Vakiinnuta metadatan tarkistusrytmi (esim. viikoittaiset hallintosynkronoinnit).

Vianmääritys: Yleiset sudenkuopat ja korjaukset

"En näe taulukkoani." Tarkista verkkosäännöt, tunnistetiedot ja lähdesuodattimet. Suorita minimaalinen aineiston tuontiresepti ongelman eristämiseksi.

"Linjaus on puutteellinen." Varmista, että olet tuonut aineistoa orkestroinnista (Airflow), transformaatiosta (dbt) ja varastolähteistä. Linjaus tarvitsee usein useita liittimiä.

"Haku tuntuu sekavalta." Kiristä suodattimia, lisää tunnisteita/sanastoa ja piilota vanhentuneet resurssit.

"Dokumentit ovat vanhentuneita." Aikatauluta säännöllinen aineiston tuonti; kannusta omistajia päivittämään kuvauksia koodimuutosten ohella.

Esimerkki: Nopea tie arvoon 48 tunnissa Päivä 1

Käynnistä DataHub paikallisesti pika-aloituksen avulla.

Tuo aineistoa varastostasi (Snowflake/BigQuery) UI-aineiston tuonnin avulla.

Lisää omistajia ja kuvauksia viidelle kriittiselle tietojoukolle.

Luo sanastotermit Asiakas ja Liikevaihto; merkitse kyseiset tietojoukot kullaksi.

Päivä 2

Tuo dbt-metadataa yhdistääksesi mallit taulukoihin.

Vahvista linjaus aineiston tuonnin → transformaation → BI:n välillä.

Luo käytäntö, jonka mukaan vain hallinnoijat voivat muuttaa kultaisten tietojoukkojen dokumentteja.

Esittele linjausnäkymä ja hakukokemus sidosryhmille; kerää palautetta.

Tärkeimmät viitteet

Pika-aloitus: paikallinen asennus, tunnistetiedot, portit, komennot

Konseptit ja arkkitehtuurin yleiskatsaus

UI-pohjaisen aineiston tuonnin vaiheet

CLI-aineiston tuonti ja YAML-reseptit

Miten Sider.AI voi auttaa Jos tiimisi tutkii usein parhaita käytäntöjä, kirjoittaa tietojoukon dokumentteja tai tarvitsee helposti sulatettavia yhteenvetoja linjauksen ja skeeman muutoksista, on syytä huomata, että Sider.AI voi nopeuttaa dokumentaatiota ja tiedon jakamista. Voit esimerkiksi muuttaa tiiviit skeeman erot ihmisen luettaviksi muutoslokeiksi tai luoda ensimmäisen luonnoksen tietojoukon kuvauksista, joita hallinnoijat tarkentavat—vähentäen aikaa raa'asta metadatasta käyttökelpoiseen kontekstiin.

Pikavinkit: Ensimmäiset 10 toimenpidettäsi

Käynnistä DataHub paikallisesti pika-aloituksen avulla.

Lisää yksi varastolähde UI-aineiston tuonnin avulla.

Tuo dbt- tai orkestrointimetadatan linjaus.

Lisää omistajia 5–10 keskeiselle tietojoukolle.

Kirjoita ytimekkäitä kuvauksia (2–3 virkettä kukin).

Luo 3 sanastotermiä ja 4–6 tunnistetta.

Merkitse 5 tietojoukkoa kullaksi ja piilota vanhentuneet.

Aseta yksi muokkauskäytäntö hallinnoijille.

Aikatauluta päivittäinen aineiston tuonti.

Esittele käyttöliittymä 2 sidosryhmätiimille ja kerää palautetta.

Mitä seuraavaksi?

Skaalaa Kubernetesiin tai hallittuun ympäristöön.

Ota käyttöön SSO ja ryhmät hallintaa varten.

Laajenna aineiston tuonti BI:hin ja tapahtumavirtoihin.

Rakenna tuloskortteja tiedon laadulle ja dokumentaation täydellisyydelle.

Integroi CI/CD:hen, jotta skeeman muutokset heijastuvat aina luettelossa.

Lopulliset johtopäätökset

Aloita pienesti, toimita arvoa nopeasti ja iterioi.

Käytä UI-aineiston tuontia nopeuteen; CLI:tä toistettavuuteen.

Kerrosta sanasto, tunnisteet ja käytännöt varhain luottamuksen lisäämiseksi.

Yhdistä varasto + dbt + BI täydellisen linjauksen saamiseksi.

Kohtele dokumentaatiota osana kehitystä, ei jälkikäteen.

UKK

K1: Mikä on DataHub ja miksi minun pitäisi käyttää sitä? DataHub on avoimen lähdekoodin metadata-alusta löytämiseen, linjaukseen ja hallintaan tietopinossasi. Se auttaa tiimejä löytämään luotettavia tietojoukkoja, ymmärtämään vaikutusta ja standardoimaan dokumentaatiota. Opi perusteet virallisesta johdannosta.

K2: Miten asennan DataHubin nopeasti? Käytä pika-aloitusta: asenna Docker, asenna CLI ja aloita sitten yhdellä komennolla. Voit käyttää käyttöliittymää paikallisesti ja kirjautua sisään oletusarvoilla vahvistaaksesi asennuksen nopeasti.

K3: Pitäisikö minun käyttää UI-aineiston tuontia vai CLI-aineiston tuontia DataHubissa? Käytä UI-pohjaista aineiston tuontia päästäksesi alkuun nopeasti tai ottaaksesi mukaan muita kuin insinöörejä; se on erinomainen ensimmäisen kerran yhteydenpitoon ja demoihin. Vaihda CLI-aineiston tuontiin versioituja reseptejä, automaatiota ja CI/CD-integraatiota varten.

K4: Miten saan linjauksen näkymään DataHubissa? Tuo aineistoa useista lähteistä: varastostasi (esim. Snowflake), transformaatiokerroksestasi (esim. dbt) ja orkestroinnista (esim. Airflow). Linjaus syntyy, kun DataHub yhdistää nämä osat.

K5: Mitkä hallintaominaisuudet minun pitäisi ottaa käyttöön ensimmäisenä DataHubissa? Aloita omistajuudella, ytimekkäillä kuvauksilla, pienellä sanastolla ja johdonmukaisilla tunnisteilla, kuten kulta, pii ja vanhentunut. Lisää sitten käytäntöjä hallitaksesi, kuka voi muokata kriittisiä resursseja, ja aikatauluta säännöllinen aineiston tuonti.