What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

A DataHub használata: Praktikus, teljes körű útmutató az adatkatalógusodhoz

Készen állsz, hogy a data sprawl-t átláthatóságra váltsd? A DataHub – egy nyílt forráskódú metaadat platform, amelyet eredetileg a LinkedIn-nél hoztak létre – segít a csapatoknak felfedezni, megbízni és irányítani az adatokat a raktárakban, BI eszközökben, vezérlőrendszerekben és egyebekben. Ebben a gyakorlati, lépésről lépésre szóló útmutatóban a nulláról egy működő DataHub példányhoz jutsz, metaadatokat fogsz betölteni, feltárod a származást, és beállítod az irányítást – anélkül, hogy elvesznél a szakzsargonban.

Mit fogsz megtanulni egy pillantásra:

Indítsd el a DataHub-ot helyben percek alatt

Metaadatok betöltése gyakori forrásokból (pl. Snowflake, BigQuery, dbt)

Keresés, származás, tulajdonjog és dokumentáció felfedezése a felhasználói felületen

Szabályzatok, címkék és kifejezések meghatározása az irányításhoz

Vezesd be azokat a csapatfolyamatokat, amelyek ténylegesen beválnak

Megjegyzés: Ez egy gyakorlati és megoldásorientált útmutató, amelyet arra terveztek, hogy a valós munkafolyamatokhoz igazodjon. Szükség esetén hivatkozni fogunk a hivatalos dokumentációra a részletekért és a mélyebb elemzésekért.

Gyorsindítás: Futtasd a DataHub-ot helyben Ha kísérletezel vagy teszteled a DataHub-ot, a leggyorsabb út a gyorsindítás. Először győződj meg arról, hogy a Docker telepítve van. Azután:

Telepítsd a DataHub CLI-t

Indítsd el egyetlen paranccsal

Nyisd meg a felhasználói felületet, és jelentkezz be az alapértelmezett beállításokkal

A hivatalos gyorsindítás részletei, parancsai és alapértelmezett beállításai itt találhatók. A bevezető elmagyarázza az architektúrát és azt, hogy a DataHub miért használ valós idejű metaadat modellt (entitások, aspektusok és streaming frissítések), amely alkalmas a modern stack-ekhez.

Okos beállítási tippek:

Kezdd helyben, még akkor is, ha később Kubernetes-re tervezel váltani. Gyorsabb a meggyőzéshez és a demókhoz.

Ha már rendelkezel Docker Desktop-pal, akkor általában percek alatt elindulhatsz.

Őrizd meg a hitelesítő adatokat biztonságban – még egy sandbox környezetben is. A most kialakított szokások később kifizetődnek.

Értsd meg a főbb fogalmakat 5 perc alatt Mielőtt bármit is betöltenél, ismerkedj meg a DataHub mentális modelljével:

Entitások: Olyan dolgok, mint adathalmazok, táblák, diagramok, irányítópultok, folyamatok, felhasználók.

Aspektusok: Az entitások metaadatainak verziózott "facetái" (séma, tulajdonjog, címkék, glosszárium kifejezések, származás).

Gráf: A kapcsolatok (származás, tulajdonjog, függőségek) táplálják a keresési és felfedezési élményt.

Ez a gráf alapú megközelítés olyan funkciókat tesz lehetővé, mint a hatásvizsgálat (mi romlik el, ha megváltoztatjuk ezt az oszlopot?), a downstream származás feltérképezése és a bizalmi jelek (tulajdonosok, címkék, dokumentáció). Egy tömör fogalmi áttekintés a bevezető útmutatóban található.

Metaadatok betöltése: UI vs. CLI (Válaszd ki a neked megfelelő utat) A DataHub támogatja mind a felhasználóbarát UI betöltést, mind a szkriptelhető CLI folyamatokat. Válaszd ki, ami a legjobban illik a munkafolyamatodhoz – sok csapat mindkettőt használja.

A. lehetőség: UI-alapú betöltés (gyors az első futtatásokhoz)

A felhasználói felületen menj a Betöltés → Új forrás menüpontra.

Válassz egy forrást (pl. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Add meg a kapcsolódási adatokat.

Teszteld a kapcsolatot.

Ütemezd vagy futtasd a betöltést igény szerint.

A felhasználói felületi folyamat és a lépések itt találhatók. Ideális nem mérnökök vagy olyan csapatok számára, akik gyorsan szeretnék ellenőrizni a kapcsolatot.

B. lehetőség: CLI-alapú betöltés (megismételhető és CI-barát)

Hozd létre a YAML receptet, amely meghatározza a forrást, a szűrőket és a hozzárendelést.

Futtasd: datahub ingest -c recipe.yml

Commit-old a receptet a verziókövetéshez a megismételhetőség érdekében.

A CLI betöltés és a receptek részletesen dokumentálva vannak itt. Ez a megközelítés jobb a dev/prod folyamatokhoz, az automatizáláshoz és a konzisztenciához.

Profi tippek a betöltéshez:

Kezdd egy vagy két olyan forrással, amely a legfontosabb (pl. Snowflake + dbt). A gyors sikerek lendületet adnak.

Szűrj agresszíven. Ne tölts be minden sandbox adathalmazt az első napon; ez zajt okoz.

Adj hozzá platform példányneveket (például snowflake:prod vs snowflake:dev) a zavar elkerülése érdekében.

Fedezd fel a felhasználói felületet: Keresés, származás és tulajdonjog Miután az első betöltés befejeződött, ugorj be a felhasználói felületre, hogy gyorsan ellenőrizd az értéket:

Univerzális keresés: Keress adathalmazokat, irányítópultokat és folyamatokat név, séma, címkék vagy glosszárium kifejezések alapján.

Származási gráf: Kattints egy adathalmazra a upstream és downstream kapcsolatok megtekintéséhez. Ez aranyat ér a hatásvizsgálathoz.

Tulajdonjog és dokumentáció: Adj hozzá tulajdonosokat (csapatokat vagy felhasználókat), és írj világos leírásokat. Ezek az első bizalmi jelek, amelyeket a szervezeted érezni fog.

Séma és profilozás: Tekintsd át az oszlopneveket, típusokat és minta statisztikákat. Vedd észre a rendellenességeket korán.

Adj hozzá jelentést: Glosszárium, címkék és domainek A nyers metaadat csak a kezdet. A szemantika rétegzésével valós elfogadást fogsz elérni:

Glosszárium kifejezések: Határozz meg üzleti szempontból érthető fogalmakat (Vevő, ARR, Aktív felhasználó). Csatold az adathalmazokhoz/oszlopokhoz a nyelv szabványosításához.

Címkék: Könnyű címkék (PII, Kritikus, Elavult, Arany). Gyors vizuális jelzések a kockázatokhoz és a fontossághoz.

Domainek: Csoportosítsd a kapcsolódó eszközöket üzleti funkció (Pénzügy, Marketing) vagy platform szerint.

Ajánlott első taxonómia:

Három glosszárium kifejezés, amelyet mindenki ért (Vevő, Rendelés, Bevétel)

Egy kis címkekészlet: pii, gold, deprecated, experimental

5–7 domain, amely megfelel a szervezeti diagramnak vagy az adatformoknak

Skálázható irányítás: Szabályzatok és hozzáférés A DataHub támogatja a szerep- és eszközalapú szabályzatokat, így szabályozhatod, hogy ki mit tehet (dokumentáció szerkesztése, címkék hozzáadása, származás kezelése stb.). Kezdd egyszerűen:

Hozd létre a „Gondnokok” csoportot a dokumentumok, a tulajdonjog és a címkék szerkesztési jogaival.

Adj az elemzőknek olvasási hozzáférést a legtöbb eszközhöz, de korlátozd az érzékeny domaineket.

Kötelező tulajdonosok az „arany” adathalmazokhoz, mielőtt azok megjelennek a „Legjobb választások” között.

A szabályzatok és az irányítás a platformon belül találhatók, így a szerkesztők és a nézők számára is egységes az élmény. A szervezet érettségével bővítsd ki a részletesebb engedélyekkel és jóváhagyási folyamatokkal.

Működési bevált gyakorlatok: Tedd tartóssá A metaadat programok megbuknak, ha plusz munkának érződnek. Tedd a DataHub-ot a normál folyamat részévé:

Ágyazd be a PR-ekbe/CI-be: Amikor az adatfolyamatok megváltoznak, futtass egy metaadat betöltést, és hasonlítsd össze a séma különbségeket. Jelöld meg automatikusan a breaking change-eket.

Hangold össze a dbt-vel: Használd a dbt dokumentumokat, teszteket és expozíciókat; jelenítsd meg őket a DataHub-ban, hogy összekapcsold a kódot az üzleti kontextussal.

Hozd létre az „Elfogadási útmutatót”: A tulajdonosok a bevezetés során dokumentumokat, címkéket és glosszárium kifejezéseket adnak hozzá. Jutalmazd a minőséget az értékelő kártyákon keresztül.

Tegyél közzé egy adat szerződést: A kulcsfontosságú táblákhoz határozz meg SLA, frissesség, nullázhatóság és stabilitási szabályokat. Jelenítsd meg a DataHub-ban.

A kísérleti projekttől a termelésig: Mi változik?

Infrastruktúra: Lépj át a helyi Docker-ről egy menedzselt környezetbe (Kubernetes, felhőszolgáltatások). Fontold meg a hosztolt opciót, ha elérhető a szervezetedben.

Auth/SSO: Integrálódj az identitásszolgáltatóddal (Okta, Azure AD stb.).

Megfigyelhetőség: Figyeld a betöltési feladatokat, a gráf méretét és a felhasználói felület teljesítményét.

Változáskezelés: Hozz létre egy metaadat felülvizsgálati ütemtervet (pl. heti gondnoki szinkronizálás).

Hibaelhárítás: Gyakori buktatók és javítások

„Nem látom a tábláimat.” Ellenőrizd a hálózati szabályokat, a hitelesítő adatokat és a forrásszűrőket. Futtass egy minimális betöltési receptet a probléma elkülönítéséhez.

„A származás hiányos.” Győződj meg arról, hogy betöltöttél a vezérlésből (Airflow), az átalakításból (dbt) és a raktárforrásokból. A származáshoz gyakran több összekötőre van szükség.

„A keresés zsúfoltnak tűnik.” Húzd meg a szűrőket, adj hozzá címkéket/glosszáriumot, és rejtsd el az elavult eszközöket.

„A dokumentumok elavultak.” Ütemezz rendszeres betöltést; ösztönözd a tulajdonosokat, hogy frissítsék a leírásokat a kódváltoztatásokkal együtt.

Példa: Gyors út az értékhez 48 óra alatt 1. nap

Indítsd el a DataHub-ot helyben a gyorsindítással.

Tölts be az adattárolódból (Snowflake/BigQuery) a felhasználói felületi betöltéssel.

Adj hozzá tulajdonosokat és leírásokat öt kritikus adathalmazhoz.

Hozd létre a Vevő és a Bevétel glosszárium kifejezéseket; címkézd meg ezeket az adathalmazokat aranyként.

2. nap

Töltsd be a dbt metaadatokat a modellek és táblák összekapcsolásához.

Ellenőrizd a származást a betöltés → átalakítás → BI között.

Hozd létre azt a szabályzatot, hogy csak a gondnokok módosíthatják az arany adathalmaz dokumentumait.

Mutasd be a származási nézetet és a keresési élményt az érdekelt feleknek; gyűjts visszajelzéseket.

Főbb hivatkozások

Gyorsindítás: helyi beállítás, hitelesítő adatok, portok, parancsok

Fogalmak és architektúra áttekintése

UI-alapú betöltési lépések

CLI betöltés és YAML receptek

Hol segíthet a Sider.AI? Ha a csapatod gyakran kutatja a bevált gyakorlatokat, adathalmaz dokumentumokat ír, vagy a származás és a séma változásainak emészthető összefoglalóira van szüksége, érdemes megjegyezni, hogy a Sider.AI felgyorsíthatja a dokumentációt és a tudásmegosztást. Például a sűrű séma különbségeket ember által olvasható változásnaplókká alakíthatod, vagy első vázlat adathalmaz leírásokat generálhatsz, amelyeket a gondnokok finomítanak – csökkentve a nyers metaadatoktól a használható kontextusig eltelt időt.

Puskalap: Az első 10 műveleted

Indítsd el a DataHub-ot helyben a gyorsindítással.

Adj hozzá egy raktárforrást a felhasználói felületi betöltéssel.

Tölts be dbt vagy vezérlési metaadatokat a származáshoz.

Adj hozzá tulajdonosokat 5–10 kulcsfontosságú adathalmazhoz.

Írj tömör leírásokat (mindegyik 2–3 mondat).

Hozd létre 3 glosszárium kifejezést és 4–6 címkét.

Címkézz meg 5 adathalmazt aranyként, és rejtsd el az elavultakat.

Állíts be egy szerkesztői szabályzatot a gondnokok számára.

Ütemezz napi betöltést.

Mutasd be a felhasználói felületet 2 érdekelt fél csapatnak, és gyűjts visszajelzéseket.

Mi a következő lépés?

Skálázd Kubernetes-re vagy egy menedzselt környezetbe.

Vezesd be az SSO-t és a csoportokat az irányításhoz.

Bővítsd ki a betöltést a BI és az eseményfolyamok felé.

Építs ki értékelő kártyákat az adatminőséghez és a dokumentáció teljességéhez.

Integrálódj a CI/CD-vel, hogy a séma változások mindig tükröződjenek a katalógusban.

Végső tanulságok

Kezdd kicsiben, szállíts értéket gyorsan, és ismételd meg.

Használd a felhasználói felületi betöltést a sebességhez; a CLI-t a megismételhetőséghez.

Rétegezz be a glosszáriumot, a címkéket és a szabályzatokat korán a bizalom növelése érdekében.

Kapcsold össze a raktárt + dbt-t + BI-t a teljes származás érdekében.

Kezeld a dokumentációt a fejlesztés részeként, ne utólag.

GYIK

Q1:Mi az a DataHub, és miért kellene használnom? A DataHub egy nyílt forráskódú metaadat platform a felfedezéshez, a származáshoz és az irányításhoz az adathalmazodon keresztül. Segít a csapatoknak megtalálni a megbízható adathalmazokat, megérteni a hatást és szabványosítani a dokumentációt. Ismerd meg az alapokat a hivatalos bevezetőben.

Q2:Hogyan telepíthetem gyorsan a DataHub-ot? Használd a gyorsindítást: telepítsd a Dockert, telepítsd a CLI-t, majd indítsd el egyetlen paranccsal. Hozzáférhetsz a felhasználói felülethez helyben, és bejelentkezhetsz az alapértelmezett beállításokkal a beállítás gyors ellenőrzéséhez.

Q3:A felhasználói felületi betöltést vagy a CLI betöltést használjam a DataHub-ban? Használd a felhasználói felületi betöltést a gyors kezdéshez, vagy vonj be nem mérnököket; nagyszerű az első kapcsolódáshoz és a demókhoz. Válts a CLI betöltésre a verziózott receptekhez, az automatizáláshoz és a CI/CD integrációhoz.

Q4:Hogyan jeleníthetem meg a származást a DataHub-ban? Tölts be több forrásból: az adattárolódból (pl. Snowflake), az átalakítási rétegedből (pl. dbt) és a vezérlésből (pl. Airflow). A származás akkor jelenik meg, amikor a DataHub összekapcsolja ezeket a darabokat.

Q5:Milyen irányítási funkciókat engedélyezzek először a DataHub-ban? Kezdd a tulajdonjoggal, a tömör leírásokkal, egy kis glosszáriummal és a következetes címkékkel, mint például az arany, a pii és az elavult. Ezután adj hozzá szabályzatokat annak szabályozásához, hogy ki szerkesztheti a kritikus eszközöket, és ütemezd a rendszeres betöltést.