Preparat per transformar la dispersió de dades en claredat? DataHub—una plataforma de metadades de codi obert creada originalment a LinkedIn—ajuda els equips a descobrir, confiar i governar les dades a través de magatzems, eines de BI, sistemes d'orquestració i molt més. En aquesta guia pràctica i pas a pas, passaràs de zero a una instància de DataHub en funcionament, ingeriràs metadades, exploraràs el llinatge i configuraràs la governança, sense perdre't en argot.
Què aprendràs d'un cop d'ull:
- Activa DataHub localment en minuts
- Ingereix metadades de fonts comunes (p. ex., Snowflake, BigQuery, dbt)
- Explora la cerca, el llinatge, la propietat i la documentació a la IU
- Defineix polítiques, etiquetes i termes per a la governança
- Implementa processos d'equip que realment funcionin
Nota: Aquesta és una guia pràctica i orientada a la solució dissenyada per mapejar fluxos de treball reals. Citarem la documentació oficial per a detalls i immersions més profundes quan sigui necessari.
- Inici ràpid: posa DataHub en funcionament localment
Si estàs experimentant o pilotant DataHub, el camí més ràpid és l'inici ràpid. Assegura't de tenir Docker instal·lat primer. Llavors:
- Instal·la la CLI de DataHub
- Inicia amb una sola ordre
- Obre la IU i inicia la sessió amb els valors predeterminats
Els detalls, les ordres i els valors predeterminats oficials de l'inici ràpid són aquí. La introducció explica l'arquitectura i per què DataHub utilitza un model de metadades en temps real (entitats, aspectes i actualitzacions de transmissió) adequat per a les piles modernes.
Consells de configuració intel·ligents:
- Comença localment fins i tot si preveus anar a Kubernetes més endavant. És més ràpid per a la compra i les demostracions.
- Si ja tens Docker Desktop, normalment estaràs a punt en qüestió de minuts.
- Mantén les credencials segures, fins i tot en un sandbox. Els hàbits construïts ara donen els seus fruits més tard.
- Comprendre els conceptes bàsics en 5 minuts
Abans d'ingerir res, familiaritza't amb el model mental de DataHub:
- Entitats: Coses com conjunts de dades, taules, gràfics, quadres de comandament, canonades, usuaris.
- Aspectes: "Facets" versionats de metadades sobre entitats (esquema, propietat, etiquetes, termes de glossari, llinatge).
- Gràfic: Les relacions (llinatge, propietat, dependències) potencien l'experiència de cerca i descobriment.
Aquest enfocament basat en gràfics permet funcions com l'anàlisi d'impacte (què es trenca si canviem aquesta columna?), el mapeig de llinatge aigües avall i els senyals de confiança (propietaris, etiquetes, documentació). Una visió general conceptual concisa es troba a la guia d'introducció.
- Ingerir metadades: IU vs. CLI (Trieu el vostre camí)
DataHub admet tant la ingesta d'IU fàcil d'utilitzar com les canonades CLI scriptables. Trieu el que s'adapti al vostre flux de treball actual; molts equips utilitzen tots dos.
Opció A: Ingesta basada en la IU (ràpida per a les primeres execucions)
- A la IU, aneu a Ingesta → Nova font.
- Trieu una font (p. ex., Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).
- Introduïu els detalls de la connexió.
- Programeu o executeu la ingesta a la carta.
El flux i els passos de la IU es cobreixen aquí. És ideal per a no enginyers o equips que volen validar la connectivitat ràpidament.
Opció B: Ingesta basada en CLI (repetible i compatible amb CI)
- Creeu una recepta YAML que defineixi la vostra font, filtres i mapeig.
- Executa: datahub ingest -c recipe.yml
- Confirmeu la recepta al control de versions per a la repetibilitat.
La ingesta i les receptes de la CLI es documenten detalladament aquí. Aquest enfocament és millor per a canonades de desenvolupament/producció, automatització i coherència.
Consells professionals per a la ingesta:
- Comenceu amb una o dues fonts que siguin més importants (p. ex., Snowflake + dbt). Les victòries ràpides creen impuls.
- Filtreu de manera agressiva. No ingereixis tots els conjunts de dades de sandbox el primer dia; crea soroll.
- Afegiu noms d'instàncies de plataforma (com snowflake:prod vs snowflake:dev) per evitar confusions.
- Exploreu la IU: cerca, llinatge i propietat
Un cop finalitzada la vostra primera ingesta, salteu a la IU per validar el valor ràpidament:
- Cerca universal: trobeu conjunts de dades, quadres de comandament i canonades per nom, esquema, etiquetes o termes de glossari.
- Gràfic de llinatge: feu clic a un conjunt de dades per veure les connexions aigües amunt i aigües avall. Això és or per a l'anàlisi d'impacte.
- Propietat i documentació: afegiu propietaris (equips o usuaris) i escriviu descripcions clares. Aquests són els primers senyals de confiança que sentirà la vostra organització.
- Esquema i perfil: reviseu els noms de les columnes, els tipus i les estadístiques de mostra. Detecteu anomalies aviat.
- Afegiu significat: glossari, etiquetes i dominis
Les metadades en brut són només el començament. Desbloquejaràs l'adopció real superposant la semàntica:
- Termes de glossari: definiu conceptes fàcils d'utilitzar per a l'empresa (Client, ARR, Usuari actiu). Adjunteu-los a conjunts de dades/columnes per estandarditzar el llenguatge.
- Etiquetes: etiquetes lleugeres (PII, Crític, Desaprovat, Or). Indicacions visuals ràpides per al risc i la importància.
- Dominis: agrupeu els actius relacionats per funció empresarial (Finances, Màrqueting) o plataforma.
Primera taxonomia recomanada:
- Tres termes de glossari que tothom entén (Client, Comanda, Ingressos)
- Un petit conjunt d'etiquetes: pii, or, desaprovat, experimental
- 5–7 dominis que es corresponen amb el vostre organigrama o plataformes de dades
- Governança que escala: polítiques i accés
DataHub admet polítiques basades en rols i actius perquè pugueu controlar qui pot fer què (editar documentació, afegir etiquetes, gestionar el llinatge, etc.). Comenceu de manera senzilla:
- Creeu un grup "Stewards" amb drets d'edició sobre documents, propietat i etiquetes.
- Doneu als analistes accés de lectura a la majoria d'actius, però restringiu els dominis sensibles.
- Exigiu propietaris per als conjunts de dades "or" abans que apareguin a "Seleccions principals".
Les polítiques i la governança resideixen dins de la plataforma, de manera que l'experiència és coherent per a editors i visualitzadors. A mesura que la vostra organització maduri, expandiu-vos amb permisos i fluxos d'aprovació més granulars.
- Millors pràctiques operatives: fes que s'enganxi
Els programes de metadades fallen quan se senten com a treball addicional. Fes que DataHub formi part del flux normal:
- Incrusta en PR/CI: quan les canonades de dades canvien, executeu una ingesta de metadades i compareu les diferències d'esquema. Marqueu els canvis importants automàticament.
- Alinea't amb dbt: utilitza documents, proves i exposicions de dbt; mostra-los a DataHub per connectar el codi amb el context empresarial.
- Creeu un "Manual d'adopció": els propietaris afegeixen documents, etiquetes i termes de glossari durant la incorporació. Recompenseu la qualitat mitjançant quadres de comandament.
- Publiqueu un contracte de dades: per a les taules clau, definiu SLA, frescor, nul·litat i regles d'estabilitat. Mostra-ho a DataHub.
- Del pilot a la producció: què canvia?
- Infraestructura: moveu-vos de Docker local a un entorn gestionat (Kubernetes, serveis al núvol). Considereu una opció allotjada si està disponible a la vostra organització.
- Autenticació/SSO: integreu-vos amb el vostre proveïdor d'identitat (Okta, Azure AD, etc.).
- Observabilitat: superviseu els treballs d'ingesta, la mida del gràfic i el rendiment de la IU.
- Gestió del canvi: establiu una cadència de revisió de metadades (p. ex., sincronitzacions setmanals de gestió).
- Resolució de problemes: problemes comuns i correccions
- "No puc veure les meves taules." Comproveu les regles de xarxa, les credencials i els filtres de font. Executeu una recepta d'ingesta mínima per aïllar el problema.
- "El llinatge està incomplet." Assegureu-vos que heu ingerit des de l'orquestració (Airflow), la transformació (dbt) i les fonts del magatzem. El llinatge sovint necessita diversos connectors.
- "La cerca se sent desordenada." Ajusteu els filtres, afegiu etiquetes/glossari i amagueu els actius desaprovats.
- "Els documents estan obsolets." Programeu una ingesta regular; animeu els propietaris a actualitzar les descripcions juntament amb els canvis de codi.
- Exemple: un camí ràpid cap al valor en 48 hores
Dia 1
- Activa DataHub localment mitjançant l'inici ràpid.
- Ingereix des del teu magatzem (Snowflake/BigQuery) utilitzant la ingesta de la IU.
- Afegiu propietaris i descripcions a cinc conjunts de dades crítics.
- Creeu termes de glossari per a Client i Ingressos; etiqueteu aquests conjunts de dades com a or.
Dia 2
- Ingereix metadades de dbt per connectar models a taules.
- Valideu el llinatge a través d'ingesta → transformació → BI.
- Creeu una política que només els administradors puguin canviar els documents del conjunt de dades d'or.
- Feu una demostració de la vista de llinatge i l'experiència de cerca als interessats; recopileu comentaris.
Referències clau
- Inici ràpid: configuració local, credencials, ports, ordres
- Visió general dels conceptes i l'arquitectura
- Passos d'ingesta basats en la IU
- Ingesta de CLI i receptes YAML
On Sider.AI pot ajudar
Si el teu equip investiga amb freqüència les millors pràctiques, escriu documents del conjunt de dades o necessita resums digeribles dels canvis d'esquema i llinatge, val la pena assenyalar que Sider.AI pot accelerar la documentació i l'intercanvi de coneixement. Per exemple, podeu convertir les diferències d'esquema denses en registres de canvis llegibles per humans o generar descripcions d'esborrany inicial del conjunt de dades que els administradors perfeccionen, reduint el temps des de les metadades en brut fins al context utilitzable. Full de trucs: les vostres primeres 10 accions
- Inicia DataHub localment mitjançant l'inici ràpid.
- Afegiu una font de magatzem mitjançant la ingesta de la IU.
- Ingereix metadades de dbt o orquestració per al llinatge.
- Afegiu propietaris a 5–10 conjunts de dades clau.
- Escriu descripcions concises (2–3 frases cadascuna).
- Creeu 3 termes de glossari i 4–6 etiquetes.
- Etiqueteu 5 conjunts de dades com a or i amagueu els desaprovats.
- Establiu una política d'editor per als administradors.
- Programeu la ingesta diària.
- Feu una demostració de la IU a 2 equips d'interessats i recopileu comentaris.
Què segueix?
- Escala a Kubernetes o un entorn gestionat.
- Implementeu SSO i grups per a la governança.
- Amplieu la ingesta a BI i fluxos d'esdeveniments.
- Creeu quadres de comandament per a la qualitat de les dades i la integritat de la documentació.
- Integreu-vos amb CI/CD perquè els canvis d'esquema sempre es reflecteixin al catàleg.
Conclusions finals
- Comenceu petit, lliureu valor ràpidament i itereu.
- Utilitzeu la ingesta de la IU per a la velocitat; CLI per a la repetibilitat.
- Incorporeu glossari, etiquetes i polítiques aviat per augmentar la confiança.
- Connecteu magatzem + dbt + BI per a un llinatge complet.
- Tracteu la documentació com a part del desenvolupament, no com una idea posterior.
Preguntes freqüents
P1: Què és DataHub i per què l'he d'utilitzar?
DataHub és una plataforma de metadades de codi obert per al descobriment, el llinatge i la governança a tota la vostra pila de dades. Ajuda els equips a trobar conjunts de dades de confiança, comprendre l'impacte i estandarditzar la documentació. Apreneu els fonaments a la introducció oficial.
P2: Com instal·lo DataHub ràpidament?
Utilitzeu l'inici ràpid: instal·leu Docker, instal·leu la CLI i, a continuació, comenceu amb una sola ordre. Podeu accedir a la IU localment i iniciar la sessió amb els valors predeterminats per validar la configuració ràpidament.
P3: He d'utilitzar la ingesta de la IU o la ingesta de la CLI a DataHub?
Utilitzeu la ingesta basada en la IU per començar ràpidament o involucrar a no enginyers; és ideal per a la connectivitat i les demostracions per primera vegada. Canvieu a la ingesta de la CLI per a receptes versionades, automatització i integració de CI/CD.
P4: Com faig que el llinatge aparegui a DataHub?
Ingereix des de múltiples fonts: el teu magatzem (p. ex., Snowflake), la teva capa de transformació (p. ex., dbt) i l'orquestració (p. ex., Airflow). El llinatge sorgeix a mesura que DataHub connecta aquestes peces.
P5: Quines funcions de governança he d'habilitar primer a DataHub?
Comenceu amb la propietat, les descripcions concises, un petit glossari i etiquetes coherents com or, pii i desaprovat. A continuació, afegiu polítiques per controlar qui pot editar actius crítics i programar una ingesta regular.