What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Jak Korzystać z DataHub: Praktyczny, Kompleksowy Przewodnik po Twoim Katalogu Danych

Chcesz przekształcić rozproszone dane w przejrzysty obraz? DataHub — platforma open-source do zarządzania metadanymi, stworzona pierwotnie w LinkedIn — pomaga zespołom odkrywać, ufać i zarządzać danymi w magazynach danych, narzędziach BI, systemach orkiestracji i innych. W tym praktycznym przewodniku krok po kroku przejdziesz od zera do działającej instancji DataHub, zaimportujesz metadane, zbadasz pochodzenie danych i skonfigurujesz zarządzanie – bez gubienia się w żargonie.

Czego dowiesz się w skrócie:

Uruchom DataHub lokalnie w kilka minut

Importuj metadane z popularnych źródeł (np. Snowflake, BigQuery, dbt)

Przeglądaj wyszukiwanie, pochodzenie danych, własność i dokumentację w interfejsie użytkownika

Definiuj zasady, tagi i terminy dotyczące zarządzania

Wprowadź procesy zespołowe, które naprawdę działają

Uwaga: To praktyczny i zorientowany na rozwiązania przewodnik, który ma odzwierciedlać rzeczywiste przepływy pracy. W razie potrzeby będziemy cytować oficjalną dokumentację, aby uzyskać szczegółowe informacje i bardziej dogłębne analizy.

Szybki start: Uruchomienie DataHub lokalnie Jeśli eksperymentujesz lub testujesz DataHub, najszybsza ścieżka to szybki start. Najpierw upewnij się, że masz zainstalowanego Dockera. Następnie:

Zainstaluj DataHub CLI

Uruchom za pomocą jednego polecenia

Otwórz interfejs użytkownika i zaloguj się z użyciem domyślnych ustawień

Oficjalne szczegóły szybkiego startu, polecenia i ustawienia domyślne znajdują się tutaj. Wprowadzenie wyjaśnia architekturę i dlaczego DataHub używa modelu metadanych w czasie rzeczywistym (encje, aspekty i aktualizacje strumieniowe), który jest odpowiedni dla nowoczesnych stosów.

Wskazówki dotyczące inteligentnej konfiguracji:

Zacznij lokalnie, nawet jeśli planujesz później przejść na Kubernetes. Jest to szybsze dla uzyskania akceptacji i demonstracji.

Jeśli masz już Docker Desktop, zwykle uruchomisz wszystko w ciągu kilku minut.

Dbaj o bezpieczeństwo poświadczeń — nawet w piaskownicy. Nawyki wyrobione teraz zaprocentują później.

Zrozumienie podstawowych koncepcji w 5 minut Zanim cokolwiek zaimportujesz, zapoznaj się z modelem mentalnym DataHub:

Encje: Elementy takie jak zbiory danych, tabele, wykresy, pulpity nawigacyjne, potoki, użytkownicy.

Aspekty: Wersjonowane „fasetki” metadanych o encjach (schemat, własność, tagi, terminy słownika).

Graf: Relacje (pochodzenie danych, własność, zależności) napędzają wyszukiwanie i odkrywanie.

To podejście oparte na grafach umożliwia funkcje takie jak analiza wpływu (co się zepsuje, jeśli zmienimy tę kolumnę?), mapowanie pochodzenia danych w dół strumienia i sygnały zaufania (właściciele, tagi, dokumentacja). Zwięzły przegląd koncepcyjny znajduje się we wprowadzeniu.

Importowanie metadanych: Interfejs użytkownika a CLI (wybierz ścieżkę) DataHub obsługuje zarówno przyjazny dla użytkownika import za pomocą interfejsu użytkownika, jak i skryptowalne potoki CLI. Wybierz to, co pasuje do Twojego przepływu pracy dzisiaj – wiele zespołów używa obu.

Opcja A: Import oparty na interfejsie użytkownika (szybki dla pierwszych uruchomień)

W interfejsie użytkownika przejdź do opcji Import → Nowe źródło.

Wybierz źródło (np. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Wprowadź szczegóły połączenia.

Przetestuj połączenie.

Zaplanuj lub uruchom import na żądanie.

Przepływ i kroki interfejsu użytkownika są omówione tutaj. Jest to idealne rozwiązanie dla osób niebędących inżynierami lub zespołów, które chcą szybko zweryfikować łączność.

Opcja B: Import oparty na CLI (powtarzalny i przyjazny dla CI)

Utwórz przepis YAML, który definiuje Twoje źródło, filtry i mapowanie.

Uruchom: datahub ingest -c recipe.yml

Zatwierdź przepis do kontroli wersji w celu powtarzalności.

Import CLI i przepisy są szczegółowo udokumentowane tutaj. To podejście jest lepsze dla potoków dev/prod, automatyzacji i spójności.

Profesjonalne wskazówki dotyczące importu:

Zacznij od jednego lub dwóch najważniejszych źródeł (np. Snowflake + dbt). Szybkie sukcesy budują dynamikę.

Filtruj agresywnie. Nie importuj każdego zbioru danych piaskownicy pierwszego dnia; tworzy to szum.

Dodaj nazwy instancji platformy (takie jak snowflake:prod vs snowflake:dev), aby uniknąć nieporozumień.

Eksploracja interfejsu użytkownika: Wyszukiwanie, pochodzenie danych i własność Po zakończeniu pierwszego importu przejdź do interfejsu użytkownika, aby szybko zweryfikować wartość:

Uniwersalne wyszukiwanie: Znajdź zbiory danych, pulpity nawigacyjne i potoki według nazwy, schematu, tagów lub terminów słownika.

Graf pochodzenia danych: Kliknij zbiór danych, aby zobaczyć połączenia w górę i w dół strumienia. To jest złoto dla analizy wpływu.

Własność i dokumentacja: Dodaj właścicieli (zespoły lub użytkowników) i napisz jasne opisy. To są pierwsze sygnały zaufania, które odczuje Twoja organizacja.

Schemat i profilowanie: Przejrzyj nazwy kolumn, typy i przykładowe statystyki. Wcześnie wykrywaj anomalie.

Dodaj znaczenie: Słownik, tagi i domeny Surowe metadane to dopiero początek. Odblokujesz prawdziwą adopcję, nakładając semantykę:

Terminy słownika: Zdefiniuj przyjazne dla biznesu koncepcje (Klient, ARR, Aktywny użytkownik). Dołącz do zbiorów danych/kolumn, aby ustandaryzować język.

Tagi: Lekkie etykiety (PII, Krytyczne, Przestarzałe, Złote). Szybkie wizualne wskazówki dotyczące ryzyka i ważności.

Domeny: Grupuj powiązane zasoby według funkcji biznesowej (Finanse, Marketing) lub platformy.

Zalecana pierwsza taksonomia:

Trzy terminy słownika, które wszyscy rozumieją (Klient, Zamówienie, Przychód)

Mały zestaw tagów: pii, gold, deprecated, experimental

5–7 domen, które odpowiadają Twojej strukturze organizacyjnej lub platformom danych

Zarządzanie, które się skaluje: Zasady i dostęp DataHub obsługuje zasady oparte na rolach i zasobach, dzięki czemu możesz kontrolować, kto może co robić (edytować dokumentację, dodawać tagi, zarządzać pochodzeniem danych itp.). Zacznij prosto:

Utwórz grupę „Stewards” z prawami do edycji dokumentów, własności i tagów.

Daj analitykom dostęp do odczytu większości zasobów, ale ogranicz dostęp do wrażliwych domen.

Wymagaj właścicieli dla „złotych” zbiorów danych, zanim pojawią się w „Najlepszych wyborach”.

Zasady i zarządzanie znajdują się wewnątrz platformy, więc doświadczenie jest spójne dla edytorów i widzów. W miarę jak Twoja organizacja dojrzewa, rozwijaj się o bardziej szczegółowe uprawnienia i przepływy zatwierdzania.

Najlepsze praktyki operacyjne: Spraw, aby to się utrzymało Programy metadanych zawodzą, gdy wydają się dodatkową pracą. Spraw, aby DataHub był częścią normalnego przepływu:

Osadź w PR/CI: Kiedy zmieniają się potoki danych, uruchom import metadanych i porównaj różnice w schemacie. Automatycznie oznaczaj zmiany powodujące błędy.

Dostosuj do dbt: Używaj dokumentów, testów i ekspozycji dbt; wyświetlaj je w DataHub, aby połączyć kod z kontekstem biznesowym.

Utwórz „Podręcznik adopcji”: Właściciele dodają dokumenty, tagi i terminy słownika podczas wdrażania. Nagradzaj jakość za pomocą kart wyników.

Opublikuj umowę dotyczącą danych: Dla kluczowych tabel zdefiniuj SLA, świeżość, możliwość występowania wartości null i reguły stabilności. Wyświetl je w DataHub.

Od pilotażu do produkcji: Co się zmienia?

Infrastruktura: Przejdź z lokalnego Dockera na środowisko zarządzane (Kubernetes, usługi w chmurze). Rozważ opcję hostowaną, jeśli jest dostępna w Twojej organizacji.

Uwierzytelnianie/SSO: Zintegruj się z dostawcą tożsamości (Okta, Azure AD itp.).

Obserwowalność: Monitoruj zadania importu, rozmiar grafu i wydajność interfejsu użytkownika.

Zarządzanie zmianami: Ustal kadencję przeglądu metadanych (np. cotygodniowe synchronizacje zarządzania).

Rozwiązywanie problemów: Typowe pułapki i rozwiązania

„Nie widzę moich tabel”. Sprawdź reguły sieciowe, poświadczenia i filtry źródłowe. Uruchom minimalny przepis importu, aby wyizolować problem.

„Pochodzenie danych jest niekompletne”. Upewnij się, że zaimportowałeś dane z orkiestracji (Airflow), transformacji (dbt) i źródeł magazynu danych. Pochodzenie danych często wymaga wielu konektorów.

„Wyszukiwanie jest zagracone”. Zaostrz filtry, dodaj tagi/słownik i ukryj przestarzałe zasoby.

„Dokumenty są nieaktualne”. Zaplanuj regularny import; zachęcaj właścicieli do aktualizowania opisów wraz ze zmianami w kodzie.

Przykład: Szybka ścieżka do wartości w 48 godzin Dzień 1

Uruchom DataHub lokalnie za pomocą szybkiego startu.

Importuj z magazynu danych (Snowflake/BigQuery) za pomocą importu interfejsu użytkownika.

Dodaj właścicieli i opisy do pięciu krytycznych zbiorów danych.

Utwórz terminy słownika dla Klienta i Przychodu; oznacz te zbiory danych jako złote.

Dzień 2

Importuj metadane dbt, aby połączyć modele z tabelami.

Zweryfikuj pochodzenie danych w całym procesie import → transformacja → BI.

Utwórz zasadę, że tylko administratorzy mogą zmieniać dokumenty złotego zbioru danych.

Zdemonstruj interesariuszom widok pochodzenia danych i wyszukiwanie; zbierz opinie.

Kluczowe referencje

Szybki start: lokalna konfiguracja, poświadczenia, porty, polecenia

Koncepcje i przegląd architektury

Kroki importu opartego na interfejsie użytkownika

Import CLI i przepisy YAML

Gdzie Sider.AI może pomóc Jeśli Twój zespół często bada najlepsze praktyki, pisze dokumenty dotyczące zbiorów danych lub potrzebuje łatwo przyswajalnych podsumowań zmian w pochodzeniu danych i schemacie, warto zauważyć, że Sider.AI może przyspieszyć dokumentację i wymianę wiedzy. Na przykład możesz przekształcić gęste różnice w schemacie w czytelne dla człowieka dzienniki zmian lub wygenerować wstępne wersje opisów zbiorów danych, które administratorzy dopracowują — skracając czas od surowych metadanych do użytecznego kontekstu.

Ściąga: Twoje pierwsze 10 akcji

Uruchom DataHub lokalnie za pomocą szybkiego startu.

Dodaj jedno źródło magazynu danych za pomocą importu interfejsu użytkownika.

Importuj metadane dbt lub orkiestracji w celu uzyskania pochodzenia danych.

Dodaj właścicieli do 5–10 kluczowych zbiorów danych.

Napisz zwięzłe opisy (po 2–3 zdania każdy).

Utwórz 3 terminy słownika i 4–6 tagów.

Oznacz 5 zbiorów danych jako złote i ukryj przestarzałe.

Ustaw jedną zasadę edytora dla administratorów.

Zaplanuj codzienny import.

Zdemonstruj interfejs użytkownika 2 zespołom interesariuszy i zbierz opinie.

Co dalej?

Skaluj do Kubernetes lub środowiska zarządzanego.

Wprowadź SSO i grupy do zarządzania.

Rozszerz import na BI i strumienie zdarzeń.

Buduj karty wyników dla jakości danych i kompletności dokumentacji.

Zintegruj się z CI/CD, aby zmiany w schemacie zawsze odzwierciedlały się w katalogu.

Końcowe wnioski

Zacznij od małego, szybko dostarczaj wartość i iteruj.

Używaj importu interfejsu użytkownika dla szybkości; CLI dla powtarzalności.

Wcześnie dodaj słownik, tagi i zasady, aby zwiększyć zaufanie.

Połącz magazyn danych + dbt + BI, aby uzyskać pełne pochodzenie danych.

Traktuj dokumentację jako część rozwoju, a nie jako dodatek.

FAQ

P1: Co to jest DataHub i dlaczego powinienem go używać? DataHub to platforma open-source do zarządzania metadanymi, służąca do odkrywania, śledzenia pochodzenia danych i zarządzania nimi w całym stosie danych. Pomaga zespołom znajdować zaufane zbiory danych, rozumieć wpływ i standaryzować dokumentację. Poznaj podstawy we oficjalnym wprowadzeniu.

P2: Jak szybko zainstalować DataHub? Użyj szybkiego startu: zainstaluj Docker, zainstaluj CLI, a następnie uruchom za pomocą jednego polecenia. Możesz uzyskać dostęp do interfejsu użytkownika lokalnie i zalogować się z użyciem domyślnych ustawień, aby szybko zweryfikować konfigurację.

P3: Czy powinienem używać importu interfejsu użytkownika, czy importu CLI w DataHub? Użyj importu opartego na interfejsie użytkownika, aby szybko rozpocząć lub zaangażować osoby niebędące inżynierami; jest to świetne rozwiązanie do pierwszej łączności i demonstracji. Przejdź na import CLI, aby uzyskać wersjonowane przepisy, automatyzację i integrację CI/CD.

P4: Jak sprawić, by pochodzenie danych pojawiło się w DataHub? Importuj z wielu źródeł: magazynu danych (np. Snowflake), warstwy transformacji (np. dbt) i orkiestracji (np. Airflow). Pochodzenie danych wyłania się, gdy DataHub łączy te elementy.

P5: Jakie funkcje zarządzania powinienem włączyć jako pierwsze w DataHub? Zacznij od własności, zwięzłych opisów, małego słownika i spójnych tagów, takich jak gold, pii i deprecated. Następnie dodaj zasady, aby kontrolować, kto może edytować krytyczne zasoby, i zaplanuj regularny import.