What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

如何使用 DataHub：一份關於您的資料目錄的實用、端對端指南

準備好將資料蔓延轉化為清晰了嗎？DataHub 是一個開源元數據平台，最初由 LinkedIn 創建，旨在幫助團隊在資料倉儲、BI 工具、協同系統等環境中發現、信任和管理資料。在本實用、循序漸進的指南中，您將從零開始建立一個可運作的 DataHub 實例，匯入元數據，探索血緣關係，並建立治理機制，而不會迷失在術語中。

您將快速學到的內容：

在幾分鐘內於本地啟動 DataHub

從常見來源匯入元數據（例如，Snowflake、BigQuery、dbt）

在 UI 中探索搜尋、血緣關係、所有權和文件

定義治理的政策、標籤和術語

推出真正有效的團隊流程

注意：這是一個實用且以解決方案為導向的演練，旨在映射到實際工作流程。我們將在需要時引用官方文件以獲取具體資訊和更深入的探討。

快速入門：讓 DataHub 在本地執行如果您正在試驗或試用 DataHub，最快的方法是快速入門。首先請確保您已安裝 Docker。然後：

安裝 DataHub CLI

使用單一命令啟動

開啟 UI 並使用預設值登入

官方快速入門的詳細資訊、命令和預設值位於此處。簡介說明了架構以及 DataHub 為何使用適用於現代堆疊的即時元數據模型（實體、方面和串流更新）。

智慧設定提示：

即使您計劃稍後轉到 Kubernetes，也請先在本地啟動。這樣可以更快地獲得認可和演示。

如果您已經擁有 Docker Desktop，通常可以在幾分鐘內完成設定。

即使在沙盒中，也要確保憑證安全。現在養成的習慣以後會有所回報。

在 5 分鐘內了解核心概念在匯入任何內容之前，請熟悉 DataHub 的心智模型：

實體：諸如資料集、表格、圖表、儀表板、管線、使用者等事物。

方面：關於實體的元數據的版本化「構面」（架構、所有權、標籤、詞彙表術語、血緣關係）。

圖形：關係（血緣關係、所有權、依賴關係）為搜尋和探索體驗提供支援。

這種基於圖形的方法可以實現諸如影響分析（如果我們更改此列，會發生什麼變化？）、下游血緣關係映射和信任訊號（所有者、標籤、文件）等功能。簡潔的概念概述位於簡介指南中。

匯入元數據：UI 與 CLI（選擇您的路徑） DataHub 支援使用者友好的 UI 匯入和可編寫腳本的 CLI 管線。選擇適合您今天工作流程的方式——許多團隊同時使用這兩種方式。

選項 A：基於 UI 的匯入（首次執行速度快）

在 UI 中，轉到「匯入」→「新增來源」。

選擇一個來源（例如，Snowflake、BigQuery、dbt、Kafka、Looker、Tableau）。

輸入連線詳細資訊。

測試連線。

排程或按需執行匯入。

UI 流程和步驟在此處涵蓋。它非常適合非工程師或想要快速驗證連線能力的團隊。

選項 B：基於 CLI 的匯入（可重複且 CI 友善）

建立一個 YAML 配方，定義您的來源、篩選器和映射。

執行：datahub ingest -c recipe.yml

將配方提交到版本控制以實現可重複性。

CLI 匯入和配方在此處詳細記錄。這種方法更適合開發/生產管線、自動化和一致性。

匯入的專業提示：

從一兩個最重要的來源開始（例如，Snowflake + dbt）。快速獲勝可以建立動力。

積極篩選。不要在第一天就匯入每個沙盒資料集；這會產生雜訊。

新增平台實例名稱（如 snowflake:prod 與 snowflake:dev）以避免混淆。

探索 UI：搜尋、血緣關係和所有權首次匯入完成後，立即進入 UI 以快速驗證價值：

通用搜尋：按名稱、架構、標籤或詞彙表術語尋找資料集、儀表板和管線。

血緣關係圖：點擊資料集以查看上游和下游連線。這對於影響分析非常重要。

所有權與文件：新增所有者（團隊或使用者）並編寫清晰的描述。這些是您的組織將感受到的第一個信任訊號。

架構與分析：檢閱欄位名稱、類型和範例統計資訊。儘早發現異常。

新增意義：詞彙表、標籤和領域原始元數據僅僅是個開始。您將通過分層語義來釋放真正的採用：

詞彙表術語：定義業務友好的概念（客戶、ARR、活躍使用者）。附加到資料集/欄位以標準化語言。

標籤：輕量級標籤（PII、關鍵、已棄用、黃金）。快速視覺提示風險和重要性。

領域：按業務功能（財務、行銷）或平台對相關資產進行分組。

建議的初始分類法：

每個人都了解的三個詞彙表術語（客戶、訂單、收入）

一個小的標籤集：pii、gold、deprecated、experimental

5-7 個映射到您的組織結構圖或資料平台的領域

可擴展的治理：策略和存取權限 DataHub 支援基於角色和資產的策略，因此您可以控制誰可以做什麼（編輯文件、新增標籤、管理血緣關係等）。從簡單開始：

建立一個具有文件、所有權和標籤編輯權限的「管理員」群組。

授予分析師對大多數資產的讀取權限，但限制對敏感領域的存取。

要求「黃金」資料集必須有所有者，然後才能出現在「精選」中。

策略和治理位於平台內部，因此編輯者和檢視者體驗是一致的。隨著您的組織成熟，請擴展更精細的權限和審批流程。

營運最佳實務：使其堅持下去當元數據程式感覺像是額外的工作時，它們就會失敗。讓 DataHub 成為正常流程的一部分：

嵌入在 PR/CI 中：當資料管線變更時，執行元數據匯入並比較架構差異。自動標記重大變更。

與 dbt 對齊：使用 dbt 文件、測試和曝光；在 DataHub 中呈現它們以將程式碼連接到業務環境。

建立「採用手冊」：所有者在加入時新增文件、標籤和詞彙表術語。通過記分卡獎勵品質。

發布資料合約：對於關鍵表格，定義 SLA、新鮮度、可空性和穩定性規則。在 DataHub 中呈現它。

從試用到生產：有哪些變化？

基礎設施：從本地 Docker 遷移到受管理的環境（Kubernetes、雲端服務）。如果您的組織提供託管選項，請考慮使用。

驗證/SSO：與您的身份提供者（Okta、Azure AD 等）整合。

可觀察性：監控匯入作業、圖形大小和 UI 效能。

變更管理：建立元數據檢閱節奏（例如，每週管理員同步）。

疑難排解：常見陷阱和修復

「我看不到我的表格。」檢查網路規則、憑證和來源篩選器。執行最小匯入配方以隔離問題。

「血緣關係不完整。」確保您已從協同（Airflow）、轉換（dbt）和倉儲來源匯入。血緣關係通常需要多個連接器。

「搜尋感覺很混亂。」收緊篩選器，新增標籤/詞彙表，並隱藏已棄用的資產。

「文件已過時。」排程定期匯入；鼓勵所有者在程式碼變更的同時更新描述。

範例：48 小時內快速實現價值第 1 天

通過快速入門在本地啟動 DataHub。

使用 UI 匯入從您的倉儲 (Snowflake/BigQuery) 匯入。

將所有者和描述新增到五個關鍵資料集。

為客戶和收入建立詞彙表術語；將這些資料集標記為黃金。

第 2 天

匯入 dbt 元數據以將模型連接到表格。

驗證匯入 → 轉換 → BI 的血緣關係。

建立一個策略，規定只有管理員才能更改黃金資料集文件。

向利害關係人演示血緣關係檢視和搜尋體驗；收集回饋。

重要參考資料

快速入門：本地設定、憑證、連接埠、命令

概念和架構概述

基於 UI 的匯入步驟

CLI 匯入和 YAML 配方

Sider.AI 如何提供協助如果您的團隊經常研究最佳實務、編寫資料集文件或需要易於理解的血緣關係和架構變更摘要，值得注意的是，Sider.AI 可以加速文件編寫和知識共享。例如，您可以將密集的架構差異轉換為人類可讀的變更日誌，或生成管理員完善的初步資料集描述，從而縮短從原始元數據到可用環境的時間。

速查表：您的前 10 個動作