準備好將資料蔓延轉化為清晰了嗎?DataHub 是一個開源元數據平台,最初由 LinkedIn 創建,旨在幫助團隊在資料倉儲、BI 工具、協同系統等環境中發現、信任和管理資料。在本實用、循序漸進的指南中,您將從零開始建立一個可運作的 DataHub 實例,匯入元數據,探索血緣關係,並建立治理機制,而不會迷失在術語中。
您將快速學到的內容:
- 從常見來源匯入元數據(例如,Snowflake、BigQuery、dbt)
注意:這是一個實用且以解決方案為導向的演練,旨在映射到實際工作流程。我們將在需要時引用官方文件以獲取具體資訊和更深入的探討。
- 快速入門:讓 DataHub 在本地執行
如果您正在試驗或試用 DataHub,最快的方法是快速入門。首先請確保您已安裝 Docker。然後:
官方快速入門的詳細資訊、命令和預設值 位於此處。簡介說明了架構以及 DataHub 為何使用適用於現代堆疊的即時元數據模型(實體、方面和串流更新)。
智慧設定提示:
- 即使您計劃稍後轉到 Kubernetes,也請先在本地啟動。這樣可以更快地獲得認可和演示。
- 如果您已經擁有 Docker Desktop,通常可以在幾分鐘內完成設定。
- 即使在沙盒中,也要確保憑證安全。現在養成的習慣以後會有所回報。
- 在 5 分鐘內了解核心概念
在匯入任何內容之前,請熟悉 DataHub 的心智模型:
- 實體:諸如資料集、表格、圖表、儀表板、管線、使用者等事物。
- 方面:關於實體的元數據的版本化「構面」(架構、所有權、標籤、詞彙表術語、血緣關係)。
- 圖形:關係(血緣關係、所有權、依賴關係)為搜尋和探索體驗提供支援。
這種基於圖形的方法可以實現諸如影響分析(如果我們更改此列,會發生什麼變化?)、下游血緣關係映射和信任訊號(所有者、標籤、文件)等功能。簡潔的概念概述位於 簡介指南中。
- 匯入元數據:UI 與 CLI(選擇您的路徑)
DataHub 支援使用者友好的 UI 匯入和可編寫腳本的 CLI 管線。選擇適合您今天工作流程的方式——許多團隊同時使用這兩種方式。
選項 A:基於 UI 的匯入(首次執行速度快)
- 選擇一個來源(例如,Snowflake、BigQuery、dbt、Kafka、Looker、Tableau)。
UI 流程和步驟 在此處涵蓋。它非常適合非工程師或想要快速驗證連線能力的團隊。
選項 B:基於 CLI 的匯入(可重複且 CI 友善)
- 建立一個 YAML 配方,定義您的來源、篩選器和映射。
- 執行:datahub ingest -c recipe.yml
CLI 匯入和配方 在此處詳細記錄。這種方法更適合開發/生產管線、自動化和一致性。
匯入的專業提示:
- 從一兩個最重要的來源開始(例如,Snowflake + dbt)。快速獲勝可以建立動力。
- 積極篩選。不要在第一天就匯入每個沙盒資料集;這會產生雜訊。
- 新增平台實例名稱(如 snowflake:prod 與 snowflake:dev)以避免混淆。
- 探索 UI:搜尋、血緣關係和所有權
首次匯入完成後,立即進入 UI 以快速驗證價值:
- 通用搜尋:按名稱、架構、標籤或詞彙表術語尋找資料集、儀表板和管線。
- 血緣關係圖:點擊資料集以查看上游和下游連線。這對於影響分析非常重要。
- 所有權與文件:新增所有者(團隊或使用者)並編寫清晰的描述。這些是您的組織將感受到的第一個信任訊號。
- 架構與分析:檢閱欄位名稱、類型和範例統計資訊。儘早發現異常。
- 新增意義:詞彙表、標籤和領域
原始元數據僅僅是個開始。您將通過分層語義來釋放真正的採用:
- 詞彙表術語:定義業務友好的概念(客戶、ARR、活躍使用者)。附加到資料集/欄位以標準化語言。
- 標籤:輕量級標籤(PII、關鍵、已棄用、黃金)。快速視覺提示風險和重要性。
- 領域:按業務功能(財務、行銷)或平台對相關資產進行分組。
建議的初始分類法:
- 一個小的標籤集:pii、gold、deprecated、experimental
- 可擴展的治理:策略和存取權限
DataHub 支援基於角色和資產的策略,因此您可以控制誰可以做什麼(編輯文件、新增標籤、管理血緣關係等)。從簡單開始:
- 建立一個具有文件、所有權和標籤編輯權限的「管理員」群組。
- 授予分析師對大多數資產的讀取權限,但限制對敏感領域的存取。
- 要求「黃金」資料集必須有所有者,然後才能出現在「精選」中。
策略和治理位於平台內部,因此編輯者和檢視者體驗是一致的。隨著您的組織成熟,請擴展更精細的權限和審批流程。
- 營運最佳實務:使其堅持下去
當元數據程式感覺像是額外的工作時,它們就會失敗。讓 DataHub 成為正常流程的一部分:
- 嵌入在 PR/CI 中:當資料管線變更時,執行元數據匯入並比較架構差異。自動標記重大變更。
- 與 dbt 對齊:使用 dbt 文件、測試和曝光;在 DataHub 中呈現它們以將程式碼連接到業務環境。
- 建立「採用手冊」:所有者在加入時新增文件、標籤和詞彙表術語。通過記分卡獎勵品質。
- 發布資料合約:對於關鍵表格,定義 SLA、新鮮度、可空性和穩定性規則。在 DataHub 中呈現它。
- 基礎設施:從本地 Docker 遷移到受管理的環境(Kubernetes、雲端服務)。如果您的組織提供託管選項,請考慮使用。
- 驗證/SSO:與您的身份提供者(Okta、Azure AD 等)整合。
- 變更管理:建立元數據檢閱節奏(例如,每週管理員同步)。
- 「我看不到我的表格。」檢查網路規則、憑證和來源篩選器。執行最小匯入配方以隔離問題。
- 「血緣關係不完整。」確保您已從協同(Airflow)、轉換(dbt)和倉儲來源匯入。血緣關係通常需要多個連接器。
- 「搜尋感覺很混亂。」收緊篩選器,新增標籤/詞彙表,並隱藏已棄用的資產。
- 「文件已過時。」排程定期匯入;鼓勵所有者在程式碼變更的同時更新描述。
- 使用 UI 匯入從您的倉儲 (Snowflake/BigQuery) 匯入。
- 為客戶和收入建立詞彙表術語;將這些資料集標記為黃金。
第 2 天
- 建立一個策略,規定只有管理員才能更改黃金資料集文件。
- 向利害關係人演示血緣關係檢視和搜尋體驗;收集回饋。
重要參考資料
Sider.AI 如何提供協助
如果您的團隊經常研究最佳實務、編寫資料集文件或需要易於理解的血緣關係和架構變更摘要,值得注意的是,Sider.AI 可以加速文件編寫和知識共享。例如,您可以將密集的架構差異轉換為人類可讀的變更日誌,或生成管理員完善的初步資料集描述,從而縮短從原始元數據到可用環境的時間。 速查表:您的前 10 個動作
- 將 5 個資料集標記為黃金,並隱藏已棄用的資料集。
下一步是什麼?
- 與 CI/CD 整合,以便架構變更始終反映在目錄中。
最終要點
- 使用 UI 匯入來提高速度;使用 CLI 來提高可重複性。
- 連接倉儲 + dbt + BI 以獲得完整的血緣關係。
常見問題
Q1:什麼是 DataHub,我為什麼要使用它?
DataHub 是一個開源元數據平台,用於跨資料堆疊進行發現、血緣關係和治理。它可以幫助團隊找到受信任的資料集、了解影響並標準化文件。在官方簡介中了解基本原理。
Q2:如何快速安裝 DataHub?
使用快速入門:安裝 Docker,安裝 CLI,然後使用單一命令啟動。您可以從本地存取 UI 並使用預設值登入以快速驗證設定。
Q3:我應該在 DataHub 中使用 UI 匯入還是 CLI 匯入?
使用基於 UI 的匯入快速入門或讓非工程師參與;它非常適合首次連線和演示。切換到 CLI 匯入以獲取版本化配方、自動化和 CI/CD 整合。
Q4:如何讓血緣關係顯示在 DataHub 中?
從多個來源匯入:您的倉儲(例如,Snowflake)、您的轉換層(例如,dbt)和協同(例如,Airflow)。隨著 DataHub 連接這些部分,血緣關係就會出現。
Q5:我應該首先在 DataHub 中啟用哪些治理功能?
從所有權、簡潔的描述、小型詞彙表和一致的標籤(如 gold、pii 和 deprecated)開始。然後新增策略以控制誰可以編輯關鍵資產並排程定期匯入。