Sider.ai
  • 聊天
  • Wisebase
  • 工具
  • 浏览器插件
  • 客户端
  • 价格
立即下载
登录

通过Sider更快学习、更深入思考、更聪明成长。

产品
应用
  • 扩展程序
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
工具
  • 网站生成器New
  • AI PPTNew
  • 写作大师
  • Nano Banana Pro
  • Nano Banana Infographic
  • 图片生成
  • 意大利脑洞
  • 背景移除
  • 背景替换
  • 区域抹除
  • 文字移除
  • 局部重绘
  • 画质提升
  • 创作者
  • 文本翻译
  • 图片翻译
  • PDF翻译
Sider
  • 联系我们
  • 帮助中心
  • 下载
  • 价格
  • 教育优惠
  • 新功能
  • 博客
  • 社区
  • 合作伙伴
  • 联盟
  • 邀请
©2026 版权所有
使用条款
隐私政策
  • 首页
  • 博客
  • AI 工具
  • DataHub 使用指南:数据目录的实用端到端指南

DataHub 使用指南:数据目录的实用端到端指南

更新于 2025年9月28日

7 分钟


准备好将数据蔓延转化为清晰明了吗?DataHub——最初在 LinkedIn 创建的开源元数据平台——帮助团队发现、信任和管理跨仓库、BI 工具、编排系统等的数据。在这份实用、循序渐进的指南中,您将从零开始,建立一个可用的 DataHub 实例,摄取元数据,探索血缘关系,并建立治理——而不会迷失在术语中。
您将快速了解到的内容:
  • 在几分钟内在本地启动 DataHub
  • 从常见来源(例如,Snowflake, BigQuery, dbt)摄取元数据
  • 在 UI 中探索搜索、血缘关系、所有权和文档
  • 定义策略、标签和术语以进行治理
  • 推出真正有效的团队流程
注意:这是一个实用的、以解决方案为导向的演练,旨在映射到实际工作流程。我们将引用官方文档以获取具体信息和更深入的探讨。
  1. 快速入门:在本地运行 DataHub 如果您正在试验或试用 DataHub,最快的方法是快速入门。首先确保您已安装 Docker。然后:
  • 安装 DataHub CLI
  • 使用单个命令启动
  • 打开 UI 并使用默认值登录
官方快速入门详细信息、命令和默认值 。简介解释了架构以及 DataHub 为何使用适用于现代堆栈的实时元数据模型(实体、方面和流式更新)。
智能设置技巧:
  • 即使您计划稍后转到 Kubernetes,也要先在本地启动。这对于获得认同和演示更快。
  • 如果您已经安装了 Docker Desktop,通常会在几分钟内启动。
  • 即使在沙箱中也要保证凭据安全。现在养成的习惯以后会有回报。
  1. 5 分钟了解核心概念 在您摄取任何内容之前,请先熟悉 DataHub 的心智模型:
  • 实体:诸如数据集、表、图表、仪表板、管道、用户之类的事物。
  • 方面:关于实体的元数据的版本化“方面”(模式、所有权、标签、词汇表术语、血缘关系)。
  • 图:关系(血缘关系、所有权、依赖关系)为搜索和发现体验提供支持。
这种基于图的方法支持诸如影响分析(如果我们更改此列会发生什么?)、下游血缘关系映射和信任信号(所有者、标签、文档)之类的功能。简介指南中有一个简洁的概念概述。
  1. 摄取元数据:UI vs. CLI(选择您的路径) DataHub 支持用户友好的 UI 摄取和可编写脚本的 CLI 管道。选择适合您当前工作流程的方式——许多团队同时使用这两种方式。
选项 A:基于 UI 的摄取(首次运行速度快)
  • 在 UI 中,转到 Ingestion → New Source。
  • 选择一个来源(例如,Snowflake, BigQuery, dbt, Kafka, Looker, Tableau)。
  • 输入连接详细信息。
  • 测试连接。
  • 按需计划或运行摄取。
UI 流程和步骤 介绍。它非常适合非工程师或想要快速验证连接性的团队。
选项 B:基于 CLI 的摄取(可重复且 CI 友好)
  • 创建一个 YAML 配方,定义您的来源、过滤器和映射。
  • 运行:datahub ingest -c recipe.yml
  • 将配方提交到版本控制以实现可重复性。
CLI 摄取和配方 详细记录。这种方法更适合开发/生产管道、自动化和一致性。
摄取的专业提示:
  • 从一两个最重要的来源开始(例如,Snowflake + dbt)。快速获胜可以建立动力。
  • 积极过滤。不要在第一天就摄取每个沙箱数据集;它会产生噪音。
  • 添加平台实例名称(如 snowflake:prod vs snowflake:dev)以避免混淆。
  1. 探索 UI:搜索、血缘关系和所有权 一旦您的首次摄取完成,请跳转到 UI 以快速验证价值:
  • 通用搜索:按名称、模式、标签或词汇表术语查找数据集、仪表板和管道。
  • 血缘关系图:单击进入数据集以查看上游和下游连接。这是影响分析的黄金标准。
  • 所有权和文档:添加所有者(团队或用户)并编写清晰的描述。这些是您的组织将感受到的第一个信任信号。
  • 模式和分析:查看列名、类型和样本统计信息。尽早发现异常。
  1. 添加含义:词汇表、标签和域 原始元数据只是一个开始。您将通过分层语义来解锁真正的采用:
  • 词汇表术语:定义业务友好的概念(客户、ARR、活跃用户)。附加到数据集/列以标准化语言。
  • 标签:轻量级标签(PII、关键、已弃用、黄金)。风险和重要性的快速视觉提示。
  • 域:按业务功能(财务、市场营销)或平台对相关资产进行分组。
推荐的第一个分类法:
  • 每个人都理解的三个词汇表术语(客户、订单、收入)
  • 一个小标签集:pii、gold、deprecated、experimental
  • 映射到您的组织结构图或数据平台的 5-7 个域
  1. 可扩展的治理:策略和访问 DataHub 支持基于角色和资产的策略,因此您可以控制谁可以做什么(编辑文档、添加标签、管理血缘关系等)。从简单开始:
  • 创建一个“Stewards”组,该组具有对文档、所有权和标签的编辑权限。
  • 让分析师可以读取大多数资产,但限制对敏感域的访问。
  • 要求“黄金”数据集的所有者才能使其出现在“热门精选”中。
策略和治理位于平台内部,因此对于编辑者和查看者来说,体验是一致的。随着您的组织成熟,通过更精细的权限和审批流程进行扩展。
  1. 运营最佳实践:使其保持有效 当元数据程序感觉像是额外的工作时,它们就会失败。使 DataHub 成为正常流程的一部分:
  • 嵌入在 PR/CI 中:当数据管道发生更改时,运行元数据摄取并比较模式差异。自动标记重大更改。
  • 与 dbt 对齐:使用 dbt 文档、测试和公开;在 DataHub 中显示它们以将代码连接到业务环境。
  • 创建一个“采用手册”:所有者在入职期间添加文档、标签和词汇表术语。通过记分卡奖励质量。
  • 发布数据合同:对于关键表,定义 SLA、新鲜度、可空性和稳定性规则。在 DataHub 中显示它。
  1. 从试点到生产:发生了哪些变化?
  • 基础设施:从本地 Docker 迁移到托管环境(Kubernetes、云服务)。如果您的组织中可用,请考虑托管选项。
  • 身份验证/SSO:与您的身份提供商集成(Okta, Azure AD 等)。
  • 可观察性:监视摄取作业、图形大小和 UI 性能。
  • 变更管理:建立元数据审查节奏(例如,每周管理同步)。
  1. 故障排除:常见陷阱和修复
  • “我看不到我的表。”检查网络规则、凭据和源过滤器。运行最小摄取配方以隔离问题。
  • “血缘关系不完整。”确保您已从编排(Airflow)、转换(dbt)和仓库来源摄取。血缘关系通常需要多个连接器。
  • “搜索感觉杂乱无章。”收紧过滤器,添加标签/词汇表,并隐藏已弃用的资产。
  • “文档已过时。”安排定期摄取;鼓励所有者在代码更改的同时更新描述。
  1. 示例:48 小时内快速实现价值 第 1 天
  • 通过快速入门在本地启动 DataHub。
  • 使用 UI 摄取从您的仓库(Snowflake/BigQuery)摄取。
  • 向五个关键数据集添加所有者和描述。
  • 为 Customer 和 Revenue 创建词汇表术语;将这些数据集标记为 gold。
第 2 天
  • 摄取 dbt 元数据以将模型连接到表。
  • 验证摄取 → 转换 → BI 的血缘关系。
  • 创建一个策略,规定只有管理者才能更改 gold 数据集文档。
  • 向利益相关者演示血缘关系视图和搜索体验;收集反馈。
主要参考资料
  • 快速入门:本地设置、凭据、端口、命令
  • 概念和架构概述
  • 基于 UI 的摄取步骤
  • CLI 摄取和 YAML 配方
可以在哪里提供帮助 如果您的团队经常研究最佳实践、编写数据集文档或需要可理解的血缘关系和模式更改摘要,值得注意的是, 可以加速文档编制和知识共享。例如,您可以将密集的模式差异转换为人类可读的更改日志,或者生成管理者可以改进的草稿数据集描述——从而减少从原始元数据到可用上下文的时间。
速查表:您的前 10 个操作
  1. 通过快速入门在本地启动 DataHub。
  1. 通过 UI 摄取添加一个仓库源。
  1. 摄取 dbt 或编排元数据以获取血缘关系。
  1. 向 5-10 个关键数据集添加所有者。
  1. 编写简洁的描述(每句 2-3 句话)。
  1. 创建 3 个词汇表术语和 4-6 个标签。
  1. 将 5 个数据集标记为 gold,并隐藏已弃用的数据集。
  1. 为管理者设置一个编辑器策略。
  1. 安排每日摄取。
  1. 向 2 个利益相关者团队演示 UI 并收集反馈。
下一步是什么?
  • 扩展到 Kubernetes 或托管环境。
  • 推出 SSO 和组以进行治理。
  • 将摄取扩展到 BI 和事件流。
  • 构建数据质量和文档完整性的记分卡。
  • 与 CI/CD 集成,以便模式更改始终反映在目录中。
最终要点
  • 从小处着手,快速交付价值并迭代。
  • 使用 UI 摄取以提高速度;使用 CLI 以实现可重复性。
  • 尽早分层词汇表、标签和策略以提高信任度。
  • 连接仓库 + dbt + BI 以获得完整的血缘关系。
  • 将文档视为开发的一部分,而不是事后才考虑。

常见问题解答

Q1:什么是 DataHub,我为什么要使用它? DataHub 是一个开源元数据平台,用于跨您的数据堆栈进行发现、血缘关系和治理。它可以帮助团队查找受信任的数据集、了解影响并标准化文档。在官方介绍中了解基本知识。
Q2:如何快速安装 DataHub? 使用快速入门:安装 Docker,安装 CLI,然后使用单个命令启动。您可以本地访问 UI 并使用默认值登录以快速验证设置。
Q3:我应该在 DataHub 中使用 UI 摄取还是 CLI 摄取? 使用基于 UI 的摄取快速入门或让非工程师参与;它非常适合首次连接和演示。切换到 CLI 摄取以获取版本化配方、自动化和 CI/CD 集成。
Q4:如何让血缘关系显示在 DataHub 中? 从多个来源摄取:您的仓库(例如,Snowflake),您的转换层(例如,dbt)和编排(例如,Airflow)。当 DataHub 连接这些部分时,血缘关系就会显现出来。
Q5:我应该首先在 DataHub 中启用哪些治理功能? 从所有权、简洁的描述、小型词汇表和一致的标签(如 gold, pii, 和 deprecated)开始。然后添加策略以控制谁可以编辑关键资产并安排定期摄取。

最近文章
如何掌握 ChatPDF:快速洞察密集文档

如何掌握 ChatPDF:快速洞察密集文档

快速、精准文档的最佳X自动翻译替代方案

快速、精准文档的最佳X自动翻译替代方案

三星AI翻译在伊朗无法使用?实用解决方法

三星AI翻译在伊朗无法使用?实用解决方法

波斯语翻译工具:实现更快更准确工作的实用指南

波斯语翻译工具:实现更快更准确工作的实用指南

深度、有引用研究的最佳Grok替代方案

深度、有引用研究的最佳Grok替代方案

你真正会用的AI图像生成器15大功能

你真正会用的AI图像生成器15大功能