What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Cách Sử Dụng DataHub: Hướng Dẫn Toàn Diện và Thiết Thực cho Danh Mục Dữ Liệu Của Bạn

Bạn đã sẵn sàng biến sự hỗn loạn dữ liệu thành sự rõ ràng chưa? DataHub—một nền tảng siêu dữ liệu mã nguồn mở được tạo ra ban đầu tại LinkedIn—giúp các nhóm khám phá, tin tưởng và quản lý dữ liệu trên các kho dữ liệu, công cụ BI, hệ thống điều phối, v.v. Trong hướng dẫn từng bước, thực tế này, bạn sẽ đi từ con số không đến một phiên bản DataHub đang hoạt động, thu thập siêu dữ liệu, khám phá dòng dõi và thiết lập quản trị—mà không bị lạc trong các thuật ngữ chuyên môn.

Bạn sẽ học được gì trong nháy mắt:

Khởi động DataHub cục bộ trong vài phút

Thu thập siêu dữ liệu từ các nguồn phổ biến (ví dụ: Snowflake, BigQuery, dbt)

Khám phá tìm kiếm, dòng dõi, quyền sở hữu và tài liệu trong giao diện người dùng

Xác định các chính sách, thẻ và điều khoản để quản trị

Triển khai các quy trình làm việc nhóm thực sự hiệu quả

Lưu ý: Đây là hướng dẫn thực tế và hướng đến giải pháp được thiết kế để ánh xạ tới các quy trình làm việc thực tế. Chúng tôi sẽ trích dẫn các tài liệu chính thức để biết các chi tiết cụ thể và tìm hiểu sâu hơn khi cần thiết.

Bắt đầu nhanh: Chạy DataHub cục bộ Nếu bạn đang thử nghiệm hoặc triển khai thử DataHub, cách nhanh nhất là sử dụng quickstart. Trước tiên, hãy đảm bảo bạn đã cài đặt Docker. Sau đó:

Cài đặt DataHub CLI

Khởi chạy bằng một lệnh duy nhất

Mở giao diện người dùng và đăng nhập bằng các giá trị mặc định

Chi tiết quickstart chính thức, các lệnh và giá trị mặc định có tại đây. Phần giới thiệu giải thích kiến trúc và lý do tại sao DataHub sử dụng mô hình siêu dữ liệu thời gian thực (các thực thể, khía cạnh và cập nhật trực tuyến) phù hợp với các ngăn xếp hiện đại.

Mẹo thiết lập thông minh:

Bắt đầu cục bộ ngay cả khi bạn dự định chuyển sang Kubernetes sau này. Nó nhanh hơn để mua và trình diễn.

Nếu bạn đã có Docker Desktop, bạn thường sẽ thiết lập xong trong vòng vài phút.

Giữ an toàn thông tin đăng nhập—ngay cả trong sandbox. Các thói quen được xây dựng ngay bây giờ sẽ được đền đáp sau này.

Hiểu các khái niệm cốt lõi trong 5 phút Trước khi bạn thu thập bất kỳ thứ gì, hãy làm quen với mô hình tư duy của DataHub:

Các thực thể: Những thứ như tập dữ liệu, bảng, biểu đồ, bảng điều khiển, quy trình, người dùng.

Các khía cạnh: Các “khía cạnh” siêu dữ liệu được kiểm soát phiên bản về các thực thể (lược đồ, quyền sở hữu, thẻ, thuật ngữ chuyên môn).

Biểu đồ: Các mối quan hệ (dòng dõi, quyền sở hữu, sự phụ thuộc) cung cấp sức mạnh cho trải nghiệm tìm kiếm và khám phá.

Cách tiếp cận dựa trên biểu đồ này cho phép các tính năng như phân tích tác động (điều gì sẽ bị hỏng nếu chúng ta thay đổi cột này?), ánh xạ dòng dõi xuôi dòng và các tín hiệu tin cậy (chủ sở hữu, thẻ, tài liệu). Một cái nhìn tổng quan về khái niệm ngắn gọn có trong hướng dẫn giới thiệu.

Thu thập siêu dữ liệu: UI so với CLI (Chọn đường dẫn của bạn) DataHub hỗ trợ cả thu thập UI thân thiện với người dùng và các quy trình CLI có thể lập trình. Chọn những gì phù hợp với quy trình làm việc của bạn ngày hôm nay—nhiều nhóm sử dụng cả hai.

Tùy chọn A: Thu thập dựa trên UI (nhanh chóng cho các lần chạy đầu tiên)

Trong giao diện người dùng, hãy chuyển đến Ingestion → New Source.

Chọn một nguồn (ví dụ: Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Nhập chi tiết kết nối.

Kiểm tra kết nối.

Lên lịch hoặc chạy thu thập theo yêu cầu.

Quy trình và các bước giao diện người dùng được đề cập tại đây. Nó lý tưởng cho những người không phải là kỹ sư hoặc các nhóm muốn xác thực kết nối một cách nhanh chóng.

Tùy chọn B: Thu thập dựa trên CLI (có thể lặp lại và thân thiện với CI)

Tạo một công thức YAML xác định nguồn, bộ lọc và ánh xạ của bạn.

Chạy: datahub ingest -c recipe.yml

Cam kết công thức để kiểm soát phiên bản để có thể lặp lại.

Việc thu thập và công thức CLI được ghi lại chi tiết tại đây. Cách tiếp cận này tốt hơn cho các quy trình dev/prod, tự động hóa và tính nhất quán.

Mẹo chuyên nghiệp để thu thập:

Bắt đầu với một hoặc hai nguồn quan trọng nhất (ví dụ: Snowflake + dbt). Những chiến thắng nhanh chóng tạo động lực.

Lọc tích cực. Không thu thập mọi tập dữ liệu sandbox vào ngày đầu tiên; nó tạo ra tiếng ồn.

Thêm tên phiên bản nền tảng (như snowflake:prod so với snowflake:dev) để tránh nhầm lẫn.

Khám phá giao diện người dùng: Tìm kiếm, dòng dõi và quyền sở hữu Sau khi quá trình thu thập đầu tiên của bạn hoàn tất, hãy chuyển sang giao diện người dùng để xác thực giá trị nhanh chóng:

Tìm kiếm toàn cầu: Tìm các tập dữ liệu, bảng điều khiển và quy trình theo tên, lược đồ, thẻ hoặc thuật ngữ chuyên môn.

Biểu đồ dòng dõi: Nhấp vào một tập dữ liệu để xem các kết nối ngược dòng và xuôi dòng. Đây là vàng cho phân tích tác động.

Quyền sở hữu & Tài liệu: Thêm chủ sở hữu (nhóm hoặc người dùng) và viết mô tả rõ ràng. Đây là những tín hiệu tin cậy đầu tiên mà tổ chức của bạn sẽ cảm nhận được.

Lược đồ & Hồ sơ: Xem lại tên cột, loại và số liệu thống kê mẫu. Phát hiện các điểm bất thường sớm.

Thêm ý nghĩa: Thuật ngữ chuyên môn, thẻ và miền Siêu dữ liệu thô chỉ là sự khởi đầu. Bạn sẽ mở khóa việc áp dụng thực tế bằng cách phân lớp ngữ nghĩa:

Thuật ngữ chuyên môn: Xác định các khái niệm thân thiện với doanh nghiệp (Khách hàng, ARR, Người dùng đang hoạt động). Đính kèm vào các tập dữ liệu/cột để chuẩn hóa ngôn ngữ.

Thẻ: Nhãn đơn giản (PII, Quan trọng, Đã ngừng sử dụng, Vàng). Các tín hiệu trực quan nhanh chóng về rủi ro và tầm quan trọng.

Miền: Nhóm các tài sản liên quan theo chức năng kinh doanh (Tài chính, Tiếp thị) hoặc nền tảng.

Phân loại đầu tiên được đề xuất:

Ba thuật ngữ chuyên môn mà mọi người đều hiểu (Khách hàng, Đơn hàng, Doanh thu)

Một bộ thẻ nhỏ: pii, gold, deprecated, experimental

5–7 miền ánh xạ tới sơ đồ tổ chức hoặc nền tảng dữ liệu của bạn

Quản trị có thể mở rộng: Các chính sách và quyền truy cập DataHub hỗ trợ các chính sách dựa trên vai trò và tài sản để bạn có thể kiểm soát ai có thể làm gì (chỉnh sửa tài liệu, thêm thẻ, quản lý dòng dõi, v.v.). Bắt đầu đơn giản:

Tạo một nhóm “Stewards” với quyền chỉnh sửa trên tài liệu, quyền sở hữu và thẻ.

Cung cấp cho các nhà phân tích quyền đọc đối với hầu hết các tài sản nhưng hạn chế các miền nhạy cảm.

Yêu cầu chủ sở hữu cho các tập dữ liệu “vàng” trước khi chúng xuất hiện trong “Lựa chọn hàng đầu”.

Các chính sách và quản trị nằm bên trong nền tảng, vì vậy trải nghiệm nhất quán cho người chỉnh sửa và người xem. Khi tổ chức của bạn trưởng thành, hãy mở rộng với các quyền chi tiết hơn và quy trình phê duyệt.

Các phương pháp hay nhất về vận hành: Làm cho nó hiệu quả Các chương trình siêu dữ liệu thất bại khi chúng có cảm giác như công việc bổ sung. Hãy biến DataHub thành một phần của quy trình bình thường:

Nhúng vào PR/CI: Khi các quy trình dữ liệu thay đổi, hãy chạy quá trình thu thập siêu dữ liệu và so sánh sự khác biệt về lược đồ. Tự động gắn cờ các thay đổi đột phá.

Căn chỉnh với dbt: Sử dụng tài liệu, kiểm tra và phơi bày dbt; hiển thị chúng trong DataHub để kết nối mã với bối cảnh kinh doanh.

Tạo “Sổ tay hướng dẫn áp dụng”: Chủ sở hữu thêm tài liệu, thẻ và thuật ngữ chuyên môn trong quá trình giới thiệu. Khen thưởng chất lượng thông qua bảng điểm.

Xuất bản Hợp đồng dữ liệu: Đối với các bảng chính, hãy xác định SLA, độ mới, khả năng vô hiệu và các quy tắc ổn định. Hiển thị nó trong DataHub.

Từ thử nghiệm đến sản xuất: Những thay đổi nào?

Cơ sở hạ tầng: Chuyển từ Docker cục bộ sang môi trường được quản lý (Kubernetes, dịch vụ đám mây). Cân nhắc tùy chọn được lưu trữ nếu có sẵn trong tổ chức của bạn.

Xác thực/SSO: Tích hợp với nhà cung cấp danh tính của bạn (Okta, Azure AD, v.v.).

Khả năng quan sát: Giám sát các công việc thu thập, kích thước biểu đồ và hiệu suất giao diện người dùng.

Quản lý thay đổi: Thiết lập nhịp độ xem xét siêu dữ liệu (ví dụ: đồng bộ hóa quản lý hàng tuần).

Khắc phục sự cố: Các cạm bẫy và cách khắc phục phổ biến

“Tôi không thể nhìn thấy các bảng của mình.” Kiểm tra các quy tắc mạng, thông tin đăng nhập và bộ lọc nguồn. Chạy một công thức thu thập tối thiểu để cô lập vấn đề.

“Dòng dõi không đầy đủ.” Đảm bảo bạn đã thu thập từ các nguồn điều phối (Airflow), chuyển đổi (dbt) và kho dữ liệu. Dòng dõi thường cần nhiều trình kết nối.

“Tìm kiếm có cảm giác lộn xộn.” Thắt chặt các bộ lọc, thêm thẻ/thuật ngữ chuyên môn và ẩn các tài sản đã ngừng sử dụng.

“Tài liệu đã lỗi thời.” Lên lịch thu thập thường xuyên; khuyến khích chủ sở hữu cập nhật mô tả cùng với các thay đổi mã.

Ví dụ: Đường dẫn nhanh đến giá trị trong 48 giờ Ngày 1

Khởi động DataHub cục bộ thông qua quickstart.

Thu thập từ kho dữ liệu của bạn (Snowflake/BigQuery) bằng cách sử dụng thu thập UI.

Thêm chủ sở hữu và mô tả cho năm tập dữ liệu quan trọng.

Tạo thuật ngữ chuyên môn cho Khách hàng và Doanh thu; gắn thẻ các tập dữ liệu đó là vàng.

Ngày 2

Thu thập siêu dữ liệu dbt để kết nối các mô hình với các bảng.

Xác thực dòng dõi trên thu thập → chuyển đổi → BI.

Tạo một chính sách mà chỉ người quản lý mới có thể thay đổi tài liệu tập dữ liệu vàng.

Trình diễn chế độ xem dòng dõi và trải nghiệm tìm kiếm cho các bên liên quan; thu thập phản hồi.

Tài liệu tham khảo chính

Quickstart: thiết lập cục bộ, thông tin đăng nhập, cổng, lệnh

Tổng quan về các khái niệm và kiến trúc

Các bước thu thập dựa trên UI

Thu thập CLI và công thức YAML

Sider.AI có thể giúp ích ở đâu Nếu nhóm của bạn thường xuyên nghiên cứu các phương pháp hay nhất, viết tài liệu tập dữ liệu hoặc cần các bản tóm tắt dễ hiểu về các thay đổi lược đồ và dòng dõi, thì điều đáng chú ý là Sider.AI có thể đẩy nhanh quá trình ghi lại tài liệu và chia sẻ kiến thức. Ví dụ: bạn có thể biến các khác biệt lược đồ dày đặc thành nhật ký thay đổi dễ đọc hoặc tạo bản nháp mô tả tập dữ liệu mà người quản lý tinh chỉnh—giảm thời gian từ siêu dữ liệu thô đến ngữ cảnh có thể sử dụng được.

Tài liệu tham khảo nhanh: 10 hành động đầu tiên của bạn

Khởi chạy DataHub cục bộ thông qua quickstart.

Thêm một nguồn kho dữ liệu thông qua thu thập UI.

Thu thập siêu dữ liệu dbt hoặc điều phối cho dòng dõi.

Thêm chủ sở hữu vào 5–10 tập dữ liệu chính.

Viết mô tả ngắn gọn (mỗi mô tả 2–3 câu).

Tạo 3 thuật ngữ chuyên môn và 4–6 thẻ.

Gắn thẻ 5 tập dữ liệu là vàng và ẩn các tập dữ liệu đã ngừng sử dụng.

Đặt một chính sách chỉnh sửa cho người quản lý.

Lên lịch thu thập hàng ngày.

Trình diễn giao diện người dùng cho 2 nhóm bên liên quan và thu thập phản hồi.

Bước tiếp theo là gì?

Mở rộng quy mô lên Kubernetes hoặc môi trường được quản lý.

Triển khai SSO và các nhóm để quản trị.

Mở rộng quá trình thu thập sang BI và luồng sự kiện.

Xây dựng bảng điểm cho chất lượng dữ liệu và tính đầy đủ của tài liệu.

Tích hợp với CI/CD để các thay đổi lược đồ luôn phản ánh trong danh mục.

Kết luận cuối cùng

Bắt đầu nhỏ, cung cấp giá trị nhanh chóng và lặp lại.

Sử dụng thu thập UI để có tốc độ; CLI để có khả năng lặp lại.

Phân lớp vào thuật ngữ chuyên môn, thẻ và chính sách sớm để tăng cường sự tin cậy.

Kết nối kho dữ liệu + dbt + BI để có dòng dõi hoàn chỉnh.

Coi tài liệu là một phần của quá trình phát triển, không phải là một suy nghĩ muộn.

Câu hỏi thường gặp

Câu hỏi 1: DataHub là gì và tại sao tôi nên sử dụng nó? DataHub là một nền tảng siêu dữ liệu mã nguồn mở để khám phá, dòng dõi và quản trị trên toàn bộ ngăn xếp dữ liệu của bạn. Nó giúp các nhóm tìm thấy các tập dữ liệu đáng tin cậy, hiểu tác động và chuẩn hóa tài liệu. Tìm hiểu các nguyên tắc cơ bản trong phần giới thiệu chính thức.

Câu hỏi 2: Làm cách nào để cài đặt DataHub nhanh chóng? Sử dụng quickstart: cài đặt Docker, cài đặt CLI, sau đó bắt đầu bằng một lệnh duy nhất. Bạn có thể truy cập giao diện người dùng cục bộ và đăng nhập bằng các giá trị mặc định để xác thực thiết lập nhanh chóng.

Câu hỏi 3: Tôi nên sử dụng thu thập UI hay thu thập CLI trong DataHub? Sử dụng thu thập dựa trên UI để bắt đầu nhanh chóng hoặc thu hút những người không phải là kỹ sư; nó rất tốt cho kết nối lần đầu và trình diễn. Chuyển sang thu thập CLI cho các công thức được kiểm soát phiên bản, tự động hóa và tích hợp CI/CD.

Câu hỏi 4: Làm cách nào để hiển thị dòng dõi trong DataHub? Thu thập từ nhiều nguồn: kho dữ liệu của bạn (ví dụ: Snowflake), lớp chuyển đổi của bạn (ví dụ: dbt) và điều phối (ví dụ: Airflow). Dòng dõi xuất hiện khi DataHub kết nối các phần này.

Câu hỏi 5: Tôi nên bật các tính năng quản trị nào trước tiên trong DataHub? Bắt đầu với quyền sở hữu, mô tả ngắn gọn, thuật ngữ chuyên môn nhỏ và các thẻ nhất quán như gold, pii và deprecated. Sau đó, thêm các chính sách để kiểm soát ai có thể chỉnh sửa các tài sản quan trọng và lên lịch thu thập thường xuyên.