What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

DataHub 사용법: 데이터 카탈로그를 위한 실용적인 엔드 투 엔드 가이드

데이터 확산을 명확성으로 바꾸고 싶으신가요? LinkedIn에서 처음 개발한 오픈 소스 메타데이터 플랫폼인 DataHub는 팀이 웨어하우스, BI 도구, 오케스트레이션 시스템 등에서 데이터를 검색, 신뢰 및 관리할 수 있도록 지원합니다. 이 실용적이고 단계별 가이드에서는 전문 용어에 압도되지 않고도 DataHub 인스턴스를 구축하고, 메타데이터를 수집하고, 계보를 탐색하고, 거버넌스를 설정할 수 있습니다.

주요 학습 내용:

몇 분 안에 DataHub를 로컬에서 시작

일반적인 소스(예: Snowflake, BigQuery, dbt)에서 메타데이터 수집

UI에서 검색, 계보, 소유권 및 문서 탐색

거버넌스를 위한 정책, 태그 및 용어 정의

실제로 정착되는 팀 프로세스 롤아웃

참고: 이는 실제 워크플로에 매핑되도록 설계된 실용적이고 솔루션 지향적인 연습입니다. 필요한 경우 특정 사항 및 자세한 내용은 공식 문서를 참조합니다.

빠른 시작: DataHub 로컬에서 실행하기 DataHub를 실험하거나 시범 운영하는 경우 가장 빠른 방법은 빠른 시작입니다. 먼저 Docker가 설치되어 있는지 확인하세요. 그런 다음:

DataHub CLI 설치

단일 명령으로 실행

UI를 열고 기본값으로 로그인

공식 빠른 시작 세부 정보, 명령 및 기본값은 여기에서 확인할 수 있습니다. 소개에서는 아키텍처와 DataHub가 최신 스택에 적합한 실시간 메타데이터 모델(엔터티, 측면 및 스트리밍 업데이트)을 사용하는 이유를 설명합니다.

스마트 설정 팁:

나중에 Kubernetes로 이동할 계획이라도 로컬에서 시작하세요. 동의 및 데모에 더 빠릅니다.

Docker Desktop이 이미 있는 경우 일반적으로 몇 분 안에 시작할 수 있습니다.

샌드박스에서도 자격 증명을 안전하게 유지하세요. 지금 구축된 습관은 나중에 보상을 제공합니다.

5분 안에 핵심 개념 이해하기 무엇이든 수집하기 전에 DataHub의 사고 모델에 익숙해지세요.

엔터티: 데이터 세트, 테이블, 차트, 대시보드, 파이프라인, 사용자 등.

측면: 엔터티에 대한 메타데이터의 버전 관리된 "측면" (스키마, 소유권, 태그, 용어집 용어, 계보).

그래프: 관계 (계보, 소유권, 종속성)는 검색 및 검색 환경을 강화합니다.

이 그래프 기반 접근 방식을 통해 영향 분석(이 열을 변경하면 무엇이 손상됩니까?), 다운스트림 계보 매핑 및 신뢰 신호(소유자, 태그, 문서)와 같은 기능을 사용할 수 있습니다. 간결한 개념적 개요는 소개 가이드에 있습니다.

메타데이터 수집: UI vs. CLI (경로 선택) DataHub는 사용자 친화적인 UI 수집과 스크립트 가능한 CLI 파이프라인을 모두 지원합니다. 오늘 워크플로에 적합한 것을 선택하세요. 많은 팀에서 둘 다 사용합니다.

옵션 A: UI 기반 수집 (첫 번째 실행에 빠름)

UI에서 수집 → 새 소스로 이동합니다.

소스 선택 (예: Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

연결 세부 정보 입력.

연결 테스트.

온디맨드로 수집 예약 또는 실행.

UI 흐름 및 단계는 여기에서 다룹니다. 엔지니어가 아닌 사람이나 연결을 빠르게 검증하려는 팀에 이상적입니다.

옵션 B: CLI 기반 수집 (반복 가능하고 CI 친화적)

소스, 필터 및 매핑을 정의하는 YAML 레시피를 만듭니다.

실행: datahub ingest -c recipe.yml

반복성을 위해 레시피를 버전 제어에 커밋합니다.

CLI 수집 및 레시피는 여기에서 자세히 설명되어 있습니다. 이 접근 방식은 개발/프로덕션 파이프라인, 자동화 및 일관성에 더 적합합니다.

수집에 대한 전문가 팁:

가장 중요한 소스 하나 또는 두 개(예: Snowflake + dbt)부터 시작하세요. 빠른 성공은 추진력을 구축합니다.

적극적으로 필터링합니다. 첫날 모든 샌드박스 데이터 세트를 수집하지 마세요. 노이즈를 생성합니다.

혼동을 피하기 위해 플랫폼 인스턴스 이름(예: snowflake:prod vs snowflake:dev)을 추가합니다.

UI 탐색: 검색, 계보 및 소유권 첫 번째 수집이 완료되면 UI로 이동하여 값을 빠르게 확인하세요.

유니버설 검색: 이름, 스키마, 태그 또는 용어집 용어로 데이터 세트, 대시보드 및 파이프라인을 찾습니다.

계보 그래프: 데이터 세트를 클릭하여 업스트림 및 다운스트림 연결을 확인합니다. 이는 영향 분석에 매우 중요합니다.

소유권 및 문서화: 소유자(팀 또는 사용자)를 추가하고 명확한 설명을 작성합니다. 이것은 조직이 느끼는 첫 번째 신뢰 신호입니다.

스키마 및 프로파일링: 열 이름, 유형 및 샘플 통계를 검토합니다. 이상 징후를 조기에 발견하십시오.

의미 추가: 용어집, 태그 및 도메인 원시 메타데이터는 시작일 뿐입니다. 의미 체계를 레이어링하여 실제 채택을 잠금 해제합니다.

용어집 용어: 비즈니스 친화적인 개념(고객, ARR, 활성 사용자)을 정의합니다. 언어를 표준화하기 위해 데이터 세트/열에 연결합니다.

태그: 가벼운 레이블(PII, 중요, 더 이상 사용되지 않음, Gold). 위험 및 중요성에 대한 빠른 시각적 신호.

도메인: 비즈니스 기능(재무, 마케팅) 또는 플랫폼별로 관련 자산을 그룹화합니다.

권장되는 첫 번째 분류:

모든 사람이 이해하는 세 가지 용어집 용어(고객, 주문, 수익)

작은 태그 세트: pii, gold, deprecated, experimental

조직 차트 또는 데이터 플랫폼에 매핑되는 5~7개의 도메인

확장 가능한 거버넌스: 정책 및 액세스 DataHub는 역할 및 자산 기반 정책을 지원하므로 누가 무엇을 할 수 있는지(문서 편집, 태그 추가, 계보 관리 등) 제어할 수 있습니다. 간단하게 시작하세요.

문서, 소유권 및 태그에 대한 편집 권한이 있는 "Stewards" 그룹을 만듭니다.

분석가에게 대부분의 자산에 대한 읽기 권한을 부여하되 민감한 도메인을 제한합니다.

"Top Picks"에 나타나기 전에 "gold" 데이터 세트에 대한 소유자를 요구합니다.

정책 및 거버넌스는 플랫폼 내부에 있으므로 편집자와 뷰어 모두에게 일관된 경험을 제공합니다. 조직이 성숙함에 따라 더 세분화된 권한 및 승인 흐름으로 확장합니다.

운영 모범 사례: 고수하기 메타데이터 프로그램은 추가 작업처럼 느껴지면 실패합니다. DataHub를 정상적인 흐름의 일부로 만드세요.

PR/CI에 임베드: 데이터 파이프라인이 변경되면 메타데이터 수집을 실행하고 스키마 차이를 비교합니다. 변경 사항을 자동으로 플래그합니다.

dbt와 정렬: dbt 문서, 테스트 및 노출을 사용합니다. DataHub에 표시하여 코드를 비즈니스 컨텍스트에 연결합니다.

"채택 플레이북" 만들기: 소유자는 온보딩 중에 문서, 태그 및 용어집 용어를 추가합니다. 스코어카드를 통해 품질에 대한 보상을 제공합니다.

데이터 계약 게시: 주요 테이블의 경우 SLA, 최신성, null 허용 여부 및 안정성 규칙을 정의합니다. DataHub에 표시합니다.

파일럿에서 프로덕션으로: 무엇이 변경됩니까?

인프라: 로컬 Docker에서 관리 환경(Kubernetes, 클라우드 서비스)으로 이동합니다. 조직에서 사용할 수 있는 경우 호스팅 옵션을 고려하십시오.

인증/SSO: ID 공급자(Okta, Azure AD 등)와 통합합니다.

관찰 가능성: 수집 작업, 그래프 크기 및 UI 성능을 모니터링합니다.

변경 관리: 메타데이터 검토 케이던스(예: 주간 스튜어드십 동기화)를 설정합니다.

문제 해결: 일반적인 함정 및 수정

"테이블이 보이지 않습니다." 네트워크 규칙, 자격 증명 및 소스 필터를 확인합니다. 최소 수집 레시피를 실행하여 문제를 격리합니다.

"계보가 불완전합니다." 오케스트레이션(Airflow), 변환(dbt) 및 웨어하우스 소스에서 수집했는지 확인합니다. 계보에는 종종 여러 커넥터가 필요합니다.

"검색이 복잡하게 느껴집니다." 필터를 강화하고 태그/용어집을 추가하고 더 이상 사용되지 않는 자산을 숨깁니다.

"문서가 부실합니다." 정기적인 수집을 예약합니다. 소유자가 코드 변경과 함께 설명을 업데이트하도록 장려합니다.

예: 48시간 만에 가치를 얻는 빠른 경로 1일차

빠른 시작을 통해 DataHub를 로컬에서 시작합니다.

UI 수집을 사용하여 웨어하우스(Snowflake/BigQuery)에서 수집합니다.

5개의 중요한 데이터 세트에 소유자와 설명을 추가합니다.

고객 및 수익에 대한 용어집 용어를 만들고 해당 데이터 세트를 gold로 태그합니다.

2일차

모델을 테이블에 연결하기 위해 dbt 메타데이터를 수집합니다.

수집 → 변환 → BI에서 계보를 검증합니다.

스튜어드만 gold 데이터 세트 문서를 변경할 수 있는 정책을 만듭니다.

이해 관계자에게 계보 보기 및 검색 경험을 데모합니다. 피드백을 수집합니다.

주요 참조

빠른 시작: 로컬 설정, 자격 증명, 포트, 명령

개념 및 아키텍처 개요

UI 기반 수집 단계

CLI 수집 및 YAML 레시피

Sider.AI가 도움이 될 수 있는 곳 팀이 모범 사례를 자주 연구하거나 데이터 세트 문서를 작성하거나 계보 및 스키마 변경 사항에 대한 이해하기 쉬운 요약이 필요한 경우 Sider.AI가 문서화 및 지식 공유를 가속화할 수 있다는 점에 주목할 가치가 있습니다. 예를 들어 조밀한 스키마 차이를 사람이 읽을 수 있는 변경 로그로 바꾸거나 스튜어드가 구체화하는 초안 데이터 세트 설명을 생성하여 원시 메타데이터에서 사용 가능한 컨텍스트로 이동하는 시간을 줄일 수 있습니다.

치트 시트: 처음 10가지 작업

빠른 시작을 통해 DataHub를 로컬에서 시작합니다.

UI 수집을 통해 웨어하우스 소스를 하나 추가합니다.

계보를 위해 dbt 또는 오케스트레이션 메타데이터를 수집합니다.

5~10개의 주요 데이터 세트에 소유자를 추가합니다.

간결한 설명(각 2~3 문장)을 작성합니다.

3개의 용어집 용어와 4~6개의 태그를 만듭니다.

5개의 데이터 세트를 gold로 태그하고 더 이상 사용되지 않는 데이터 세트를 숨깁니다.

스튜어드에 대한 편집기 정책을 하나 설정합니다.

매일 수집을 예약합니다.

2개의 이해 관계자 팀에 UI를 데모하고 피드백을 수집합니다.

다음 단계는 무엇입니까?

Kubernetes 또는 관리 환경으로 확장합니다.

거버넌스를 위해 SSO 및 그룹을 롤아웃합니다.

BI 및 이벤트 스트림으로 수집을 확장합니다.

데이터 품질 및 문서 완료에 대한 스코어카드를 구축합니다.

스키마 변경 사항이 항상 카탈로그에 반영되도록 CI/CD와 통합합니다.

마지막 요점

작게 시작하고, 가치를 빠르게 제공하고, 반복합니다.

속도를 위해 UI 수집을 사용하고 반복성을 위해 CLI를 사용합니다.

신뢰도를 높이기 위해 일찍 용어집, 태그 및 정책을 레이어링합니다.

완전한 계보를 위해 웨어하우스 + dbt + BI를 연결합니다.

문서화를 사후 고려 사항이 아닌 개발의 일부로 취급합니다.

FAQ

Q1:DataHub란 무엇이며 왜 사용해야 합니까? DataHub는 데이터 스택 전반에서 검색, 계보 및 거버넌스를 위한 오픈 소스 메타데이터 플랫폼입니다. 팀이 신뢰할 수 있는 데이터 세트를 찾고, 영향을 이해하고, 문서를 표준화하는 데 도움이 됩니다. 공식 소개에서 기본 사항을 알아보세요.

Q2:DataHub를 빠르게 설치하려면 어떻게 해야 합니까? 빠른 시작을 사용하세요. Docker를 설치하고, CLI를 설치한 다음, 단일 명령으로 시작합니다. UI에 로컬로 액세스하고 기본값으로 로그인하여 설정을 빠르게 확인할 수 있습니다.

Q3:DataHub에서 UI 수집 또는 CLI 수집을 사용해야 합니까? 빠르게 시작하거나 엔지니어가 아닌 사람을 참여시키려면 UI 기반 수집을 사용하세요. 처음 연결 및 데모에 좋습니다. 버전 관리된 레시피, 자동화 및 CI/CD 통합을 위해 CLI 수집으로 전환하세요.

Q4:DataHub에 계보가 표시되도록 하려면 어떻게 해야 합니까? 웨어하우스(예: Snowflake), 변환 레이어(예: dbt) 및 오케스트레이션(예: Airflow)과 같은 여러 소스에서 수집합니다. DataHub가 이러한 조각을 연결하면 계보가 나타납니다.

Q5:DataHub에서 어떤 거버넌스 기능을 먼저 활성화해야 합니까? 소유권, 간결한 설명, 작은 용어집 및 gold, pii 및 deprecated와 같은 일관된 태그로 시작합니다. 그런 다음 중요한 자산을 편집하고 정기적인 수집을 예약할 수 있는 사용자를 제어하는 정책을 추가합니다.