데이터 확산을 명확성으로 바꾸고 싶으신가요? LinkedIn에서 처음 개발한 오픈 소스 메타데이터 플랫폼인 DataHub는 팀이 웨어하우스, BI 도구, 오케스트레이션 시스템 등에서 데이터를 검색, 신뢰 및 관리할 수 있도록 지원합니다. 이 실용적이고 단계별 가이드에서는 전문 용어에 압도되지 않고도 DataHub 인스턴스를 구축하고, 메타데이터를 수집하고, 계보를 탐색하고, 거버넌스를 설정할 수 있습니다.
주요 학습 내용:
- 일반적인 소스(예: Snowflake, BigQuery, dbt)에서 메타데이터 수집
참고: 이는 실제 워크플로에 매핑되도록 설계된 실용적이고 솔루션 지향적인 연습입니다. 필요한 경우 특정 사항 및 자세한 내용은 공식 문서를 참조합니다.
- 빠른 시작: DataHub 로컬에서 실행하기
DataHub를 실험하거나 시범 운영하는 경우 가장 빠른 방법은 빠른 시작입니다. 먼저 Docker가 설치되어 있는지 확인하세요. 그런 다음:
공식 빠른 시작 세부 정보, 명령 및 기본값은 여기에서 확인할 수 있습니다. 소개에서는 아키텍처와 DataHub가 최신 스택에 적합한 실시간 메타데이터 모델(엔터티, 측면 및 스트리밍 업데이트)을 사용하는 이유를 설명합니다.
스마트 설정 팁:
- 나중에 Kubernetes로 이동할 계획이라도 로컬에서 시작하세요. 동의 및 데모에 더 빠릅니다.
- Docker Desktop이 이미 있는 경우 일반적으로 몇 분 안에 시작할 수 있습니다.
- 샌드박스에서도 자격 증명을 안전하게 유지하세요. 지금 구축된 습관은 나중에 보상을 제공합니다.
- 5분 안에 핵심 개념 이해하기
무엇이든 수집하기 전에 DataHub의 사고 모델에 익숙해지세요.
- 엔터티: 데이터 세트, 테이블, 차트, 대시보드, 파이프라인, 사용자 등.
- 측면: 엔터티에 대한 메타데이터의 버전 관리된 "측면" (스키마, 소유권, 태그, 용어집 용어, 계보).
- 그래프: 관계 (계보, 소유권, 종속성)는 검색 및 검색 환경을 강화합니다.
이 그래프 기반 접근 방식을 통해 영향 분석(이 열을 변경하면 무엇이 손상됩니까?), 다운스트림 계보 매핑 및 신뢰 신호(소유자, 태그, 문서)와 같은 기능을 사용할 수 있습니다. 간결한 개념적 개요는 소개 가이드에 있습니다.
- 메타데이터 수집: UI vs. CLI (경로 선택)
DataHub는 사용자 친화적인 UI 수집과 스크립트 가능한 CLI 파이프라인을 모두 지원합니다. 오늘 워크플로에 적합한 것을 선택하세요. 많은 팀에서 둘 다 사용합니다.
옵션 A: UI 기반 수집 (첫 번째 실행에 빠름)
- 소스 선택 (예: Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).
UI 흐름 및 단계는 여기에서 다룹니다. 엔지니어가 아닌 사람이나 연결을 빠르게 검증하려는 팀에 이상적입니다.
옵션 B: CLI 기반 수집 (반복 가능하고 CI 친화적)
- 소스, 필터 및 매핑을 정의하는 YAML 레시피를 만듭니다.
- 실행: datahub ingest -c recipe.yml
- 반복성을 위해 레시피를 버전 제어에 커밋합니다.
CLI 수집 및 레시피는 여기에서 자세히 설명되어 있습니다. 이 접근 방식은 개발/프로덕션 파이프라인, 자동화 및 일관성에 더 적합합니다.
수집에 대한 전문가 팁:
- 가장 중요한 소스 하나 또는 두 개(예: Snowflake + dbt)부터 시작하세요. 빠른 성공은 추진력을 구축합니다.
- 적극적으로 필터링합니다. 첫날 모든 샌드박스 데이터 세트를 수집하지 마세요. 노이즈를 생성합니다.
- 혼동을 피하기 위해 플랫폼 인스턴스 이름(예: snowflake:prod vs snowflake:dev)을 추가합니다.
- UI 탐색: 검색, 계보 및 소유권
첫 번째 수집이 완료되면 UI로 이동하여 값을 빠르게 확인하세요.
- 유니버설 검색: 이름, 스키마, 태그 또는 용어집 용어로 데이터 세트, 대시보드 및 파이프라인을 찾습니다.
- 계보 그래프: 데이터 세트를 클릭하여 업스트림 및 다운스트림 연결을 확인합니다. 이는 영향 분석에 매우 중요합니다.
- 소유권 및 문서화: 소유자(팀 또는 사용자)를 추가하고 명확한 설명을 작성합니다. 이것은 조직이 느끼는 첫 번째 신뢰 신호입니다.
- 스키마 및 프로파일링: 열 이름, 유형 및 샘플 통계를 검토합니다. 이상 징후를 조기에 발견하십시오.
- 의미 추가: 용어집, 태그 및 도메인
원시 메타데이터는 시작일 뿐입니다. 의미 체계를 레이어링하여 실제 채택을 잠금 해제합니다.
- 용어집 용어: 비즈니스 친화적인 개념(고객, ARR, 활성 사용자)을 정의합니다. 언어를 표준화하기 위해 데이터 세트/열에 연결합니다.
- 태그: 가벼운 레이블(PII, 중요, 더 이상 사용되지 않음, Gold). 위험 및 중요성에 대한 빠른 시각적 신호.
- 도메인: 비즈니스 기능(재무, 마케팅) 또는 플랫폼별로 관련 자산을 그룹화합니다.
권장되는 첫 번째 분류:
- 모든 사람이 이해하는 세 가지 용어집 용어(고객, 주문, 수익)
- 작은 태그 세트: pii, gold, deprecated, experimental
- 조직 차트 또는 데이터 플랫폼에 매핑되는 5~7개의 도메인
- 확장 가능한 거버넌스: 정책 및 액세스
DataHub는 역할 및 자산 기반 정책을 지원하므로 누가 무엇을 할 수 있는지(문서 편집, 태그 추가, 계보 관리 등) 제어할 수 있습니다. 간단하게 시작하세요.
- 문서, 소유권 및 태그에 대한 편집 권한이 있는 "Stewards" 그룹을 만듭니다.
- 분석가에게 대부분의 자산에 대한 읽기 권한을 부여하되 민감한 도메인을 제한합니다.
- "Top Picks"에 나타나기 전에 "gold" 데이터 세트에 대한 소유자를 요구합니다.
정책 및 거버넌스는 플랫폼 내부에 있으므로 편집자와 뷰어 모두에게 일관된 경험을 제공합니다. 조직이 성숙함에 따라 더 세분화된 권한 및 승인 흐름으로 확장합니다.
- 운영 모범 사례: 고수하기
메타데이터 프로그램은 추가 작업처럼 느껴지면 실패합니다. DataHub를 정상적인 흐름의 일부로 만드세요.
- PR/CI에 임베드: 데이터 파이프라인이 변경되면 메타데이터 수집을 실행하고 스키마 차이를 비교합니다. 변경 사항을 자동으로 플래그합니다.
- dbt와 정렬: dbt 문서, 테스트 및 노출을 사용합니다. DataHub에 표시하여 코드를 비즈니스 컨텍스트에 연결합니다.
- "채택 플레이북" 만들기: 소유자는 온보딩 중에 문서, 태그 및 용어집 용어를 추가합니다. 스코어카드를 통해 품질에 대한 보상을 제공합니다.
- 데이터 계약 게시: 주요 테이블의 경우 SLA, 최신성, null 허용 여부 및 안정성 규칙을 정의합니다. DataHub에 표시합니다.
- 인프라: 로컬 Docker에서 관리 환경(Kubernetes, 클라우드 서비스)으로 이동합니다. 조직에서 사용할 수 있는 경우 호스팅 옵션을 고려하십시오.
- 인증/SSO: ID 공급자(Okta, Azure AD 등)와 통합합니다.
- 관찰 가능성: 수집 작업, 그래프 크기 및 UI 성능을 모니터링합니다.
- 변경 관리: 메타데이터 검토 케이던스(예: 주간 스튜어드십 동기화)를 설정합니다.
- "테이블이 보이지 않습니다." 네트워크 규칙, 자격 증명 및 소스 필터를 확인합니다. 최소 수집 레시피를 실행하여 문제를 격리합니다.
- "계보가 불완전합니다." 오케스트레이션(Airflow), 변환(dbt) 및 웨어하우스 소스에서 수집했는지 확인합니다. 계보에는 종종 여러 커넥터가 필요합니다.
- "검색이 복잡하게 느껴집니다." 필터를 강화하고 태그/용어집을 추가하고 더 이상 사용되지 않는 자산을 숨깁니다.
- "문서가 부실합니다." 정기적인 수집을 예약합니다. 소유자가 코드 변경과 함께 설명을 업데이트하도록 장려합니다.
- 예: 48시간 만에 가치를 얻는 빠른 경로
1일차
- 빠른 시작을 통해 DataHub를 로컬에서 시작합니다.
- UI 수집을 사용하여 웨어하우스(Snowflake/BigQuery)에서 수집합니다.
- 5개의 중요한 데이터 세트에 소유자와 설명을 추가합니다.
- 고객 및 수익에 대한 용어집 용어를 만들고 해당 데이터 세트를 gold로 태그합니다.
2일차
- 모델을 테이블에 연결하기 위해 dbt 메타데이터를 수집합니다.
- 수집 → 변환 → BI에서 계보를 검증합니다.
- 스튜어드만 gold 데이터 세트 문서를 변경할 수 있는 정책을 만듭니다.
- 이해 관계자에게 계보 보기 및 검색 경험을 데모합니다. 피드백을 수집합니다.
주요 참조
- 빠른 시작: 로컬 설정, 자격 증명, 포트, 명령
Sider.AI가 도움이 될 수 있는 곳
팀이 모범 사례를 자주 연구하거나 데이터 세트 문서를 작성하거나 계보 및 스키마 변경 사항에 대한 이해하기 쉬운 요약이 필요한 경우 Sider.AI가 문서화 및 지식 공유를 가속화할 수 있다는 점에 주목할 가치가 있습니다. 예를 들어 조밀한 스키마 차이를 사람이 읽을 수 있는 변경 로그로 바꾸거나 스튜어드가 구체화하는 초안 데이터 세트 설명을 생성하여 원시 메타데이터에서 사용 가능한 컨텍스트로 이동하는 시간을 줄일 수 있습니다. 치트 시트: 처음 10가지 작업
- 빠른 시작을 통해 DataHub를 로컬에서 시작합니다.
- UI 수집을 통해 웨어하우스 소스를 하나 추가합니다.
- 계보를 위해 dbt 또는 오케스트레이션 메타데이터를 수집합니다.
- 5~10개의 주요 데이터 세트에 소유자를 추가합니다.
- 3개의 용어집 용어와 4~6개의 태그를 만듭니다.
- 5개의 데이터 세트를 gold로 태그하고 더 이상 사용되지 않는 데이터 세트를 숨깁니다.
- 스튜어드에 대한 편집기 정책을 하나 설정합니다.
- 2개의 이해 관계자 팀에 UI를 데모하고 피드백을 수집합니다.
다음 단계는 무엇입니까?
- Kubernetes 또는 관리 환경으로 확장합니다.
- 거버넌스를 위해 SSO 및 그룹을 롤아웃합니다.
- BI 및 이벤트 스트림으로 수집을 확장합니다.
- 데이터 품질 및 문서 완료에 대한 스코어카드를 구축합니다.
- 스키마 변경 사항이 항상 카탈로그에 반영되도록 CI/CD와 통합합니다.
마지막 요점
- 작게 시작하고, 가치를 빠르게 제공하고, 반복합니다.
- 속도를 위해 UI 수집을 사용하고 반복성을 위해 CLI를 사용합니다.
- 신뢰도를 높이기 위해 일찍 용어집, 태그 및 정책을 레이어링합니다.
- 완전한 계보를 위해 웨어하우스 + dbt + BI를 연결합니다.
- 문서화를 사후 고려 사항이 아닌 개발의 일부로 취급합니다.
FAQ
Q1:DataHub란 무엇이며 왜 사용해야 합니까?
DataHub는 데이터 스택 전반에서 검색, 계보 및 거버넌스를 위한 오픈 소스 메타데이터 플랫폼입니다. 팀이 신뢰할 수 있는 데이터 세트를 찾고, 영향을 이해하고, 문서를 표준화하는 데 도움이 됩니다. 공식 소개에서 기본 사항을 알아보세요.
Q2:DataHub를 빠르게 설치하려면 어떻게 해야 합니까?
빠른 시작을 사용하세요. Docker를 설치하고, CLI를 설치한 다음, 단일 명령으로 시작합니다. UI에 로컬로 액세스하고 기본값으로 로그인하여 설정을 빠르게 확인할 수 있습니다.
Q3:DataHub에서 UI 수집 또는 CLI 수집을 사용해야 합니까?
빠르게 시작하거나 엔지니어가 아닌 사람을 참여시키려면 UI 기반 수집을 사용하세요. 처음 연결 및 데모에 좋습니다. 버전 관리된 레시피, 자동화 및 CI/CD 통합을 위해 CLI 수집으로 전환하세요.
Q4:DataHub에 계보가 표시되도록 하려면 어떻게 해야 합니까?
웨어하우스(예: Snowflake), 변환 레이어(예: dbt) 및 오케스트레이션(예: Airflow)과 같은 여러 소스에서 수집합니다. DataHub가 이러한 조각을 연결하면 계보가 나타납니다.
Q5:DataHub에서 어떤 거버넌스 기능을 먼저 활성화해야 합니까?
소유권, 간결한 설명, 작은 용어집 및 gold, pii 및 deprecated와 같은 일관된 태그로 시작합니다. 그런 다음 중요한 자산을 편집하고 정기적인 수집을 예약할 수 있는 사용자를 제어하는 정책을 추가합니다.