What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

نحوه استفاده از DataHub: یک راهنمای عملی و جامع برای کاتالوگ داده شما

آیا آماده‌اید که پراکندگی داده‌ها را به شفافیت تبدیل کنید؟ DataHub—یک پلتفرم متن‌باز فراداده که در ابتدا در LinkedIn ایجاد شد—به تیم‌ها کمک می‌کند تا داده‌ها را در انبارها، ابزارهای BI، سیستم‌های ارکستراسیون و موارد دیگر کشف، اعتماد و مدیریت کنند. در این راهنمای گام به گام و عملی، شما از صفر به یک نمونه DataHub فعال خواهید رسید، فراداده را وارد می‌کنید، تبار داده را بررسی می‌کنید و حاکمیت را تنظیم می‌کنید—بدون اینکه در اصطلاحات تخصصی گم شوید.

آنچه در یک نگاه یاد خواهید گرفت:

راه‌اندازی DataHub به صورت محلی در عرض چند دقیقه

وارد کردن فراداده از منابع رایج (به عنوان مثال، Snowflake، BigQuery، dbt)

بررسی جستجو، تبار داده، مالکیت و مستندات در رابط کاربری

تعریف سیاست‌ها، تگ‌ها و اصطلاحات برای حاکمیت

پیاده‌سازی فرآیندهای تیمی که واقعاً کار می‌کنند

توجه: این یک راهنمای عملی و راه‌حل‌محور است که برای ترسیم گردش‌کارهای واقعی طراحی شده است. در صورت نیاز، برای جزئیات و بررسی عمیق‌تر، به اسناد رسمی استناد خواهیم کرد.

شروع سریع: اجرای DataHub به صورت محلی اگر در حال آزمایش یا پایلوت DataHub هستید، سریع‌ترین مسیر، شروع سریع است. ابتدا مطمئن شوید که Docker را نصب کرده‌اید. سپس:

نصب CLI مربوط به DataHub

راه‌اندازی با یک دستور واحد

باز کردن رابط کاربری و ورود به سیستم با مقادیر پیش‌فرض

جزئیات، دستورات و مقادیر پیش‌فرض رسمی شروع سریع در اینجا قرار دارند. این مقدمه معماری را توضیح می‌دهد و اینکه چرا DataHub از یک مدل فراداده بی‌درنگ (موجودیت‌ها، جنبه‌ها و به‌روزرسانی‌های جریان‌دار) مناسب برای پشته‌های مدرن استفاده می‌کند.

نکات راه‌اندازی هوشمند:

حتی اگر قصد دارید بعداً به Kubernetes بروید، به صورت محلی شروع کنید. این کار برای جلب نظر و نمایش سریع‌تر است.

اگر از قبل Docker Desktop را دارید، معمولاً در عرض چند دقیقه راه‌اندازی می‌شوید.

اعتبارات را ایمن نگه دارید—حتی در یک سندباکس. عادت‌هایی که اکنون ایجاد می‌شوند، بعداً نتیجه می‌دهند.

درک مفاهیم اصلی در 5 دقیقه قبل از اینکه چیزی را وارد کنید، با مدل ذهنی DataHub راحت باشید:

موجودیت‌ها: مواردی مانند مجموعه‌داده‌ها، جداول، نمودارها، داشبوردها، پایپ‌لاین‌ها، کاربران.

جنبه‌ها: «وجه‌های» نسخه‌بندی شده فراداده درباره موجودیت‌ها (اسکیما، مالکیت، تگ‌ها، اصطلاحات واژه‌نامه).

گراف: روابط (تبار داده، مالکیت، وابستگی‌ها) تجربه جستجو و کشف را تقویت می‌کنند.

این رویکرد مبتنی بر گراف، ویژگی‌هایی مانند تجزیه و تحلیل تأثیر (اگر این ستون را تغییر دهیم چه چیزی خراب می‌شود؟)، نقشه‌برداری تبار داده پایین‌دستی و سیگنال‌های اعتماد (مالکان، تگ‌ها، مستندات) را فعال می‌کند. یک نمای کلی مفهومی مختصر در راهنمای معرفی وجود دارد.

وارد کردن فراداده: رابط کاربری در مقابل CLI (مسیر خود را انتخاب کنید) DataHub از وارد کردن مبتنی بر رابط کاربری کاربرپسند و پایپ‌لاین‌های CLI اسکریپت‌پذیر پشتیبانی می‌کند. آنچه امروز با گردش‌کار شما مطابقت دارد را انتخاب کنید—بسیاری از تیم‌ها از هر دو استفاده می‌کنند.

گزینه A: وارد کردن مبتنی بر رابط کاربری (سریع برای اجراهای اول)

در رابط کاربری، به Ingestion ← New Source بروید.

یک منبع را انتخاب کنید (به عنوان مثال، Snowflake، BigQuery، dbt، Kafka، Looker، Tableau).

جزئیات اتصال را وارد کنید.

اتصال را تست کنید.

وارد کردن را به صورت زمان‌بندی شده یا در صورت نیاز اجرا کنید.

جریان و مراحل رابط کاربری در اینجا پوشش داده شده است. این برای غیرمهندسان یا تیم‌هایی که می‌خواهند اتصال را به سرعت اعتبارسنجی کنند، ایده‌آل است.

گزینه B: وارد کردن مبتنی بر CLI (تکرارپذیر و مناسب CI)

یک دستورالعمل YAML ایجاد کنید که منبع، فیلترها و نگاشت شما را تعریف می‌کند.

اجرا کنید: datahub ingest -c recipe.yml

دستورالعمل را برای تکرارپذیری به کنترل نسخه متعهد کنید.

وارد کردن و دستورالعمل‌های CLI به طور مفصل در اینجا مستند شده‌اند. این رویکرد برای پایپ‌لاین‌های توسعه/تولید، اتوماسیون و ثبات بهتر است.

نکات حرفه‌ای برای وارد کردن:

با یک یا دو منبعی که مهم‌تر هستند شروع کنید (به عنوان مثال، Snowflake + dbt). بردهای سریع، حرکت ایجاد می‌کنند.

به شدت فیلتر کنید. هر مجموعه داده سندباکس را در روز اول وارد نکنید؛ این کار باعث ایجاد نویز می‌شود.

نام‌های نمونه پلتفرم را اضافه کنید (مانند snowflake:prod در مقابل snowflake:dev) تا از سردرگمی جلوگیری شود.

بررسی رابط کاربری: جستجو، تبار داده و مالکیت پس از اتمام اولین وارد کردن، برای اعتبارسنجی سریع ارزش، به رابط کاربری بروید:

جستجوی جهانی: مجموعه‌داده‌ها، داشبوردها و پایپ‌لاین‌ها را بر اساس نام، اسکیما، تگ‌ها یا اصطلاحات واژه‌نامه پیدا کنید.

گراف تبار داده: برای دیدن اتصالات بالادستی و پایین‌دستی، روی یک مجموعه داده کلیک کنید. این برای تجزیه و تحلیل تأثیر بسیار ارزشمند است.

مالکیت و مستندات: مالکان (تیم‌ها یا کاربران) را اضافه کنید و توضیحات واضح بنویسید. اینها اولین سیگنال‌های اعتمادی هستند که سازمان شما احساس خواهد کرد.

اسکیما و پروفایل‌بندی: نام ستون‌ها، انواع و آمارهای نمونه را بررسی کنید. ناهنجاری‌ها را زود تشخیص دهید.

افزودن معنا: واژه‌نامه، تگ‌ها و دامنه‌ها فراداده خام فقط شروع کار است. شما با لایه‌بندی معناشناسی، پذیرش واقعی را باز خواهید کرد:

اصطلاحات واژه‌نامه: مفاهیم تجاری دوستانه را تعریف کنید (مشتری، ARR، کاربر فعال). برای استانداردسازی زبان، به مجموعه‌داده‌ها/ستون‌ها پیوست کنید.

تگ‌ها: برچسب‌های سبک (PII، Critical، Deprecated، Gold). نشانه‌های بصری سریع برای ریسک و اهمیت.

دامنه‌ها: دارایی‌های مرتبط را بر اساس عملکرد تجاری (مالی، بازاریابی) یا پلتفرم گروه‌بندی کنید.

اولین طبقه‌بندی توصیه شده:

سه اصطلاح واژه‌نامه که همه می‌فهمند (مشتری، سفارش، درآمد)

یک مجموعه تگ کوچک: pii، gold، deprecated، experimental

5-7 دامنه که با نمودار سازمانی یا پلتفرم‌های داده شما مطابقت دارند

حاکمیتی که مقیاس‌پذیر است: سیاست‌ها و دسترسی DataHub از سیاست‌های مبتنی بر نقش و دارایی پشتیبانی می‌کند تا بتوانید کنترل کنید چه کسی چه کاری می‌تواند انجام دهد (ویرایش مستندات، افزودن تگ‌ها، مدیریت تبار داده و غیره). ساده شروع کنید:

یک گروه «متولیان» با حقوق ویرایش مستندات، مالکیت و تگ‌ها ایجاد کنید.

به تحلیلگران دسترسی خواندن به اکثر دارایی‌ها بدهید، اما دامنه‌های حساس را محدود کنید.

قبل از اینکه مجموعه‌داده‌های «طلایی» در «انتخاب‌های برتر» ظاهر شوند، به مالکان نیاز داشته باشید.

سیاست‌ها و حاکمیت در داخل پلتفرم قرار دارند، بنابراین تجربه برای ویرایشگران و بینندگان یکسان است. با بلوغ سازمان خود، با مجوزهای دقیق‌تر و جریان‌های تأیید، گسترش دهید.

بهترین شیوه‌های عملیاتی: ماندگار کردن آن برنامه‌های فراداده زمانی با شکست مواجه می‌شوند که مانند کار اضافی به نظر برسند. DataHub را بخشی از جریان عادی کنید:

جاسازی در PR/CI: وقتی پایپ‌لاین‌های داده تغییر می‌کنند، یک وارد کردن فراداده را اجرا کنید و تفاوت‌های اسکیما را مقایسه کنید. تغییرات مخرب را به طور خودکار علامت‌گذاری کنید.

همسو شدن با dbt: از اسناد، تست‌ها و مواجهه‌های dbt استفاده کنید؛ آنها را در DataHub برای اتصال کد به زمینه تجاری نشان دهید.

ایجاد یک «دفترچه راهنمای پذیرش»: مالکان مستندات، تگ‌ها و اصطلاحات واژه‌نامه را در طول دوره آموزش اضافه می‌کنند. کیفیت را از طریق کارت‌های امتیازی پاداش دهید.

انتشار یک قرارداد داده: برای جداول کلیدی، قوانین SLA، تازگی، قابلیت تهی بودن و ثبات را تعریف کنید. آن را در DataHub نشان دهید.

از پایلوت تا تولید: چه تغییراتی ایجاد می‌شود؟

زیرساخت: از Docker محلی به یک محیط مدیریت شده (Kubernetes، خدمات ابری) بروید. در صورت وجود یک گزینه میزبانی شده در سازمان خود، آن را در نظر بگیرید.

Auth/SSO: با ارائه‌دهنده هویت خود (Okta، Azure AD و غیره) ادغام شوید.

قابلیت مشاهده: کارهای وارد کردن، اندازه گراف و عملکرد رابط کاربری را نظارت کنید.

مدیریت تغییر: یک روال بررسی فراداده ایجاد کنید (به عنوان مثال، همگام‌سازی هفتگی مباشرت).

عیب‌یابی: مشکلات رایج و اصلاحات

«من نمی‌توانم جداول خود را ببینم.» قوانین شبکه، اعتبارات و فیلترهای منبع را بررسی کنید. یک دستورالعمل وارد کردن حداقلی را برای جداسازی مشکل اجرا کنید.

«تبار داده ناقص است.» مطمئن شوید که از منابع ارکستراسیون (Airflow)، تبدیل (dbt) و انبار وارد کرده‌اید. تبار داده اغلب به چندین اتصال‌دهنده نیاز دارد.

«جستجو آشفته به نظر می‌رسد.» فیلترها را محکم کنید، تگ‌ها/واژه‌نامه را اضافه کنید و دارایی‌های منسوخ شده را پنهان کنید.

«مستندات قدیمی هستند.» وارد کردن منظم را زمان‌بندی کنید؛ مالکان را تشویق کنید که توضیحات را در کنار تغییرات کد به‌روزرسانی کنند.

مثال: یک مسیر سریع به ارزش در 48 ساعت روز 1

DataHub را به صورت محلی از طریق شروع سریع راه‌اندازی کنید.

با استفاده از وارد کردن رابط کاربری، از انبار خود (Snowflake/BigQuery) وارد کنید.

به پنج مجموعه داده حیاتی مالکان و توضیحات اضافه کنید.

اصطلاحات واژه‌نامه را برای مشتری و درآمد ایجاد کنید؛ آن مجموعه‌داده‌ها را به عنوان طلایی تگ کنید.

روز 2

فراداده dbt را برای اتصال مدل‌ها به جداول وارد کنید.

تبار داده را در سراسر وارد کردن ← تبدیل ← BI اعتبارسنجی کنید.

یک سیاست ایجاد کنید که فقط متولیان بتوانند مستندات مجموعه داده طلایی را تغییر دهند.

نمای تبار داده و تجربه جستجو را به ذینفعان نشان دهید؛ بازخورد جمع‌آوری کنید.

منابع کلیدی

شروع سریع: تنظیم محلی، اعتبارات، پورت‌ها، دستورات

مفاهیم و نمای کلی معماری

مراحل وارد کردن مبتنی بر رابط کاربری

وارد کردن CLI و دستورالعمل‌های YAML

جایی که Sider.AI می‌تواند کمک کند اگر تیم شما به طور مکرر در مورد بهترین شیوه‌ها تحقیق می‌کند، مستندات مجموعه داده را می‌نویسد یا به خلاصه‌های قابل هضم از تغییرات تبار داده و اسکیما نیاز دارد، شایان ذکر است که Sider.AI می‌تواند مستندسازی و به اشتراک‌گذاری دانش را تسریع کند. به عنوان مثال، می‌توانید تفاوت‌های اسکیما متراکم را به گزارش‌های تغییر قابل خواندن توسط انسان تبدیل کنید یا پیش‌نویس‌های اولیه توضیحات مجموعه داده را ایجاد کنید که متولیان آنها را اصلاح می‌کنند—کاهش زمان از فراداده خام به زمینه قابل استفاده.

برگ تقلب: 10 اقدام اول شما

DataHub را به صورت محلی از طریق شروع سریع راه‌اندازی کنید.

یک منبع انبار را از طریق وارد کردن رابط کاربری اضافه کنید.

فراداده dbt یا ارکستراسیون را برای تبار داده وارد کنید.

به 5-10 مجموعه داده کلیدی مالکان اضافه کنید.

توضیحات مختصر بنویسید (هر کدام 2-3 جمله).

3 اصطلاح واژه‌نامه و 4-6 تگ ایجاد کنید.

5 مجموعه داده را به عنوان طلایی تگ کنید و موارد منسوخ شده را پنهان کنید.

یک سیاست ویرایشگر برای متولیان تنظیم کنید.

وارد کردن روزانه را زمان‌بندی کنید.

رابط کاربری را به 2 تیم ذینفع نشان دهید و بازخورد جمع‌آوری کنید.

بعدی چیست؟

مقیاس به Kubernetes یا یک محیط مدیریت شده.

SSO و گروه‌ها را برای حاکمیت راه‌اندازی کنید.

وارد کردن را به BI و جریان‌های رویداد گسترش دهید.

کارت‌های امتیازی را برای کیفیت داده و کامل بودن مستندات بسازید.

با CI/CD ادغام شوید تا تغییرات اسکیما همیشه در کاتالوگ منعکس شوند.

نکات کلیدی نهایی

کوچک شروع کنید، ارزش را سریع ارائه دهید و تکرار کنید.

از وارد کردن رابط کاربری برای سرعت استفاده کنید؛ CLI برای تکرارپذیری.

واژه‌نامه، تگ‌ها و سیاست‌ها را زودتر لایه‌بندی کنید تا اعتماد را افزایش دهید.

انبار + dbt + BI را برای تبار داده کامل وصل کنید.

با مستندات به عنوان بخشی از توسعه رفتار کنید، نه یک فکر بعدی.

سوالات متداول

Q1:DataHub چیست و چرا باید از آن استفاده کنم؟ DataHub یک پلتفرم متن‌باز فراداده برای کشف، تبار داده و حاکمیت در سراسر پشته داده شما است. این به تیم‌ها کمک می‌کند تا مجموعه‌داده‌های قابل اعتماد را پیدا کنند، تأثیر را درک کنند و مستندات را استاندارد کنند. اصول اولیه را در مقدمه رسمی بیاموزید.

Q2:چگونه DataHub را به سرعت نصب کنم؟ از شروع سریع استفاده کنید: Docker را نصب کنید، CLI را نصب کنید، سپس با یک دستور واحد شروع کنید. می‌توانید به رابط کاربری به صورت محلی دسترسی داشته باشید و با مقادیر پیش‌فرض وارد شوید تا راه‌اندازی را به سرعت اعتبارسنجی کنید.

Q3:آیا باید از وارد کردن رابط کاربری یا وارد کردن CLI در DataHub استفاده کنم؟ برای شروع سریع یا درگیر کردن غیرمهندسان، از وارد کردن مبتنی بر رابط کاربری استفاده کنید. این برای اتصال و نمایش برای اولین بار عالی است. برای دستورالعمل‌های نسخه‌بندی شده، اتوماسیون و ادغام CI/CD به وارد کردن CLI سوئیچ کنید.

Q4:چگونه تبار داده را در DataHub نشان دهم؟ از منابع متعدد وارد کنید: انبار خود (به عنوان مثال، Snowflake)، لایه تبدیل خود (به عنوان مثال، dbt) و ارکستراسیون (به عنوان مثال، Airflow). تبار داده با اتصال این قطعات توسط DataHub پدیدار می‌شود.

Q5:کدام ویژگی‌های حاکمیت را باید ابتدا در DataHub فعال کنم؟ با مالکیت، توضیحات مختصر، یک واژه‌نامه کوچک و تگ‌های ثابت مانند gold، pii و deprecated شروع کنید. سپس سیاست‌هایی را برای کنترل اینکه چه کسی می‌تواند دارایی‌های حیاتی را ویرایش کند و وارد کردن منظم را زمان‌بندی کند، اضافه کنید.