What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

DataHub का उपयोग कैसे करें: आपकी डेटा कैटलॉग के लिए एक व्यावहारिक, एंड-टू-एंड गाइड

क्या आप डेटा के फैलाव को स्पष्टता में बदलने के लिए तैयार हैं? डेटाहब—एक ओपन-सोर्स मेटाडेटा प्लेटफॉर्म जिसे मूल रूप से लिंक्डइन में बनाया गया था—टीमों को वेयरहाउस, बीआई टूल, ऑर्केस्ट्रेशन सिस्टम आदि में डेटा को खोजने, उस पर भरोसा करने और उसे प्रबंधित करने में मदद करता है। इस व्यावहारिक, चरण-दर-चरण गाइड में, आप बिना किसी शब्दावली में उलझे, एक वर्किंग डेटाहब इंस्टेंस से मेटाडेटा को इनजेस्ट करेंगे, वंश का पता लगाएंगे और गवर्नेंस स्थापित करेंगे।

आप एक नज़र में क्या सीखेंगे:

कुछ ही मिनटों में स्थानीय रूप से डेटाहब शुरू करें

सामान्य स्रोतों (जैसे, स्नोफ्लेक, बिगक्वेरी, डीबीटी) से मेटाडेटा इनजेस्ट करें

यूआई में खोज, वंश, स्वामित्व और दस्तावेज़ का अन्वेषण करें

गवर्नेंस के लिए नीतियां, टैग और शर्तें परिभाषित करें

टीम प्रक्रियाओं को लागू करें जो वास्तव में कारगर हों

ध्यान दें: यह एक व्यावहारिक और समाधान-उन्मुख वॉकथ्रू है जिसे वास्तविक वर्कफ़्लो के साथ मैप करने के लिए डिज़ाइन किया गया है। आवश्यकता होने पर हम विशिष्टताओं और गहरी जानकारी के लिए आधिकारिक दस्तावेज़ों का हवाला देंगे।

त्वरित शुरुआत: स्थानीय रूप से डेटाहब चलाएं यदि आप डेटाहब का प्रयोग या परीक्षण कर रहे हैं, तो सबसे तेज़ तरीका त्वरित शुरुआत है। सुनिश्चित करें कि आपके पास पहले से Docker इंस्टॉल है। फिर:

डेटाहब CLI इंस्टॉल करें

एकल कमांड के साथ लॉन्च करें

यूआई खोलें और डिफ़ॉल्ट के साथ लॉग इन करें

आधिकारिक त्वरित शुरुआत विवरण, कमांड और डिफ़ॉल्ट यहां दिए गए हैं। परिचय आर्किटेक्चर और आधुनिक स्टैक के लिए उपयुक्त एक रीयल-टाइम मेटाडेटा मॉडल (एंटीटी, आस्पेक्ट और स्ट्रीमिंग अपडेट) का डेटाहब उपयोग क्यों करता है, इसकी व्याख्या करता है।

स्मार्ट सेटअप टिप्स:

स्थानीय रूप से शुरू करें, भले ही आप बाद में Kubernetes पर जाने की योजना बना रहे हों। स्वीकृति और डेमो के लिए यह तेज़ है।

यदि आपके पास पहले से ही Docker Desktop है, तो आप आमतौर पर कुछ ही मिनटों में तैयार हो जाएंगे।

क्रेडेंशियल्स को सुरक्षित रखें—यहां तक कि सैंडबॉक्स में भी। अभी बनाई गई आदतें बाद में फल देंगी।

5 मिनट में मुख्य अवधारणाओं को समझें कुछ भी इनजेस्ट करने से पहले, डेटाहब के मानसिक मॉडल से सहज हो जाएं:

एंटीटी: डेटासेट, टेबल, चार्ट, डैशबोर्ड, पाइपलाइन, उपयोगकर्ता जैसी चीजें।

आस्पेक्ट: एंटिटी के बारे में मेटाडेटा के संस्करणित “पहलू” (स्कीमा, स्वामित्व, टैग, शब्दावली शर्तें, वंश)।

ग्राफ: संबंध (वंश, स्वामित्व, निर्भरताएं) खोज और खोज अनुभव को शक्ति प्रदान करते हैं।

यह ग्राफ-आधारित दृष्टिकोण प्रभाव विश्लेषण (यदि हम इस कॉलम को बदलते हैं तो क्या टूटता है?), डाउनस्ट्रीम वंश मैपिंग और ट्रस्ट सिग्नल (मालिक, टैग, दस्तावेज़) जैसी सुविधाओं को सक्षम बनाता है। एक संक्षिप्त वैचारिक अवलोकन परिचय गाइड में है।

मेटाडेटा इनजेस्ट करें: यूआई बनाम CLI (अपना पथ चुनें) डेटाहब उपयोगकर्ता के अनुकूल यूआई इनजेशन और स्क्रिप्टेबल CLI पाइपलाइन दोनों का समर्थन करता है। आज अपने वर्कफ़्लो के लिए उपयुक्त चुनें—कई टीमें दोनों का उपयोग करती हैं।

विकल्प A: यूआई-आधारित इनजेशन (पहली बार चलाने के लिए तेज़)

यूआई में, इनजेशन → नया स्रोत पर जाएं।

एक स्रोत चुनें (जैसे, स्नोफ्लेक, बिगक्वेरी, डीबीटी, Kafka, Looker, Tableau)।

कनेक्शन विवरण दर्ज करें।

कनेक्शन का परीक्षण करें।

शेड्यूल करें या मांग पर इनजेशन चलाएं।

यूआई प्रवाह और चरणों को यहां कवर किया गया है। यह गैर-इंजीनियरों या उन टीमों के लिए आदर्श है जो कनेक्टिविटी को जल्दी से मान्य करना चाहते हैं।

विकल्प B: CLI-आधारित इनजेशन (दोहराने योग्य और CI-अनुकूल)

एक YAML रेसिपी बनाएं जो आपके स्रोत, फ़िल्टर और मैपिंग को परिभाषित करती है।

चलाएं: datahub ingest -c recipe.yml

दोहराने योग्यता के लिए रेसिपी को संस्करण नियंत्रण में प्रतिबद्ध करें।

CLI इनजेशन और रेसिपी का विस्तृत विवरण यहां दिया गया है। यह दृष्टिकोण देव/प्रोड पाइपलाइनों, स्वचालन और स्थिरता के लिए बेहतर है।

इनजेशन के लिए समर्थक सुझाव:

एक या दो स्रोतों से शुरू करें जो सबसे महत्वपूर्ण हैं (जैसे, स्नोफ्लेक + डीबीटी)। त्वरित जीत गति बनाती है।

आक्रामक रूप से फ़िल्टर करें। पहले दिन हर सैंडबॉक्स डेटासेट को इनजेस्ट न करें; यह शोर पैदा करता है।

भ्रम से बचने के लिए प्लेटफ़ॉर्म इंस्टेंस नाम (जैसे स्नोफ्लेक:प्रोड बनाम स्नोफ्लेक:डेव) जोड़ें।

यूआई का अन्वेषण करें: खोज, वंश और स्वामित्व एक बार जब आपका पहला इनजेशन पूरा हो जाए, तो मूल्य को तेजी से मान्य करने के लिए यूआई में कूदें:

सार्वभौमिक खोज: नाम, स्कीमा, टैग या शब्दावली शर्तों द्वारा डेटासेट, डैशबोर्ड और पाइपलाइन खोजें।

वंश ग्राफ: अपस्ट्रीम और डाउनस्ट्रीम कनेक्शन देखने के लिए एक डेटासेट पर क्लिक करें। यह प्रभाव विश्लेषण के लिए सुनहरा है।

स्वामित्व और दस्तावेज़: मालिक (टीम या उपयोगकर्ता) जोड़ें और स्पष्ट विवरण लिखें। ये पहले ट्रस्ट सिग्नल हैं जो आपका संगठन महसूस करेगा।

स्कीमा और प्रोफ़ाइलिंग: कॉलम नाम, प्रकार और नमूना आँकड़ों की समीक्षा करें। शुरुआती विसंगतियों को स्पॉट करें।

अर्थ जोड़ें: शब्दावली, टैग और डोमेन कच्चा मेटाडेटा सिर्फ शुरुआत है। आप सिमेंटिक्स को परत करके वास्तविक स्वीकृति को अनलॉक करेंगे:

शब्दावली शर्तें: व्यवसाय के अनुकूल अवधारणाओं को परिभाषित करें (ग्राहक, ARR, सक्रिय उपयोगकर्ता)। भाषा को मानकीकृत करने के लिए डेटासेट/कॉलम से संलग्न करें।

टैग: हल्के लेबल (पीआईआई, क्रिटिकल, डेप्रिसिएटेड, गोल्ड)। जोखिम और महत्व के लिए त्वरित दृश्य संकेत।

डोमेन: व्यवसाय फ़ंक्शन (वित्त, विपणन) या प्लेटफ़ॉर्म द्वारा संबंधित संपत्तियों को समूहित करें।

अनुशंसित पहला वर्गीकरण:

तीन शब्दावली शर्तें जिन्हें हर कोई समझता है (ग्राहक, ऑर्डर, राजस्व)

एक छोटा टैग सेट: pii, gold, deprecated, experimental

5–7 डोमेन जो आपके संगठन चार्ट या डेटा प्लेटफ़ॉर्म पर मैप करते हैं

गवर्नेंस जो स्केल करता है: नीतियां और पहुंच डेटाहब भूमिका- और संपत्ति-आधारित नीतियों का समर्थन करता है ताकि आप नियंत्रित कर सकें कि कौन क्या कर सकता है (दस्तावेज़ संपादित करें, टैग जोड़ें, वंश प्रबंधित करें, आदि)। सरल शुरुआत करें:

डॉक्स, स्वामित्व और टैग पर संपादन अधिकारों के साथ एक “स्टेवर्ड्स” समूह बनाएं।

विश्लेषकों को अधिकांश संपत्तियों तक पढ़ने की पहुंच दें लेकिन संवेदनशील डोमेन को प्रतिबंधित करें।

“टॉप पिक्स” में दिखाई देने से पहले “गोल्ड” डेटासेट के लिए मालिकों की आवश्यकता है।

नीतियां और गवर्नेंस प्लेटफ़ॉर्म के अंदर रहते हैं, इसलिए संपादकों और दर्शकों के लिए अनुभव सुसंगत होता है। जैसे-जैसे आपका संगठन परिपक्व होता है, अधिक दानेदार अनुमतियों और अनुमोदन प्रवाह के साथ विस्तार करें।

परिचालन सर्वोत्तम अभ्यास: इसे टिकाऊ बनाएं मेटाडेटा कार्यक्रम तब विफल हो जाते हैं जब वे अतिरिक्त काम की तरह महसूस होते हैं। डेटाहब को सामान्य प्रवाह का हिस्सा बनाएं:

पीआर/सीआई में एम्बेड करें: जब डेटा पाइपलाइन बदलती है, तो एक मेटाडेटा इनजेस्ट चलाएं और स्कीमा अंतरों की तुलना करें। स्वचालित रूप से ब्रेकिंग परिवर्तनों को फ़्लैग करें।

डीबीटी के साथ संरेखित करें: डीबीटी डॉक्स, परीक्षण और एक्सपोजर का उपयोग करें; कोड को व्यावसायिक संदर्भ से जोड़ने के लिए उन्हें डेटाहब में सरफेस करें।

एक “स्वीकृति प्लेबुक” बनाएं: मालिक ऑनबोर्डिंग के दौरान डॉक्स, टैग और शब्दावली शर्तें जोड़ते हैं। स्कोरकार्ड के माध्यम से गुणवत्ता को पुरस्कृत करें।

एक डेटा अनुबंध प्रकाशित करें: मुख्य तालिकाओं के लिए, एसएलए, ताजगी, अशक्तता और स्थिरता नियमों को परिभाषित करें। इसे डेटाहब में सरफेस करें।

पायलट से उत्पादन तक: क्या बदलाव होते हैं?

इंफ्रास्ट्रक्चर: स्थानीय डॉकर से प्रबंधित वातावरण (Kubernetes, क्लाउड सेवाएं) में जाएं। यदि आपके संगठन में उपलब्ध हो तो होस्ट किए गए विकल्प पर विचार करें।

Auth/SSO: अपने पहचान प्रदाता (Okta, Azure AD, आदि) के साथ एकीकृत करें।

अवलोकनीयता: इनजेशन नौकरियों, ग्राफ आकार और यूआई प्रदर्शन की निगरानी करें।

परिवर्तन प्रबंधन: एक मेटाडेटा समीक्षा कैडेंस स्थापित करें (जैसे, साप्ताहिक स्टेवर्डशिप सिंक)।

समस्या निवारण: सामान्य कमियां और सुधार

“मैं अपनी टेबल नहीं देख सकता।” नेटवर्क नियमों, क्रेडेंशियल्स और स्रोत फ़िल्टर की जांच करें। समस्या को अलग करने के लिए एक न्यूनतम इनजेशन रेसिपी चलाएं।

“वंश अधूरा है।” सुनिश्चित करें कि आपने ऑर्केस्ट्रेशन (एयरफ्लो), ट्रांसफॉर्मेशन (डीबीटी) और वेयरहाउस स्रोतों से इनजेस्ट किया है। वंश को अक्सर कई कनेक्टर्स की आवश्यकता होती है।

“खोज अव्यवस्थित महसूस होती है।” फ़िल्टर को कस लें, टैग/शब्दावली जोड़ें और डेप्रिसिएटेड संपत्तियों को छिपाएं।

“डॉक्स बासी हैं।” नियमित इनजेशन शेड्यूल करें; मालिकों को कोड परिवर्तनों के साथ विवरण अपडेट करने के लिए प्रोत्साहित करें।

उदाहरण: 48 घंटों में मूल्य का एक तेज़ मार्ग पहला दिन

त्वरित शुरुआत के माध्यम से स्थानीय रूप से डेटाहब शुरू करें।

यूआई इनजेशन का उपयोग करके अपने वेयरहाउस (स्नोफ्लेक/बिगक्वेरी) से इनजेस्ट करें।

पांच महत्वपूर्ण डेटासेट में मालिक और विवरण जोड़ें।

ग्राहक और राजस्व के लिए शब्दावली शर्तें बनाएं; उन डेटासेट को गोल्ड के रूप में टैग करें।

दूसरा दिन

मॉडल को तालिकाओं से जोड़ने के लिए डीबीटी मेटाडेटा इनजेस्ट करें।

इनजेशन → ट्रांसफॉर्मेशन → बीआई में वंश को मान्य करें।

एक नीति बनाएं कि केवल स्टेवर्ड ही गोल्ड डेटासेट डॉक्स को बदल सकते हैं।

हितधारकों को वंश दृश्य और खोज अनुभव का प्रदर्शन करें; प्रतिक्रिया एकत्र करें।

मुख्य संदर्भ

त्वरित शुरुआत: स्थानीय सेटअप, क्रेडेंशियल्स, पोर्ट, कमांड

अवधारणाओं और आर्किटेक्चर अवलोकन

यूआई-आधारित इनजेशन चरण

CLI इनजेशन और YAML रेसिपी

Sider.AI कहां मदद कर सकता है यदि आपकी टीम अक्सर सर्वोत्तम प्रथाओं पर शोध करती है, डेटासेट डॉक्स लिखती है, या वंश और स्कीमा परिवर्तनों के आसानी से समझने योग्य सारांश की आवश्यकता होती है, तो यह ध्यान देने योग्य है कि Sider.AI प्रलेखन और ज्ञान साझा करने को गति दे सकता है। उदाहरण के लिए, आप घने स्कीमा अंतरों को मानव-पठनीय परिवर्तन लॉग में बदल सकते हैं, या पहले-ड्राफ्ट डेटासेट विवरण उत्पन्न कर सकते हैं जिन्हें स्टेवर्ड परिष्कृत करते हैं—कच्चे मेटाडेटा से उपयोगी संदर्भ तक के समय को कम करते हैं।

चीट शीट: आपके पहले 10 कार्य

त्वरित शुरुआत के माध्यम से स्थानीय रूप से डेटाहब लॉन्च करें।

यूआई इनजेशन के माध्यम से एक वेयरहाउस स्रोत जोड़ें।

वंश के लिए डीबीटी या ऑर्केस्ट्रेशन मेटाडेटा इनजेस्ट करें।

5–10 प्रमुख डेटासेट में मालिक जोड़ें।

संक्षिप्त विवरण लिखें (प्रत्येक 2–3 वाक्य)।

3 शब्दावली शर्तें और 4–6 टैग बनाएं।

5 डेटासेट को गोल्ड के रूप में टैग करें, और डेप्रिसिएटेड को छिपाएं।

स्टेवर्ड के लिए एक संपादक नीति निर्धारित करें।

दैनिक इनजेशन शेड्यूल करें।

2 हितधारक टीमों को यूआई का प्रदर्शन करें और प्रतिक्रिया एकत्र करें।

आगे क्या है?

Kubernetes या प्रबंधित वातावरण में स्केल करें।

गवर्नेंस के लिए SSO और समूह रोल आउट करें।

बीआई और इवेंट स्ट्रीम में इनजेशन का विस्तार करें।

डेटा गुणवत्ता और दस्तावेज़ पूर्णता के लिए स्कोरकार्ड बनाएं।

CI/CD के साथ एकीकृत करें ताकि स्कीमा परिवर्तन हमेशा कैटलॉग में प्रतिबिंबित हों।

अंतिम निष्कर्ष

छोटी शुरुआत करें, मूल्य तेजी से शिप करें और दोहराएं।

गति के लिए यूआई इनजेशन का उपयोग करें; दोहराने योग्यता के लिए CLI का उपयोग करें।

विश्वास को बढ़ावा देने के लिए शुरुआती शब्दावली, टैग और नीतियों में परत करें।

पूर्ण वंश के लिए वेयरहाउस + डीबीटी + बीआई कनेक्ट करें।

दस्तावेज़ को विकास के भाग के रूप में मानें, न कि बाद में सोचने के रूप में।

FAQ

Q1:डेटाहब क्या है और मुझे इसका उपयोग क्यों करना चाहिए? डेटाहब आपके डेटा स्टैक में खोज, वंश और गवर्नेंस के लिए एक ओपन-सोर्स मेटाडेटा प्लेटफॉर्म है। यह टीमों को विश्वसनीय डेटासेट खोजने, प्रभाव को समझने और दस्तावेज़ को मानकीकृत करने में मदद करता है। आधिकारिक परिचय में मूल बातें जानें।

Q2:मैं डेटाहब को जल्दी से कैसे इंस्टॉल करूं? त्वरित शुरुआत का उपयोग करें: Docker इंस्टॉल करें, CLI इंस्टॉल करें, फिर एक ही कमांड से शुरू करें। आप स्थानीय रूप से यूआई तक पहुंच सकते हैं और सेटअप को तेजी से मान्य करने के लिए डिफ़ॉल्ट के साथ लॉग इन कर सकते हैं।

Q3:मुझे डेटाहब में यूआई इनजेशन या CLI इनजेशन का उपयोग करना चाहिए? जल्दी से शुरू करने या गैर-इंजीनियरों को शामिल करने के लिए यूआई-आधारित इनजेशन का उपयोग करें; यह पहली बार कनेक्टिविटी और डेमो के लिए बहुत अच्छा है। संस्करणित रेसिपी, स्वचालन और CI/CD एकीकरण के लिए CLI इनजेशन पर स्विच करें।

Q4:मैं डेटाहब में वंश कैसे दिखाऊं? एकाधिक स्रोतों से इनजेस्ट करें: आपका वेयरहाउस (जैसे, स्नोफ्लेक), आपकी ट्रांसफॉर्मेशन लेयर (जैसे, डीबीटी), और ऑर्केस्ट्रेशन (जैसे, एयरफ्लो)। डेटाहब इन टुकड़ों को जोड़ता है तो वंश उभरता है।

Q5:मुझे डेटाहब में पहले कौन सी गवर्नेंस सुविधाएं सक्षम करनी चाहिए? स्वामित्व, संक्षिप्त विवरण, एक छोटी शब्दावली और गोल्ड, पीआईआई और डेप्रिसिएटेड जैसे सुसंगत टैग के साथ शुरुआत करें। फिर महत्वपूर्ण संपत्तियों को संपादित करने और नियमित इनजेशन शेड्यूल करने के लिए नीतियां जोड़ें।