What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

DataHub ব্যবহারের নিয়মাবলী: আপনার ডেটা ক্যাটালগের জন্য একটি বাস্তবসম্মত, এন্ড-টু-এন্ড গাইড

ডেটা বিশৃঙ্খলাকে স্বচ্ছতায় রূপান্তর করতে প্রস্তুত? DataHub - একটি ওপেন-সোর্স মেটাডেটা প্ল্যাটফর্ম, যা মূলত LinkedIn-এ তৈরি হয়েছে - ওয়্যারহাউস, BI সরঞ্জাম, অর্কেস্ট্রেশন সিস্টেম এবং আরও অনেক কিছুতে ডেটা আবিষ্কার, বিশ্বাস এবং পরিচালনা করতে দলগুলোকে সাহায্য করে। এই ব্যবহারিক, ধাপে ধাপে নির্দেশিকায়, আপনি কোনো জার্গনে না হারিয়েই একটি কার্যকরী DataHub ইনস্ট্যান্স তৈরি করা, মেটাডেটা গ্রহণ করা, বংশগতি অন্বেষণ করা এবং গভর্নেন্স সেট আপ করা শিখবেন।

এক নজরে আপনি যা শিখবেন:

কয়েক মিনিটের মধ্যে লোকালি DataHub স্পিন আপ করুন

সাধারণ উৎস থেকে মেটাডেটা গ্রহণ করুন (যেমন, Snowflake, BigQuery, dbt)

UI-তে অনুসন্ধান, বংশগতি, মালিকানা এবং ডকুমেন্টেশন অন্বেষণ করুন

গভর্নেন্সের জন্য নীতি, ট্যাগ এবং শর্তাবলী নির্ধারণ করুন

কার্যকরী টিম প্রক্রিয়া তৈরি করুন

নোট: এটি একটি ব্যবহারিক ও সমাধান-ভিত্তিক ওয়াকথ্রু, যা বাস্তব ওয়ার্কফ্লোতে ম্যাপ করার জন্য ডিজাইন করা হয়েছে। প্রয়োজনে আমরা নির্দিষ্ট বিষয় এবং আরও গভীরে যাওয়ার জন্য অফিসিয়াল ডকুমেন্টেশন উল্লেখ করব।

কুইক স্টার্ট: লোকালি DataHub চালু করুন আপনি যদি DataHub নিয়ে পরীক্ষা-নিরীক্ষা বা পাইলটিং করেন, তাহলে দ্রুত শুরু করাই সবচেয়ে সহজ উপায়। প্রথমে নিশ্চিত করুন যে আপনার Docker ইনস্টল করা আছে। তারপর:

DataHub CLI ইনস্টল করুন

একটিমাত্র কমান্ড দিয়ে চালু করুন

UI খুলুন এবং ডিফল্ট দিয়ে লগ ইন করুন

অফিসিয়াল কুইকস্টার্টের বিবরণ, কমান্ড এবং ডিফল্ট এখানে দেওয়া আছে। ভূমিকাতে আর্কিটেকচার এবং কেন DataHub একটি রিয়েল-টাইম মেটাডেটা মডেল (এন্টিটি, অ্যাসপেক্ট এবং স্ট্রিমিং আপডেট) ব্যবহার করে, যা আধুনিক স্ট্যাকের জন্য উপযুক্ত, তা ব্যাখ্যা করা হয়েছে।

স্মার্ট সেটআপের টিপস:

পরে Kubernetes-এ যাওয়ার পরিকল্পনা থাকলেও লোকালি শুরু করুন। এটি গ্রহণ এবং ডেমোর জন্য দ্রুত।

যদি আপনার কাছে আগে থেকেই Docker Desktop থাকে, তাহলে আপনি সাধারণত কয়েক মিনিটের মধ্যে শুরু করতে পারবেন।

স্যান্ডবক্সেও credentials নিরাপদ রাখুন। এখনকার অভ্যাস ভবিষ্যতে কাজে দেবে।

5 মিনিটে মূল ধারণাগুলো বুঝুন কিছু গ্রহণ করার আগে DataHub-এর মানসিক মডেলের সাথে পরিচিত হন:

এন্টিটি: ডেটাসেট, টেবিল, চার্ট, ড্যাশবোর্ড, পাইপলাইন, ব্যবহারকারীর মতো জিনিস।

অ্যাসপেক্ট: এন্টিটি সম্পর্কে মেটাডেটার ভার্সন করা "দিক" (স্কিমা, মালিকানা, ট্যাগ, গ্লসারি)।

গ্রাফ: সম্পর্ক (বংশগতি, মালিকানা, নির্ভরতা) অনুসন্ধান এবং আবিষ্কারের অভিজ্ঞতাকে শক্তিশালী করে।

এই গ্রাফ-ভিত্তিক পদ্ধতি ইমপ্যাক্ট অ্যানালাইসিস (আমরা যদি এই কলামটি পরিবর্তন করি তাহলে কী ভাঙবে?), ডাউনস্ট্রিম বংশগতি ম্যাপিং এবং ট্রাস্ট সিগন্যালের (মালিক, ট্যাগ, ডকুমেন্টেশন) মতো বৈশিষ্ট্যগুলোকে সক্ষম করে। একটি সংক্ষিপ্ত ধারণাগত ওভারভিউ ভূমিকা গাইডে রয়েছে।

মেটাডেটা গ্রহণ করুন: UI বনাম CLI (আপনার পথ বেছে নিন) DataHub ইউজার-ফ্রেন্ডলি UI গ্রহণ এবং স্ক্রিপ্টেবল CLI পাইপলাইন উভয়কেই সমর্থন করে। আজ আপনার ওয়ার্কফ্লোর জন্য যা উপযুক্ত, সেটি বেছে নিন - অনেক দল উভয়ই ব্যবহার করে।

Option A: UI-ভিত্তিক গ্রহণ (প্রথম রানের জন্য দ্রুত)

UI-তে, Ingestion → New Source-এ যান।

একটি উৎস নির্বাচন করুন (যেমন, Snowflake, BigQuery, dbt, Kafka, Looker, Tableau)।

সংযোগের বিবরণ প্রবেশ করুন।

সংযোগ পরীক্ষা করুন।

চাহিদা অনুযায়ী শিডিউল করুন বা গ্রহণ চালান।

UI ফ্লো এবং ধাপগুলো এখানে আলোচনা করা হয়েছে। এটি নন-ইঞ্জিনিয়ার বা যে দল দ্রুত সংযোগ যাচাই করতে চায় তাদের জন্য আদর্শ।

Option B: CLI-ভিত্তিক গ্রহণ (পুনরাবৃত্তিযোগ্য এবং CI-বান্ধব)

একটি YAML রেসিপি তৈরি করুন যা আপনার উৎস, ফিল্টার এবং ম্যাপিং সংজ্ঞায়িত করে।

চালান: datahub ingest -c recipe.yml

পুনরাবৃত্তিযোগ্যতার জন্য রেসিপিটি ভার্সন কন্ট্রোলে কমিট করুন।

CLI গ্রহণ এবং রেসিপি এখানে বিস্তারিতভাবে ডকুমেন্ট করা হয়েছে। এই পদ্ধতি দেব/প্রোডাকশন পাইপলাইন, অটোমেশন এবং সামঞ্জস্যের জন্য আরও ভাল।

গ্রহণের জন্য প্রো টিপস:

এক বা দুটি উৎস দিয়ে শুরু করুন যা সবচেয়ে গুরুত্বপূর্ণ (যেমন, Snowflake + dbt)। দ্রুত সাফল্য গতি তৈরি করে।

আগ্রাসীভাবে ফিল্টার করুন। প্রথম দিনে প্রতিটি স্যান্ডবক্স ডেটাসেট গ্রহণ করবেন না; এটি গোলমাল তৈরি করে।

বিভ্রান্তি এড়াতে প্ল্যাটফর্ম ইন্সট্যান্সের নাম যোগ করুন (যেমন snowflake:prod বনাম snowflake:dev)।

UI অন্বেষণ করুন: অনুসন্ধান, বংশগতি এবং মালিকানা আপনার প্রথম গ্রহণ সম্পন্ন হওয়ার পরে, দ্রুত মান যাচাই করতে UI-তে যান:

ইউনিভার্সাল অনুসন্ধান: নাম, স্কিমা, ট্যাগ বা গ্লসারি শব্দ দিয়ে ডেটাসেট, ড্যাশবোর্ড এবং পাইপলাইন খুঁজুন।

বংশগতি গ্রাফ: আপস্ট্রিম এবং ডাউনস্ট্রিম সংযোগ দেখতে একটি ডেটাসেটে ক্লিক করুন। এটি ইমপ্যাক্ট অ্যানালাইসিসের জন্য খুবই গুরুত্বপূর্ণ।

মালিকানা ও ডকুমেন্টেশন: মালিকদের (দল বা ব্যবহারকারী) যোগ করুন এবং স্পষ্ট বর্ণনা লিখুন। এগুলো আপনার সংস্থার প্রথম বিশ্বাসের সংকেত হবে।

স্কিমা ও প্রোফাইলিং: কলামের নাম, প্রকার এবং নমুনার পরিসংখ্যান পর্যালোচনা করুন। প্রথম দিকে অসঙ্গতিগুলো চিহ্নিত করুন।

অর্থ যোগ করুন: গ্লসারি, ট্যাগ এবং ডোমেইন কাঁচা মেটাডেটা কেবল শুরু। আপনি শব্দার্থবিদ্যা যুক্ত করে আসল ব্যবহার শুরু করতে পারবেন:

গ্লসারি শব্দ: ব্যবসায়-বান্ধব ধারণা সংজ্ঞায়িত করুন (Customer, ARR, Active User)। ভাষা মানসম্মত করতে ডেটাসেট/কলামের সাথে যুক্ত করুন।

ট্যাগ: হালকা লেবেল (PII, Critical, Deprecated, Gold)। ঝুঁকি এবং গুরুত্বের জন্য দ্রুত ভিজ্যুয়াল সংকেত।

ডোমেইন: ব্যবসায়িক ফাংশন (Finance, Marketing) বা প্ল্যাটফর্ম অনুসারে সম্পর্কিত সম্পদগুলোকে গ্রুপ করুন।

প্রস্তাবিত প্রথম ট্যাক্সোনমি:

তিনটি গ্লসারি শব্দ যা সবাই বোঝে (Customer, Order, Revenue)

একটি ছোট ট্যাগ সেট: pii, gold, deprecated, experimental

5-7টি ডোমেইন যা আপনার সংস্থার কাঠামো বা ডেটা প্ল্যাটফর্মের সাথে ম্যাপ করে

গভর্নেন্স যা স্কেল করে: নীতি এবং অ্যাক্সেস DataHub রোল- এবং অ্যাসেট-ভিত্তিক নীতি সমর্থন করে যাতে আপনি নিয়ন্ত্রণ করতে পারেন কে কী করতে পারবে (ডকুমেন্টেশন সম্পাদনা, ট্যাগ যোগ করা, বংশগতি পরিচালনা করা ইত্যাদি)। সহজভাবে শুরু করুন:

ডকুমেন্ট, মালিকানা এবং ট্যাগগুলোতে সম্পাদনার অধিকারসহ একটি "Stewards" গ্রুপ তৈরি করুন।

বিশ্লেষকদের বেশিরভাগ অ্যাসেটের জন্য পড়ার অ্যাক্সেস দিন তবে সংবেদনশীল ডোমেইনগুলোতে সীমাবদ্ধ করুন।

"Top Picks"-এ প্রদর্শিত হওয়ার আগে "gold" ডেটাসেটগুলোর জন্য মালিকদের প্রয়োজনীয়তা দিন।

নীতি এবং গভর্নেন্স প্ল্যাটফর্মের ভিতরে থাকে, তাই সম্পাদক এবং দর্শকদের জন্য অভিজ্ঞতা একই রকম থাকে। আপনার সংস্থা যত পরিপক্ক হবে, তত বেশি গ্রানুলার অনুমতি এবং অনুমোদনের ফ্লো যুক্ত করুন।

কার্যকরী সেরা অনুশীলন: এটিকে ধরে রাখুন মেটাডেটা প্রোগ্রামগুলো ব্যর্থ হয় যখন এগুলো অতিরিক্ত কাজের মতো মনে হয়। DataHub-কে স্বাভাবিক কাজের অংশ করুন:

PR/CI-তে এম্বেড করুন: যখন ডেটা পাইপলাইন পরিবর্তিত হয়, তখন একটি মেটাডেটা গ্রহণ চালান এবং স্কিমা পার্থক্য তুলনা করুন। স্বয়ংক্রিয়ভাবে ব্রেকিং পরিবর্তনগুলো চিহ্নিত করুন।

dbt-এর সাথে সারিবদ্ধ করুন: dbt docs, পরীক্ষা এবং এক্সপোজার ব্যবহার করুন; DataHub-এ সেগুলোকে তুলে ধরুন যাতে কোডকে ব্যবসার প্রেক্ষাপটের সাথে যুক্ত করা যায়।

একটি "Adoption Playbook" তৈরি করুন: মালিকরা অনবোর্ডিংয়ের সময় ডক্স, ট্যাগ এবং গ্লসারি শব্দ যুক্ত করেন। স্কোরকার্ডের মাধ্যমে গুণমানকে পুরস্কৃত করুন।

একটি ডেটা কন্ট্রাক্ট প্রকাশ করুন: মূল টেবিলের জন্য SLA, ফ্রেশনেস, নালিবিলিটি এবং স্ট্যাবিলিটি নিয়ম সংজ্ঞায়িত করুন। DataHub-এ এটি তুলে ধরুন।

পাইলট থেকে প্রোডাকশন: কী পরিবর্তন হয়?

ইনফ্রাস্ট্রাকচার: স্থানীয় Docker থেকে একটি পরিচালিত পরিবেশে যান (Kubernetes, ক্লাউড পরিষেবা)। আপনার সংস্থায় উপলব্ধ থাকলে একটি হোস্ট করা বিকল্প বিবেচনা করুন।

অথ/SSO: আপনার পরিচয় প্রদানকারীর সাথে একত্রিত করুন (Okta, Azure AD, ইত্যাদি)।

পর্যবেক্ষণযোগ্যতা: গ্রহণ কাজ, গ্রাফের আকার এবং UI পারফরম্যান্স নিরীক্ষণ করুন।

পরিবর্তন ব্যবস্থাপনা: একটি মেটাডেটা পর্যালোচনা ক্যাডেন্স প্রতিষ্ঠা করুন (যেমন, সাপ্তাহিক স্টুয়ার্ডশিপ সিঙ্ক)।

সমস্যা সমাধান: সাধারণ সমস্যা এবং সমাধান

"আমি আমার টেবিল দেখতে পাচ্ছি না।" নেটওয়ার্ক নিয়ম, credentials এবং উৎসের ফিল্টারগুলো পরীক্ষা করুন। সমস্যাটি আলাদা করতে একটি ছোট গ্রহণের রেসিপি চালান।

"বংশগতি অসম্পূর্ণ।" নিশ্চিত করুন যে আপনি অর্কেস্ট্রেশন (Airflow), ট্রান্সফরমেশন (dbt) এবং ওয়্যারহাউস উৎস থেকে গ্রহণ করেছেন। বংশগতির জন্য প্রায়শই একাধিক সংযোগকারীর প্রয়োজন হয়।

"অনুসন্ধান বিশৃঙ্খল লাগছে।" ফিল্টারগুলো টাইট করুন, ট্যাগ/গ্লসারি যোগ করুন এবং বাতিল অ্যাসেটগুলো লুকান।

"ডকুমেন্টগুলো পুরনো।" নিয়মিত গ্রহণের সময়সূচী করুন; কোড পরিবর্তনের পাশাপাশি মালিকদের বর্ণনা আপডেট করতে উৎসাহিত করুন।

উদাহরণ: 48 ঘন্টায় মানের একটি দ্রুত পথ প্রথম দিন

কুইকস্টার্টের মাধ্যমে লোকালি DataHub স্পিন আপ করুন।

UI গ্রহণের মাধ্যমে আপনার ওয়্যারহাউস (Snowflake/BigQuery) থেকে গ্রহণ করুন।

পাঁচটি গুরুত্বপূর্ণ ডেটাসেটে মালিক এবং বর্ণনা যোগ করুন।

Customer এবং Revenue-এর জন্য গ্লসারি শব্দ তৈরি করুন; সেই ডেটাসেটগুলোকে gold হিসাবে ট্যাগ করুন।

দ্বিতীয় দিন

টেবিলের সাথে মডেলগুলোকে সংযোগ করতে dbt মেটাডেটা গ্রহণ করুন।

গ্রহণ → ট্রান্সফরমেশন → BI জুড়ে বংশগতি যাচাই করুন।

এমন একটি নীতি তৈরি করুন যা শুধুমাত্র স্টুয়ার্ডরাই gold ডেটাসেটের ডক্স পরিবর্তন করতে পারবে।

স্টেকহোল্ডারদের কাছে বংশগতি ভিউ এবং অনুসন্ধানের অভিজ্ঞতা ডেমো করুন; প্রতিক্রিয়া সংগ্রহ করুন।

গুরুত্বপূর্ণ রেফারেন্স

কুইকস্টার্ট: স্থানীয় সেটআপ, credentials, পোর্ট, কমান্ড

ধারণা এবং আর্কিটেকচার ওভারভিউ

UI-ভিত্তিক গ্রহণের ধাপ

CLI গ্রহণ এবং YAML রেসিপি

কোথায় Sider.AI সাহায্য করতে পারে যদি আপনার দল প্রায়শই সেরা অনুশীলন নিয়ে গবেষণা করে, ডেটাসেট ডক্স লেখে, অথবা বংশগতি এবং স্কিমা পরিবর্তনের সংক্ষিপ্তসার প্রয়োজন হয়, তাহলে এটা উল্লেখ করা দরকার যে Sider.AI ডকুমেন্টেশন এবং জ্ঞান ভাগ করে নেওয়ার গতি বাড়াতে পারে। উদাহরণস্বরূপ, আপনি জটিল স্কিমা পার্থক্যগুলোকে মানুষের পাঠযোগ্য পরিবর্তন লগে পরিণত করতে পারেন, অথবা প্রথম ড্রাফটের ডেটাসেট বর্ণনা তৈরি করতে পারেন যা স্টুয়ার্ডরা পরিমার্জন করে - কাঁচা মেটাডেটা থেকে ব্যবহারযোগ্য প্রেক্ষাপট তৈরিতে সময় কমিয়ে দেয়।

চিট শীট: আপনার প্রথম 10টি কাজ

কুইকস্টার্টের মাধ্যমে লোকালি DataHub চালু করুন।

UI গ্রহণের মাধ্যমে একটি ওয়্যারহাউস উৎস যোগ করুন।

বংশগতির জন্য dbt বা অর্কেস্ট্রেশন মেটাডেটা গ্রহণ করুন।

5-10টি গুরুত্বপূর্ণ ডেটাসেটে মালিকদের যোগ করুন।

সংক্ষিপ্ত বর্ণনা লিখুন (প্রতিটি 2-3টি বাক্য)।

3টি গ্লসারি শব্দ এবং 4-6টি ট্যাগ তৈরি করুন।

5টি ডেটাসেটকে gold হিসাবে ট্যাগ করুন এবং বাতিল ডেটাসেটগুলো লুকান।

স্টুয়ার্ডদের জন্য একটি সম্পাদক নীতি সেট করুন।

নিয়মিত গ্রহণের সময়সূচী করুন।

2টি স্টেকহোল্ডার টিমের কাছে UI ডেমো করুন এবং প্রতিক্রিয়া সংগ্রহ করুন।

এর পরে কী?

Kubernetes বা একটি পরিচালিত পরিবেশে স্কেল করুন।

গভর্নেন্সের জন্য SSO এবং গ্রুপ চালু করুন।

BI এবং ইভেন্ট স্ট্রীমগুলোতে গ্রহণ প্রসারিত করুন।

ডেটার গুণমান এবং ডকুমেন্টেশন সম্পূর্ণতার জন্য স্কোরকার্ড তৈরি করুন।

CI/CD-এর সাথে একত্রিত করুন যাতে স্কিমা পরিবর্তন সর্বদা ক্যাটালগে প্রতিফলিত হয়।

চূড়ান্ত কথা

ছোট করে শুরু করুন, দ্রুত মান দিন এবং পুনরাবৃত্তি করুন।

গতির জন্য UI গ্রহণ ব্যবহার করুন; পুনরাবৃত্তির জন্য CLI ব্যবহার করুন।

বিশ্বাস বাড়াতে প্রথম দিকে গ্লসারি, ট্যাগ এবং নীতি যুক্ত করুন।

সম্পূর্ণ বংশগতির জন্য ওয়্যারহাউস + dbt + BI সংযোগ করুন।

ডকুমেন্টেশনকে উন্নয়নের অংশ হিসাবে বিবেচনা করুন, পরে ভাবার বিষয় নয়।

FAQ

প্রশ্ন 1: DataHub কী এবং কেন আমার এটি ব্যবহার করা উচিত? DataHub হল আপনার ডেটা স্ট্যাক জুড়ে আবিষ্কার, বংশগতি এবং গভর্নেন্সের জন্য একটি ওপেন-সোর্স মেটাডেটা প্ল্যাটফর্ম। এটি দলগুলোকে বিশ্বস্ত ডেটাসেট খুঁজে পেতে, প্রভাব বুঝতে এবং ডকুমেন্টেশন মানসম্মত করতে সহায়তা করে। অফিসিয়াল ভূমিকাতে মূল বিষয়গুলো জানুন।

প্রশ্ন 2: আমি কীভাবে দ্রুত DataHub ইনস্টল করব? কুইকস্টার্ট ব্যবহার করুন: Docker ইনস্টল করুন, CLI ইনস্টল করুন, তারপর একটি একক কমান্ড দিয়ে শুরু করুন। আপনি স্থানীয়ভাবে UI অ্যাক্সেস করতে পারেন এবং দ্রুত সেটআপ যাচাই করতে ডিফল্ট দিয়ে লগ ইন করতে পারেন।

প্রশ্ন 3: DataHub-এ আমার UI গ্রহণ নাকি CLI গ্রহণ ব্যবহার করা উচিত? দ্রুত শুরু করতে বা নন-ইঞ্জিনিয়ারদের জড়িত করতে UI-ভিত্তিক গ্রহণ ব্যবহার করুন; এটি প্রথমবারের সংযোগ এবং ডেমোর জন্য দুর্দান্ত। ভার্সন করা রেসিপি, অটোমেশন এবং CI/CD ইন্টিগ্রেশনের জন্য CLI গ্রহণে স্যুইচ করুন।

প্রশ্ন 4: আমি কীভাবে DataHub-এ বংশগতি দেখাতে পারি? একাধিক উৎস থেকে গ্রহণ করুন: আপনার ওয়্যারহাউস (যেমন, Snowflake), আপনার ট্রান্সফরমেশন লেয়ার (যেমন, dbt) এবং অর্কেস্ট্রেশন (যেমন, Airflow)। DataHub এই অংশগুলোকে সংযুক্ত করার সাথে সাথে বংশগতি বেরিয়ে আসে।

প্রশ্ন 5: DataHub-এ আমার প্রথমে কোন গভর্নেন্স বৈশিষ্ট্যগুলো সক্ষম করা উচিত? মালিকানা, সংক্ষিপ্ত বর্ণনা, একটি ছোট গ্লসারি এবং gold, pii এবং deprecated-এর মতো সামঞ্জস্যপূর্ণ ট্যাগ দিয়ে শুরু করুন। তারপরে সমালোচনামূলক সম্পদ কে সম্পাদনা করতে পারবে তা নিয়ন্ত্রণ করতে এবং নিয়মিত গ্রহণের সময়সূচী করতে নীতি যুক্ত করুন।