What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

DataHub എങ്ങനെ ഉപയോഗിക്കാം: നിങ്ങളുടെ ഡാറ്റാ കാറ്റലോഗിനായുള്ള ഒരു പ്രാക്ടിക്കൽ, എൻഡ്-ടു-എൻഡ് ഗൈഡ്

ഡാറ്റാ വ്യാപനം വ്യക്തതയിലേക്ക് മാറ്റാൻ തയ്യാറാണോ? DataHub—യഥാർത്ഥത്തിൽ LinkedIn-ൽ നിർമ്മിച്ച ഒരു ഓപ്പൺ സോഴ്‌സ് മെറ്റാഡാറ്റാ പ്ലാറ്റ്‌ഫോം— വെയർഹൗസുകൾ, BI ടൂളുകൾ, ഓർക്കസ്ട്രേഷൻ സിസ്റ്റങ്ങൾ എന്നിവയിലുടനീളം ഡാറ്റ കണ്ടെത്താനും വിശ്വസിക്കാനും നിയന്ത്രിക്കാനും ടീമുകളെ സഹായിക്കുന്നു. ഈ പ്രായോഗികവും ഘട്ടം ഘട്ടമായുള്ളതുമായ ഗൈഡിൽ, നിങ്ങൾ ഒരു DataHub ഇൻസ്റ്റൻസ് പ്രവർത്തിപ്പിക്കുന്നതിനും, മെറ്റാഡാറ്റാ ചേർക്കുന്നതിനും, പിന്തുടർച്ച പര്യവേക്ഷണം ചെയ്യുന്നതിനും, ഭരണസംവിധാനം സജ്ജീകരിക്കുന്നതിനും പഠിക്കും - ആശയക്കുഴപ്പങ്ങളില്ലാതെ.

ഒറ്റനോട്ടത്തിൽ നിങ്ങൾ പഠിക്കുന്ന കാര്യങ്ങൾ:

മിനിറ്റുകൾക്കുള്ളിൽ DataHub ലോക്കലായി പ്രവർത്തിപ്പിക്കുക

പൊതുവായ ഉറവിടങ്ങളിൽ നിന്ന് മെറ്റാഡാറ്റാ ചേർക്കുക (ഉദാഹരണത്തിന്, Snowflake, BigQuery, dbt)

UI-യിൽ തിരയൽ, പിന്തുടർച്ച, ഉടമസ്ഥാവകാശം, ഡോക്യുമെന്റേഷൻ എന്നിവ പര്യവേക്ഷണം ചെയ്യുക

ഭരണത്തിനായി പോളിസികൾ, ടാഗുകൾ, നിബന്ധനകൾ എന്നിവ നിർവ്വചിക്കുക

യഥാർത്ഥത്തിൽ നിലനിൽക്കുന്ന ടീം പ്രക്രിയകൾ പുറത്തിറക്കുക

ശ്രദ്ധിക്കുക: ഇത് യഥാർത്ഥ വർക്ക്ഫ്ലോകളിലേക്ക് മാപ്പ് ചെയ്യുന്നതിനായി രൂപകൽപ്പന ചെയ്ത ഒരു പ്രായോഗികവും പരിഹാരത്തെ അടിസ്ഥാനമാക്കിയുള്ളതുമായ walkthrough ആണ്. ആവശ്യമായ സമയങ്ങളിൽ കൂടുതൽ ആഴത്തിലുള്ള വിവരങ്ങൾക്കായി ഞങ്ങൾ ഔദ്യോഗിക ഡോക്യുമെന്റുകൾ ഉദ്ധരിക്കും.

Quick Start: DataHub ലോക്കലായി പ്രവർത്തിപ്പിക്കുക നിങ്ങൾ DataHub പരീക്ഷിക്കുകയോ പൈലറ്റ് ചെയ്യുകയോ ചെയ്യുകയാണെങ്കിൽ, ഏറ്റവും വേഗത്തിലുള്ള മാർഗ്ഗം quickstart ആണ്. ആദ്യം Docker ഇൻസ്റ്റാൾ ചെയ്തിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക. തുടർന്ന്:

DataHub CLI ഇൻസ്റ്റാൾ ചെയ്യുക

ഒരൊറ്റ കമാൻഡ് ഉപയോഗിച്ച് ലോഞ്ച് ചെയ്യുക

UI തുറന്ന് സ്ഥിരസ്ഥിതി ഉപയോഗിച്ച് ലോഗിൻ ചെയ്യുക

ഔദ്യോഗിക quickstart വിശദാംശങ്ങൾ, കമാൻഡുകൾ, സ്ഥിരസ്ഥിതി എന്നിവ ഇവിടെയുണ്ട്. ആമുഖം ആർക്കിടെക്ചറും ആധുനിക സ്റ്റാക്കുകൾക്ക് അനുയോജ്യമായ തത്സമയ മെറ്റാഡാറ്റാ മോഡൽ (എന്റിറ്റികൾ, ആസ്പെക്ടുകൾ, സ്ട്രീമിംഗ് അപ്‌ഡേറ്റുകൾ) DataHub ഉപയോഗിക്കുന്നതിനുള്ള കാരണവും വിശദീകരിക്കുന്നു.

സ്മാർട്ട് സജ്ജീകരണ ടിപ്പുകൾ:

നിങ്ങൾ പിന്നീട് Kubernetes-ലേക്ക് പോകാൻ പദ്ധതിയിടുകയാണെങ്കിൽപ്പോലും, ലോക്കലായി ആരംഭിക്കുക. അംഗീകാരത്തിനും ഡെമോകൾക്കും ഇത് വേഗത്തിലാണ്.

നിങ്ങൾക്ക് Docker Desktop ഉണ്ടെങ്കിൽ, സാധാരണയായി മിനിറ്റുകൾക്കുള്ളിൽ നിങ്ങൾക്ക് പ്രവർത്തിപ്പിക്കാൻ കഴിയും.

ക്രെഡൻഷ്യലുകൾ സുരക്ഷിതമായി സൂക്ഷിക്കുക - ഒരു sand box-ൽ പോലും. ഇപ്പോൾ ഉണ്ടാക്കുന്ന ശീലങ്ങൾ പിന്നീട് ഗുണം ചെയ്യും.

5 മിനിറ്റിനുള്ളിൽ പ്രധാന ആശയങ്ങൾ മനസിലാക്കുക എന്തെങ്കിലും ചേർക്കുന്നതിന് മുമ്പ്, DataHub-ൻ്റെ mental model-മായി പൊരുത്തപ്പെടുക:

എന്റിറ്റികൾ: ഡാറ്റാസെറ്റുകൾ, പട്ടികകൾ, ചാർട്ടുകൾ, ഡാഷ്‌ബോർഡുകൾ, പൈപ്പ്ലൈനുകൾ, ഉപയോക്താക്കൾ എന്നിവ.

ആസ്പെക്ടുകൾ: എന്റിറ്റികളെക്കുറിച്ചുള്ള മെറ്റാഡാറ്റയുടെ പതിപ്പുള്ള “വശങ്ങൾ” (സ്കീമ, ഉടമസ്ഥാവകാശം, ടാഗുകൾ, ഗ്ലോസറി നിബന്ധനകൾ, പിന്തുടർച്ച).

ഗ്രാഫ്: ബന്ധങ്ങൾ (പിന്തുടർച്ച, ഉടമസ്ഥാവകാശം, ആശ്രിതത്വം) തിരയലിനും കണ്ടെത്തലിനുമുള്ള അനുഭവത്തെ ശക്തിപ്പെടുത്തുന്നു.

ഈ ഗ്രാഫ് അടിസ്ഥാനമാക്കിയുള്ള സമീപനം ഇംപാക്ട് അനാലിസിസ് (ഞങ്ങൾ ഈ കോളം മാറ്റിയാൽ എന്ത് തകരാറുണ്ടാകും?), താഴേക്കുള്ള പിന്തുടർച്ചാ മാപ്പിംഗ്, ട്രസ്റ്റ് സിഗ്നലുകൾ (ഉടമകൾ, ടാഗുകൾ, ഡോക്യുമെന്റേഷൻ) തുടങ്ങിയ സവിശേഷതകൾ നൽകുന്നു. ഒരു സംക്ഷിപ്ത ആശയപരമായ അവലോകനം ആമുഖ ഗൈഡിൽ ഉണ്ട്.

മെറ്റാഡാറ്റാ ചേർക്കുക: UI vs. CLI (നിങ്ങളുടെ പാത തിരഞ്ഞെടുക്കുക) DataHub ഉപയോക്തൃ-സൗഹൃദ UI ഇൻജക്ഷനെയും സ്ക്രിപ്റ്റ് ചെയ്യാവുന്ന CLI പൈപ്പ്ലൈനുകളെയും പിന്തുണയ്ക്കുന്നു. ഇന്ന് നിങ്ങളുടെ വർക്ക്ഫ്ലോയ്ക്ക് അനുയോജ്യമായത് തിരഞ്ഞെടുക്കുക - പല ടീമുകളും രണ്ടും ഉപയോഗിക്കുന്നു.

ഓപ്ഷൻ A: UI അടിസ്ഥാനമാക്കിയുള്ള ഇൻജക്ഷൻ (ആദ്യ റൺസുകൾക്ക് വേഗത്തിൽ)

UI-യിൽ, ഇൻജക്ഷൻ → പുതിയ ഉറവിടത്തിലേക്ക് പോകുക.

ഒരു ഉറവിടം തിരഞ്ഞെടുക്കുക (ഉദാഹരണത്തിന്, Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

കണക്ഷൻ വിശദാംശങ്ങൾ നൽകുക.

കണക്ഷൻ പരിശോധിക്കുക.

ഷെഡ്യൂൾ ചെയ്യുക അല്ലെങ്കിൽ ആവശ്യാനുസരണം ഇൻജക്ഷൻ പ്രവർത്തിപ്പിക്കുക.

UI ഫ്ലോയും ഘട്ടങ്ങളും ഇവിടെ നൽകിയിരിക്കുന്നു. എഞ്ചിനീയർമാരല്ലാത്തവർക്കും കണക്റ്റിവിറ്റി വേഗത്തിൽ സാധൂകരിക്കാൻ ആഗ്രഹിക്കുന്ന ടീമുകൾക്കും ഇത് അനുയോജ്യമാണ്.

ഓപ്ഷൻ B: CLI അടിസ്ഥാനമാക്കിയുള്ള ഇൻജക്ഷൻ (ആവർത്തിക്കാവുന്നതും CI-സൗഹൃദവുമാണ്)

നിങ്ങളുടെ ഉറവിടം, ഫിൽട്ടറുകൾ, മാപ്പിംഗ് എന്നിവ നിർവചിക്കുന്ന ഒരു YAML recipe ഉണ്ടാക്കുക.

പ്രവർത്തിപ്പിക്കുക: datahub ingest -c recipe.yml

ആവർത്തിക്കാനായി recipe version control-ലേക്ക് commit ചെയ്യുക.

CLI ഇൻജക്ഷനും recipes-ഉം ഇവിടെ വിശദമായി രേഖപ്പെടുത്തിയിട്ടുണ്ട്. ഈ സമീപനം dev/prod പൈപ്പ്ലൈനുകൾ, ഓട്ടോമേഷൻ, സ്ഥിരത എന്നിവയ്ക്ക് മികച്ചതാണ്.

ഇൻജക്ഷനുള്ള പ്രോ ടിപ്പുകൾ:

ഏറ്റവും പ്രധാനപ്പെട്ട ഒന്നോ രണ്ടോ ഉറവിടങ്ങളിൽ നിന്ന് ആരംഭിക്കുക (ഉദാഹരണത്തിന്, Snowflake + dbt). വേഗത്തിലുള്ള വിജയങ്ങൾ ആക്കം കൂട്ടുന്നു.

കർശനമായി ഫിൽട്ടർ ചെയ്യുക. ആദ്യ ദിവസം തന്നെ എല്ലാ sand box ഡാറ്റാസെറ്റുകളും ചേർക്കരുത്; ഇത് ആശയക്കുഴപ്പമുണ്ടാക്കുന്നു.

തെറ്റിദ്ധാരണ ഒഴിവാക്കാൻ പ്ലാറ്റ്‌ഫോം ഇൻസ്റ്റൻസ് പേരുകൾ ചേർക്കുക (snowflake:prod vs snowflake:dev പോലെ).

UI പര്യവേക്ഷണം ചെയ്യുക: തിരയൽ, പിന്തുടർച്ച, ഉടമസ്ഥാവകാശം നിങ്ങളുടെ ആദ്യ ഇൻജക്ഷൻ പൂർത്തിയായിക്കഴിഞ്ഞാൽ, മൂല്യം വേഗത്തിൽ സാധൂകരിക്കുന്നതിന് UI-ലേക്ക് പോകുക:

Universal Search: പേര്, സ്കീമ, ടാഗുകൾ അല്ലെങ്കിൽ ഗ്ലോസറി നിബന്ധനകൾ അനുസരിച്ച് ഡാറ്റാസെറ്റുകൾ, ഡാഷ്‌ബോർഡുകൾ, പൈപ്പ്ലൈനുകൾ എന്നിവ കണ്ടെത്തുക.

Lineage Graph: അപ്‌സ്ട്രീം, ഡൗൺസ്ട്രീം കണക്ഷനുകൾ കാണാൻ ഒരു ഡാറ്റാസെറ്റിൽ ക്ലിക്ക് ചെയ്യുക. ഇംപാക്ട് അനാലിസിസിന് ഇത് വളരെ പ്രധാനമാണ്.

ഉടമസ്ഥാവകാശം & ഡോക്യുമെന്റേഷൻ: ഉടമകളെ (ടീമുകൾ അല്ലെങ്കിൽ ഉപയോക്താക്കൾ) ചേർക്കുകയും വ്യക്തമായ വിവരണങ്ങൾ എഴുതുകയും ചെയ്യുക. നിങ്ങളുടെ സ്ഥാപനത്തിന് അനുഭവപ്പെടുന്ന ആദ്യത്തെ ട്രസ്റ്റ് സിഗ്നലുകളാണിവ.

Schema & Profiling: കോളം പേരുകൾ, തരങ്ങൾ, സാമ്പിൾ സ്ഥിതിവിവരക്കണക്കുകൾ എന്നിവ അവലോകനം ചെയ്യുക. ആദ്യമേ anomalies കണ്ടെത്തുക.

അർത്ഥം ചേർക്കുക: ഗ്ലോസറി, ടാഗുകൾ, ഡൊമെയ്‌നുകൾ Raw മെറ്റാഡാറ്റ എന്നത് തുടക്കം മാത്രമാണ്. സെമാంటిക്സ് ലെയർ ചെയ്യുന്നതിലൂടെ നിങ്ങൾക്ക് യഥാർത്ഥ ദത്തെടുക്കൽ അൺലോക്ക് ചെയ്യാൻ കഴിയും:

Glossary Terms: ബിസിനസ്സ്-സൗഹൃദ ആശയങ്ങൾ നിർവ്വചിക്കുക (കസ്റ്റമർ, ARR, ആക്റ്റീവ് യൂസർ). ഭാഷയെ സാധാരണ നിലയിലാക്കാൻ ഡാറ്റാസെറ്റുകൾ/കോളങ്ങളുമായി ബന്ധിപ്പിക്കുക.

Tags: ലഘുവായ ലേബലുകൾ (PII, Critical, Deprecated, Gold). അപകടസാധ്യതയ്ക്കും പ്രാധാന്യത്തിനുമുള്ള ദ്രുത ദൃശ്യ സൂചനകൾ.

Domains: ബിസിനസ്സ് ഫംഗ്ഷൻ (Finance, Marketing) അല്ലെങ്കിൽ പ്ലാറ്റ്‌ഫോം അനുസരിച്ച് ബന്ധപ്പെട്ട അസറ്റുകൾ ഗ്രൂപ്പ് ചെയ്യുക.

ശുപാർശ ചെയ്യുന്ന ആദ്യ ടാക്സോണമി:

എല്ലാവർക്കും മനസ്സിലാക്കാവുന്ന മൂന്ന് ഗ്ലോസറി നിബന്ധനകൾ (കസ്റ്റമർ, ഓർഡർ, റെവന്യൂ)

ചെറിയ ടാഗ് സെറ്റ്: pii, gold, deprecated, experimental

നിങ്ങളുടെ org chart അല്ലെങ്കിൽ ഡാറ്റാ പ്ലാറ്റ്‌ഫോമുകളിലേക്ക് മാപ്പ് ചെയ്യുന്ന 5–7 ഡൊമെയ്‌നുകൾ

Governance സ്കെയിൽ ചെയ്യുന്നു: പോളിസികളും ആക്സസും ആർക്കൊക്കെ എന്ത് ചെയ്യാൻ കഴിയും (ഡോക്യുമെന്റേഷൻ എഡിറ്റ് ചെയ്യുക, ടാഗുകൾ ചേർക്കുക, പിന്തുടർച്ച കൈകാര്യം ചെയ്യുക, മുതലായവ) എന്ന് നിയന്ത്രിക്കാൻ DataHub റോൾ, അസറ്റ് അടിസ്ഥാനമാക്കിയുള്ള പോളിസികളെ പിന്തുണയ്ക്കുന്നു. ലളിതമായി ആരംഭിക്കുക:

ഡോക്യുമെന്റുകൾ, ഉടമസ്ഥാവകാശം, ടാഗുകൾ എന്നിവയിൽ എഡിറ്റ് അവകാശങ്ങളുള്ള ഒരു “Stewards” ഗ്രൂപ്പ് ഉണ്ടാക്കുക.

മിക്ക അസറ്റുകളിലേക്കും അനലിസ്റ്റുകൾക്ക് റീഡ് ആക്സസ് നൽകുക, പക്ഷേ സെൻസിറ്റീവ് ഡൊമെയ്‌നുകൾക്ക് നിയന്ത്രണം ഏർപ്പെടുത്തുക.

“Top Picks”-ൽ ദൃശ്യമാകുന്നതിന് മുമ്പ് “gold” ഡാറ്റാസെറ്റുകൾക്ക് ഉടമകളെ ആവശ്യപ്പെടുക.

പോളിസികളും ഭരണവും പ്ലാറ്റ്‌ഫോമിനുള്ളിൽ നിലനിൽക്കുന്നതിനാൽ എഡിറ്റർമാർക്കും കാഴ്ചക്കാർക്കും അനുഭവം സ്ഥിരമായിരിക്കും. നിങ്ങളുടെ സ്ഥാപനം വളരുന്നതിനനുസരിച്ച് കൂടുതൽ granular അനുമതികളും അംഗീകാര ഫ്ലോകളും ചേർക്കുക.

Operational മികച്ച രീതികൾ: ഇത് നിലനിർത്തുക മെറ്റാഡാറ്റാ പ്രോഗ്രാമുകൾ അധിക ജോലിയായി തോന്നുമ്പോൾ പരാജയപ്പെടുന്നു. DataHub സാധാരണ ഫ്ലോയുടെ ഭാഗമാക്കുക:

PRs/CI-യിൽ ഉൾച്ചേർക്കുക: ഡാറ്റാ പൈപ്പ്ലൈനുകൾ മാറുമ്പോൾ, ഒരു മെറ്റാഡാറ്റാ ഇൻജസ്റ്റ് പ്രവർത്തിപ്പിച്ച് സ്കീമ വ്യത്യാസങ്ങൾ താരതമ്യം ചെയ്യുക. ബ്രേക്കിംഗ് മാറ്റുകൾ സ്വയമേവ ഫ്ലാഗ് ചെയ്യുക.

dbt-യുമായി വിന്യസിക്കുക: dbt ഡോക്യുമെന്റുകൾ, ടെസ്റ്റുകൾ, എക്സ്പോഷറുകൾ എന്നിവ ഉപയോഗിക്കുക; കോഡിനെ ബിസിനസ്സ് സന്ദർഭവുമായി ബന്ധിപ്പിക്കാൻ DataHub-ൽ അവ പ്രദർശിപ്പിക്കുക.

ഒരു “Adoption Playbook” ഉണ്ടാക്കുക: ഉടമകൾ ഓൺബോർഡിംഗിൽ ഡോക്യുമെന്റുകൾ, ടാഗുകൾ, ഗ്ലോസറി നിബന്ധനകൾ എന്നിവ ചേർക്കുന്നു. സ്കോർകാർഡുകൾ വഴി ഗുണനിലവാരം നൽകുക.

ഒരു ഡാറ്റാ കരാർ പ്രസിദ്ധീകരിക്കുക: പ്രധാന പട്ടികകൾക്കായി SLA, ഫ്രഷ്നെസ്, nullability, stability നിയമങ്ങൾ എന്നിവ നിർവ്വചിക്കുക. DataHub-ൽ ഇത് പ്രദർശിപ്പിക്കുക.

പൈലറ്റ് മുതൽ പ്രൊഡക്ഷൻ വരെ: എന്തൊക്കെ മാറ്റങ്ങൾ?

Infrastructure: ലോക്കൽ Docker-ൽ നിന്ന് ഒരു മാനേജ്ഡ് എൻവയോൺമെന്റിലേക്ക് (Kubernetes, ക്ലൗഡ് സേവനങ്ങൾ) മാറുക. നിങ്ങളുടെ സ്ഥാപനത്തിൽ ലഭ്യമാണെങ്കിൽ ഹോസ്റ്റഡ് ഓപ്ഷൻ പരിഗണിക്കുക.

Auth/SSO: നിങ്ങളുടെ ഐഡന്റിറ്റി പ്രൊവൈഡറുമായി (Okta, Azure AD, മുതലായവ) സംയോജിപ്പിക്കുക.

Observability: ഇൻജക്ഷൻ ജോലികൾ, ഗ്രാഫ് വലുപ്പം, UI പ്രകടനം എന്നിവ നിരീക്ഷിക്കുക.

Change Management: ഒരു മെറ്റാഡാറ്റാ അവലോകന കാഡൻസ് സ്ഥാപിക്കുക (ഉദാഹരണത്തിന്, പ്രതിവാര സ്റ്റീവാർഡ്ഷിപ്പ് സമന്വയം).

Troubleshooting: പൊതുവായ പ്രശ്നങ്ങളും പരിഹാരങ്ങളും

“എനിക്ക് എന്റെ പട്ടികകൾ കാണാൻ കഴിയുന്നില്ല.” നെറ്റ്‌വർക്ക് നിയമങ്ങൾ, ക്രെഡൻഷ്യലുകൾ, ഉറവിട ഫിൽട്ടറുകൾ എന്നിവ പരിശോധിക്കുക. പ്രശ്നം വേർതിരിച്ചറിയാൻ ഒരു ചെറിയ ഇൻജക്ഷൻ recipe പ്രവർത്തിപ്പിക്കുക.

“പിന്തുടർച്ച പൂർണമല്ല.” ഓർക്കസ്ട്രേഷൻ (Airflow), ട്രാൻസ്ഫോർമേഷൻ (dbt), വെയർഹൗസ് ഉറവിടങ്ങൾ എന്നിവയിൽ നിന്ന് നിങ്ങൾ ഇൻജസ്റ്റ് ചെയ്തിട്ടുണ്ടെന്ന് ഉറപ്പാക്കുക. പിന്തുടർച്ചയ്ക്ക് പലപ്പോഴും ഒന്നിലധികം കണക്ടറുകൾ ആവശ്യമാണ്.

“തിരയൽ കൂടുതൽ കുഴഞ്ഞുമറിഞ്ഞതായി തോന്നുന്നു.” ഫിൽട്ടറുകൾ ശക്തമാക്കുക, ടാഗുകൾ/ഗ്ലോസറി ചേർക്കുക, കാലഹരണപ്പെട്ട അസറ്റുകൾ മറയ്ക്കുക.

“ഡോക്യുമെന്റുകൾ പഴയതാണ്.” പതിവായ ഇൻജക്ഷൻ ഷെഡ്യൂൾ ചെയ്യുക; കോഡ് മാറ്റങ്ങൾക്കൊപ്പം വിവരണങ്ങൾ അപ്‌ഡേറ്റ് ചെയ്യാൻ ഉടമകളെ പ്രോത്സാഹിപ്പിക്കുക.

ഉദാഹരണം: 48 മണിക്കൂറിനുള്ളിൽ മൂല്യത്തിലേക്കുള്ള ദ്രുത പാത ദിവസം 1

quickstart വഴി DataHub ലോക്കലായി പ്രവർത്തിപ്പിക്കുക.

UI ഇൻജക്ഷൻ ഉപയോഗിച്ച് നിങ്ങളുടെ വെയർഹൗസിൽ (Snowflake/BigQuery) നിന്ന് ഇൻജസ്റ്റ് ചെയ്യുക.

അഞ്ച് പ്രധാന ഡാറ്റാസെറ്റുകളിലേക്ക് ഉടമകളെയും വിവരണങ്ങളും ചേർക്കുക.

കസ്റ്റമർ, റെവന്യൂ എന്നിവയ്‌ക്കായി ഗ്ലോസറി നിബന്ധനകൾ ഉണ്ടാക്കുക; ആ ഡാറ്റാസെറ്റുകളെ സ്വർണ്ണമായി ടാഗ് ചെയ്യുക.

ദിവസം 2

മോഡലുകളെ പട്ടികകളുമായി ബന്ധിപ്പിക്കാൻ dbt മെറ്റാഡാറ്റാ ഇൻജസ്റ്റ് ചെയ്യുക.

ഇൻജക്ഷൻ → ട്രാൻസ്ഫോർമേഷൻ → BI എന്നിവയിലുടനീളം പിന്തുടർച്ച സാധൂകരിക്കുക.

സ്റ്റീവാർഡുകൾക്ക് മാത്രമേ സ്വർണ്ണ ഡാറ്റാസെറ്റ് ഡോക്യുമെന്റുകൾ മാറ്റാൻ കഴിയൂ എന്ന പോളിസി ഉണ്ടാക്കുക.

ഓഹരി ഉടമകൾക്ക് പിന്തുടർച്ചാ കാഴ്ചയും തിരയൽ അനുഭവവും ഡെമോ ചെയ്യുക; പ്രതികരണം ശേഖരിക്കുക.

പ്രധാന റഫറൻസുകൾ

Quickstart: പ്രാദേശിക സജ്ജീകരണം, ക്രെഡൻഷ്യലുകൾ, പോർട്ടുകൾ, കമാൻഡുകൾ

ആശയങ്ങളും ആർക്കിടെക്ചർ അവലോകനവും

UI അടിസ്ഥാനമാക്കിയുള്ള ഇൻജക്ഷൻ ഘട്ടങ്ങൾ

CLI ഇൻജക്ഷനും YAML recipes-ഉം

Sider.AI-ക്ക് എവിടെ സഹായിക്കാനാകും നിങ്ങളുടെ ടീം പതിവായി മികച്ച രീതികളെക്കുറിച്ച് ഗവേഷണം ചെയ്യുകയോ ഡാറ്റാസെറ്റ് ഡോക്യുമെന്റുകൾ എഴുതുകയോ പിന്തുടർച്ചയുടെയും സ്കീമ മാറ്റങ്ങളുടെയും സംഗ്രഹങ്ങൾ ആവശ്യമെങ്കിൽ, Sider.AI-ക്ക് ഡോക്യുമെന്റേഷനും വിജ്ഞാന പങ്കിടലും വേഗത്തിലാക്കാൻ കഴിയുമെന്ന് ഓർമ്മിക്കേണ്ടതാണ്. ഉദാഹരണത്തിന്, നിങ്ങൾക്ക് schema diffs-നെ മനുഷ്യന് വായിക്കാൻ കഴിയുന്ന change logs ആക്കി മാറ്റാം, അല്ലെങ്കിൽ സ്റ്റീവാർഡുകൾക്ക് dataset വിവരണങ്ങളുടെ ആദ്യ ഡ്രാഫ്റ്റ് ഉണ്ടാക്കാം—raw metadata-യിൽ നിന്ന് ഉപയോഗിക്കാവുന്ന context-ലേക്കുള്ള സമയം കുറയ്ക്കുന്നു.

ചീറ്റ് ഷീറ്റ്: നിങ്ങളുടെ ആദ്യ 10 പ്രവർത്തനങ്ങൾ

quickstart വഴി DataHub ലോക്കലായി ലോഞ്ച് ചെയ്യുക.

UI ഇൻജക്ഷൻ വഴി ഒരു വെയർഹൗസ് ഉറവിടം ചേർക്കുക.

പിന്തുടർച്ചയ്ക്കായി dbt അല്ലെങ്കിൽ ഓർക്കസ്ട്രേഷൻ മെറ്റാഡാറ്റാ ഇൻജസ്റ്റ് ചെയ്യുക.

5–10 പ്രധാന ഡാറ്റാസെറ്റുകളിലേക്ക് ഉടമകളെ ചേർക്കുക.

സംക്ഷിപ്തമായ വിവരണങ്ങൾ എഴുതുക (ഓരോന്നിനും 2–3 വാക്യങ്ങൾ).

3 ഗ്ലോസറി നിബന്ധനകളും 4–6 ടാഗുകളും ഉണ്ടാക്കുക.

5 ഡാറ്റാസെറ്റുകളെ സ്വർണ്ണമായി ടാഗ് ചെയ്യുക, കാലഹരണപ്പെട്ടവ മറയ്ക്കുക.

സ്റ്റീവാർഡുകൾക്കായി ഒരു എഡിറ്റർ പോളിസി സജ്ജമാക്കുക.

ദിവസേനയുള്ള ഇൻജക്ഷൻ ഷെഡ്യൂൾ ചെയ്യുക.

2 ഓഹരി ഉടമ ടീമുകൾക്ക് UI ഡെമോ ചെയ്യുകയും പ്രതികരണം ശേഖരിക്കുകയും ചെയ്യുക.

അടുത്തത് എന്ത്?

Kubernetes അല്ലെങ്കിൽ ഒരു മാനേജ്ഡ് എൻവയോൺമെന്റിലേക്ക് സ്കെയിൽ ചെയ്യുക.

ഭരണത്തിനായി SSO-യും ഗ്രൂപ്പുകളും പുറത്തിറക്കുക.

BI-ലേക്കും ഇവന്റ് സ്ട്രീമുകളിലേക്കും ഇൻജക്ഷൻ വികസിപ്പിക്കുക.

ഡാറ്റാ ഗുണനിലവാരത്തിനും ഡോക്യുമെന്റേഷൻ പൂർണ്ണതയ്ക്കും സ്കോർകാർഡുകൾ നിർമ്മിക്കുക.

CI/CD-യുമായി സംയോജിപ്പിക്കുക, അതിനാൽ സ്കീമ മാറ്റങ്ങൾ എല്ലായ്പ്പോഴും കാറ്റലോഗിൽ പ്രതിഫലിക്കും.

അന്തിമമായി പഠിച്ച കാര്യങ്ങൾ

ചെറുതായി ആരംഭിച്ച്, വേഗത്തിൽ മൂല്യം നൽകുക, ആവർത്തിക്കുക.

വേഗതയ്ക്കായി UI ഇൻജക്ഷൻ ഉപയോഗിക്കുക; ആവർത്തനത്തിനായി CLI ഉപയോഗിക്കുക.

വിശ്വാസം വർദ്ധിപ്പിക്കാൻ ഗ്ലോസറി, ടാഗുകൾ, പോളിസികൾ എന്നിവ നേരത്തേ ചേർക്കുക.

പൂർണ്ണമായ പിന്തുടർച്ചയ്ക്കായി വെയർഹൗസ് + dbt + BI കണക്ട് ചെയ്യുക.

ഡോക്യുമെന്റേഷനെ വികസനത്തിന്റെ ഭാഗമായി കണക്കാക്കുക, അവസാന ചിന്തയായിട്ടല്ല.

പതിവുചോദ്യങ്ങൾ

Q1: എന്താണ് DataHub, എന്തുകൊണ്ട് ഞാൻ ഇത് ഉപയോഗിക്കണം? DataHub എന്നത് നിങ്ങളുടെ ഡാറ്റാ സ്റ്റാക്കിലുടനീളമുള്ള കണ്ടെത്തൽ, പിന്തുടർച്ച, ഭരണത്തിനായുള്ള ഒരു ഓപ്പൺ സോഴ്സ് മെറ്റാഡാറ്റാ പ്ലാറ്റ്‌ഫോമാണ്. വിശ്വസനീയമായ ഡാറ്റാസെറ്റുകൾ കണ്ടെത്താനും സ്വാധീനം മനസിലാക്കാനും ഡോക്യുമെന്റേഷൻ സാധാരണ നിലയിലാക്കാനും ഇത് ടീമുകളെ സഹായിക്കുന്നു. ഔദ്യോഗിക ആമുഖത്തിൽ അടിസ്ഥാനകാര്യങ്ങൾ പഠിക്കുക.

Q2: DataHub എങ്ങനെ വേഗത്തിൽ ഇൻസ്റ്റാൾ ചെയ്യാം? Quickstart ഉപയോഗിക്കുക: Docker ഇൻസ്റ്റാൾ ചെയ്യുക, CLI ഇൻസ്റ്റാൾ ചെയ്യുക, തുടർന്ന് ഒരൊറ്റ കമാൻഡ് ഉപയോഗിച്ച് ആരംഭിക്കുക. സജ്ജീകരണം വേഗത്തിൽ സാധൂകരിക്കാൻ നിങ്ങൾക്ക് UI-ൽ പ്രാദേശികമായി ആക്സസ് ചെയ്യാനും സ്ഥിരസ്ഥിതി ഉപയോഗിച്ച് ലോഗിൻ ചെയ്യാനും കഴിയും.

Q3: DataHub-ൽ ഞാൻ UI ഇൻജക്ഷൻ ഉപയോഗിക്കണോ അതോ CLI ഇൻജക്ഷൻ ഉപയോഗിക്കണോ? വേഗത്തിൽ ആരംഭിക്കുന്നതിനോ എഞ്ചിനീയർമാരല്ലാത്തവരെ ഉൾപ്പെടുത്തുന്നതിനോ UI അടിസ്ഥാനമാക്കിയുള്ള ഇൻജക്ഷൻ ഉപയോഗിക്കുക; ആദ്യ കണക്റ്റിവിറ്റിക്കും ഡെമോകൾക്കും ഇത് മികച്ചതാണ്. പതിപ്പുള്ള recipes, ഓട്ടോമേഷൻ, CI/CD സംയോജനം എന്നിവയ്ക്കായി CLI ഇൻജക്ഷനിലേക്ക് മാറുക.

Q4: DataHub-ൽ പിന്തുടർച്ച എങ്ങനെ കാണാനാകും? ഒന്നിലധികം ഉറവിടങ്ങളിൽ നിന്ന് ഇൻജസ്റ്റ് ചെയ്യുക: നിങ്ങളുടെ വെയർഹൗസ് (ഉദാഹരണത്തിന്, Snowflake), നിങ്ങളുടെ ട്രാൻസ്ഫോർമേഷൻ ലെയർ (ഉദാഹരണത്തിന്, dbt), ഓർക്കസ്ട്രേഷൻ (ഉദാഹരണത്തിന്, Airflow). DataHub ഈ ഭാഗങ്ങളെ ബന്ധിപ്പിക്കുമ്പോൾ പിന്തുടർച്ച ഉണ്ടാകുന്നു.

Q5: DataHub-ൽ ഞാൻ ആദ്യം എന്തൊക്കെ ഭരണ സവിശേഷതകൾ പ്രവർത്തനക്ഷമമാക്കണം? ഉടമസ്ഥാവകാശം, സംക്ഷിപ്തമായ വിവരണങ്ങൾ, ഒരു ചെറിയ ഗ്ലോസറി, സ്വർണ്ണം, pii, കാലഹരണപ്പെട്ടത് പോലുള്ള സ്ഥിരമായ ടാഗുകൾ എന്നിവയിൽ നിന്ന് ആരംഭിക്കുക. തുടർന്ന് നിർണായക അസറ്റുകൾ എഡിറ്റ് ചെയ്യാൻ ആർക്കൊക്കെ കഴിയുമെന്നും പതിവായ ഇൻജക്ഷൻ ഷെഡ്യൂൾ ചെയ്യാനും പോളിസികൾ ചേർക്കുക.