தரவு விரவியலைத் தெளிவாக்கத் தயாரா? DataHub - LinkedIn-இல் முதலில் உருவாக்கப்பட்ட ஒரு திறந்த மூல மெட்டாடேட்டா தளம் - கிடங்குகள், BI கருவிகள், ஆர்கெஸ்ட்ரேஷன் அமைப்புகள் மற்றும் பலவற்றில் குழுக்கள் தரவைக் கண்டறியவும், நம்பவும் மற்றும் நிர்வகிக்கவும் உதவுகிறது. இந்த நடைமுறை, படிப்படியான வழிகாட்டியில், நீங்கள் ஒரு வேலை செய்யும் DataHub நிகழ்வுக்குச் செல்வீர்கள், மெட்டாடேட்டாவைச் சேர்ப்பீர்கள், பரம்பரையைக் கண்டுபிடிப்பீர்கள், மேலும் சொற்களஞ்சியத்தில் தொலைந்து போகாமல் நிர்வாகத்தை அமைப்பீர்கள்.
நீங்கள் ஒரு பார்வையில் கற்றுக்கொள்வது:
- நிமிடங்களில் DataHub-ஐ உள்நாட்டில் சுழற்றுங்கள்
- பொதுவான மூலங்களிலிருந்து மெட்டாடேட்டாவைச் சேர்க்கவும் (எ.கா., Snowflake, BigQuery, dbt)
- UI-இல் தேடல், பரம்பரை, உரிமை மற்றும் ஆவணங்களை ஆராயுங்கள்
- நிர்வாகத்திற்கான கொள்கைகள், குறிச்சொற்கள் மற்றும் விதிமுறைகளை வரையறுக்கவும்
- உண்மையில் ஒட்டிக்கொள்ளும் குழு செயல்முறைகளை வெளிப்படுத்துங்கள்
குறிப்பு: இது ஒரு நடைமுறை மற்றும் தீர்வு சார்ந்த விளக்கமாகும், இது உண்மையான பணிப்பாய்வுகளுக்கு வரைபடமாக்க வடிவமைக்கப்பட்டுள்ளது. தேவைப்படும்போது விவரங்கள் மற்றும் ஆழமான டைவ்களுக்கான அதிகாரப்பூர்வ ஆவணங்களை நாங்கள் மேற்கோள் காட்டுவோம்.
- விரைவு தொடக்கம்: DataHub-ஐ உள்நாட்டில் இயக்கவும்
நீங்கள் DataHub-ஐ பரிசோதனை செய்தாலோ அல்லது முன்னோடியாகச் செய்தாலோ, விரைவான பாதை விரைவான தொடக்கமாகும். முதலில் நீங்கள் Docker-ஐ நிறுவியுள்ளீர்கள் என்பதை உறுதிப்படுத்திக் கொள்ளுங்கள். பிறகு:
- ஒரே கட்டளையுடன் தொடங்கவும்
- UI-ஐத் திறந்து, இயல்புநிலைகளுடன் உள்நுழையவும்
அதிகாரப்பூர்வ விரைவு தொடக்க விவரங்கள், கட்டளைகள் மற்றும் இயல்புநிலைகள் இங்கே உள்ளன. நவீன அடுக்குகளுக்கு ஏற்ற ஒரு நிகழ்நேர மெட்டாடேட்டா மாதிரியை (அமைப்புகள், அம்சங்கள் மற்றும் ஸ்ட்ரீமிங் புதுப்பிப்புகள்) DataHub ஏன் பயன்படுத்துகிறது என்பதை அறிமுகம் விளக்குகிறது.
ஸ்மார்ட் அமைப்பு உதவிக்குறிப்புகள்:
- நீங்கள் பின்னர் Kubernetes-க்குச் செல்ல திட்டமிட்டிருந்தாலும், உள்நாட்டில் தொடங்கவும். வாங்குவதற்கும் டெமோக்களுக்கும் இது வேகமானது.
- உங்களிடம் ஏற்கனவே Docker Desktop இருந்தால், நீங்கள் வழக்கமாக நிமிடங்களில் வருவீர்கள்.
- சாண்ட்பாக்ஸில் கூட நற்சான்றிதழ்களைப் பாதுகாப்பாக வைத்திருங்கள். இப்போது கட்டப்பட்ட பழக்கங்கள் பின்னர் பலனளிக்கும்.
- 5 நிமிடங்களில் முக்கிய கருத்துக்களைப் புரிந்து கொள்ளுங்கள்
நீங்கள் எதையும் உள்ளெடுப்பதற்கு முன், DataHub-இன் மன மாதிரியுடன் வசதியாக இருங்கள்:
- அமைப்புகள்: தரவுத்தொகுப்புகள், அட்டவணைகள், விளக்கப்படங்கள், டாஷ்போர்டுகள், குழாய்கள், பயனர்கள் போன்ற விஷயங்கள்.
- அம்சங்கள்: அமைப்புகளைப் பற்றிய மெட்டாடேட்டாவின் பதிப்புகள் "முகங்கள்" (ஸ்கீமா, உரிமை, குறிச்சொற்கள், சொல்லகராதி விதிமுறைகள், பரம்பரை).
- வரைபடம்: உறவுகள் (பரம்பரை, உரிமை, சார்புகள்) தேடல் மற்றும் கண்டுபிடிப்பு அனுபவத்திற்கு அதிகாரம் அளிக்கின்றன.
இந்த வரைபட அடிப்படையிலான அணுகுமுறை தாக்க பகுப்பாய்வு போன்ற அம்சங்களை செயல்படுத்துகிறது (நாங்கள் இந்த நெடுவரிசையை மாற்றினால் என்ன உடையும்?), கீழ்நிலை பரம்பரை மேப்பிங் மற்றும் நம்பிக்கை சமிக்ஞைகள் (உரிமையாளர்கள், குறிச்சொற்கள், ஆவணங்கள்). ஒரு சுருக்கமான கருத்தியல் கண்ணோட்டம் அறிமுக வழிகாட்டியில் உள்ளது.
- உள்ளெடு மெட்டாடேட்டா: UI vs. CLI (உங்கள் பாதையைத் தேர்ந்தெடுக்கவும்)
DataHub பயனர் நட்பு UI உட்செலுத்துதல் மற்றும் ஸ்கிரிப்ட் செய்யக்கூடிய CLI குழாய்கள் இரண்டையும் ஆதரிக்கிறது. இன்று உங்கள் பணிப்பாய்வுக்கு எது பொருத்தமாக இருக்கிறதோ அதைத் தேர்ந்தெடுக்கவும் - பல குழுக்கள் இரண்டையும் பயன்படுத்துகின்றன.
விருப்பம் A: UI அடிப்படையிலான உட்செலுத்துதல் (முதல் ரன்களுக்கு வேகமாக)
- UI-இல், உட்செலுத்துதல் → புதிய ஆதாரம் என்பதற்குச் செல்லவும்.
- ஒரு ஆதாரத்தைத் தேர்ந்தெடுக்கவும் (எ.கா., Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).
- இணைப்பு விவரங்களை உள்ளிடவும்.
- தேவைக்கேற்ப உட்செலுத்தலைத் திட்டமிடவும் அல்லது இயக்கவும்.
UI ஓட்டம் மற்றும் படிகள் இங்கே அடங்கும். பொறியாளர் அல்லாதவர்கள் அல்லது இணைப்பை விரைவாகச் சரிபார்க்க விரும்பும் குழுக்களுக்கு இது சிறந்தது.
விருப்பம் B: CLI அடிப்படையிலான உட்செலுத்துதல் (திரும்பத் திரும்பச் செய்யக்கூடியது மற்றும் CI-நட்பு)
- உங்கள் ஆதாரம், வடிப்பான்கள் மற்றும் மேப்பிங்கை வரையறுக்கும் ஒரு YAML செய்முறையை உருவாக்கவும்.
- இயக்கு: datahub ingest -c recipe.yml
- திரும்பத் திரும்பச் செய்யக்கூடிய செய்முறையை பதிப்பு கட்டுப்பாட்டுக்குச் செய்யவும்.
CLI உட்செலுத்துதல் மற்றும் சமையல் குறிப்புகள் இங்கே விரிவாக ஆவணப்படுத்தப்பட்டுள்ளன. இந்த அணுகுமுறை டெவ்/ப்ரொடக்ஷன் பைப்லைன்கள், ஆட்டோமேஷன் மற்றும் நிலைத்தன்மைக்கு சிறந்தது.
உட்செலுத்துதலுக்கான ப்ரோ உதவிக்குறிப்புகள்:
- மிக முக்கியமான ஒன்று அல்லது இரண்டு ஆதாரங்களுடன் தொடங்கவும் (எ.கா., Snowflake + dbt). விரைவான வெற்றிகள் வேகத்தை உருவாக்குகின்றன.
- ஆக்ரோஷமாக வடிகட்டவும். முதல் நாளில் ஒவ்வொரு சாண்ட்பாக்ஸ் தரவுத்தொகுப்பையும் உட்செலுத்த வேண்டாம்; இது சத்தம் உருவாக்குகிறது.
- குழப்பத்தைத் தவிர்க்க இயங்குதள நிகழ்வுப் பெயர்களைச் சேர்க்கவும் (snowflake:prod vs snowflake:dev).
- UI-ஐ ஆராயுங்கள்: தேடல், பரம்பரை மற்றும் உரிமை
உங்கள் முதல் உட்செலுத்துதல் முடிந்ததும், மதிப்பை விரைவாகச் சரிபார்க்க UI-க்குள் நுழையுங்கள்:
- உலகளாவிய தேடல்: தரவுத்தொகுப்புகள், டாஷ்போர்டுகள் மற்றும் பைப்லைன்களை பெயர், ஸ்கீமா, குறிச்சொற்கள் அல்லது சொல்லகராதி சொற்களால் கண்டுபிடிக்கவும்.
- பரம்பரை வரைபடம்: மேல்நிலை மற்றும் கீழ்நிலை இணைப்புகளைக் காண ஒரு தரவுத்தொகுப்பிற்குள் கிளிக் செய்யவும். தாக்க பகுப்பாய்விற்கு இது தங்கம்.
- உரிமை & ஆவணங்கள்: உரிமையாளர்களைச் சேர்க்கவும் (குழுக்கள் அல்லது பயனர்கள்) மற்றும் தெளிவான விளக்கங்களை எழுதவும். உங்கள் அமைப்பு உணரக்கூடிய முதல் நம்பிக்கை சமிக்ஞைகள் இவை.
- ஸ்கீமா & ப்ரொஃபைலிங்: நெடுவரிசை பெயர்கள், வகைகள் மற்றும் மாதிரி புள்ளிவிவரங்களை மதிப்பாய்வு செய்யவும். ஆரம்பத்தில் முரண்பாடுகளைக் கண்டறியவும்.
- பொருளைச் சேர்க்கவும்: சொல்லகராதி, குறிச்சொற்கள் மற்றும் டொமைன்கள்
பச்சை மெட்டாடேட்டா என்பது ஆரம்பம் தான். சொற்பொருள் அடுக்குகளால் உண்மையான தத்தெடுப்பைத் திறப்பீர்கள்:
- சொல்லகராதி விதிமுறைகள்: வணிக நட்பு கருத்துக்களை வரையறுக்கவும் (வாடிக்கையாளர், ARR, செயலில் உள்ள பயனர்). மொழியை தரப்படுத்த தரவுத்தொகுப்புகள்/நெடுவரிசைகளுடன் இணைக்கவும்.
- குறிச்சொற்கள்: இலகுரக லேபிள்கள் (PII, முக்கியமான, காலாவதியான, தங்கம்). ஆபத்து மற்றும் முக்கியத்துவத்திற்கான விரைவான காட்சி குறிப்புகள்.
- டொமைன்கள்: வணிக செயல்பாடு (நிதி, சந்தைப்படுத்தல்) அல்லது தளம் மூலம் தொடர்புடைய சொத்துக்களைக் குழுவாக்கவும்.
பரிந்துரைக்கப்பட்ட முதல் வகைபிரிப்பு:
- அனைவருக்கும் புரியும் மூன்று சொல்லகராதி சொற்கள் (வாடிக்கையாளர், ஆர்டர், வருவாய்)
- ஒரு சிறிய குறிச்சொல் தொகுப்பு: pii, தங்கம், காலாவதியானது, சோதனை
- உங்கள் அமைப்பு விளக்கப்படம் அல்லது தரவு தளங்களுக்கு மேப் செய்யும் 5-7 டொமைன்கள்
- அளவிடக்கூடிய நிர்வாகம்: கொள்கைகள் மற்றும் அணுகல்
DataHub பங்கு மற்றும் சொத்து அடிப்படையிலான கொள்கைகளை ஆதரிக்கிறது, எனவே யார் என்ன செய்ய முடியும் என்பதைக் கட்டுப்படுத்தலாம் (ஆவணங்களைத் திருத்தவும், குறிச்சொற்களைச் சேர்க்கவும், பரம்பரையை நிர்வகிக்கவும் போன்றவை). எளிமையாகத் தொடங்கவும்:
- ஆவணங்கள், உரிமை மற்றும் குறிச்சொற்களில் எடிட் உரிமைகளுடன் ஒரு "ஸ்டீவர்ட்ஸ்" குழுவை உருவாக்கவும்.
- பெரும்பாலான சொத்துக்களுக்கு ஆய்வாளர்களுக்கு வாசிப்பு அணுகலை வழங்கவும், ஆனால் முக்கியமான களங்களை கட்டுப்படுத்தவும்.
- "சிறந்த தேர்வுகள்" இல் தோன்றுவதற்கு முன்பு "தங்க" தரவுத்தொகுப்புகளுக்கு உரிமையாளர்கள் தேவை.
கொள்கைகள் மற்றும் நிர்வாகம் இயங்குதளத்திற்குள் வாழ்கின்றன, எனவே எடிட்டர்கள் மற்றும் பார்வையாளர்களுக்கு அனுபவம் நிலையானது. உங்கள் அமைப்பு முதிர்ச்சியடையும்போது, இன்னும் சிறப்பான அனுமதிகள் மற்றும் ஒப்புதல் ஓட்டங்களுடன் விரிவாக்கவும்.
- செயல்பாட்டு சிறந்த நடைமுறைகள்: அதை ஒட்டிக்கொள்ளச் செய்யுங்கள்
மெட்டாடேட்டா நிரல்கள் கூடுதல் வேலை போல் இருக்கும்போது தோல்வியடைகின்றன. DataHub-ஐ சாதாரண ஓட்டத்தின் ஒரு பகுதியாக ஆக்குங்கள்:
- PRs/CI இல் உட்பொதிக்கவும்: தரவு குழாய்கள் மாறும்போது, மெட்டாடேட்டா உட்செலுத்தலை இயக்கி, ஸ்கீமா வேறுபாடுகளை ஒப்பிடவும். உடைக்கும் மாற்றங்களை தானாகவே கொடியிடவும்.
- dbt உடன் சீரமைக்கவும்: dbt ஆவணங்கள், சோதனைகள் மற்றும் வெளிப்பாடுகளைப் பயன்படுத்தவும்; குறியீட்டை வணிக சூழலுடன் இணைக்க DataHub-இல் அவற்றை மேற்பரப்புக்கு கொண்டு வாருங்கள்.
- ஒரு "தத்தெடுப்பு விளையாட்டுப் புத்தகம்" உருவாக்கவும்: உரிமையாளர்கள் ஆவணங்கள், குறிச்சொற்கள் மற்றும் சொல்லகராதி விதிமுறைகளை உள்வாங்கலின்போது சேர்க்கிறார்கள். மதிப்பெண் அட்டைகள் மூலம் தரத்திற்கு வெகுமதி அளிக்கவும்.
- ஒரு தரவு ஒப்பந்தத்தை வெளியிடவும்: முக்கிய அட்டவணைகளுக்கு, SLA, புத்துணர்ச்சி, பூஜ்யமாக்குதல் மற்றும் நிலைத்தன்மை விதிகளை வரையறுக்கவும். DataHub-இல் அதை மேற்பரப்புக்கு கொண்டு வாருங்கள்.
- பைலட்டிலிருந்து உற்பத்திக்கு: என்ன மாற்றங்கள்?
- உள்கட்டமைப்பு: உள்ளூர் டாக்கரில் இருந்து ஒரு நிர்வகிக்கப்பட்ட சூழலுக்கு (Kubernetes, கிளவுட் சேவைகள்) செல்லவும். உங்கள் நிறுவனத்தில் ஹோஸ்ட் செய்யப்பட்ட விருப்பம் இருந்தால் அதைக் கருத்தில் கொள்ளுங்கள்.
- Auth/SSO: உங்கள் அடையாள வழங்குநருடன் ஒருங்கிணைக்கவும் (Okta, Azure AD, போன்றவை).
- கண்காணிப்பு: உட்செலுத்தும் பணிகள், வரைபட அளவு மற்றும் UI செயல்திறனைக் கண்காணிக்கவும்.
- மாற்ற மேலாண்மை: ஒரு மெட்டாடேட்டா மதிப்பாய்வு வேகத்தை நிறுவவும் (எ.கா., வாராந்திர மேற்பார்வை ஒத்திசைவுகள்).
- சரிசெய்தல்: பொதுவான ஆபத்துகள் மற்றும் திருத்தங்கள்
- "என்னால் என் அட்டவணைகளைக் காண முடியவில்லை." பிணைய விதிகள், நற்சான்றிதழ்கள் மற்றும் மூல வடிப்பான்களை சரிபார்க்கவும். சிக்கலை தனிமைப்படுத்த ஒரு சிறிய உட்செலுத்தும் செய்முறையை இயக்கவும்.
- "பரம்பரை முழுமையடையவில்லை." ஆர்கெஸ்ட்ரேஷன் (Airflow), மாற்றம் (dbt) மற்றும் கிடங்கு மூலங்களிலிருந்து நீங்கள் உட்செலுத்தியுள்ளீர்கள் என்பதை உறுதிப்படுத்திக் கொள்ளுங்கள். பரம்பரைக்கு பெரும்பாலும் பல இணைப்பிகள் தேவை.
- "தேடல் ஒழுங்கற்றதாக உணர்கிறது." வடிப்பான்களை இறுக்குங்கள், குறிச்சொற்கள்/சொல்லகராதி சேர்க்கவும் மற்றும் காலாவதியான சொத்துக்களை மறைக்கவும்.
- "ஆவணங்கள் பழையவை." வழக்கமான உட்செலுத்தலைத் திட்டமிடுங்கள்; குறியீடு மாற்றங்களுடன் விளக்கங்களைப் புதுப்பிக்க உரிமையாளர்களை ஊக்குவிக்கவும்.
- உதாரணம்: 48 மணி நேரத்தில் மதிப்புக்கான விரைவான பாதை
முதல் நாள்
- விரைவு தொடக்கம் மூலம் DataHub-ஐ உள்நாட்டில் சுழற்றுங்கள்.
- UI உட்செலுத்துதலைப் பயன்படுத்தி உங்கள் கிடங்கிலிருந்து (Snowflake/BigQuery) உள்ளெடுக்கவும்.
- ஐந்து முக்கியமான தரவுத்தொகுப்புகளுக்கு உரிமையாளர்கள் மற்றும் விளக்கங்களைச் சேர்க்கவும்.
- வாடிக்கையாளர் மற்றும் வருவாய்க்கான சொல்லகராதி சொற்களை உருவாக்கவும்; அந்த தரவுத்தொகுப்புகளை தங்கமாக குறிக்கவும்.
இரண்டாம் நாள்
- அட்டவணைகளுடன் மாதிரிகளை இணைக்க dbt மெட்டாடேட்டாவை உள்ளெடுக்கவும்.
- உட்செலுத்துதல் → மாற்றம் → BI முழுவதும் பரம்பரையை சரிபார்க்கவும்.
- ஸ்டீவர்டுகள் மட்டுமே தங்க தரவுத்தொகுப்பு ஆவணங்களை மாற்ற முடியும் என்ற ஒரு கொள்கையை உருவாக்கவும்.
- பங்குதாரர்களுக்கு பரம்பரை காட்சியையும் தேடல் அனுபவத்தையும் டெமோ செய்யவும்; கருத்தை சேகரிக்கவும்.
முக்கிய குறிப்புகள்
- விரைவு தொடக்கம்: உள்ளூர் அமைப்பு, நற்சான்றிதழ்கள், துறைமுகங்கள், கட்டளைகள்
- கருத்துக்கள் மற்றும் கட்டிடக்கலை கண்ணோட்டம்
- UI அடிப்படையிலான உட்செலுத்தும் படிகள்
- CLI உட்செலுத்துதல் மற்றும் YAML சமையல் குறிப்புகள்
எங்கே Sider.AI உதவ முடியும்
உங்கள் குழு அடிக்கடி சிறந்த நடைமுறைகளை ஆராய்ச்சி செய்தாலோ, தரவுத்தொகுப்பு ஆவணங்களை எழுதினாலோ அல்லது பரம்பரை மற்றும் ஸ்கீமா மாற்றங்களின் ஜீரணிக்கக்கூடிய சுருக்கங்கள் தேவைப்பட்டாலோ, Sider.AI ஆவணமாக்கல் மற்றும் அறிவு பகிர்வை துரிதப்படுத்த முடியும் என்பதை கவனத்தில் கொள்ள வேண்டும். உதாரணமாக, நீங்கள் அடர்த்தியான ஸ்கீமா வேறுபாடுகளை மனிதனால் படிக்கக்கூடிய மாற்ற பதிவுகளாக மாற்றலாம் அல்லது மேற்பார்வையாளர்கள் சுத்திகரிக்கக்கூடிய முதல் வரைவு தரவுத்தொகுப்பு விளக்கங்களை உருவாக்கலாம் - பச்சை மெட்டாடேட்டாவிலிருந்து பயன்படுத்தக்கூடிய சூழலுக்கு நேரத்தைக் குறைக்கலாம். சீட் தாள்: உங்கள் முதல் 10 செயல்கள்
- விரைவு தொடக்கம் மூலம் DataHub-ஐ உள்நாட்டில் தொடங்கவும்.
- UI உட்செலுத்துதல் மூலம் ஒரு கிடங்கு மூலத்தைச் சேர்க்கவும்.
- பரம்பரைக்காக dbt அல்லது ஆர்கெஸ்ட்ரேஷன் மெட்டாடேட்டாவை உள்ளெடுக்கவும்.
- 5-10 முக்கிய தரவுத்தொகுப்புகளுக்கு உரிமையாளர்களைச் சேர்க்கவும்.
- சுருக்கமான விளக்கங்களை எழுதுங்கள் (ஒவ்வொன்றும் 2-3 வாக்கியங்கள்).
- 3 சொல்லகராதி சொற்களையும் 4-6 குறிச்சொற்களையும் உருவாக்கவும்.
- 5 தரவுத்தொகுப்புகளைத் தங்கமாக குறிக்கவும், மேலும் காலாவதியானவற்றை மறைக்கவும்.
- மேற்பார்வையாளர்களுக்கு ஒரு எடிட்டர் கொள்கையை அமைக்கவும்.
- தினசரி உட்செலுத்தலைத் திட்டமிடவும்.
- 2 பங்குதாரர் குழுக்களுக்கு UI-ஐ டெமோ செய்து கருத்தை சேகரிக்கவும்.
அடுத்து என்ன?
- Kubernetes அல்லது ஒரு நிர்வகிக்கப்பட்ட சூழலுக்கு அளவிடவும்.
- நிர்வாகத்திற்கான SSO மற்றும் குழுக்களை வெளியிடவும்.
- BI மற்றும் நிகழ்வு ஸ்ட்ரீம்களுக்கு உட்செலுத்தலை விரிவாக்கவும்.
- தரவு தரம் மற்றும் ஆவணப்படுத்தல் முழுமைக்கு மதிப்பெண் அட்டைகளை உருவாக்கவும்.
- CI/CD உடன் ஒருங்கிணைக்கவும், இதனால் ஸ்கீமா மாற்றங்கள் எப்போதும் பட்டியலில் பிரதிபலிக்கின்றன.
இறுதி டேக்அவேஸ்
- சிறியதாகத் தொடங்கி, மதிப்பை வேகமாக அனுப்பவும், மீண்டும் செய்யவும்.
- வேகத்திற்காக UI உட்செலுத்தலைப் பயன்படுத்தவும்; திரும்பத் திரும்பச் செய்வதற்கு CLI.
- நம்பிக்கையை அதிகரிக்க ஆரம்பத்தில் சொல்லகராதி, குறிச்சொற்கள் மற்றும் கொள்கைகளில் அடுக்கவும்.
- முழுமையான பரம்பரைக்கு கிடங்கு + dbt + BI ஐ இணைக்கவும்.
- ஆவணமாக்கலை வளர்ச்சியின் ஒரு பகுதியாகக் கருதுங்கள், பிந்தைய சிந்தனையாக அல்ல.
FAQ
Q1: DataHub என்றால் என்ன, நான் ஏன் அதைப் பயன்படுத்த வேண்டும்?
DataHub என்பது உங்கள் தரவு அடுக்குகளில் கண்டறிதல், பரம்பரை மற்றும் நிர்வாகத்திற்கான ஒரு திறந்த மூல மெட்டாடேட்டா தளம். நம்பகமான தரவுத்தொகுப்புகளைக் கண்டறியவும், தாக்கத்தைப் புரிந்துகொள்ளவும் மற்றும் ஆவணப்படுத்தலைத் தரப்படுத்தவும் இது குழுக்களுக்கு உதவுகிறது. அதிகாரப்பூர்வ அறிமுகத்தில் அடிப்படைகளைக் கற்றுக்கொள்ளுங்கள்.
Q2: DataHub-ஐ விரைவாக நிறுவுவது எப்படி?
விரைவான தொடக்கத்தைப் பயன்படுத்தவும்: Docker-ஐ நிறுவவும், CLI-ஐ நிறுவவும், பின்னர் ஒரே கட்டளையுடன் தொடங்கவும். அமைப்பை வேகமாகச் சரிபார்க்க நீங்கள் உள்நாட்டில் UI-ஐ அணுகலாம் மற்றும் இயல்புநிலைகளுடன் உள்நுழையலாம்.
Q3: DataHub-இல் நான் UI உட்செலுத்தலைப் பயன்படுத்த வேண்டுமா அல்லது CLI உட்செலுத்தலைப் பயன்படுத்த வேண்டுமா?
விரைவாகத் தொடங்க அல்லது பொறியாளர் அல்லாதவர்களை ஈடுபடுத்த UI அடிப்படையிலான உட்செலுத்தலைப் பயன்படுத்தவும்; இது முதல் முறை இணைப்பு மற்றும் டெமோக்களுக்கு சிறந்தது. பதிவான சமையல் குறிப்புகள், ஆட்டோமேஷன் மற்றும் CI/CD ஒருங்கிணைப்பிற்கு CLI உட்செலுத்தலுக்கு மாறவும்.
Q4: DataHub-இல் பரம்பரையை எவ்வாறு காண்பிப்பது?
பல மூலங்களிலிருந்து உள்ளெடுக்கவும்: உங்கள் கிடங்கு (எ.கா., Snowflake), உங்கள் மாற்றம் அடுக்கு (எ.கா., dbt) மற்றும் ஆர்கெஸ்ட்ரேஷன் (எ.கா., Airflow). DataHub இந்த துண்டுகளை இணைக்கும்போது பரம்பரை வெளிப்படுகிறது.
Q5: DataHub-இல் நான் முதலில் என்ன நிர்வாக அம்சங்களை இயக்க வேண்டும்?
உரிமை, சுருக்கமான விளக்கங்கள், ஒரு சிறிய சொல்லகராதி மற்றும் தங்கம், pii மற்றும் காலாவதியான போன்ற நிலையான குறிச்சொற்களுடன் தொடங்கவும். பின்னர் முக்கியமான சொத்துக்களை யார் திருத்தலாம் என்பதைக் கட்டுப்படுத்த கொள்கைகளைச் சேர்க்கவும் மற்றும் வழக்கமான உட்செலுத்தலைத் திட்டமிடவும்.