"எப்போதாவது ஒரு விரிதாள் தொழிற்சாலை கன்வேயர் பெல்ட் வேலையைச் செய்ய முயற்சித்ததுண்டா? சில வருடங்களுக்கு முன்பு அது நான் தான், மின்னல் புயலில் சிணுங்கும் சிஹுவாகுவா போல என் மடிக்கணினியுடன் மில்லியன் கணக்கான பதிவு கோப்புகளை சமாளிக்க முயற்சி செய்தேன். அப்போது தான் யாரோ ஒருவர், “டேட்டாபிரிக்ஸை முயற்சித்தீர்களா?” என்று கேட்டார். அப்போது ஒரு பாடல் தடைப்பட்டது போல இருந்தது."
"ஸ்பார்க்,” “கிளஸ்டர்கள்,” மற்றும் “டெல்டா லேக்” போன்ற வார்த்தைகள் உங்களை மலைகளுக்கு ஓடச் செய்தால், ஒரு நல்ல செய்தி: டேட்டாபிரிக்ஸைப் பயன்படுத்துவது ராக்கெட் கப்பலை இயக்குவது போல் உணர வேண்டியதில்லை. இதைத் தரவு நபர்களுக்கான பகிரப்பட்ட சமையலறை என்று நினைத்துப் பாருங்கள் - சமையல்காரர்கள் (நீங்களும் உங்கள் குழுவும்) பொருட்களை (தரவு) கொண்டு வரலாம், பர்னர்களைப் (கணினி கிளஸ்டர்கள்) பயன்படுத்தலாம் மற்றும் உணவுகளை (பகுப்பாய்வு, டாஷ்போர்டுகள், இயந்திர கற்றல் மாதிரிகள்) சமைக்க சமையல் குறிப்புகளைப் (நோட்புக்குகள்) பின்பற்றலாம், இது உண்மையில் வணிகத்திற்கு உணவளிக்கிறது."
"இந்த வழிகாட்டியில், உங்கள் பணி இடத்தை அமைப்போம், உங்கள் முதல் கிளஸ்டரை இயக்குவோம், நோட்புக்கில் குறியீட்டை எழுதுவோம், SQL உடன் கேள்வி எழுப்புவோம், டெல்டா அட்டவணையில் முடிவுகளைச் சேமிப்போம், வேலைகளைத் திட்டமிடுவோம், மேலும் இரண்டு உன்னதமான ஆபத்துக்களைத் தவிர்ப்போம்: எதிர்பாராத கட்டணங்கள் மற்றும் மர்மமான “என் வேலை ஏன் தோல்வியடைந்தது?” இரவுகள். நாங்கள் இரண்டு அண்டை வீட்டாரைப் போல வேலியின் மீது உதவிக்குறிப்புகளை பரிமாறிக்கொள்வது போல், நான் விஷயங்களை மனிதநேயமாகவும், நடைமுறைக்கு ஏற்றதாகவும், நேர்மையாகவும் வைத்திருப்பேன், ஆனால் அந்த வேலி மரத்தூள் கோப்புகளால் ஆனது."
"டேட்டாபிரிக்ஸ் என்றால் என்ன?
\nடேட்டாபிரிக்ஸை பெரிய தரவு மற்றும் AI க்கான ஒரு அனைத்து ஸ்டுடியோவாகக் கருதுங்கள். இது அப்பாச்சி ஸ்பார்க்கை ஒரு நட்பு இடைமுகத்தில் மூடுகிறது, கூட்டு நோட்புக்குகளைச் சேர்க்கிறது, டெல்டா லேக் (ஒரு சூப்பர் பவர் டேபிள் வடிவம்) மூலம் தரவை நிர்வகிக்கிறது, மேலும் நீங்கள் தற்செயலாக தரவு குழாயை இரவு முழுவதும் இயக்காமல் இருக்க நிர்வாக கருவிகளை வழங்குகிறது. நீங்கள் பைதான், SQL, Scala அல்லது R ஐ எழுதலாம்; கலந்து பொருத்தலாம்; மேலும் ஒருவரையொருவர் முட்டுக் கொடுக்காமல் அதே நோட்புக்குகளில் வேலை செய்ய அணியினரை அழைக்கலாம்.""உங்கள் மன மாதிரி"
- "பணி இடம்: உங்கள் திட்ட தலைமையகம் - பயனர்கள், நோட்புக்குகள், ரெப்போக்கள், வேலைகள்."
- "கணினி: கிளஸ்டர்கள் (நோட்புக்குகள் மற்றும் வேலைகளுக்கு) மற்றும் SQL கிடங்குகள் (BI/SQL கேள்விகளுக்கு)."
- "சேமிப்பு: உங்கள் கிளவுட் டேட்டா (S3/ADLS/GCS). டேட்டாபிரிக்ஸ் நீங்கள் கேள்வி எழுப்பக்கூடிய அட்டவணைகளுடன் நட்புரீதியான பட்டியலைச் சேர்க்கிறது."
- "நிர்வாகம்: சரியான நபர்கள் சரியான தரவைப் பார்க்க அணுகல் கட்டுப்பாடுகள் மற்றும் யுனிட்டி பட்டியல்."
- "குழாய்கள்: தரவு பொறியியலுக்கான டெல்டா லைவ் டேபிள்கள்; விஷயங்களைத் திட்டமிட வேலைகள்; சோதனைகள் மற்றும் மாதிரிகளுக்கான MLflow."
"படி 1: ஒரு பணி இடத்தை உருவாக்குங்கள் அல்லது சேருங்கள்
\nஉங்கள் நிறுவனத்தில் ஏற்கனவே டேட்டாபிரிக்ஸ் இருந்தால், உங்களுக்கு அழைப்பு வரும். இல்லையெனில், ஒரு சோதனைக்கு பதிவு செய்யுங்கள் (உங்கள் விருப்பப்படி கிளவுட்) மற்றும் ஒரு பணி இடத்தை உருவாக்கவும். நீங்கள் ஒரு சுத்தமான, இடது-பக்க பட்டி இடைமுகத்தில் இறங்குவீர்கள். விருப்பங்களைப் பார்த்து பீதியடைய வேண்டாம் - நாங்கள் மூன்று விஷயங்களுடன் தொடங்குவோம்: பணி இடம், கணினி மற்றும் தரவு.""படி 2: உங்கள் முதல் கிளஸ்டரை இயக்கவும் (“உட்புற இயந்திரம்”)
\nஒரு கிளஸ்டர் என்பது டேட்டாபிரிக்ஸ் உங்களுக்காகத் தொடங்கும் கிளவுட் இயந்திரங்களின் குழுவாகும்."- "கணினி → புதிய கிளஸ்டர் என்பதைக் கிளிக் செய்யவும்."
- "ஒரு கிளஸ்டர் பயன்முறையைத் தேர்வு செய்யவும் (சோதனைக்கு ஒற்றைப் பயனர் அல்லது பகிரப்பட்டதிலிருந்து தொடங்கவும்)."
- "செலவுகளைக் குறைவாக வைத்திருக்க சிறிய நிகழ்வு வகையைத் தேர்ந்தெடுக்கவும்."
- "தானியங்கு நிறுத்தலை இயக்கவும் (எ.கா., 15–30 நிமிடங்கள்). அது மேகத்திற்கான “விளக்குகள் அணைக்கும்” டைமர்."
- "உருவாக்கு. ஒரு நிமிடம் அல்லது இரண்டு காத்திருங்கள்; நீங்கள் பச்சை நிற “இயங்குகிறது” பார்ப்பீர்கள்."
"போக் உதவிக்குறிப்பு: உங்கள் கிளஸ்டருக்கு வெளிப்படையான பெயரை வைக்கவும் (“dev-pogue-15min-autoterm”). எதிர்காலத்தில் நீங்கள் உங்களுக்கு நன்றி சொல்வீர்கள்."
"படி 3: ஒரு நோட்புக்கைத் திறக்கவும் (“உங்கள் வேலை மேடை”)"
- "பணி இடம் → புதியது → நோட்புக்."
- "ஒரு மொழியைத் தேர்வு செய்யவும். பைதான் ஒரு வசதியான தொடக்கப் புள்ளி; நீங்கள் இன்னும் மேஜிக் கட்டளைகளுடன் SQL ஐ இயக்கலாம்."
- "இயங்கும் கிளஸ்டருடன் நோட்புக்கை இணைக்கவும் (மேலே உள்ள கீழ்தோன்றும்)."
"உங்கள் முதல் கலத்தை முயற்சிக்கவும்:"
"print("வணக்கம், டேட்டாபிரிக்ஸ்!")"
"பின்னர் ஒரு ஸ்பார்க் டீஸரை முயற்சிக்கவும்:"
"spark.range(5).show"
"வாழ்த்துக்கள், நீங்கள் ஐந்து வரை எண்ண ஒரு விநியோக கணினி இயந்திரத்தை தொடங்கினீர்கள். நீங்கள் அதிகாரப்பூர்வமாக ஒரு தரவு வழிகாட்டி."
"படி 4: தரவை உள்ளே கொண்டு வாருங்கள் (“பொருள் அலமாரி”)
\nநீங்கள் கோப்புகளை இறக்குமதி செய்யலாம், பொருள் சேமிப்பகத்துடன் இணைக்கலாம் அல்லது ஏற்கனவே இருக்கும் அட்டவணைகளுக்கு கேள்வி எழுப்பலாம்."- "பக்கப் பட்டியில் உள்ள தரவைக் கிளிக் செய்க. நீங்கள் பட்டியல்கள் மற்றும் ஸ்கீமாக்களை (அட்டவணைகளுக்கான கோப்புறைகள்) பார்ப்பீர்கள், மேலும் தரவைச் சேர்க்க விருப்பங்கள் இருக்கும்."
- "உங்களிடம் CSV இருந்தால், விரைவான சோதனைக்கு பதிவேற்றவும். டேட்டாபிரிக்ஸ் ஸ்கீமாவை ஊகிக்க முடியும்."
"கிளவுட் சேமிப்பகத்தில் CSV ஐப் படிக்க பைத்தானைப் பயன்படுத்துதல்:"
"df = spark.read.option("header", True).csv("/mnt/my-bucket/sales.csv")\ndf.printSchema
""df.limit(10).display"
"அந்த காட்சி செயல்பாடு டேட்டாபிரிக்ஸ் மேஜிக்: எளிதான வரிசைப்படுத்துதல், வடிகட்டுதல் மற்றும் ஒரு நொடியில் வரைபடமாக்குதல்."
"படி 5: உங்கள் முடிவுகளை டெல்டா அட்டவணைகளாகச் சேமிக்கவும் (ஏன் டெல்டா?)
\nடெல்டா அட்டவணைகள் சூப்பர் பவர்ஸ் கொண்ட விரிதாள்கள் போன்றவை: அவை பரிவர்த்தனை உத்தரவாதங்களை (“ACID”) வைத்திருக்கின்றன, பதிப்புகளைக் கண்காணிக்கின்றன, மேலும் புதுப்பிப்புகள்/செருகல்கள்/இணைப்புகளைச் சரியாகச் செய்கின்றன.""df.write.mode("overwrite").format("delta").saveAsTable("analytics.sales_clean")"
"இப்போது நீங்கள் SQL உடன் கேள்வி எழுப்பலாம்:"
"-- உங்கள் கலத்தை %%sql உடன் SQL க்கு மாற்றவும்\n%%sql\nSELECT product, SUM(amount) AS total\nFROM analytics.sales_clean\nGROUP BY product\nORDER BY total DESC
""தணிக்கை-நட்பு, பதிவேற்றப்பட்ட தரவு வேண்டுமா? நீங்கள் நேரப் பயணம் செய்யலாம்:"
"%%sql\nSELECT * FROM analytics.sales_clean VERSION AS OF 2
""படி 6: SQL கிடங்குகளுடன் நண்பர்களாக்குங்கள் (BI நபர்களுக்காக)
\nநீங்கள் பெரும்பாலும் டாஷ்போர்டுகள் மற்றும் வணிக கேள்விகளைச் செய்கிறீர்கள் என்றால், ஒரு SQL கிடங்கை இயக்கவும் (கணினி → SQL கிடங்குகள்). இது SQL க்காக ட்யூன் செய்யப்பட்ட இலகுரக இயந்திரம் போன்றது."- "உங்கள் BI கருவியை இணைக்கவும் (Power BI, Tableau, அல்லது டேட்டாபிரிக்ஸ் SQL டாஷ்போர்டு)."
- "ஒரு டாஷ்போர்டை உருவாக்கவும்: காட்சிப்படுத்தல்கள், வடிப்பான்கள், புதுப்பிப்பு அட்டவணைகள்."
"படி 7: டெல்டா லைவ் டேபிள்களுடன் குழாய்கள் (“கைமுறை” இலிருந்து “தானியங்கி”)
\nஉங்களிடம் மீண்டும் மீண்டும் செய்யக்கூடிய மாற்றங்கள் இருந்தால் - “மூல விற்பனையை சுத்தம் செய்யுங்கள், தயாரிப்பு மெட்டாடேட்டாவைச் சேர்க்கவும், வாரத்திற்கு ஒருங்கிணைக்கவும்” - டெல்டா லைவ் டேபிள்கள் (DLT) அதை காசோலைகள் மற்றும் வம்சாவளியுடன் நிர்வகிக்கப்படும் குழாயாக மாற்றுகிறது.""ஒரு சிறிய SQL DLT எடுத்துக்காட்டு:"
"CREATE OR REFRESH LIVE TABLE sales_clean AS\nSELECT * FROM cloud_files('/mnt/data/sales_raw', 'csv');
""CREATE OR REFRESH LIVE TABLE weekly_sales AS\nSELECT product, weekofyear(date) AS week,\nSUM(amount) AS weekly_total\nFROM LIVE.sales_clean\nGROUP BY product, week;
"- "DLT கண்காணிப்பு, மறுமுயற்சிகள் மற்றும் தரவு தர விதிகளைக் கையாளுகிறது."
- "எதிர்பார்ப்புகளைச் சேர்க்கவும் (“அளவு >= 0” போன்றவை) மோசமான தரவு அமைதியாக உங்கள் காலாண்டுக்கு நாசவேலை செய்வதற்குப் பதிலாக சத்தமாகத் தோல்வியடையும்."
"படி 8: அதை வேலைகளுடன் திட்டமிடுங்கள் (ஏனென்றால் உங்களுக்கு தூக்கம் பிடிக்கும்)"
- "வேலைகள் → வேலை உருவாக்கவும்."
- "உங்கள் நோட்புக்கைத் தேர்ந்தெடுக்கவும், ஒரு அட்டவணையை அமைக்கவும் (எ.கா., தினமும் காலை 2 மணி), ஒரு சிறிய வேலை கிளஸ்டரைத் தேர்வு செய்யவும்."
- "தோல்விகளுக்கு மின்னஞ்சல் அல்லது ஸ்லாக் எச்சரிக்கைகளைச் சேர்க்கவும்."
"போனஸ்: அளவுரு நோட்புக்குகள் எனவே ஒரே குறியீடு வெவ்வேறு உள்ளீடுகளுடன் டெவ்/சோதனை/தயாரிப்புக்கு இயங்குகிறது."
"படி 9: கண்ணீர் இல்லாமல் அனுமதிகள் மற்றும் நிர்வாகம்
\nதரவு அணுகல் கட்டுப்பாடு முக்கியமானது. சரியான வாசகர்கள், எழுத்தாளர்கள் மற்றும் உரிமையாளர்கள் இருப்பதை உறுதி செய்ய உள்ளமைக்கப்பட்ட பட்டியல் அனுமதிகளைப் பயன்படுத்தவும். உங்கள் நிறுவனம் ஒரு மையப்படுத்தப்பட்ட மெட்டாஸ்டோரைப் பயன்படுத்தினால், நீங்கள் யுனிட்டி பட்டியலை சந்திப்பீர்கள்: இது catalog.schema.table போன்ற பெயர்களை தரப்படுத்துகிறது மற்றும் உங்களுக்கு சிறந்த தணிக்கைகள் மற்றும் சிறந்த கட்டுப்பாடுகளை வழங்குகிறது.""போக் உதவிக்குறிப்பு: எளிமையாகத் தொடங்கவும் - பகுப்பாய்விற்கான ஒரு பட்டியல், சாண்ட்பாக்ஸிற்கான ஒன்று - மேலும் விஷயங்களை தெளிவாக பெயரிடவும். எதிர்கால ஆய்வாளர்கள் உங்களுக்கு காபி வாங்கிக் கொடுப்பார்கள்."
"படி 10: செலவுக் கட்டுப்பாடு (“எதிர்பாராத கட்டணம் பெறாத” பிரிவு)"
- "ஆராயும் போது சிறிய நிகழ்வுகளுக்கு இயல்புநிலையாக வைக்கவும்."
- "டெவ் கிளஸ்டர்களில் எப்போதும் தானியங்கு நிறுத்தலை இயக்கவும்."
- "திட்டமிடப்பட்ட பணிகளுக்கு வேலை கிளஸ்டர்களை விரும்பவும் (துவக்க, இயக்கு, மூட)."
- "சாமர்த்தியமாக தற்காலிகமாக சேமிக்கவும்: நீங்கள் மீண்டும் பயன்படுத்த வேண்டிய அவசியமில்லாமல் பெரிய டேட்டாபிரேம்களை நிலைநிறுத்த வேண்டாம்."
- "UI இன் செலவு அளவீடுகளைக் கண்காணித்து, உங்கள் கிளவுட் வழங்குநரில் பட்ஜெட்டுகள்/எச்சரிக்கைகளை அமைக்கவும்."
"ஒரு நாள் வாழ்க்கை: ஒரு விரைவான டெமோ
\nஉங்கள் முதலாளி கேட்டால்: “இந்த காலாண்டில் எந்த தயாரிப்பு வரி வேகமாக வளர்ந்தது?” இங்கே டேட்டாபிரிக்ஸ் ஓட்டம் உள்ளது:"- "ஒரு நோட்புக்கை உருவாக்கி, ஒரு டெவ் கிளஸ்டரை இணைக்கவும்."
- "விற்பனை மற்றும் தயாரிப்பு மெட்டாடேட்டாவை உட்கொள்ளவும் (கிளவுட் சேமிப்பகத்தில் CSV)."
- "சுத்தம்: ஸ்கீமாக்களைச் செயல்படுத்தவும், பூஜ்யங்களைக் கைவிடவும், தேதி வடிவங்களை சரிசெய்யவும்."
- "சுத்தமான தரவை டெல்டாவுக்கு எழுதுங்கள்."
- "காலாண்டுக்கு காலாண்டு வளர்ச்சியை கணக்கிட SQL."
- "நோட்புக்கில் காட்சிப்படுத்தவும்; பின்னர் முதலாளிக்கு ஒரு டாஷ்போர்டை வெளியிடவும்."
- "ஒவ்வொரு காலையிலும் புதுப்பிக்க ஒரு வேலையில் நோட்புக்கை சுற்றவும்."
"சரிசெய்தல் கார்னர் (ஏனென்றால் அது நடக்கும்)"
- "கிளஸ்டர் தொடங்காது: உங்கள் ஒதுக்கீடு/நிகழ்வு வகையைச் சரிபார்க்கவும்; சிறிய VM ஐ முயற்சிக்கவும்; அனுமதிகளை உறுதிப்படுத்தவும்."
- "தரவு படிக்காது: பாதை மற்றும் சான்றுகளை சரிபார்க்கவும்; ஒரு சிறிய மாதிரியை முயற்சிக்கவும்; ஊகிக்கப்பட்ட ஸ்கீமாவை ஆய்வு செய்யவும்."
- "வேலை தொடர்ந்து தோல்வியடைகிறது: பதிவு செய்தலைச் சேர்க்கவும் (அச்சிடு அறிக்கைகள், காட்சி), குறைந்த இணைத்தன்மை மற்றும் உள்ளீடுகளை சரிபார்க்கவும்."
- "முடிவுகள் “ஆஃப்” ஆகத் தெரிகின்றன: நேர மண்டலங்கள்! அவை கள்ளத்தனமானவை. நேர முத்திரைகளை நடிக்கவும், இயல்புநிலை நேர மண்டலத்தை அமைக்கவும் மற்றும் அனுமானங்களை ஆவணப்படுத்தவும்."
"ஒத்துழைப்பு: ஒரு இசைக்குழுவைப் போல வேலை செய்யுங்கள், ஒரு தனி நடிப்பாக அல்ல"
- "கிட் உடன் நோட்புக்குகளை ஒத்திசைக்க ரெப்போக்களைப் பயன்படுத்தவும். சீக்கிரமே கமிட் செய்யுங்கள், அடிக்கடி கமிட் செய்யுங்கள்."
- "நோட்புக் செல்களில் சரியாக கருத்து தெரிவிக்கவும். அறிவுறுத்தல்களுடன் மேலே ஒரு “முதலில் என்னைப் படிக்கவும்” கலத்தை வைக்கவும்."
- "சிறிய, தொகுக்கக்கூடிய நோட்புக்குகளை உருவாக்கவும் (உட்கொள்ளவும், மாற்றவும், பகுப்பாய்வு செய்யவும்), இதனால் அணியினர் spelunking இல்லாமல் குதிக்க முடியும்."
"பைதான்? SQL? இரண்டும்.
\nநீங்கள் ஒரு நோட்புக்கில் மொழிகளைக் கலக்கலாம். உதாரணமாக, SQL இல் உங்கள் தர்க்கத்தை முன்மாதிரியாகக் காட்டுங்கள் (வேகமான மறு செய்கை), பின்னர் சிறப்பு நூலகங்களுக்கு பைத்தானுக்கு மாறவும் (முன்கணிப்பு, NLP). UDF களை குறைவாகப் பயன்படுத்தவும் - சொந்த ஸ்பார்க் செயல்பாடுகள் வேகமானவை மற்றும் அளவிட நட்பு.""செயல்திறன்: மூன்று நெம்புகோல்கள்"
- "பிரிவினைகள்: வைக்கோல் போரைத் தவிர்க்கவும், ஊசிகளை மட்டும் படிக்கவும். அடிக்கடி வடிகட்டப்பட்ட நெடுவரிசைகளால் டெல்டா அட்டவணைகளைப் பிரிக்கவும் (தேதி, பிராந்தியம்)."
- "கோப்பு அளவுகள்: சிறிய கோப்புகள் மினுமினுப்பைப் போன்றவை - எல்லா இடங்களிலும் எரிச்சலூட்டும். குவியல், திறமையான கோப்புகளாக சிறிய கோப்புகளை ஒன்றிணைக்க உகந்த எழுத்துக்கள்/தானாக உகந்ததாகப் பயன்படுத்துங்கள்."
- "தற்காலிக சேமிப்பு மற்றும் ஒளிபரப்பு இணைப்புகள்: மீண்டும் பயன்படுத்தப்பட்ட டேட்டாபிரேம்களை தற்காலிகமாக சேமிக்கவும்; பெரிய இணைப்புகளில் சிறிய அட்டவணையை ஒளிபரப்பவும், கலக்குவதைத் தவிர்க்கவும்."
"இரண்டாவது நாளில் நீங்கள் விரும்பும் பாதுகாப்பு அடிப்படைகள்"
- "நிர்வகிக்கப்படும் ரகசிய நோக்கத்தில் ரகசியங்களைச் சேமிக்கவும்; விசைகளை ஒருபோதும் கடினமாக குறியிட வேண்டாம்."
- "குறைந்த-சலுகை மானியங்களுடன் உற்பத்தி அட்டவணைகளைப் பூட்டவும்."
- "யார் எப்போது என்ன மாற்றினார்கள் என்பதைப் பார்க்க தணிக்கை பதிவுகளைப் பயன்படுத்தவும்."
"டிங்கரிங் செய்வதிலிருந்து உற்பத்திக்கு: ஒரு யதார்த்தமான பாதை"
- "வாரம் 1: நோட்புக்குகள் மற்றும் ஒரு சிறிய கிளஸ்டருடன் ஆராயுங்கள். முதல் டெல்டா அட்டவணைகளைச் சேமிக்கவும். வெற்றிகளைப் பகிரவும்."
- "வாரம் 2: உங்கள் தொடர்ச்சியான மாற்றங்களுக்கான DLT குழாயை உருவாக்கவும். தரவு தர சோதனைகளைச் சேர்க்கவும்."
- "வாரம் 3: நோட்புக்குகளை வேலைகளாகச் சுற்றவும், எச்சரிக்கைகளைச் சேர்க்கவும் மற்றும் டாஷ்போர்டுகளை SQL கிடங்குடன் இணைக்கவும்."
- "வாரம் 4: ரகசியங்களை ஒரு பெட்டகத்திற்கு நகர்த்தவும், அனுமதிகளை ஒழுங்குபடுத்தவும், பெயரிடும் மரபுகளை அமைக்கவும், எல்லாவற்றையும் ஆவணப்படுத்தவும்."
"பொதுவான கட்டுக்கதைகள், மெதுவாகக் குறைக்கப்படுகின்றன"
- "“டேட்டாபிரிக்ஸ் ஸ்பார்க் நிபுணர்களுக்கு மட்டுமே.” இனி இல்லை. SQL கிடங்குகள் மற்றும் UI உதவியாளர்கள் ஸ்காலாவின் ஒரு வரியை எழுதாமல் ஆய்வாளர்கள் செழிக்க முடியும்."
- "“இது விலை உயர்ந்ததாக இருக்கும்.” நீங்கள் வார இறுதி முழுவதும் ஸ்டேடியம் விளக்குகளை இயக்கினால் அது இருக்கலாம். தானியங்கி நிறுத்தம் மற்றும் சிறிய வேலை கிளஸ்டர்களுடன், நீங்கள் செலவுகளை நாகரீகமாக வைத்திருக்க முடியும்."
- "“பதிப்பு என்பது ஒரு தலைவலி.” டெல்டாவின் நேர பயணம் மற்றும் அட்டவணை வரலாறு ரோல்பேக் மற்றும் தணிக்கைகளை புத்துணர்ச்சியுடன் உலகியல் ஆக்குகிறது."
"உதவியாக இருக்கும் உதவியாளர்கள் பற்றிய ஒரு விரைவான வார்த்தை
\nநீங்களே கொதிகலன் ஸ்பார்க் குறியீட்டை எழுதுவதில் சிக்கித் தவித்தாலோ, உங்கள் சொந்த நோட்புக்கை உங்களுக்கு நீங்களே விளக்கிக் கொண்டிருந்தாலோ… அல்லது கரடுமுரடான முடிவை ஒழுங்கான சுருக்கமாக மாற்றிக் கொண்டிருந்தாலோ, ஒரு புத்திசாலியான கோபிலோட் மணிநேரங்களைச் சேமிக்க முடியும். Sider.AI போன்ற கருவிகள் உங்கள் உலாவியில் ஒரு நட்பு அரட்டை பெட்டியாக அமரலாம், ஒரு தொடக்க PySpark கலத்தை உருவாக்க உங்களுக்கு உதவலாம், ஒரு மோசமான இணைப்பை மறுசீரமைக்கலாம் அல்லது உங்கள் நோட்புக்கின் வெளியீட்டை உங்கள் முதலாளிக்கான படிக்கக்கூடிய சுருக்கமாக மாற்றலாம். இங்கே தந்திரம்: குறிப்பிட்ட, தரைமட்டமான கேள்விகளைக் கேளுங்கள் (“இந்த ஸ்கீமாவுக்கான அப்சர்ட் லாஜிக் மூலம் டெல்டா அட்டவணையில் PySpark ஒன்றிணைப்பை எழுதுங்கள்…”) மற்றும் உங்கள் ஸ்கீமாவின் சிறிய, பிரதிநிதித்துவ மாதிரியை ஒட்டவும், இதனால் பரிந்துரை சரியாக இருக்கும். எல்லாவற்றையும் யூகிக்க நீங்கள் முயற்சித்தால், நீங்கள் இருவரும் தோள்களைக் குலுக்கிக் கொள்வீர்கள்.""உங்கள் முதல் வாரம்: ஒரு சிறிய நாடகம்
\n1 ஆம் நாள்: ஒரு பணி இட உள்நுழைவை உருவாக்கவும். தானியங்கி நிறுத்தத்துடன் ஒரு சிறிய டெவ் கிளஸ்டரைத் தொடங்கவும்.\n2 ஆம் நாள்: ஒரு சிறிய CSV ஐ இறக்குமதி செய்யவும். காட்சிப்படுத்தலுடன் ஆராயுங்கள். ஒரு டெல்டா அட்டவணையைச் சேமிக்கவும்.\n3 ஆம் நாள்: ஒரு எளிய நோட்புக் குழாயை உருவாக்கவும்: மூல → சுத்தம் → ஒருங்கிணைப்பு. கருத்துகளைச் சேர்க்கவும்.\n4 ஆம் நாள்: முடிவுகளை சரிபார்க்க SQL க்கு மாறவும். ஒரு சிறிய டாஷ்போர்டை உருவாக்கவும்.\n5 ஆம் நாள்: தினமும் புதுப்பிக்க ஒரு வேலையை உருவாக்கவும். கிளஸ்டரை அணைத்து, சரியான நேரத்தில் வீட்டிற்குச் செல்லுங்கள்.""சீட் தாள்: நீங்கள் உண்மையில் பயன்படுத்தும் கட்டளைகள்"
- "CSV/Parquet ஐப் படியுங்கள்: spark.read.option("header", True).csv(path) / spark.read.parquet(path)"
- "டெல்டா அட்டவணையை எழுதுங்கள்: df.write.format("delta").mode("append").saveAsTable("catalog.schema.table")"
- "SQL செல்: %%sql அதைத் தொடர்ந்து உங்கள் கேள்வி"
- "SQL இல் ஒன்றிணைத்தல் (அப்சர்ட்) முறை:"
"MERGE INTO target t\nUSING source s\nON t.id = s.id\nWHEN MATCHED THEN UPDATE SET *\nWHEN NOT MATCHED THEN INSERT *;
"- "பைத்தானில் ஆட்டோலோடர் (கூடுதல் உட்கொள்ளல்):"
"df = (spark.readStream\n.format("cloudFiles")\n.option("cloudFiles.format", "json")\n.load("/mnt/raw/events"))
""df.writeStream.format("delta").option("checkpointLocation","/mnt/chk").start("/mnt/delta/events")"
"நோட்புக்குகளிலிருந்து குழாய்களுக்கு எப்போது மாற வேண்டும்"
- "நீங்கள் ஒவ்வொரு நாளும் அதே நோட்புக்கை இயக்கினால், அதை ஒரு வேலையில் நகர்த்தவும்."
- "நீங்கள் மூன்று அல்லது அதற்கு மேற்பட்ட நோட்புக்குகளை சங்கிலி செய்தால், DLT ஐக் கவனியுங்கள் - இது சார்புகளை எளிதாக்குகிறது மற்றும் தரவு தர விதிகளைச் சேர்க்கிறது."
- "பல குழுக்கள் வெளியீடுகளைச் சார்ந்திருந்தால், தெளிவான SLA களுடன் நிர்வகிக்கப்படும் பட்டியலுக்கு பதவி உயர்வு செய்யவும்."
"இறுதியாக ஒன்று (போக்கின் தரவு ஈர்ப்பு விதி)
\nதரவுக்கு ஈர்ப்பு உள்ளது. நகர்த்துவதற்கு இது கனமானது மற்றும் சுற்றி வீசுவதற்கு விலை உயர்ந்தது. நீங்கள் கணினியை தரவுக்குக் கொண்டு வரும்போது, உங்கள் அட்டவணைகளை ஒழுங்காக (டெல்டா) வைத்துக்கொண்டு, சலிப்பான பிட்களை தானியக்கமாக்கும்போது டேட்டாபிரிக்ஸ் சிறப்பாக செயல்படுகிறது. சிறியதாகத் தொடங்கி, எல்லாவற்றையும் லேபிளிடுங்கள், உங்கள் கிளவுட் பில் அதைப் பொறுத்தது போல தானியங்கி நிறுத்த டைமர்களை அமைக்கவும் - ஏனெனில் அது செய்கிறது.""முக்கியமான விஷயங்கள்"
- "ஒரு சிறிய கிளஸ்டர் மற்றும் தானியங்கி நிறுத்தத்துடன் தொடங்கவும்."
- "ஆராய்வதற்கு நோட்புக்குகளைப் பயன்படுத்தவும்; சுத்தமான முடிவுகளை டெல்டா அட்டவணைகளாகச் சேமிக்கவும்."
- "மீண்டும் மீண்டும் செய்யக்கூடிய மாற்றங்களுக்கு, DLT ஐப் பயன்படுத்தி வேலைகளுடன் திட்டமிடவும்."
- "SQL கிடங்குகள் மற்றும் டாஷ்போர்டுகள் மூலம் நுண்ணறிவுகளைப் பகிரவும்."
- "அனுமதிகள் மற்றும் ரகசியங்களைப் பூட்டவும்; நீங்கள் செல்லும்போதே ஆவணப்படுத்தவும்."
- "உங்களுக்கு ஒரு தூண்டுதல் தேவைப்படும்போது ஒரு கோபிலோட்டைப் பயன்படுத்துங்கள் - ஆனால் உங்கள் தூண்டுதல்களைக் குறிப்பாக வைத்திருங்கள்."
"ஸ்பார்க்.ரேஞ்ச்(5).காட்டுடன் ஐந்தை எண்ண முடிந்தால், டேட்டாபிரிக்ஸில் பயனுள்ள ஒன்றை நீங்கள் உருவாக்க முடியும். மற்றும் 2 மணிக்கு உங்களை அழைக்காமல் உங்கள் இரவுநேர வேலை இயங்கினால், நீங்கள் “நாகரீகமாக நடந்து கொள்ளும் தரவு” என்று அறியப்படும் அந்த அரிதான மற்றும் அழகான நிலப்பரப்புக்குள் நுழைந்திருக்கிறீர்கள் என்பதை நீங்கள் அறிவீர்கள்."
"கேள்வி பதில்கள்"
"கே 1: டேட்டாபிரிக்ஸை ஒரு தொடக்கக்காரராகப் பயன்படுத்தத் தொடங்குவதற்கான விரைவான வழி என்ன?
\nசிறிய, தானாகவே நிறுத்தப்படும் கிளஸ்டரை உருவாக்கி, ஆராய்வதற்கு ஒரு சிறிய CSV ஐ காட்சியில் ஏற்ற நோட்புக்கைத் திறக்கவும். உங்கள் சுத்தமான முடிவுகளை டெல்டா அட்டவணையாகச் சேமித்து, ஒரு எளிய SQL வினவலை முயற்சிக்கவும் - இது மேம்பட்ட அம்சங்களில் தொலைந்து போகாமல் முதல் நாளிலேயே உண்மையான வெற்றிகளை உங்களுக்குப் பெற்றுத் தருகிறது.""கே 2: எனது குழாய்க்கு நோட்புக்குகளையா அல்லது டெல்டா லைவ் டேபிள்களையா பயன்படுத்த வேண்டும்?
\nநீங்கள் விஷயங்களைக் கண்டுபிடிக்கும்போது நோட்புக்குகளுடன் தொடங்கவும்; அவை ஆய்வு மற்றும் விரைவான வெற்றிகளுக்கு சரியானவை. உங்கள் தர்க்கம் உறுதிப்படுத்தப்பட்டு, நம்பகத்தன்மையுடன் இயக்கப்பட வேண்டும் எனில், நிர்வகிக்கப்படும் சார்புகள், தரவு தர சோதனைகள் மற்றும் எளிதான கண்காணிப்புக்காக டெல்டா லைவ் டேபிள்களுக்கு மாறவும்.""கே 3: டேட்டாபிரிக்ஸ் செலவுகளை நான் எவ்வாறு கட்டுக்குள் வைத்திருப்பது?
\nடெவிற்காக சிறிய நிகழ்வுகளைப் பயன்படுத்தவும், தானாகவே நிறுத்தலை இயக்கவும், திட்டமிடப்பட்ட ரன்களுக்கு வேலை கிளஸ்டர்களை விரும்பவும். தேவையற்றதாக இருந்தால், பெரிய டேட்டாபிரேம்களை நிலைநிறுத்துவதைத் தவிர்க்கவும், மேலும் செலவு அளவீடுகள் மற்றும் கிளவுட் பட்ஜெட்டுகளில் ஒரு கண் வைத்திருங்கள், இதனால் எதுவும் வார இறுதி முழுவதும் இயங்காது.""கே 4: நிரல் குறியீடு எழுதாதவர்கள் டேட்டாபிரிக்ஸை திறம்படப் பயன்படுத்த முடியுமா?
\nஆம் - SQL கிடங்குகள் மற்றும் டாஷ்போர்டுகள் டேட்டாபிரிக்ஸை ஆய்வாளர்களுக்கு நட்பாக ஆக்குகின்றன. நீங்கள் எளிய SQL ஐ எழுதலாம், முடிவுகளைக் காட்சிப்படுத்தலாம், மேலும் PySpark ஐத் தொடாமல் நுண்ணறிவுகளைப் பகிரலாம், பின்னர் உங்களுக்கு அதிக எடை மாற்றங்கள் தேவைப்படும்போது மட்டுமே பொறியாளர்களை உள்ளே கொண்டு வரவும்.""கே 5: தரவை டெல்டா அட்டவணைகளாகச் சேமிப்பதன் நன்மை என்ன?
\nடெல்டா அட்டவணைகள் உங்களுக்கு ACID பரிவர்த்தனைகள், பதிப்பு வரலாறு (நேர பயணம்) மற்றும் சிறந்த செயல்திறன் ஆகியவற்றை வழங்குகின்றன. இதன் பொருள் பாதுகாப்பான புதுப்பிப்புகள், ஏதாவது தவறு நடந்தால் எளிதான ரோல்பாக்குகள் மற்றும் அதே தரவுக்கான வேகமான வினவல்கள்."