क्या Apache Iceberg डेटा लेक का भविष्य है? एक गहन ICEBERG समीक्षा
यदि आपका डेटा लेक डेटा के दलदल जैसा महसूस होता है—धीमी क्वेरी, अस्त-व्यस्त स्कीमा विकास, असंगत विभाजन—तो आप अकेले नहीं हैं। पिछले कुछ वर्षों में, एक तकनीक चुपचाप विश्वसनीय, उच्च-स्तरीय एनालिटिक्स की रीढ़ बन गई है: Apache Iceberg। इस ICEBERG समीक्षा में, हम यह जानेंगे कि यह विरासत तालिका प्रारूपों से अलग कैसे है, इसे किसे अपनाना चाहिए, और यह वास्तविक दुनिया की पाइपलाइनों में कैसा प्रदर्शन करता है।
यह Iceberg पर जाने का मूल्यांकन करने वाली टीमों के लिए व्यावहारिक, समाधान-उन्मुख गहन जानकारी है जिसमें हाथों के अनुभव, ट्रेड-ऑफ और खरीदार-शैली मार्गदर्शन शामिल हैं।
Apache Iceberg क्या है—और अब क्यों?
Apache Iceberg एक उच्च-प्रदर्शन तालिका प्रारूप है जिसे विशाल विश्लेषणात्मक डेटासेट के लिए डिज़ाइन किया गया है। यह SQL तालिकाओं की विश्वसनीयता और सादगी को डेटा लेक की विस्तृत, स्कीमा-तरल दुनिया में लाता है। संक्षेप में: Iceberg आपके ऑब्जेक्ट स्टोरेज (S3, ADLS, GCS, HDFS) को ACID-अनुपालक तालिकाओं में बदल देता है, जिन्हें आप सुरक्षित रूप से उत्परिवर्तित, क्वेरी और स्केल पर नियंत्रित कर सकते हैं। कई स्रोत इसे स्कीमा विकास, विभाजन विनिर्देश परिवर्तन, स्नैपशॉटिंग और मल्टी-इंजन इंटरऑपरेबिलिटी जैसी सुविधाओं के साथ बड़े एनालिटिक्स के लिए उद्देश्य-निर्मित बताते हैं।
अब क्यों? क्योंकि डेटा इंजीनियरिंग टीमों को आवश्यकता है:
- क्लाउड ऑब्जेक्ट स्टोरेज में विश्वसनीय ACID संचालन।
- Spark, Flink, Trino/Presto, Snowflake, और अन्य से उपयोग योग्य इंजन-अज्ञेयवादी तालिकाएँ।
- स्मार्ट मेटाडेटा, मैनिफेस्ट सूचियों और छिपे हुए विभाजन के माध्यम से तेज़, सस्ती क्वेरी।
- सब कुछ फिर से लिखे बिना स्कीमा और विभाजनों का सुरक्षित विकास।
निष्कर्ष
- आधुनिक एनालिटिक्स प्लेटफार्मों के लिए, Apache Iceberg मजबूत ACID गारंटी के साथ इंजन और क्लाउड में तालिकाओं को मानकीकृत करने के लिए एक अग्रणी विकल्प है।
- यह विरासत DIY विभाजन और सादे Parquet लेआउट से विश्वसनीयता और प्रबंधनीयता में बेहतर प्रदर्शन करता है।
- जबकि माइग्रेशन और गवर्नेंस प्लानिंग गैर-तुच्छ हैं, Iceberg का स्नैपशॉट आइसोलेशन, मेटाडेटा लेआउट और इंजन इंटीग्रेशन इसे अधिकांश डेटा टीमों के लिए एक दीर्घकालिक जीत बनाते हैं।
Iceberg एक नज़र में: मुख्य क्षमताएँ
- ऑब्जेक्ट स्टोरेज पर ACID लेनदेन
- स्नैपशॉट आइसोलेशन और टाइम-ट्रैवल रीड
- छिपा हुआ विभाजन (उपयोगकर्ताओं को विभाजन कॉलम लीक नहीं करना)
- लचीला स्कीमा विकास (ID-आधारित कॉलम के साथ जोड़ें, नाम बदलें, पुन: व्यवस्थित करें)
- इतिहास को फिर से लिखे बिना विभाजन विनिर्देशों का विकास
- मल्टी-इंजन इंटरऑपरेबिलिटी (Spark, Flink, Trino/Presto, और अन्य)
- बड़े पैमाने पर प्रदर्शन के लिए मेटाडेटा-संचालित योजना
ये केवल मार्केटिंग दावे नहीं हैं; Iceberg का आर्किटेक्चर—तालिकाएँ, स्नैपशॉट, मैनिफेस्ट, मैनिफेस्ट सूचियाँ और मेटाडेटा फ़ाइलें—व्यवस्थित रूप से फ़ाइल-सूचीकरण ओवरहेड को कम करता है और पेटबाइट पैमाने पर योजना को अत्यधिक कुशल बनाता है।
यह ICEBERG समीक्षा किसके लिए है
- मल्टी-इंजन लेकहाउस को डिज़ाइन करने वाले डेटा इंजीनियरिंग लीडर।
- एकल तालिका प्रारूप पर Spark/Trino/Flink को समेकित करने वाली प्लेटफ़ॉर्म टीम।
- Hive-शैली विभाजन या तदर्थ Parquet के साथ सीमाओं को छूने वाले एनालिटिक्स संगठन।
- समय यात्रा, रोलबैक या पुनरुत्पादनीय प्रयोगों की आवश्यकता वाली टीमें।
बड़ी समस्याएं Iceberg हल करता है
1) ऑब्जेक्ट स्टोरेज पर उत्परिवर्तन सुरक्षा
विरासत डेटा लेक समवर्ती लेखन और आंशिक विफलताओं के साथ संघर्ष करते हैं। Iceberg बड़े पैमाने पर भी लेन-देन स्थिरता सुनिश्चित करने के लिए परमाणु प्रतिबद्धता शब्दार्थ—स्नैपशॉट मैनिफेस्ट के माध्यम से—का उपयोग करता है। आप S3 लिस्टिंग की निगरानी करने के बजाय आत्मविश्वास के साथ लिख सकते हैं, संपीड़ित कर सकते हैं और अपडेट कर सकते हैं।
2) बुरे सपने के बिना स्कीमा विकास
Iceberg स्कीमा विकास के लिए केवल नामों का नहीं, बल्कि स्थिर कॉलम ID का उपयोग करता है। इसका मतलब है कि आप पुराने डेटा को दूषित किए बिना कॉलम का नाम बदल सकते हैं या पुन: व्यवस्थित कर सकते हैं। यह लंबे समय तक चलने वाले डेटासेट के लिए एक शांत महाशक्ति है जहां स्कीमा बहाव अपरिहार्य है।
3) विभाजन जो लीक नहीं होता है
छिपे हुए विभाजन का मतलब है कि उपयोगकर्ताओं को यह जानने या परवाह करने की आवश्यकता नहीं है कि डेटा कैसे विभाजित है। आप समय के साथ विभाजन विनिर्देशों को विकसित कर सकते हैं (उदाहरण के लिए, दिन → घंटा) जबकि क्वेरी सुसंगत रहती हैं। विभाजन कॉलम के कारण अब कोई टूटा हुआ SQL नहीं।
4) स्केल पर कुशल योजना
मैनिफेस्ट फ़ाइलों और मेटाडेटा ट्री के साथ, Iceberg महंगी फ़ाइल-सूचीकरण संचालन से बचता है जो पेटबाइट पैमाने पर क्वेरी प्लानर को क्रश करते हैं। इंजन पहले कॉम्पैक्ट मेटाडेटा पढ़ते हैं, लाखों फ़ाइल पथ नहीं।
वास्तविक दुनिया के उपयोग के मामले
- एकीकृत एनालिटिक्स परत: क्यूरेटेड तथ्यों और आयामों को Iceberg तालिकाओं के रूप में संग्रहीत करें जिन्हें ETL के लिए Spark, तदर्थ SQL के लिए Trino और स्ट्रीमिंग अपसर्ट के लिए Flink द्वारा पढ़ा जा सकता है।
- मशीन लर्निंग फ़ीचर स्टोर: टाइम ट्रैवल पुनरुत्पादनीय प्रशिक्षण सेट को सक्षम बनाता है; स्कीमा परिवर्तन ऐतिहासिक सुविधाओं को नहीं उड़ाते हैं।
- गवर्नेंस और रोलबैक: स्नैपशॉट आपको आकस्मिक लेखन को रोल बैक करने और कम जोखिम के साथ डेटा प्रतिधारण नीतियों का समर्थन करने देते हैं।
- स्ट्रीमिंग + बैच अभिसरण: अपसर्ट और MERGE पैटर्न स्थिर हो जाते हैं, जिससे पैमाने पर CDC पाइपलाइन सक्षम हो जाती हैं।
आर्किटेक्चर: Iceberg आपकी लेक को कैसे व्यवस्थित करता है
- तालिका मेटाडेटा फ़ाइल: तालिका के बारे में "सत्य"—स्कीमा, विभाजन विनिर्देश, स्नैपशॉट।
- स्नैपशॉट: तालिका स्थिति के अपरिवर्तनीय संस्करण, समय यात्रा और रोलबैक को सक्षम करते हैं।
- मैनिफेस्ट सूचियाँ: इंडेक्स जो एक स्नैपशॉट से संबंधित मैनिफेस्ट को सूचीबद्ध करता है।
- मैनिफेस्ट: विभाजन आँकड़े और कॉलम-स्तरीय मेट्रिक्स के साथ डेटा फ़ाइलों की सूची।
- डेटा फ़ाइलें: आमतौर पर Parquet (ORC/Avro भी), ऑब्जेक्ट स्टोरेज में संग्रहीत।
यह स्तरित मेटाडेटा दृष्टिकोण त्वरित खोज और छंटाई की अनुमति देता है, जिससे बड़ी तालिकाओं के लिए योजना विलंबता कम हो जाती है।
प्रदर्शन: क्या अपेक्षा करें
- तेज़ योजना: मेटाडेटा छंटाई और मैनिफेस्ट के लिए क्वेरी योजना ओवरहेड में महत्वपूर्ण कमी।
- बेहतर छंटाई: विभाजन विकास और कॉलम आँकड़े कम I/O चलाते हैं।
- स्थिर समवर्ती: स्नैपशॉट आइसोलेशन पाठकों को आंशिक लेखन देखने से रोकता है।
- लागत नियंत्रण: कम बेकार लिस्टिंग और स्कैनिंग से गणना बिल कम हो जाते हैं।
वास्तविक परिणाम इंजन, फ़ाइल आकार, संपीड़न नीति और वर्कलोड पर निर्भर करते हैं, लेकिन Iceberg का डिज़ाइन सीधे उन दर्द बिंदुओं को लक्षित करता है जो पारंपरिक डेटा लेक में धीमी, महंगी क्वेरी का कारण बनते हैं।
डेवलपर अनुभव: दिन 1 से दिन 100
- दिन 1 सेटअप: एक Iceberg कैटलॉग (glue/hive/rest) बनाएँ, तालिकाएँ परिभाषित करें और Spark/Trino/Flink को इससे इंगित करें। अधिकांश इंजन देशी Iceberg कनेक्टर्स या परिपक्व एकीकरण शिप करते हैं।
- स्कीमा और विभाजन विकास: DDL के माध्यम से विनिर्देश बदलें; Iceberg संस्करणों को ट्रैक करता है ताकि ऐतिहासिक रीड मान्य रहें।
- संपीड़न और रखरखाव: छोटी फ़ाइलों को प्रबंधित करने के लिए आवधिक संपीड़न की योजना बनाएँ; इंजन-देशी प्रक्रियाओं या कस्टम नौकरियों का लाभ उठाएँ।
- डेटा ऑप्स स्वच्छता: स्नैपशॉट गणना, मैनिफेस्ट विकास की निगरानी करें और प्रदर्शन को तेज रखने के लिए मेटाडेटा समाप्ति करें।
Iceberg कैसे तुलना करता है
- S3 पर सादे Parquet बनाम: Iceberg ACID, सुसंगत स्नैपशॉट और अनुकूलित मेटाडेटा जोड़ता है, जिससे अस्थिर लिस्टिंग और स्कीमा बहाव समाप्त हो जाता है।
- Hive तालिकाओं बनाम: Iceberg का छिपा हुआ विभाजन और स्नैपशॉट आइसोलेशन Hive के भंगुर विभाजन कॉलम और लेन-देन सुरक्षा की कमी से बेहतर है।
- अन्य लेकहाउस प्रारूपों बनाम: Iceberg डेल्टा लेक और Apache Hudi के साथ प्रतिस्पर्धा करता है। Iceberg की ताकत मल्टी-इंजन तटस्थता, कॉलम ID-आधारित स्कीमा विकास और इंजन में व्यापक समुदाय अपनाने हैं। डेल्टा Databricks-केंद्रित स्टैक में चमकता है; Hudi स्ट्रीमिंग अपसर्ट के लिए लोकप्रिय है। इंजन वरीयता, उत्परिवर्तन पैटर्न और पारिस्थितिकी तंत्र संरेखण के आधार पर चुनें।
कमियाँ और ट्रेड-ऑफ़
- परिचालन सीखने की अवस्था: आपको संपीड़न, स्नैपशॉट प्रतिधारण और मेटाडेटा सफाई का प्रबंधन करने की आवश्यकता होगी।
- माइग्रेशन लागत: Hive या कच्चे Parquet से स्थानांतरित करने के लिए सावधानीपूर्वक योजना और कभी-कभी भारी पुनर्लेखन की आवश्यकता होती है।
- इंजन/संस्करण तिरछापन: सुविधा समर्थन इंजन और संस्करण के अनुसार भिन्न हो सकता है; परीक्षण किए गए कॉम्बो पर मानकीकृत करें।
- मेटाडेटा फैलाव: गवर्नेंस के बिना, मैनिफेस्ट और स्नैपशॉट जल्दी बढ़ सकते हैं।
बचने के लिए सामान्य विरोधी-पैटर्न
- संपीड़न को अनदेखा करना: छोटी फ़ाइलें प्रदर्शन को मार देती हैं। संपीड़न को स्वचालित करें।
- अति-बार स्नैपशॉट: समाप्ति नीतियों के साथ स्नैपशॉट गणना को नियंत्रण में रखें।
- असीमित विभाजन विकास: जानबूझकर विभाजन विनिर्देशों को बदलें; प्रदर्शन प्रभावों का ऑडिट करें।
- एक-ऑफ इंजन कॉन्फ़िगरेशन: आश्चर्यजनक व्यवहार से बचने के लिए Iceberg के लिए Spark/Trino/Flink कॉन्फ़िगरेशन को संरेखित करें।
हैंड्स-ऑन: विशिष्ट वर्कफ़्लो
एक Iceberg तालिका बनाना (Spark SQL)
{CREATE TABLE catalog.db.events (
}{event_id BIGINT,
}{user_id BIGINT,
}{ts TIMESTAMP,
}{payload STRING
}{)
USING iceberg
}{PARTITIONED BY (days(ts));
}
टाइम ट्रैवल रीड
{-- Query as of a specific snapshot timestamp
}{SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';
}
स्कीमा विकास
{ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
}{ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;
}
छोटी फ़ाइलों का अनुकूलन (Spark)
{CALL catalog.system.rewrite_data_files(
}{table => 'db.events',
}{strategy => 'binpack',
}{target_file_size => 134217728
}{);
}
उपयोगकर्ता क्या कहते हैं
सार्वजनिक सॉफ़्टवेयर निर्देशिकाएँ लगातार Apache Iceberg को एक तालिका प्रारूप के रूप में वर्णित करती हैं जो बड़े डेटा और बड़ी विश्लेषणात्मक तालिकाओं में SQL जैसी विश्वसनीयता लाता है, जो ऑब्जेक्ट स्टोरेज पर ACID संचालन और उच्च प्रदर्शन पर जोर देता है। जबकि कुछ व्यावसायिक सॉफ़्टवेयर लिस्टिंग खुले स्रोत तालिका प्रारूप से असंबंधित समान नाम वाले उत्पादों का उल्लेख कर सकती हैं, सुनिश्चित करें कि आप डेटा इंजीनियरिंग उपयोग के मामलों के लिए विशेष रूप से "Apache Iceberg" का मूल्यांकन कर रहे हैं।
आधुनिक स्टैक में Iceberg कहाँ फिट बैठता है
- भंडारण: S3, ADLS, GCS, HDFS
- इंजन: Spark (बैच/ETL/ML), Flink (स्ट्रीमिंग/CDC), Trino/Presto (तदर्थ SQL), Snowflake (बढ़ते समर्थन के साथ बाहरी तालिकाएँ), और बहुत कुछ
- ऑर्केस्ट्रेशन: Airflow, Dagster, Prefect
- कैटलॉग/मेटास्टोर: AWS Glue, Hive Metastore, REST कैटलॉग
- गवर्नेंस: LakeFS, Ranger, अंतर्निहित तालिका गुण + प्रतिधारण नीतियाँ
माइग्रेशन प्लेबुक (व्यावहारिक कदम)
- आकार, SLA और क्वेरी पैटर्न द्वारा तालिकाओं की सूची बनाएँ।
- गैर-महत्वपूर्ण, उच्च-दर्द तालिकाओं (धीमी क्वेरी, अस्थिर स्कीमा) से शुरुआत करें।
- Iceberg समकक्ष बनाएँ; मान्य स्नैपशॉट के साथ दोहरी-लिखें या बैकफ़िल करें।
- इंजन में प्रतिनिधि वर्कलोड के साथ मान्य करें।
- उपभोक्ताओं को काट लें और विरासत पथों को बंद कर दें।
- पहले दिन से संपीड़न और स्नैपशॉट समाप्ति को स्वचालित करें।
लागत और ROI विचार
- कम I/O और तेज़ योजना से गणना बचत।
- लेन-देन सुरक्षा से कम डाउनटाइम।
- तदर्थ Parquet + Hive विभाजनों के प्रबंधन बनाम कम परिचालन परिश्रम।
- डेटा को रीफ़ॉर्मेट किए बिना इंजन बदलने की लचीलापन।
ROI आमतौर पर तालिका आकार और टीम स्केल के साथ बेहतर होता है। आप जितने अधिक इंजन और पाइपलाइन चलाते हैं, Iceberg का मानकीकरण उतना ही अधिक लाभ देता है।
सुरक्षा और अनुपालन
Iceberg स्वयं तालिका प्रारूप और मेटाडेटा पर केंद्रित है; स्टोरेज-लेयर IAM, एन्क्रिप्शन और परिधि नियंत्रण के साथ एकीकृत करें। डेटा गवर्नेंस के लिए, कैटलॉग और नीति इंजन के साथ जोड़ी बनाएँ, और परिवर्तनों की जांच के लिए स्नैपशॉट/टाइम-ट्रैवल ऑडिटिंग का उपयोग करें। आवश्यकता पड़ने पर इंजन परत पर पंक्ति- या कॉलम-स्तर की सुरक्षा लागू करें।
क्या Apache Iceberg आपके लिए सही है?
Iceberg चुनें यदि आप:
- मल्टी-इंजन समर्थन के साथ ऑब्जेक्ट स्टोरेज पर ACID की आवश्यकता है।
- बार-बार स्कीमा और विभाजन परिवर्तन की अपेक्षा करें।
- विविध वर्कलोड चलाएँ (बैच + स्ट्रीमिंग + तदर्थ SQL)।
- समय यात्रा, पुनरुत्पादन क्षमता और विश्वसनीय रोलबैक चाहते हैं।
यदि आप विकल्प पर विचार करें:
- एकल विक्रेता पर पूरी तरह से निर्भर हैं जो पहले से ही एक प्रबंधित लेकहाउस प्रारूप प्रदान करता है।
- आपके पास छोटे डेटासेट या सरल रिपोर्ट हैं जहाँ तालिका प्रारूप बहुत कम मूल्य जोड़ते हैं।
ध्यान देने योग्य: सामग्री और प्रलेखन को गति देना
यदि आप माइग्रेशन का दस्तावेजीकरण कर रहे हैं, आंतरिक रनबुक तैयार कर रहे हैं, या हितधारकों के लिए प्लेटफ़ॉर्म विकल्पों का सारांश दे रहे हैं, तो एक AI सहायक जो मीटिंग नोट्स, कोड स्निपेट और विक्रेता डॉक्स को एक साथ खींच सकता है, समय बचाने वाला हो सकता है। वैसे, Sider.AI एक AI साइडबार और सामग्री उपकरण प्रदान करता है जो टीमों को जटिल तकनीकी डॉक्स का सारांश देने, कैसे-करें गाइड उत्पन्न करने और समीक्षा ड्राफ्ट को तेज़ी से बनाने में मदद करता है—उपयोगी जब आप Iceberg पर मानकीकृत कर रहे हों और डेटा उपभोक्ताओं के लिए स्पष्ट आंतरिक प्रलेखन की आवश्यकता हो। यह आपके आर्किटेक्चर निर्णयों को प्रतिस्थापित नहीं करेगा, लेकिन यह अनुसंधान से प्रकाशन योग्य डॉक्स तक के समय को कम कर सकता है। अंतिम टेक: हमारी ICEBERG समीक्षा
Apache Iceberg केवल एक नया फ़ाइल प्रारूप नहीं है—यह एक गवर्नेंस और प्रदर्शन परत है जो डेटा लेक को विश्वसनीय डेटाबेस की तरह काम कराती है, जबकि खुली और इंजन-अज्ञेयवादी रहती है। अधिकांश मध्यम से बड़े डेटा टीमों के लिए, Iceberg ACID सुरक्षा, स्कीमा/विभाजन विकास और क्रॉस-इंजन उपयोगिता का सही संतुलन प्रदान करता है। एक परिचालन सीखने की अवस्था की अपेक्षा करें, लेकिन गति, स्थिरता और लचीलेपन में दीर्घकालिक लाभ आकर्षक है।
मुख्य बातें
- Iceberg क्लाउड ऑब्जेक्ट स्टोरेज पर ACID, टाइम ट्रैवल और तेज़ योजना प्रदान करता है।
- छिपा हुआ विभाजन और कॉलम ID-आधारित स्कीमा विकास टूटने को कम करता है।
- Spark, Flink, Trino और अन्य में मजबूत पारिस्थितिकी तंत्र समर्थन।
- पहले दिन से संपीड़न और मेटाडेटा स्वच्छता की योजना बनाएँ।
- विविध, बड़े पैमाने पर एनालिटिक्स वर्कलोड चलाने वाली टीमों के लिए सबसे उपयुक्त।
अगले कदम
- उच्च-प्रभाव लेकिन गैर-महत्वपूर्ण तालिका पर Iceberg का पायलट करें।
- इंजन संस्करणों को मानकीकृत करें और संपीड़न/प्रतिधारण नौकरियों को कॉन्फ़िगर करें।
- स्कीमा/विभाजन विकास के लिए सम्मेलनों का दस्तावेजीकरण करें।
- माइग्रेशन के बाद प्रदर्शन लाभ और गणना बचत का मूल्यांकन करें।
FAQ
{Q1: Apache Iceberg क्या है और इसका उपयोग डेटा लेक में क्यों किया जाता है?
Apache Iceberg एक तालिका प्रारूप है जो ACID लेनदेन, समय यात्रा और कुशल मेटाडेटा को ऑब्जेक्ट स्टोरेज में लाता है। इसका उपयोग Spark, Flink, Trino और अन्य में बड़े पैमाने पर एनालिटिक्स को विश्वसनीय और इंजन-अज्ञेयवादी बनाने के लिए किया जाता है।
}{Q2: Iceberg डेल्टा लेक और Apache Hudi से कैसे तुलना करता है?
Iceberg इंजन तटस्थता, कॉलम ID के माध्यम से स्कीमा विकास और कुशल योजना पर जोर देता है। डेल्टा अक्सर Databricks-केंद्रित स्टैक में चमकता है, जबकि Hudi स्ट्रीमिंग अपसर्ट और CDC-भारी वर्कलोड के लिए लोकप्रिय है।
}{Q3: क्या Apache Iceberg स्कीमा और विभाजन विकास का समर्थन करता है?
हाँ। Iceberg स्थिर ID का उपयोग करके कॉलम जोड़ने, नाम बदलने और पुन: व्यवस्थित करने की अनुमति देता है, और आप मौजूदा क्वेरी को तोड़े बिना या पुराने डेटा को फिर से लिखे बिना विभाजन विनिर्देशों को विकसित कर सकते हैं।
}{Q4: क्या मैं Iceberg का उपयोग कई क्वेरी इंजन के साथ कर सकता हूँ?
हाँ। Iceberg Spark, Flink, Trino/Presto और अन्य इंजन का समर्थन करता है, जिससे तालिकाओं का एक एकल सेट बैच ETL, स्ट्रीमिंग और तदर्थ SQL को दोहराव के बिना सेवा दे सकता है।
}{Q5: Iceberg तालिकाओं के लिए परिचालन सर्वोत्तम अभ्यास क्या हैं?
छोटी फ़ाइलों से बचने के लिए संपीड़न को स्वचालित करें, मेटाडेटा विकास को प्रबंधित करने के लिए पुराने स्नैपशॉट को समाप्त करें, मैनिफेस्ट आकार की निगरानी करें और सुसंगत सुविधा समर्थन के लिए इंजन संस्करणों को मानकीकृत करें।
}