What is Apache Iceberg and why is it used in data lakes?

Apache Iceberg is a table format that brings ACID transactions, time travel, and efficient metadata to object storage. It’s used to make large-scale analytics reliable and engine-agnostic across Spark, Flink, Trino, and more.

How does Iceberg compare to Delta Lake and Apache Hudi?

Iceberg emphasizes engine neutrality, schema evolution via column IDs, and efficient planning. Delta often shines in Databricks-centric stacks, while Hudi is popular for streaming upserts and CDC-heavy workloads.

Does Apache Iceberg support schema and partition evolution?

Yes. Iceberg allows adding, renaming, and reordering columns using stable IDs, and you can evolve partition specs without breaking existing queries or rewriting old data.

Can I use Iceberg with multiple query engines?

Yes. Iceberg supports Spark, Flink, Trino/Presto, and other engines, enabling a single set of tables to serve batch ETL, streaming, and ad hoc SQL without duplication.

What are the operational best practices for Iceberg tables?

Automate compaction to avoid small files, expire old snapshots to manage metadata growth, monitor manifest sizes, and standardize engine versions for consistent feature support.

क्या Apache Iceberg डेटा लेक का भविष्य है? एक गहन ICEBERG समीक्षा

यदि आपका डेटा लेक डेटा के दलदल जैसा महसूस होता है—धीमी क्वेरी, अस्त-व्यस्त स्कीमा विकास, असंगत विभाजन—तो आप अकेले नहीं हैं। पिछले कुछ वर्षों में, एक तकनीक चुपचाप विश्वसनीय, उच्च-स्तरीय एनालिटिक्स की रीढ़ बन गई है: Apache Iceberg। इस ICEBERG समीक्षा में, हम यह जानेंगे कि यह विरासत तालिका प्रारूपों से अलग कैसे है, इसे किसे अपनाना चाहिए, और यह वास्तविक दुनिया की पाइपलाइनों में कैसा प्रदर्शन करता है।

यह Iceberg पर जाने का मूल्यांकन करने वाली टीमों के लिए व्यावहारिक, समाधान-उन्मुख गहन जानकारी है जिसमें हाथों के अनुभव, ट्रेड-ऑफ और खरीदार-शैली मार्गदर्शन शामिल हैं।

Apache Iceberg क्या है—और अब क्यों?

Apache Iceberg एक उच्च-प्रदर्शन तालिका प्रारूप है जिसे विशाल विश्लेषणात्मक डेटासेट के लिए डिज़ाइन किया गया है। यह SQL तालिकाओं की विश्वसनीयता और सादगी को डेटा लेक की विस्तृत, स्कीमा-तरल दुनिया में लाता है। संक्षेप में: Iceberg आपके ऑब्जेक्ट स्टोरेज (S3, ADLS, GCS, HDFS) को ACID-अनुपालक तालिकाओं में बदल देता है, जिन्हें आप सुरक्षित रूप से उत्परिवर्तित, क्वेरी और स्केल पर नियंत्रित कर सकते हैं। कई स्रोत इसे स्कीमा विकास, विभाजन विनिर्देश परिवर्तन, स्नैपशॉटिंग और मल्टी-इंजन इंटरऑपरेबिलिटी जैसी सुविधाओं के साथ बड़े एनालिटिक्स के लिए उद्देश्य-निर्मित बताते हैं।

अब क्यों? क्योंकि डेटा इंजीनियरिंग टीमों को आवश्यकता है:

क्लाउड ऑब्जेक्ट स्टोरेज में विश्वसनीय ACID संचालन।

Spark, Flink, Trino/Presto, Snowflake, और अन्य से उपयोग योग्य इंजन-अज्ञेयवादी तालिकाएँ।

स्मार्ट मेटाडेटा, मैनिफेस्ट सूचियों और छिपे हुए विभाजन के माध्यम से तेज़, सस्ती क्वेरी।

सब कुछ फिर से लिखे बिना स्कीमा और विभाजनों का सुरक्षित विकास।

निष्कर्ष

आधुनिक एनालिटिक्स प्लेटफार्मों के लिए, Apache Iceberg मजबूत ACID गारंटी के साथ इंजन और क्लाउड में तालिकाओं को मानकीकृत करने के लिए एक अग्रणी विकल्प है।

यह विरासत DIY विभाजन और सादे Parquet लेआउट से विश्वसनीयता और प्रबंधनीयता में बेहतर प्रदर्शन करता है।

जबकि माइग्रेशन और गवर्नेंस प्लानिंग गैर-तुच्छ हैं, Iceberg का स्नैपशॉट आइसोलेशन, मेटाडेटा लेआउट और इंजन इंटीग्रेशन इसे अधिकांश डेटा टीमों के लिए एक दीर्घकालिक जीत बनाते हैं।

Iceberg एक नज़र में: मुख्य क्षमताएँ

ऑब्जेक्ट स्टोरेज पर ACID लेनदेन

स्नैपशॉट आइसोलेशन और टाइम-ट्रैवल रीड

छिपा हुआ विभाजन (उपयोगकर्ताओं को विभाजन कॉलम लीक नहीं करना)

लचीला स्कीमा विकास (ID-आधारित कॉलम के साथ जोड़ें, नाम बदलें, पुन: व्यवस्थित करें)

इतिहास को फिर से लिखे बिना विभाजन विनिर्देशों का विकास

मल्टी-इंजन इंटरऑपरेबिलिटी (Spark, Flink, Trino/Presto, और अन्य)

बड़े पैमाने पर प्रदर्शन के लिए मेटाडेटा-संचालित योजना

ये केवल मार्केटिंग दावे नहीं हैं; Iceberg का आर्किटेक्चर—तालिकाएँ, स्नैपशॉट, मैनिफेस्ट, मैनिफेस्ट सूचियाँ और मेटाडेटा फ़ाइलें—व्यवस्थित रूप से फ़ाइल-सूचीकरण ओवरहेड को कम करता है और पेटबाइट पैमाने पर योजना को अत्यधिक कुशल बनाता है।

यह ICEBERG समीक्षा किसके लिए है

मल्टी-इंजन लेकहाउस को डिज़ाइन करने वाले डेटा इंजीनियरिंग लीडर।

एकल तालिका प्रारूप पर Spark/Trino/Flink को समेकित करने वाली प्लेटफ़ॉर्म टीम।

Hive-शैली विभाजन या तदर्थ Parquet के साथ सीमाओं को छूने वाले एनालिटिक्स संगठन।

समय यात्रा, रोलबैक या पुनरुत्पादनीय प्रयोगों की आवश्यकता वाली टीमें।

बड़ी समस्याएं Iceberg हल करता है

1) ऑब्जेक्ट स्टोरेज पर उत्परिवर्तन सुरक्षा

विरासत डेटा लेक समवर्ती लेखन और आंशिक विफलताओं के साथ संघर्ष करते हैं। Iceberg बड़े पैमाने पर भी लेन-देन स्थिरता सुनिश्चित करने के लिए परमाणु प्रतिबद्धता शब्दार्थ—स्नैपशॉट मैनिफेस्ट के माध्यम से—का उपयोग करता है। आप S3 लिस्टिंग की निगरानी करने के बजाय आत्मविश्वास के साथ लिख सकते हैं, संपीड़ित कर सकते हैं और अपडेट कर सकते हैं।

2) बुरे सपने के बिना स्कीमा विकास

Iceberg स्कीमा विकास के लिए केवल नामों का नहीं, बल्कि स्थिर कॉलम ID का उपयोग करता है। इसका मतलब है कि आप पुराने डेटा को दूषित किए बिना कॉलम का नाम बदल सकते हैं या पुन: व्यवस्थित कर सकते हैं। यह लंबे समय तक चलने वाले डेटासेट के लिए एक शांत महाशक्ति है जहां स्कीमा बहाव अपरिहार्य है।

3) विभाजन जो लीक नहीं होता है

छिपे हुए विभाजन का मतलब है कि उपयोगकर्ताओं को यह जानने या परवाह करने की आवश्यकता नहीं है कि डेटा कैसे विभाजित है। आप समय के साथ विभाजन विनिर्देशों को विकसित कर सकते हैं (उदाहरण के लिए, दिन → घंटा) जबकि क्वेरी सुसंगत रहती हैं। विभाजन कॉलम के कारण अब कोई टूटा हुआ SQL नहीं।

4) स्केल पर कुशल योजना

मैनिफेस्ट फ़ाइलों और मेटाडेटा ट्री के साथ, Iceberg महंगी फ़ाइल-सूचीकरण संचालन से बचता है जो पेटबाइट पैमाने पर क्वेरी प्लानर को क्रश करते हैं। इंजन पहले कॉम्पैक्ट मेटाडेटा पढ़ते हैं, लाखों फ़ाइल पथ नहीं।

वास्तविक दुनिया के उपयोग के मामले

एकीकृत एनालिटिक्स परत: क्यूरेटेड तथ्यों और आयामों को Iceberg तालिकाओं के रूप में संग्रहीत करें जिन्हें ETL के लिए Spark, तदर्थ SQL के लिए Trino और स्ट्रीमिंग अपसर्ट के लिए Flink द्वारा पढ़ा जा सकता है।

मशीन लर्निंग फ़ीचर स्टोर: टाइम ट्रैवल पुनरुत्पादनीय प्रशिक्षण सेट को सक्षम बनाता है; स्कीमा परिवर्तन ऐतिहासिक सुविधाओं को नहीं उड़ाते हैं।

गवर्नेंस और रोलबैक: स्नैपशॉट आपको आकस्मिक लेखन को रोल बैक करने और कम जोखिम के साथ डेटा प्रतिधारण नीतियों का समर्थन करने देते हैं।

स्ट्रीमिंग + बैच अभिसरण: अपसर्ट और MERGE पैटर्न स्थिर हो जाते हैं, जिससे पैमाने पर CDC पाइपलाइन सक्षम हो जाती हैं।

आर्किटेक्चर: Iceberg आपकी लेक को कैसे व्यवस्थित करता है

तालिका मेटाडेटा फ़ाइल: तालिका के बारे में "सत्य"—स्कीमा, विभाजन विनिर्देश, स्नैपशॉट।

स्नैपशॉट: तालिका स्थिति के अपरिवर्तनीय संस्करण, समय यात्रा और रोलबैक को सक्षम करते हैं।

मैनिफेस्ट सूचियाँ: इंडेक्स जो एक स्नैपशॉट से संबंधित मैनिफेस्ट को सूचीबद्ध करता है।

मैनिफेस्ट: विभाजन आँकड़े और कॉलम-स्तरीय मेट्रिक्स के साथ डेटा फ़ाइलों की सूची।

डेटा फ़ाइलें: आमतौर पर Parquet (ORC/Avro भी), ऑब्जेक्ट स्टोरेज में संग्रहीत।

यह स्तरित मेटाडेटा दृष्टिकोण त्वरित खोज और छंटाई की अनुमति देता है, जिससे बड़ी तालिकाओं के लिए योजना विलंबता कम हो जाती है।

प्रदर्शन: क्या अपेक्षा करें

तेज़ योजना: मेटाडेटा छंटाई और मैनिफेस्ट के लिए क्वेरी योजना ओवरहेड में महत्वपूर्ण कमी।

बेहतर छंटाई: विभाजन विकास और कॉलम आँकड़े कम I/O चलाते हैं।

स्थिर समवर्ती: स्नैपशॉट आइसोलेशन पाठकों को आंशिक लेखन देखने से रोकता है।

लागत नियंत्रण: कम बेकार लिस्टिंग और स्कैनिंग से गणना बिल कम हो जाते हैं।

वास्तविक परिणाम इंजन, फ़ाइल आकार, संपीड़न नीति और वर्कलोड पर निर्भर करते हैं, लेकिन Iceberg का डिज़ाइन सीधे उन दर्द बिंदुओं को लक्षित करता है जो पारंपरिक डेटा लेक में धीमी, महंगी क्वेरी का कारण बनते हैं।

डेवलपर अनुभव: दिन 1 से दिन 100

दिन 1 सेटअप: एक Iceberg कैटलॉग (glue/hive/rest) बनाएँ, तालिकाएँ परिभाषित करें और Spark/Trino/Flink को इससे इंगित करें। अधिकांश इंजन देशी Iceberg कनेक्टर्स या परिपक्व एकीकरण शिप करते हैं।

स्कीमा और विभाजन विकास: DDL के माध्यम से विनिर्देश बदलें; Iceberg संस्करणों को ट्रैक करता है ताकि ऐतिहासिक रीड मान्य रहें।

संपीड़न और रखरखाव: छोटी फ़ाइलों को प्रबंधित करने के लिए आवधिक संपीड़न की योजना बनाएँ; इंजन-देशी प्रक्रियाओं या कस्टम नौकरियों का लाभ उठाएँ।

डेटा ऑप्स स्वच्छता: स्नैपशॉट गणना, मैनिफेस्ट विकास की निगरानी करें और प्रदर्शन को तेज रखने के लिए मेटाडेटा समाप्ति करें।

Iceberg कैसे तुलना करता है

S3 पर सादे Parquet बनाम: Iceberg ACID, सुसंगत स्नैपशॉट और अनुकूलित मेटाडेटा जोड़ता है, जिससे अस्थिर लिस्टिंग और स्कीमा बहाव समाप्त हो जाता है।

Hive तालिकाओं बनाम: Iceberg का छिपा हुआ विभाजन और स्नैपशॉट आइसोलेशन Hive के भंगुर विभाजन कॉलम और लेन-देन सुरक्षा की कमी से बेहतर है।

अन्य लेकहाउस प्रारूपों बनाम: Iceberg डेल्टा लेक और Apache Hudi के साथ प्रतिस्पर्धा करता है। Iceberg की ताकत मल्टी-इंजन तटस्थता, कॉलम ID-आधारित स्कीमा विकास और इंजन में व्यापक समुदाय अपनाने हैं। डेल्टा Databricks-केंद्रित स्टैक में चमकता है; Hudi स्ट्रीमिंग अपसर्ट के लिए लोकप्रिय है। इंजन वरीयता, उत्परिवर्तन पैटर्न और पारिस्थितिकी तंत्र संरेखण के आधार पर चुनें।

कमियाँ और ट्रेड-ऑफ़

परिचालन सीखने की अवस्था: आपको संपीड़न, स्नैपशॉट प्रतिधारण और मेटाडेटा सफाई का प्रबंधन करने की आवश्यकता होगी।

माइग्रेशन लागत: Hive या कच्चे Parquet से स्थानांतरित करने के लिए सावधानीपूर्वक योजना और कभी-कभी भारी पुनर्लेखन की आवश्यकता होती है।

इंजन/संस्करण तिरछापन: सुविधा समर्थन इंजन और संस्करण के अनुसार भिन्न हो सकता है; परीक्षण किए गए कॉम्बो पर मानकीकृत करें।

मेटाडेटा फैलाव: गवर्नेंस के बिना, मैनिफेस्ट और स्नैपशॉट जल्दी बढ़ सकते हैं।

बचने के लिए सामान्य विरोधी-पैटर्न

संपीड़न को अनदेखा करना: छोटी फ़ाइलें प्रदर्शन को मार देती हैं। संपीड़न को स्वचालित करें।

अति-बार स्नैपशॉट: समाप्ति नीतियों के साथ स्नैपशॉट गणना को नियंत्रण में रखें।

असीमित विभाजन विकास: जानबूझकर विभाजन विनिर्देशों को बदलें; प्रदर्शन प्रभावों का ऑडिट करें।

एक-ऑफ इंजन कॉन्फ़िगरेशन: आश्चर्यजनक व्यवहार से बचने के लिए Iceberg के लिए Spark/Trino/Flink कॉन्फ़िगरेशन को संरेखित करें।

हैंड्स-ऑन: विशिष्ट वर्कफ़्लो

एक Iceberg तालिका बनाना (Spark SQL)

{CREATE TABLE catalog.db.events (
}{event_id BIGINT,
}{user_id BIGINT,
}{ts TIMESTAMP,
}{payload STRING
}{)
USING iceberg
}{PARTITIONED BY (days(ts));
}

टाइम ट्रैवल रीड

{-- Query as of a specific snapshot timestamp
}{SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';
}

स्कीमा विकास

{ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
}{ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;
}

छोटी फ़ाइलों का अनुकूलन (Spark)

{CALL catalog.system.rewrite_data_files(
}{table => 'db.events',
}{strategy => 'binpack',
}{target_file_size => 134217728
}{);
}

उपयोगकर्ता क्या कहते हैं

सार्वजनिक सॉफ़्टवेयर निर्देशिकाएँ लगातार Apache Iceberg को एक तालिका प्रारूप के रूप में वर्णित करती हैं जो बड़े डेटा और बड़ी विश्लेषणात्मक तालिकाओं में SQL जैसी विश्वसनीयता लाता है, जो ऑब्जेक्ट स्टोरेज पर ACID संचालन और उच्च प्रदर्शन पर जोर देता है। जबकि कुछ व्यावसायिक सॉफ़्टवेयर लिस्टिंग खुले स्रोत तालिका प्रारूप से असंबंधित समान नाम वाले उत्पादों का उल्लेख कर सकती हैं, सुनिश्चित करें कि आप डेटा इंजीनियरिंग उपयोग के मामलों के लिए विशेष रूप से "Apache Iceberg" का मूल्यांकन कर रहे हैं।

आधुनिक स्टैक में Iceberg कहाँ फिट बैठता है

भंडारण: S3, ADLS, GCS, HDFS

इंजन: Spark (बैच/ETL/ML), Flink (स्ट्रीमिंग/CDC), Trino/Presto (तदर्थ SQL), Snowflake (बढ़ते समर्थन के साथ बाहरी तालिकाएँ), और बहुत कुछ

ऑर्केस्ट्रेशन: Airflow, Dagster, Prefect

कैटलॉग/मेटास्टोर: AWS Glue, Hive Metastore, REST कैटलॉग

गवर्नेंस: LakeFS, Ranger, अंतर्निहित तालिका गुण + प्रतिधारण नीतियाँ

माइग्रेशन प्लेबुक (व्यावहारिक कदम)

आकार, SLA और क्वेरी पैटर्न द्वारा तालिकाओं की सूची बनाएँ।

गैर-महत्वपूर्ण, उच्च-दर्द तालिकाओं (धीमी क्वेरी, अस्थिर स्कीमा) से शुरुआत करें।

Iceberg समकक्ष बनाएँ; मान्य स्नैपशॉट के साथ दोहरी-लिखें या बैकफ़िल करें।

इंजन में प्रतिनिधि वर्कलोड के साथ मान्य करें।

उपभोक्ताओं को काट लें और विरासत पथों को बंद कर दें।

पहले दिन से संपीड़न और स्नैपशॉट समाप्ति को स्वचालित करें।

लागत और ROI विचार

कम I/O और तेज़ योजना से गणना बचत।

लेन-देन सुरक्षा से कम डाउनटाइम।

तदर्थ Parquet + Hive विभाजनों के प्रबंधन बनाम कम परिचालन परिश्रम।

डेटा को रीफ़ॉर्मेट किए बिना इंजन बदलने की लचीलापन।

ROI आमतौर पर तालिका आकार और टीम स्केल के साथ बेहतर होता है। आप जितने अधिक इंजन और पाइपलाइन चलाते हैं, Iceberg का मानकीकरण उतना ही अधिक लाभ देता है।

सुरक्षा और अनुपालन

Iceberg स्वयं तालिका प्रारूप और मेटाडेटा पर केंद्रित है; स्टोरेज-लेयर IAM, एन्क्रिप्शन और परिधि नियंत्रण के साथ एकीकृत करें। डेटा गवर्नेंस के लिए, कैटलॉग और नीति इंजन के साथ जोड़ी बनाएँ, और परिवर्तनों की जांच के लिए स्नैपशॉट/टाइम-ट्रैवल ऑडिटिंग का उपयोग करें। आवश्यकता पड़ने पर इंजन परत पर पंक्ति- या कॉलम-स्तर की सुरक्षा लागू करें।

क्या Apache Iceberg आपके लिए सही है?

Iceberg चुनें यदि आप:

मल्टी-इंजन समर्थन के साथ ऑब्जेक्ट स्टोरेज पर ACID की आवश्यकता है।

बार-बार स्कीमा और विभाजन परिवर्तन की अपेक्षा करें।

विविध वर्कलोड चलाएँ (बैच + स्ट्रीमिंग + तदर्थ SQL)।

समय यात्रा, पुनरुत्पादन क्षमता और विश्वसनीय रोलबैक चाहते हैं।

यदि आप विकल्प पर विचार करें:

एकल विक्रेता पर पूरी तरह से निर्भर हैं जो पहले से ही एक प्रबंधित लेकहाउस प्रारूप प्रदान करता है।

आपके पास छोटे डेटासेट या सरल रिपोर्ट हैं जहाँ तालिका प्रारूप बहुत कम मूल्य जोड़ते हैं।

ध्यान देने योग्य: सामग्री और प्रलेखन को गति देना

यदि आप माइग्रेशन का दस्तावेजीकरण कर रहे हैं, आंतरिक रनबुक तैयार कर रहे हैं, या हितधारकों के लिए प्लेटफ़ॉर्म विकल्पों का सारांश दे रहे हैं, तो एक AI सहायक जो मीटिंग नोट्स, कोड स्निपेट और विक्रेता डॉक्स को एक साथ खींच सकता है, समय बचाने वाला हो सकता है। वैसे, Sider.AI एक AI साइडबार और सामग्री उपकरण प्रदान करता है जो टीमों को जटिल तकनीकी डॉक्स का सारांश देने, कैसे-करें गाइड उत्पन्न करने और समीक्षा ड्राफ्ट को तेज़ी से बनाने में मदद करता है—उपयोगी जब आप Iceberg पर मानकीकृत कर रहे हों और डेटा उपभोक्ताओं के लिए स्पष्ट आंतरिक प्रलेखन की आवश्यकता हो। यह आपके आर्किटेक्चर निर्णयों को प्रतिस्थापित नहीं करेगा, लेकिन यह अनुसंधान से प्रकाशन योग्य डॉक्स तक के समय को कम कर सकता है।

अंतिम टेक: हमारी ICEBERG समीक्षा

Apache Iceberg केवल एक नया फ़ाइल प्रारूप नहीं है—यह एक गवर्नेंस और प्रदर्शन परत है जो डेटा लेक को विश्वसनीय डेटाबेस की तरह काम कराती है, जबकि खुली और इंजन-अज्ञेयवादी रहती है। अधिकांश मध्यम से बड़े डेटा टीमों के लिए, Iceberg ACID सुरक्षा, स्कीमा/विभाजन विकास और क्रॉस-इंजन उपयोगिता का सही संतुलन प्रदान करता है। एक परिचालन सीखने की अवस्था की अपेक्षा करें, लेकिन गति, स्थिरता और लचीलेपन में दीर्घकालिक लाभ आकर्षक है।

मुख्य बातें

Iceberg क्लाउड ऑब्जेक्ट स्टोरेज पर ACID, टाइम ट्रैवल और तेज़ योजना प्रदान करता है।

छिपा हुआ विभाजन और कॉलम ID-आधारित स्कीमा विकास टूटने को कम करता है।

Spark, Flink, Trino और अन्य में मजबूत पारिस्थितिकी तंत्र समर्थन।

पहले दिन से संपीड़न और मेटाडेटा स्वच्छता की योजना बनाएँ।

विविध, बड़े पैमाने पर एनालिटिक्स वर्कलोड चलाने वाली टीमों के लिए सबसे उपयुक्त।

अगले कदम

उच्च-प्रभाव लेकिन गैर-महत्वपूर्ण तालिका पर Iceberg का पायलट करें।

इंजन संस्करणों को मानकीकृत करें और संपीड़न/प्रतिधारण नौकरियों को कॉन्फ़िगर करें।

स्कीमा/विभाजन विकास के लिए सम्मेलनों का दस्तावेजीकरण करें।

माइग्रेशन के बाद प्रदर्शन लाभ और गणना बचत का मूल्यांकन करें।

FAQ

{

Q1: Apache Iceberg क्या है और इसका उपयोग डेटा लेक में क्यों किया जाता है? Apache Iceberg एक तालिका प्रारूप है जो ACID लेनदेन, समय यात्रा और कुशल मेटाडेटा को ऑब्जेक्ट स्टोरेज में लाता है। इसका उपयोग Spark, Flink, Trino और अन्य में बड़े पैमाने पर एनालिटिक्स को विश्वसनीय और इंजन-अज्ञेयवादी बनाने के लिए किया जाता है।

}{

Q2: Iceberg डेल्टा लेक और Apache Hudi से कैसे तुलना करता है? Iceberg इंजन तटस्थता, कॉलम ID के माध्यम से स्कीमा विकास और कुशल योजना पर जोर देता है। डेल्टा अक्सर Databricks-केंद्रित स्टैक में चमकता है, जबकि Hudi स्ट्रीमिंग अपसर्ट और CDC-भारी वर्कलोड के लिए लोकप्रिय है।

}{

Q3: क्या Apache Iceberg स्कीमा और विभाजन विकास का समर्थन करता है? हाँ। Iceberg स्थिर ID का उपयोग करके कॉलम जोड़ने, नाम बदलने और पुन: व्यवस्थित करने की अनुमति देता है, और आप मौजूदा क्वेरी को तोड़े बिना या पुराने डेटा को फिर से लिखे बिना विभाजन विनिर्देशों को विकसित कर सकते हैं।

}{

Q4: क्या मैं Iceberg का उपयोग कई क्वेरी इंजन के साथ कर सकता हूँ? हाँ। Iceberg Spark, Flink, Trino/Presto और अन्य इंजन का समर्थन करता है, जिससे तालिकाओं का एक एकल सेट बैच ETL, स्ट्रीमिंग और तदर्थ SQL को दोहराव के बिना सेवा दे सकता है।

}{

Q5: Iceberg तालिकाओं के लिए परिचालन सर्वोत्तम अभ्यास क्या हैं? छोटी फ़ाइलों से बचने के लिए संपीड़न को स्वचालित करें, मेटाडेटा विकास को प्रबंधित करने के लिए पुराने स्नैपशॉट को समाप्त करें, मैनिफेस्ट आकार की निगरानी करें और सुसंगत सुविधा समर्थन के लिए इंजन संस्करणों को मानकीकृत करें।

}

क्या Apache Iceberg डेटा लेक्स का भविष्य है? एक विस्तृत ICEBERG समीक्षा