What is Apache Iceberg and why is it used in data lakes?

Apache Iceberg is a table format that brings ACID transactions, time travel, and efficient metadata to object storage. It’s used to make large-scale analytics reliable and engine-agnostic across Spark, Flink, Trino, and more.

How does Iceberg compare to Delta Lake and Apache Hudi?

Iceberg emphasizes engine neutrality, schema evolution via column IDs, and efficient planning. Delta often shines in Databricks-centric stacks, while Hudi is popular for streaming upserts and CDC-heavy workloads.

Does Apache Iceberg support schema and partition evolution?

Yes. Iceberg allows adding, renaming, and reordering columns using stable IDs, and you can evolve partition specs without breaking existing queries or rewriting old data.

Can I use Iceberg with multiple query engines?

Yes. Iceberg supports Spark, Flink, Trino/Presto, and other engines, enabling a single set of tables to serve batch ETL, streaming, and ad hoc SQL without duplication.

What are the operational best practices for Iceberg tables?

Automate compaction to avoid small files, expire old snapshots to manage metadata growth, monitor manifest sizes, and standardize engine versions for consistent feature support.

Je, Apache Iceberg Ndio Mustakabali wa Maziwa ya Data? Mapitio ya Kina ya ICEBERG

Ikiwa ziwa lako la data linahisi kama mchanga wa data—maswali ya polepole, mageuzi ya mpangilio yaliyochafuka, sehemu zisizobadilika—hauko peke yako. Katika miaka michache iliyopita, teknolojia moja imekuwa kimya kimya uti wa mgongo wa uchanganuzi wa kuaminika, wa kiwango cha juu: Apache Iceberg. Katika mapitio haya ya ICEBERG, tutafungua kile kinachoufanya uwe tofauti na fomati za zamani za jedwali, ni nani anayepaswa kuukubali, na jinsi unavyolingana katika njia za bomba za ulimwengu halisi.

Huu ni uchambuzi wa kina wa kivitendo, unaozingatia suluhisho na mifano ya moja kwa moja, biashara, na mwongozo wa mtindo wa mnunuzi kwa timu zinazotathmini kuruka kwa Iceberg.

Apache Iceberg Ni Nini—na Kwa Nini Sasa?

Apache Iceberg ni fomati ya jedwali yenye utendaji wa juu iliyoundwa kwa ajili ya hifadhi kubwa za data za uchanganuzi. Inaleta uaminifu na unyenyekevu wa majedwali ya SQL kwa ulimwengu mpana, wenye mpangilio wa maji wa maziwa ya data. Kwa kifupi: Iceberg hubadilisha hifadhi yako ya kitu (S3, ADLS, GCS, HDFS) kuwa majedwali yanayolingana na ACID ambayo unaweza kuyabadilisha, kuyauliza na kuyatawala kwa usalama kwa kiwango kikubwa. Vyanzo vingi vinaielezea kama iliyojengwa kwa madhumuni ya uchanganuzi mkubwa na vipengele kama vile mageuzi ya mpangilio, mabadiliko ya vipimo vya sehemu, upigaji picha, na ushirikiano wa injini nyingi.

Kwa nini sasa? Kwa sababu timu za uhandisi wa data zinahitaji:

Uendeshaji wa ACID wa kuaminika katika hifadhi ya kitu cha wingu.

Majedwali yasiyo na injini yanayoweza kutumika kutoka Spark, Flink, Trino/Presto, Snowflake, na zaidi.

Maswali ya haraka na ya bei nafuu kupitia metadata mahiri, orodha za udhihirisho, na ugawaji fiche.

Mageuzi salama ya mpangilio na sehemu bila kuandika upya kila kitu.

Uamuzi

Kwa majukwaa ya kisasa ya uchanganuzi, Apache Iceberg ni chaguo linaloongoza la kuweka viwango vya majedwali katika injini na mawingu yenye dhamana thabiti za ACID.

Inazidi ugawaji wa urithi wa DIY na mipangilio ya Parquet wazi katika uaminifu na usimamizi.

Wakati upangaji wa uhamiaji na utawala si mdogo, utengaji wa picha wa Iceberg, mpangilio wa metadata, na ujumuishaji wa injini hufanya iwe ushindi wa muda mrefu kwa timu nyingi za data.

Iceberg Kwa Muhtasari: Uwezo Mkuu

Miamala ya ACID juu ya hifadhi ya kitu

Utengaji wa picha na usomaji wa kusafiri kwa wakati

Ugawaji fiche (hakuna nguzo za sehemu zinazovuja kwa watumiaji)

Mageuzi rahisi ya mpangilio (ongeza, badilisha jina, panga upya na nguzo za msingi wa ID)

Kubadilisha vipimo vya sehemu bila kuandika upya historia

Ushirikiano wa injini nyingi (Spark, Flink, Trino/Presto, na zaidi)

Upangaji unaoendeshwa na Metadata kwa utendaji wa kiwango kikubwa

Hizi sio madai ya uuzaji tu; usanifu wa Iceberg—majedwali, picha, udhihirisho, orodha za udhihirisho, na faili za metadata—hupunguza kwa utaratibu gharama ya uorodheshaji wa faili na hufanya upangaji uwe mzuri sana kwa kiwango cha petabyte.

Mapitio Haya ya ICEBERG Ni Kwa Nani

Viongozi wa uhandisi wa data wanaobuni nyumba ya ziwa ya injini nyingi.

Timu za jukwaa zinazounganisha Spark/Trino/Flink kwenye fomati moja ya jedwali.

Mashirika ya uchanganuzi yanayofikia kikomo na ugawaji wa mtindo wa Hive au Parquet ya ad hoc.

Timu zinazohitaji usafiri wa wakati, kurudisha nyuma, au majaribio yanayoweza kuzalishwa.

Matatizo Makubwa Ambayo Iceberg Hutatua

1) Usalama wa Mabadiliko kwenye Hifadhi ya Kitu

Maziwa ya data ya urithi yanatatizika na uandishi sawia na kushindwa kwa sehemu. Iceberg hutumia semantiki za utendaji wa atomiki—kupitia udhihirisho wa picha—ili kuhakikisha uthabiti wa miamala hata kwa kiwango kikubwa. Unaweza kuandika, kubana, na kusasisha kwa ujasiri badala ya kuangalia orodha za S3.

2) Mageuzi ya Mpangilio Bila Ndoto

Iceberg hutumia kitambulisho thabiti cha nguzo, sio majina tu, kwa mageuzi ya mpangilio. Hiyo inamaanisha unaweza kubadilisha jina au kupanga upya nguzo bila kuharibu data ya zamani. Ni nguvu kubwa ya kimya kwa hifadhi za data za muda mrefu ambapo mabadiliko ya mpangilio hayaepukiki.

3) Ugawaji Ambao Hauvuji

Ugawaji fiche unamaanisha watumiaji hawahitaji kujua au kujali jinsi data imegawanywa. Unaweza kubadilisha vipimo vya sehemu kwa muda (k.m., siku → saa) wakati maswali yanabaki thabiti. Hakuna SQL iliyovunjika tena kwa sababu ya nguzo za sehemu.

4) Upangaji Mzuri kwa Kiwango Kikubwa

Kwa faili za udhihirisho na miti ya metadata, Iceberg huepuka uendeshaji wa gharama kubwa wa uorodheshaji wa faili ambao huponda wapangaji wa maswali kwa kiwango cha petabyte. Injini husoma metadata iliyoshikamana kwanza, sio mamilioni ya njia za faili.

Matumizi ya Ulimwengu Halisi

Safu ya uchanganuzi iliyounganishwa: Hifadhi ukweli ulioratibiwa na vipimo kama majedwali ya Iceberg yanayoweza kusomwa na Spark kwa ETL, Trino kwa SQL ya ad hoc, na Flink kwa visasisho vya utiririshaji.

Hifadhi za vipengele vya kujifunza kwa mashine: Usafiri wa wakati huwezesha seti za mafunzo zinazoweza kuzalishwa; mabadiliko ya mpangilio hayalipui vipengele vya kihistoria.

Utawala na kurudisha nyuma: Picha hukuruhusu kurudisha nyuma uandishi wa bahati mbaya na kusaidia sera za uhifadhi wa data kwa hatari ndogo.

Muunganiko wa utiririshaji + bechi: Visasisho na mifumo ya kuunganisha inakuwa thabiti, kuwezesha njia za bomba za CDC kwa kiwango kikubwa.

Usanifu: Jinsi Iceberg Inavyoandaa Ziwa Lako

Faili ya metadata ya jedwali: "Ukweli" kuhusu jedwali—mpangilio, vipimo vya sehemu, picha.

Picha: Matoleo yasiyobadilika ya hali ya jedwali, kuwezesha usafiri wa wakati na kurudisha nyuma.

Orodha za udhihirisho: Index ni udhihirisho gani ni wa picha.

Udhihirisho: Orodha za faili za data na takwimu za sehemu na metri za kiwango cha nguzo.

Faili za data: Kwa kawaida Parquet (pia ORC/Avro), iliyohifadhiwa kwenye hifadhi ya kitu.

Mbinu hii ya metadata iliyowekwa tabaka inaruhusu ugunduzi wa haraka na upunguzaji, kupunguza muda wa upangaji kwa majedwali makubwa.

Utendaji: Nini Cha Kutarajia

Upangaji wa haraka: Upunguzaji mkubwa katika gharama ya upangaji wa maswali shukrani kwa upunguzaji wa metadata na udhihirisho.

Upunguzaji bora: Mageuzi ya sehemu na takwimu za nguzo huendesha I/O kidogo.

Usawa thabiti: Utengaji wa picha huzuia wasomaji kuona uandishi wa sehemu.

Udhibiti wa gharama: Uorodheshaji mdogo wa upotezaji na uchanganuzi hupunguza bili za kompyuta.

Matokeo halisi yanategemea injini, ukubwa wa faili, sera ya kubana, na mzigo wa kazi, lakini muundo wa Iceberg unalenga moja kwa moja sehemu za maumivu zinazosababisha maswali ya polepole na ya gharama kubwa katika maziwa ya data ya jadi.

Uzoefu wa Msanidi Programu: Siku ya 1 hadi Siku ya 100

Usanidi wa Siku ya 1: Unda orodha ya Iceberg (gundi/mzinga/mapumziko), bainisha majedwali, na uelekeze Spark/Trino/Flink kwake. Injini nyingi husafirisha viunganishi asili vya Iceberg au ujumuishaji uliokomaa.

Mageuzi ya mpangilio na sehemu: Badilisha vipimo kupitia DDL; Iceberg hufuatilia matoleo ili usomaji wa kihistoria uendelee kuwa halali.

Kubana na matengenezo: Panga kubana mara kwa mara ili kudhibiti faili ndogo; tumia taratibu asili za injini au kazi maalum.

Usafi wa ops za data: Fuatilia hesabu za picha, ukuaji wa udhihirisho, na ufanye muda wa metadata kuweka utendaji kuwa mkali.

Jinsi Iceberg Inavyolingana

Dhidi ya Parquet wazi kwenye S3: Iceberg huongeza ACID, picha thabiti, na metadata iliyoboreshwa, kuondoa uorodheshaji wa flaky na mabadiliko ya mpangilio.

Dhidi ya majedwali ya Hive: Ugawaji fiche wa Iceberg na utengaji wa picha huzidi nguzo za sehemu dhaifu za Hive na ukosefu wa usalama wa miamala.

Dhidi ya fomati zingine za nyumba ya ziwa: Iceberg inashindana na Delta Lake na Apache Hudi. Nguvu za Iceberg ni kutokuwa na upande wowote wa injini nyingi, mageuzi ya mpangilio wa msingi wa kitambulisho cha nguzo, na kupitishwa kwa jumuiya pana katika injini. Delta huangaza katika rafu za Databricks; Hudi ni maarufu kwa visasisho vya utiririshaji. Chagua kulingana na upendeleo wa injini, mifumo ya mabadiliko, na upangaji wa mfumo wa ikolojia.

Hasara na Biashara

Mkondo wa kujifunza wa uendeshaji: Utahitaji kudhibiti kubana, uhifadhi wa picha, na usafishaji wa metadata.

Gharama ya uhamiaji: Kuhamia kutoka Hive au Parquet mbichi kunahitaji upangaji makini na wakati mwingine uandishi upya mzito.

Upungufu wa injini/toleo: Usaidizi wa vipengele unaweza kutofautiana na injini na toleo; weka viwango kwenye combos zilizojaribiwa.

Kuenea kwa Metadata: Bila utawala, udhihirisho na picha zinaweza kukua haraka.

Mifumo ya Kawaida ya Kupinga Kuepuka

Kupuuza kubana: Faili ndogo huua utendaji. Boresha kubana.

Picha za mara kwa mara kupita kiasi: Weka hesabu za picha chini ya udhibiti na sera za muda wake.

Mageuzi ya sehemu isiyo na mipaka: Badilisha vipimo vya sehemu kwa makusudi; kagua athari za utendaji.

Usanidi wa injini ya mara moja: Pangilia usanidi wa Spark/Trino/Flink kwa Iceberg ili kuepuka tabia ya kushangaza.

Moja kwa Moja: Mtiririko wa Kazi wa Kawaida

Kuunda Jedwali la Iceberg (Spark SQL)

CREATE TABLE catalog.db.events (
event_id BIGINT,
user_id BIGINT,
ts TIMESTAMP,
payload STRING
)
USING iceberg
PARTITIONED BY (days(ts));

Soma Usafiri wa Wakati

-- Uliza kama ya timestamp maalum ya picha
SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';

Mageuzi ya Mpangilio

ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;

Kuboresha Faili Ndogo (Spark)

CALL catalog.system.rewrite_data_files(
table => 'db.events',
strategy => 'binpack',
target_file_size => 134217728
);

Watumiaji Wanasema Nini

Saraka za programu za umma zinaelezea mara kwa mara Apache Iceberg kama fomati ya jedwali ambayo huleta uaminifu kama wa SQL kwa data kubwa na majedwali makubwa ya uchanganuzi, ikisisitiza uendeshaji wa ACID na utendaji wa juu kwenye hifadhi ya kitu. Ingawa orodha zingine za programu za biashara zinaweza kutaja bidhaa zinazofanana ambazo hazihusiani na fomati ya jedwali la chanzo huria, hakikisha unatathmini "Apache Iceberg" haswa kwa matumizi ya uhandisi wa data.

Iceberg Inafaa Wapi Kwenye Stack ya Kisasa

Hifadhi: S3, ADLS, GCS, HDFS

Injini: Spark (bechi/ETL/ML), Flink (utiririshaji/CDC), Trino/Presto (SQL ya ad hoc), Snowflake (majedwali ya nje na usaidizi unaokua), na zaidi

Uratibu: Airflow, Dagster, Prefect

Orodha/Metastore: AWS Glue, Hive Metastore, orodha za REST

Utawala: LakeFS, Ranger, sifa za jedwali zilizojengwa ndani + sera za uhifadhi

Kitabu cha Uhamiaji (Hatua za Kivitendo)

Orodhesha majedwali kwa ukubwa, SLA, na mifumo ya maswali.

Anza na majedwali yasiyo muhimu, yenye maumivu makali (maswali ya polepole, mpangilio usio thabiti).

Unda sawa za Iceberg; uandishi mara mbili au ujazaji nyuma na picha zilizothibitishwa.

Thibitisha na mizigo ya kazi inayowakilisha katika injini.

Kata watumiaji na uondoe njia za urithi.

Boresha kubana na muda wa picha kuanzia siku ya kwanza.

Gharama na Mambo ya Kuzingatia ya ROI

Akiba ya kompyuta kutoka kwa I/O ndogo na upangaji wa haraka.

Kupungua kwa muda wa kutokuwa na kazi kutoka kwa usalama wa miamala.

Jitihada ndogo za uendeshaji dhidi ya kusimamia sehemu za ad hoc Parquet + Hive.

Unyumbufu wa kubadili injini bila kuunda upya data.

ROI kwa kawaida huboreka na ukubwa wa jedwali na kiwango cha timu. Kadiri unavyoendesha injini na njia za bomba nyingi, ndivyo viwango vya Iceberg vinavyolipa zaidi.

Usalama na Uzingatiaji

Iceberg yenyewe inazingatia fomati ya jedwali na metadata; jumuisha na IAM ya safu ya hifadhi, usimbaji fiche, na udhibiti wa mzunguko. Kwa utawala wa data, unganisha na orodha na injini za sera, na utumie ukaguzi wa picha/usafiri wa wakati kuchunguza mabadiliko. Tekeleza usalama wa kiwango cha safu au nguzo kwenye safu ya injini inapohitajika.

Je, Apache Iceberg Inafaa Kwako?

Chagua Iceberg ikiwa:

Unahitaji ACID kwenye hifadhi ya kitu na usaidizi wa injini nyingi.

Unatarajia mabadiliko ya mara kwa mara ya mpangilio na sehemu.

Endesha mizigo ya kazi tofauti (bechi + utiririshaji + SQL ya ad hoc).

Unataka usafiri wa wakati, uzalishaji, na kurudisha nyuma kwa kuaminika.

Fikiria njia mbadala ikiwa:

Umeingia kikamilifu kwa muuzaji mmoja ambaye tayari hutoa fomati ya nyumba ya ziwa iliyosimamiwa.

Una hifadhi ndogo za data au ripoti rahisi ambapo fomati za jedwali huongeza thamani kidogo.

Inafaa Kuzingatia: Kuharakisha Maudhui na Nyaraka

Ikiwa unaandika uhamiaji, ukiunda vitabu vya ndani vya kukimbia, au ukifupisha chaguo za jukwaa kwa wadau, msaidizi wa AI ambaye anaweza kuunganisha noti za mikutano, vipande vya msimbo, na hati za muuzaji anaweza kuwa mkombozi wa wakati. Kwa njia, Sider.AI inatoa upau wa kando wa AI na zana za maudhui ambazo husaidia timu kufupisha hati ngumu za kiufundi, kutoa miongozo ya jinsi ya kufanya, na kutoa rasimu za ukaguzi haraka—muhimu unapoweka viwango kwenye Iceberg na unahitaji hati wazi za ndani kwa watumiaji wa data. Haibadilishi maamuzi yako ya usanifu, lakini inaweza kufupisha muda kutoka kwa utafiti hadi hati zinazoweza kuchapishwa.

Uamuzi wa Mwisho: Mapitio Yetu ya ICEBERG

Apache Iceberg sio tu fomati mpya ya faili—ni safu ya utawala na utendaji ambayo hufanya maziwa ya data yafanye kazi kama hifadhidata za kuaminika huku yakiwa wazi na yasiyoegemea upande wa injini. Kwa timu nyingi za data za ukubwa wa kati hadi kubwa, Iceberg hutoa usawa sahihi wa usalama wa ACID, mageuzi ya mpangilio/sehemu, na utumiaji mwingi wa injini. Tarajia mkondo wa kujifunza wa uendeshaji, lakini malipo ya muda mrefu—katika kasi, uthabiti, na unyumbufu—yanavutia.

Mambo Muhimu ya Kuchukua

Iceberg huwasilisha ACID, usafiri wa wakati, na upangaji wa haraka juu ya hifadhi ya kitu cha wingu.

Ugawaji fiche na mageuzi ya mpangilio wa msingi wa kitambulisho cha nguzo hupunguza kuvunjika.

Usaidizi thabiti wa mfumo wa ikolojia katika Spark, Flink, Trino, na zaidi.

Panga kubana na usafi wa metadata kuanzia siku ya kwanza.

Inafaa zaidi kwa timu zinazoendesha mizigo ya kazi tofauti, kubwa za uchanganuzi.

Hatua Zinazofuata

Jaribu Iceberg kwenye jedwali lenye athari kubwa lakini lisilo muhimu.

Weka viwango vya matoleo ya injini na usanidi kazi za kubana/uhifadhi.

Hati za mikataba ya mageuzi ya mpangilio/sehemu.

Tathmini faida za utendaji na akiba ya kompyuta baada ya uhamiaji.

Maswali Yanayoulizwa Mara Kwa Mara

Q1: Apache Iceberg ni nini na kwa nini inatumiwa katika maziwa ya data? Apache Iceberg ni fomati ya jedwali ambayo huleta miamala ya ACID, usafiri wa wakati, na metadata yenye ufanisi kwenye hifadhi ya kitu. Inatumika kufanya uchanganuzi mkubwa uwe wa kuaminika na usioegemea upande wa injini katika Spark, Flink, Trino, na zaidi.

Q2: Iceberg inalinganishwaje na Delta Lake na Apache Hudi? Iceberg inasisitiza kutokuwa na upande wowote wa injini, mageuzi ya mpangilio kupitia vitambulisho vya nguzo, na upangaji wenye ufanisi. Delta mara nyingi huangaza katika rafu za Databricks, wakati Hudi ni maarufu kwa visasisho vya utiririshaji na mizigo ya kazi nzito ya CDC.

Q3: Je, Apache Iceberg inasaidia mageuzi ya mpangilio na sehemu? Ndiyo. Iceberg inaruhusu kuongeza, kubadilisha jina, na kupanga upya nguzo kwa kutumia vitambulisho thabiti, na unaweza kubadilisha vipimo vya sehemu bila kuvunja maswali yaliyopo au kuandika upya data ya zamani.

Q4: Je, ninaweza kutumia Iceberg na injini nyingi za maswali? Ndiyo. Iceberg inasaidia Spark, Flink, Trino/Presto, na injini zingine, kuwezesha seti moja ya majedwali kuhudumia bechi ETL, utiririshaji, na SQL ya ad hoc bila kurudia.

Q5: Je, ni mbinu bora za uendeshaji kwa majedwali ya Iceberg? Boresha kubana ili kuepuka faili ndogo, tumia picha za zamani kuendesha ukuaji wa metadata, fuatilia ukubwa wa udhihirisho, na uweke viwango vya matoleo ya injini kwa usaidizi thabiti wa vipengele.