What is Apache Iceberg and why is it used in data lakes?

Apache Iceberg is a table format that brings ACID transactions, time travel, and efficient metadata to object storage. It’s used to make large-scale analytics reliable and engine-agnostic across Spark, Flink, Trino, and more.

How does Iceberg compare to Delta Lake and Apache Hudi?

Iceberg emphasizes engine neutrality, schema evolution via column IDs, and efficient planning. Delta often shines in Databricks-centric stacks, while Hudi is popular for streaming upserts and CDC-heavy workloads.

Does Apache Iceberg support schema and partition evolution?

Yes. Iceberg allows adding, renaming, and reordering columns using stable IDs, and you can evolve partition specs without breaking existing queries or rewriting old data.

Can I use Iceberg with multiple query engines?

Yes. Iceberg supports Spark, Flink, Trino/Presto, and other engines, enabling a single set of tables to serve batch ETL, streaming, and ad hoc SQL without duplication.

What are the operational best practices for Iceberg tables?

Automate compaction to avoid small files, expire old snapshots to manage metadata growth, monitor manifest sizes, and standardize engine versions for consistent feature support.

Vai Apache Iceberg ir datu ezeru nākotne? Padziļināts ICEBERG apskats

Ja jūsu datu ezers vairāk atgādina datu dzīvsudrabu — lēni vaicājumi, nekārtīga shēmu attīstība, nekonsekventi nodalījumi —, jūs neesat viens. Pēdējo gadu laikā viena tehnoloģija ir klusi kļuvusi par uzticamas, liela mēroga analītikas pamatu: Apache Iceberg. Šajā ICEBERG apskatā mēs izpētīsim, kas to atšķir no mantotajiem tabulu formātiem, kam to vajadzētu ieviest un kā tas darbojas reālās pasaules cauruļvados.

Šis ir praktisks, uz risinājumiem orientēts dziļš ieskats ar praktiskiem piemēriem, kompromisiem un pircēja stila norādījumiem komandām, kas izvērtē pāreju uz Iceberg.

Kas ir Apache Iceberg — un kāpēc tieši tagad?

Apache Iceberg ir augstas veiktspējas tabulas formāts, kas paredzēts milzīgām analītisko datu kopām. Tas ienes SQL tabulu uzticamību un vienkāršību plašajā, shēmu plūstošajā datu ezeru pasaulē. Īsāk sakot: Iceberg pārveido jūsu objektu krātuvi (S3, ADLS, GCS, HDFS) par ACID prasībām atbilstošām tabulām, kuras varat droši mutēt, vaicāt un pārvaldīt mērogā. Vairāki avoti to apraksta kā mērķtiecīgi veidotu lielai analītikai ar tādām funkcijām kā shēmu attīstība, nodalījumu specifikāciju izmaiņas, momentuzņēmumi un vairāku dzinēju savstarpēja izmantojamība.

Kāpēc tieši tagad? Jo datu inženierijas komandām ir nepieciešams:

Uzticamas ACID operācijas mākoņa objektu krātuvē.

Dzinēju neatkarīgas tabulas, kas izmantojamas no Spark, Flink, Trino/Presto, Snowflake un citiem.

Ātrāki un lētāki vaicājumi, izmantojot viedākus metadatus, manifestu sarakstus un slēpto sadalīšanu.

Droša shēmu un nodalījumu attīstība, nepārrakstot visu.

Spriedums

Mūsdienīgām analītikas platformām Apache Iceberg ir vadošā izvēle, lai standartizētu tabulas starp dzinējiem un mākoņiem ar spēcīgām ACID garantijām.

Tas pārspēj mantoto DIY nodalīšanu un vienkāršus Parquet izkārtojumus uzticamības un pārvaldāmības ziņā.

Lai gan migrācijas un pārvaldības plānošana nav triviāla, Iceberg momentuzņēmumu izolācija, metadatu izkārtojums un dzinēju integrācija padara to par ilgtermiņa ieguvumu lielākajai daļai datu komandu.

Īss ieskats par Iceberg: galvenās iespējas

ACID transakcijas objektu krātuvē

Momentuzņēmumu izolācija un laika ceļojumu lasījumi

Slēpta sadalīšana (lietotājiem netiek nopludinātas nodalījumu kolonnas)

Elastīga shēmu attīstība (pievienot, pārdēvēt, pārkārtot ar ID bāzes kolonnām)

Attīstošas nodalījumu specifikācijas, nepārrakstot vēsturi

Vairāku dzinēju savstarpēja izmantojamība (Spark, Flink, Trino/Presto un citi)

Uz metadatiem balstīta plānošana liela mēroga veiktspējai

Tie nav tikai mārketinga apgalvojumi; Iceberg arhitektūra — tabulas, momentuzņēmumi, manifesti, manifestu saraksti un metadatu faili — sistemātiski samazina failu saraksta izmaksas un padara plānošanu ļoti efektīvu petabaitu mērogā.

Kam paredzēts šis ICEBERG apskats

Datu inženierijas vadītājiem, kas izstrādā vairāku dzinēju ezeru māju.

Platformu komandām, kas konsolidē Spark/Trino/Flink vienotā tabulu formātā.

Analītikas organizācijām, kas sasniedz ierobežojumus ar Hive stila sadalīšanu vai ad hoc Parquet.

Komandām, kurām nepieciešams laika ceļojums, atcelšana vai reproducējami eksperimenti.

Lielās problēmas, ko Iceberg atrisina

1) Mutācijas drošība objektu krātuvē

Mantotajiem datu ezeriem ir grūtības ar vienlaicīgiem ierakstiem un daļējiem kļūmēm. Iceberg izmanto atomiskās saistību semantiku — izmantojot momentuzņēmumu manifestus —, lai nodrošinātu transakciju konsekvenci pat milzīgā mērogā. Varat rakstīt, veikt kompaktēšanu un atjaunināt ar pārliecību, nevis pieskatīt S3 sarakstus.

2) Shēmu attīstība bez murgiem

Iceberg shēmu attīstībai izmanto stabilus kolonnu ID, nevis tikai nosaukumus. Tas nozīmē, ka varat pārdēvēt vai pārkārtot kolonnas, nesabojājot vecākus datus. Tas ir kluss lielvaras spēks ilgstošām datu kopām, kur shēmu dreifs ir neizbēgams.

3) Sadalīšana, kas nenoplūst

Slēpta sadalīšana nozīmē, ka lietotājiem nav jāzina vai jāuztraucas par to, kā dati ir sadalīti. Varat attīstīt nodalījumu specifikācijas laika gaitā (piemēram, diena → stunda), kamēr vaicājumi paliek konsekventi. Vairs nav salauztu SQL partition kolonnu dēļ.

4) Efektīva plānošana mērogā

Izmantojot manifestu failus un metadatu kokus, Iceberg izvairās no dārgām failu saraksta operācijām, kas sagrauj vaicājumu plānotājus petabaitu mērogā. Dzinēji vispirms nolasa kompaktus metadatus, nevis miljoniem failu ceļu.

Reālās pasaules izmantošanas gadījumi

Vienots analītikas slānis: saglabājiet atlasītus faktus un dimensijas kā Iceberg tabulas, ko var lasīt Spark ETL, Trino ad hoc SQL un Flink straumēšanas upsertiem.

Mašīnmācīšanās funkciju krātuves: laika ceļojumi nodrošina reproducējamus apmācības komplektus; shēmu izmaiņas neiznīcina vēsturiskās funkcijas.

Pārvaldība un atcelšana: momentuzņēmumi ļauj atcelt nejaušus rakstīšanas gadījumus un atbalstīt datu saglabāšanas politikas ar mazāku risku.

Straumēšanas + pakešapstrādes konverģence: Upserti un MERGE modeļi kļūst stabili, nodrošinot CDC cauruļvadus mērogā.

Arhitektūra: kā Iceberg organizē jūsu ezeru

Tabulas metadatu fails: "patiesība" par tabulu — shēma, nodalījumu specifikācija, momentuzņēmumi.

Momentuzņēmumi: nemainīgas tabulas stāvokļa versijas, kas nodrošina laika ceļojumus un atcelšanu.

Manifestu saraksti: indekss, kuri manifesti pieder momentuzņēmumam.

Manifesti: datu failu saraksti ar nodalījumu statistiku un kolonnu līmeņa metriku.

Datu faili: parasti Parquet (arī ORC/Avro), kas tiek glabāti objektu krātuvē.

Šī slāņveida metadatu pieeja ļauj ātri atklāt un apgriezt, samazinot plānošanas latentumu lielām tabulām.

Veiktspēja: ko sagaidīt

Ātrāka plānošana: ievērojams vaicājumu plānošanas izmaksu samazinājums, pateicoties metadatu apgriešanai un manifestiem.

Labāka apgriešana: nodalījumu attīstība un kolonnu statistika nodrošina mazāku I/O.

Stabila vienlaicīgums: momentuzņēmumu izolācija neļauj lasītājiem redzēt daļējus ierakstus.

Izmaksu kontrole: mazāka bezjēdzīga sarakstēšana un skenēšana samazina skaitļošanas rēķinus.

Faktiskie rezultāti ir atkarīgi no dzinēja, failu lieluma, kompaktēšanas politikas un darba slodzes, taču Iceberg dizains tieši mērķē uz sāpju punktiem, kas izraisa lēnus, dārgus vaicājumus tradicionālajos datu ezeros.

Izstrādātāja pieredze: no 1. dienas līdz 100. dienai

1. dienas iestatīšana: izveidojiet Iceberg katalogu (glue/hive/rest), definējiet tabulas un norādiet uz to Spark/Trino/Flink. Lielākā daļa dzinēju piegādā vietējos Iceberg savienotājus vai nobriedušas integrācijas.

Shēmu un nodalījumu attīstība: mainiet specifikācijas, izmantojot DDL; Iceberg izseko versijas, lai vēsturiskie lasījumi paliktu derīgi.

Kompaktēšana un uzturēšana: plānojiet periodisku kompaktēšanu, lai pārvaldītu mazus failus; izmantojiet dzinēja vietējās procedūras vai pielāgotus darbus.

Datu operāciju higiēna: uzraugiet momentuzņēmumu skaitu, manifestu pieaugumu un veiciet metadatu derīguma termiņa beigas, lai saglabātu veiktspēju.

Kā Iceberg salīdzina

Salīdzinot ar vienkāršu Parquet S3: Iceberg pievieno ACID, konsekventus momentuzņēmumus un optimizētus metadatus, novēršot nepastāvīgu saraksti un shēmu dreifu.

Salīdzinot ar Hive tabulām: Iceberg slēptā sadalīšana un momentuzņēmumu izolācija pārspēj Hive trauslās nodalījumu kolonnas un transakciju drošības trūkumu.

Salīdzinot ar citiem ezeru māju formātiem: Iceberg konkurē ar Delta Lake un Apache Hudi. Iceberg stiprās puses ir vairāku dzinēju neitralitāte, uz kolonnu ID balstīta shēmu attīstība un plaša kopienas adopcija visos dzinējos. Delta spīd Databricks centrētajos steks; Hudi ir populārs straumēšanas upsertiem. Izvēlieties, pamatojoties uz dzinēja preferencēm, mutācijas modeļiem un ekosistēmas saskaņošanu.

Trūkumi un kompromisi

Operacionālā mācību līkne: jums būs jāpārvalda kompaktēšana, momentuzņēmumu saglabāšana un metadatu tīrīšana.

Migrācijas izmaksas: pāreja no Hive vai raw Parquet prasa rūpīgu plānošanu un dažreiz smagus pārrakstus.

Dzinēja/versijas novirze: funkciju atbalsts var atšķirties atkarībā no dzinēja un versijas; standartizējiet pārbaudītas kombinācijas.

Metadatu izplešanās: bez pārvaldības manifesti un momentuzņēmumi var ātri pieaugt.

Bieži sastopami anti-modeļi, no kuriem jāizvairās

Kompaktēšanas ignorēšana: mazi faili nogalina veiktspēju. Automatizējiet kompaktēšanu.

Pārāk bieži momentuzņēmumi: kontrolējiet momentuzņēmumu skaitu, izmantojot derīguma termiņa beigu politikas.

Neierobežota nodalījumu attīstība: apzināti mainiet nodalījumu specifikācijas; auditējiet ietekmi uz veiktspēju.

Vienreizēji dzinēju konfigurācijas: saskaņojiet Spark/Trino/Flink konfigurācijas Iceberg, lai izvairītos no pārsteidzošas uzvedības.

Praktiski: tipiskas darbplūsmas

Iceberg tabulas izveide (Spark SQL)

CREATE TABLE catalog.db.events (
event_id BIGINT,
user_id BIGINT,
ts TIMESTAMP,
payload STRING
)
USING iceberg
PARTITIONED BY (days(ts));

Laika ceļojumu lasīšana

-- Vaicājums, ņemot vērā konkrētu momentuzņēmuma laika zīmogu
SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';

Shēmu attīstība

ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;

Mazu failu optimizācija (Spark)

CALL catalog.system.rewrite_data_files(
table => 'db.events',
strategy => 'binpack',
target_file_size => 134217728
);

Ko saka lietotāji

Publiskie programmatūras katalogi konsekventi apraksta Apache Iceberg kā tabulu formātu, kas nodrošina SQL līdzīgu uzticamību lieliem datiem un lielām analītiskām tabulām, uzsverot ACID operācijas un augstu veiktspēju objektu krātuvē. Lai gan daži biznesa programmatūras saraksti var minēt līdzīgi nosauktus produktus, kas nav saistīti ar atvērtā koda tabulu formātu, pārliecinieties, vai novērtējat "Apache Iceberg" tieši datu inženierijas izmantošanas gadījumiem.

Kur Iceberg iederas mūsdienu stekā

Krātuve: S3, ADLS, GCS, HDFS

Dzinēji: Spark (pakešapstrāde/ETL/ML), Flink (straumēšana/CDC), Trino/Presto (ad hoc SQL), Snowflake (ārējās tabulas ar pieaugošu atbalstu) un citi

Orķestrēšana: Airflow, Dagster, Prefect

Katalogs/Metakrātuve: AWS Glue, Hive Metakrātuve, REST katalogi

Pārvaldība: LakeFS, Ranger, iebūvētas tabulu īpašības + saglabāšanas politikas

Migrācijas rokasgrāmata (praktiski soļi)

Inventarizējiet tabulas pēc lieluma, SLA un vaicājumu modeļiem.

Sāciet ar nekritiskiem, ļoti sāpīgiem tabulām (lēni vaicājumi, nestabilas shēmas).

Izveidojiet Iceberg ekvivalentus; dubultrakstiet vai papildiniet ar validētiem momentuzņēmumiem.

Validējiet ar reprezentatīvām darba slodzēm visos dzinējos.

Pārceliet patērētājus un likvidējiet mantotos ceļus.

Automatizējiet kompaktēšanu un momentuzņēmumu derīguma termiņa beigas no pirmās dienas.

Izmaksu un ROI apsvērumi

Skaitļošanas ietaupījumi no mazāka I/O un ātrākas plānošanas.

Samazināts dīkstāves laiks no transakciju drošības.

Zemāka ekspluatācijas grūtība salīdzinājumā ar ad hoc Parquet + Hive nodalījumu pārvaldību.

Elastība pārslēgt dzinējus, nepārformatējot datus.

ROI parasti uzlabojas līdz ar tabulas lielumu un komandas mērogu. Jo vairāk dzinēju un cauruļvadu jūs izmantojat, jo vairāk atmaksājas Iceberg standartizācija.

Drošība un atbilstība

Iceberg pats par sevi koncentrējas uz tabulu formātu un metadatiem; integrējiet ar krātuves slāņa IAM, šifrēšanu un perimetra kontrolēm. Datu pārvaldībai savienojiet pārī ar katalogiem un politikas dzinējiem un izmantojiet momentuzņēmumu/laika ceļojumu auditēšanu, lai izmeklētu izmaiņas. Pēc vajadzības ieviesiet rindu vai kolonnu līmeņa drošību dzinēja slānī.

Vai Apache Iceberg ir piemērots jums?

Izvēlieties Iceberg, ja:

Nepieciešams ACID objektu krātuvē ar vairāku dzinēju atbalstu.

Paredziet biežas shēmu un nodalījumu izmaiņas.

Izmantojiet dažādas darba slodzes (pakešapstrāde + straumēšana + ad hoc SQL).

Vēlaties laika ceļojumus, reproducējamību un uzticamas atcelšanas.

Apsveriet alternatīvas, ja:

Esat pilnībā iesaistīts vienā piegādātājā, kas jau nodrošina pārvaldītu ezeru mājas formātu.

Jums ir sīkas datu kopas vai vienkārši ziņojumi, kur tabulu formātiem ir maza vērtība.

Vērts atzīmēt: satura un dokumentācijas paātrināšana

Ja dokumentējat migrācijas, veidojat iekšējas rokasgrāmatas vai apkopojat platformas izvēles iespējas ieinteresētajām personām, AI asistents, kas var apkopot sapulču piezīmes, koda fragmentus un piegādātāju dokumentus, var ietaupīt laiku. Starp citu, Sider.AI piedāvā AI sānu joslu un satura rīkus, kas palīdz komandām apkopot sarežģītus tehniskos dokumentus, ģenerēt pamācības un ātrāk sagatavot pārskatu melnrakstus — tas ir noderīgi, ja standartizējat Iceberg un datu patērētājiem ir nepieciešama skaidra iekšējā dokumentācija. Tas neaizstās jūsu arhitektūras lēmumus, bet var saīsināt laiku no izpētes līdz publicējamiem dokumentiem.

Noslēguma vārds: mūsu ICEBERG apskats

Apache Iceberg nav tikai jauns failu formāts — tas ir pārvaldības un veiktspējas slānis, kas liek datu ezeriem darboties kā uzticamām datu bāzēm, vienlaikus saglabājot atvērtību un dzinēju neatkarību. Lielākajai daļai vidēju un lielu datu komandu Iceberg nodrošina pareizu ACID drošības, shēmu/nodalījumu attīstības un dzinēju izmantojamības līdzsvaru. Sagaidiet operacionālu mācību līkni, taču ilgtermiņa ieguvums — ātrums, stabilitāte un elastība — ir pārliecinošs.

Galvenie secinājumi

Iceberg nodrošina ACID, laika ceļojumus un ātru plānošanu mākoņa objektu krātuvē.

Slēpta sadalīšana un uz kolonnu ID balstīta shēmu attīstība samazina bojājumus.

Spēcīgs ekosistēmas atbalsts visos Spark, Flink, Trino un citos.

Plānojiet kompaktēšanu un metadatu higiēnu no pirmās dienas.

Vislabāk piemērots komandām, kas izmanto dažādas, liela mēroga analītikas darba slodzes.

Nākamie soļi

Pilotējiet Iceberg tabulā, kas ir ļoti ietekmīga, bet nav kritiska.

Standartizējiet dzinēju versijas un konfigurējiet kompaktēšanas/saglabāšanas darbus.

Dokumentējiet konvencijas shēmu/nodalījumu attīstībai.

Novērtējiet veiktspējas pieaugumu un skaitļošanas ietaupījumus pēc migrācijas.

BUJ

Q1: Kas ir Apache Iceberg un kāpēc to izmanto datu ezeros? Apache Iceberg ir tabulu formāts, kas nodrošina ACID transakcijas, laika ceļojumus un efektīvus metadatus objektu krātuvē. To izmanto, lai padarītu liela mēroga analītiku uzticamu un dzinēju neatkarīgu visos Spark, Flink, Trino un citos.

Q2: Kā Iceberg salīdzina ar Delta Lake un Apache Hudi? Iceberg uzsver dzinēja neitralitāti, shēmu attīstību, izmantojot kolonnu ID, un efektīvu plānošanu. Delta bieži spīd Databricks centrētajos steks, savukārt Hudi ir populārs straumēšanas upsertiem un CDC smagām darba slodzēm.

Q3: Vai Apache Iceberg atbalsta shēmu un nodalījumu attīstību? Jā. Iceberg ļauj pievienot, pārdēvēt un pārkārtot kolonnas, izmantojot stabilus ID, un jūs varat attīstīt nodalījumu specifikācijas, nesalaužot esošos vaicājumus vai nepārrakstot vecos datus.

Q4: Vai es varu izmantot Iceberg ar vairākiem vaicājumu dzinējiem? Jā. Iceberg atbalsta Spark, Flink, Trino/Presto un citus dzinējus, nodrošinot vienu tabulu kopumu, lai apkalpotu pakešapstrādes ETL, straumēšanu un ad hoc SQL bez dublēšanas.

Q5: Kāda ir Iceberg tabulu darbības labākā prakse? Automatizējiet kompaktēšanu, lai izvairītos no maziem failiem, beidziet vecu momentuzņēmumu derīguma termiņu, lai pārvaldītu metadatu pieaugumu, uzraugiet manifestu izmērus un standartizējiet dzinēju versijas konsekventam funkciju atbalstam.