What is Apache Iceberg and why is it used in data lakes?

Apache Iceberg is a table format that brings ACID transactions, time travel, and efficient metadata to object storage. It’s used to make large-scale analytics reliable and engine-agnostic across Spark, Flink, Trino, and more.

How does Iceberg compare to Delta Lake and Apache Hudi?

Iceberg emphasizes engine neutrality, schema evolution via column IDs, and efficient planning. Delta often shines in Databricks-centric stacks, while Hudi is popular for streaming upserts and CDC-heavy workloads.

Does Apache Iceberg support schema and partition evolution?

Yes. Iceberg allows adding, renaming, and reordering columns using stable IDs, and you can evolve partition specs without breaking existing queries or rewriting old data.

Can I use Iceberg with multiple query engines?

Yes. Iceberg supports Spark, Flink, Trino/Presto, and other engines, enabling a single set of tables to serve batch ETL, streaming, and ad hoc SQL without duplication.

What are the operational best practices for Iceberg tables?

Automate compaction to avoid small files, expire old snapshots to manage metadata growth, monitor manifest sizes, and standardize engine versions for consistent feature support.

Je Apache Iceberg prihodnost podatkovnih jezer? Poglobljen pregled ICEBERG

Če se vam zdi vaše podatkovno jezero bolj kot živo blato - počasne poizvedbe, neurejeno spreminjanje sheme, nedosledne particije - niste edini. V zadnjih nekaj letih je ena tehnologija tiho postala hrbtenica zanesljive analitike v velikem obsegu: Apache Iceberg. V tem pregledu ICEBERG bomo razložili, kaj ga razlikuje od obstoječih formatov tabel, kdo bi ga moral sprejeti in kako se obnese v resničnih podatkovnih cevovodih.

To je praktičen, na rešitve usmerjen poglobljen vpogled s praktičnimi primeri, kompromisi in vodnikom v stilu kupca za ekipe, ki ocenjujejo prehod na Iceberg.

Kaj je Apache Iceberg - in zakaj zdaj?

Apache Iceberg je visoko zmogljiv format tabele, zasnovan za ogromne analitične nize podatkov. V razsežen svet podatkovnih jezer, kjer se sheme hitro spreminjajo, prinaša zanesljivost in preprostost tabel SQL. Skratka: Iceberg spremeni vašo shrambo objektov (S3, ADLS, GCS, HDFS) v tabele, skladne z ACID, ki jih lahko varno spreminjate, poizvedujete in upravljate v velikem obsegu. Številni viri ga opisujejo kot namensko zgrajen za obsežno analitiko s funkcijami, kot so spreminjanje sheme, spremembe specifikacije particij, zajemanje posnetkov in interoperabilnost z več pogoni.

Zakaj zdaj? Ker ekipe za podatkovno inženirstvo potrebujejo:

Zanesljive operacije ACID v shrambi objektov v oblaku.

Tabele, neodvisne od pogona, ki jih je mogoče uporabljati iz Spark, Flink, Trino/Presto, Snowflake in drugih.

Hitrejše in cenejše poizvedbe prek pametnejših metapodatkov, seznamov manifestov in skritega particioniranja.

Varno spreminjanje shem in particij brez prepisovanja vsega.

Sodba

Za sodobne analitične platforme je Apache Iceberg vodilna izbira za standardizacijo tabel v različnih pogonih in oblakih z robustnimi jamstvi ACID.

Prekaša obstoječe particioniranje »naredi sam« in navadne postavitve Parquet v zanesljivosti in obvladljivosti.

Čeprav načrtovanje migracije in upravljanja ni trivialno, sta Icebergova izolacija posnetkov, postavitev metapodatkov in integracija pogonov dolgoročno koristni za večino podatkovnih skupin.

Iceberg na kratko: Ključne zmogljivosti

Transakcije ACID v shrambi objektov

Izolacija posnetkov in branje s potovanjem skozi čas

Skrito particioniranje (uporabnikom ne razkriva stolpcev particij)

Prilagodljivo spreminjanje sheme (dodajanje, preimenovanje, preurejanje s stolpci na osnovi ID-jev)

Razvijajoče se specifikacije particij brez prepisovanja zgodovine

Interoperabilnost z več pogoni (Spark, Flink, Trino/Presto in drugi)

Na metapodatkih temelječe načrtovanje za obsežno zmogljivost

To niso samo trženjske trditve; Icebergova arhitektura - tabele, posnetki, manifesti, seznami manifestov in datoteke metapodatkov - sistematično zmanjšuje režijske stroške seznama datotek in omogoča zelo učinkovito načrtovanje v petabajtni lestvici.

Komu je namenjen ta pregled ICEBERG

Vodje podatkovnega inženiringa, ki načrtujejo podatkovno jezero z več pogoni.

Platformne ekipe, ki združujejo Spark/Trino/Flink v en sam format tabele.

Analitične organizacije, ki dosegajo omejitve s particioniranjem v slogu Hive ali ad hoc Parquet.

Ekipe, ki potrebujejo potovanje skozi čas, povračilo ali ponovljive poskuse.

Veliki problemi, ki jih Iceberg rešuje

1) Varnost spreminjanja v shrambi objektov

Obstoječa podatkovna jezera se spopadajo s sočasnimi zapisi in delnimi napakami. Iceberg uporablja semantiko atomičnega potrditve - prek manifestov posnetkov - da zagotovi transakcijsko doslednost tudi v ogromnem obsegu. Lahko pišete, strnjujete in posodabljate z zaupanjem, namesto da bi varovali sezname S3.

2) Spreminjanje sheme brez nočnih mor

Iceberg za spreminjanje sheme uporablja stabilne ID-je stolpcev, ne samo imena. To pomeni, da lahko preimenujete ali preuredite stolpce, ne da bi poškodovali starejše podatke. To je tiha supermoč za dolgotrajne nize podatkov, kjer je odstopanje sheme neizogibno.

3) Particioniranje, ki ne pušča

Skrito particioniranje pomeni, da uporabnikom ni treba vedeti ali jih skrbeti, kako so podatki particionirani. Sčasoma lahko spreminjate specifikacije particij (npr. dan → ura), medtem ko poizvedbe ostanejo dosledne. Nič več pokvarjene kode SQL zaradi stolpcev particij.

4) Učinkovito načrtovanje v velikem obsegu

Z datotekami manifestov in drevesi metapodatkov se Iceberg izogiba dragim operacijam seznama datotek, ki uničijo načrtovalce poizvedb v petabajtni lestvici. Pogni najprej preberejo kompaktne metapodatke, ne milijone poti do datotek.

Primeri uporabe v resničnem svetu

Enotna analitična plast: shranjujte urejena dejstva in dimenzije kot tabele Iceberg, ki jih lahko bere Spark za ETL, Trino za ad hoc SQL in Flink za pretočne posodobitve.

Shrambe funkcij strojnega učenja: potovanje skozi čas omogoča ponovljive nize za usposabljanje; spremembe sheme ne uničijo zgodovinskih funkcij.

Upravljanje in povračilo: posnetki vam omogočajo, da povrnete nenamerne zapise in podpirate pravilnike o hrambi podatkov z manj tveganja.

Konvergenca pretakanja + paketne obdelave: vzorci Upsert in MERGE postanejo stabilni, kar omogoča podatkovne cevovode CDC v velikem obsegu.

Arhitektura: Kako Iceberg organizira vaše jezero

Datoteka z metapodatki tabele: »resnica« o tabeli - shema, specifikacija particije, posnetki.

Posnetki: Nespremenljive različice stanja tabele, ki omogočajo potovanje skozi čas in povračila.

Seznami manifestov: indeks, ki kaže, kateri manifesti pripadajo posnetku.

Manifesti: seznami podatkovnih datotek s statistiko particij in meritvami na ravni stolpca.

Podatkovne datoteke: običajno Parquet (tudi ORC/Avro), shranjene v shrambi objektov.

Ta plasten pristop k metapodatkom omogoča hitro odkrivanje in obrezovanje, kar zmanjšuje zakasnitev načrtovanja za velike tabele.

Zmogljivost: Kaj lahko pričakujete

Hitrejše načrtovanje: znatno zmanjšanje režijskih stroškov načrtovanja poizvedb zahvaljujoč obrezovanju metapodatkov in manifestom.

Boljše obrezovanje: spreminjanje particij in statistika stolpcev zmanjšujeta I/O.

Stabilna sočasnost: izolacija posnetkov preprečuje, da bi bralci videli delne zapise.

Nadzor stroškov: manj potratnega seznama in skeniranja znižuje račune za računalništvo.

Dejanski rezultati so odvisni od pogona, velikosti datotek, pravilnika o strnjevanju in obremenitve, vendar je Icebergova zasnova neposredno usmerjena v boleče točke, ki povzročajo počasne in drage poizvedbe v tradicionalnih podatkovnih jezerih.

Razvijalska izkušnja: od prvega do stotega dne

Nastavitev 1. dne: ustvarite katalog Iceberg ({glue/hive/rest}), določite tabele in usmerite Spark/Trino/Flink vanj. Večina pogonov dobavlja izvorne priključke Iceberg ali zrele integracije.

Spreminjanje sheme in particij: spremenite specifikacije prek DDL; Iceberg sledi različicam, tako da zgodovinski bralniki ostanejo veljavni.

Strnjevanje in vzdrževanje: načrtujte občasno strnjevanje za upravljanje majhnih datotek; izkoristite izvorne postopke pogona ali opravila po meri.

Higiena podatkovnih operacij: spremljajte število posnetkov, rast manifestov in izvedite potek metapodatkov, da ohranite visoko zmogljivost.

Kako se Iceberg primerja

V primerjavi z navadnim Parquetom na S3: Iceberg dodaja ACID, dosledne posnetke in optimizirane metapodatke, kar odpravlja nezanesljiv seznam in odstopanje sheme.

V primerjavi s tabelami Hive: Icebergovo skrito particioniranje in izolacija posnetkov presegata krhke stolpce particij Hive in pomanjkanje transakcijske varnosti.

V primerjavi z drugimi formati podatkovnih jezer: Iceberg konkurira Delta Lake in Apache Hudi. Icebergove prednosti so nevtralnost več pogonov, spreminjanje sheme na podlagi ID-jev stolpcev in široka uporaba v skupnosti v različnih pogonih. Delta blesti v skladih, osredotočenih na Databricks; Hudi je priljubljen za pretočne posodobitve. Izberite na podlagi preference pogona, vzorcev spreminjanja in usklajenosti ekosistema.

Slabosti in kompromisi

Operativna krivulja učenja: upravljati boste morali strnjevanje, zadrževanje posnetkov in čiščenje metapodatkov.

Stroški migracije: prehod s Hive ali surovega Parqueta zahteva skrbno načrtovanje in včasih obsežno prepisovanje.

Razlika v pogonu/različici: podpora za funkcije se lahko razlikuje glede na pogon in različico; standardizirajte preizkušene kombinacije.

Širjenje metapodatkov: brez upravljanja se lahko manifesti in posnetki hitro povečajo.

Pogosti antipatterni, ki se jim je treba izogibati

Ignoriranje strnjevanja: majhne datoteke uničijo zmogljivost. Avtomatizirajte strnjevanje.

Prepogosti posnetki: ohranite število posnetkov pod nadzorom s pravilniki o poteku.

Neomejeno spreminjanje particij: spremenite specifikacije particij premišljeno; preverite vplive na zmogljivost.

Posamezne konfiguracije pogona: uskladite konfiguracije Spark/Trino/Flink za Iceberg, da se izognete presenetljivemu vedenju.

Praktično: tipični poteki dela

Ustvarjanje tabele Iceberg (Spark SQL)

CREATE TABLE catalog.db.events (
event_id BIGINT,
user_id BIGINT,
ts TIMESTAMP,
payload STRING
)
USING iceberg
PARTITIONED BY (days(ts));

Branje s potovanjem skozi čas

-- Poizvedba od določenega časovnega žiga posnetka
SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';

Spreminjanje sheme

ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;

Optimizacija majhnih datotek (Spark)

CALL catalog.system.rewrite_data_files(
table => 'db.events',
strategy => 'binpack',
target_file_size => 134217728
);

Kaj pravijo uporabniki

Javni imeniki programske opreme dosledno opisujejo Apache Iceberg kot format tabele, ki prinaša zanesljivost, podobno SQL, velikim podatkom in velikim analitičnim tabelam, pri čemer poudarjajo operacije ACID in visoko zmogljivost v shrambi objektov. Medtem ko lahko nekateri seznami poslovne programske opreme omenjajo podobno imenovane izdelke, ki niso povezani s formatom tabele z odprto kodo, se prepričajte, da ocenjujete »Apache Iceberg« posebej za primere uporabe podatkovnega inženiringa.

Kje se Iceberg prilega sodobnemu naboru orodij

Shramba: S3, ADLS, GCS, HDFS

Pogni: Spark (paketna obdelava/ETL/ML), Flink (pretakanje/CDC), Trino/Presto (ad hoc SQL), Snowflake (zunanje tabele z naraščajočo podporo) in drugi

Orkestracija: Airflow, Dagster, Prefect

Katalog/Metashramba: AWS Glue, Hive Metastore, REST katalogi

Upravljanje: LakeFS, Ranger, vgrajene lastnosti tabele + pravilniki o zadrževanju

Navodila za migracijo (praktični koraki)

Popišite tabele po velikosti, SLA in vzorcih poizvedb.

Začnite z nekritičnimi tabelami z veliko težavami (počasne poizvedbe, nestabilne sheme).

Ustvarite enakovredne različice Iceberg; dvojni zapis ali zapolnitev s preverjenimi posnetki.

Preverite z reprezentativnimi obremenitvami v različnih pogonih.

Preklopite potrošnike in izklopite obstoječe poti.

Avtomatizirajte strnjevanje in potek posnetkov od prvega dne.

Premisleki o stroških in ROI

Prihranek pri računalništvu zaradi manj I/O in hitrejšega načrtovanja.

Zmanjšan čas izpada zaradi transakcijske varnosti.

Nižji operativni trud v primerjavi z upravljanjem ad hoc particij Parquet + Hive.

Prilagodljivost preklopa pogonov brez preoblikovanja podatkov.

ROI se običajno izboljša z velikostjo tabele in obsegom ekipe. Več pogonov in podatkovnih cevovodov kot izvajate, več se izplača Icebergova standardizacija.

Varnost in skladnost

Iceberg se osredotoča na format tabele in metapodatke; integrirajte z IAM na ravni shrambe, šifriranjem in nadzorom oboda. Za upravljanje podatkov ga povežite s katalogi in pogoni pravilnikov ter uporabite revizijo posnetkov/potovanja skozi čas za preiskovanje sprememb. Po potrebi implementirajte varnost na ravni vrstice ali stolpca na ravni pogona.

Je Apache Iceberg pravi za vas?

Izberite Iceberg, če:

Potrebujete ACID v shrambi objektov s podporo za več pogonov.

Pričakujete pogoste spremembe sheme in particij.

Izvajate različne obremenitve (paketna obdelava + pretakanje + ad hoc SQL).

Želite potovanje skozi čas, ponovljivost in zanesljive povračila.

Razmislite o alternativah, če:

Ste popolnoma predani enemu prodajalcu, ki že ponuja upravljani format podatkovnega jezera.

Imate majhne nize podatkov ali preprosta poročila, kjer formati tabel ne dodajo veliko vrednosti.

Opozorilo: pospešitev vsebine in dokumentacije

Če dokumentirate migracije, ustvarjate notranje priročnike ali povzemate izbire platforme za zainteresirane strani, je lahko pomočnik AI, ki lahko združi zapiske s sestankov, izrezke kode in dokumente prodajalca, prihranek časa. Mimogrede, Sider.AI ponuja stransko vrstico AI in orodja za vsebino, ki pomagajo ekipam povzeti kompleksne tehnične dokumente, ustvariti vodnike z navodili in hitreje izdelati osnutke za pregled - uporabno, ko standardizirate Iceberg in potrebujete jasno notranjo dokumentacijo za potrošnike podatkov. Ne bo nadomestil vaših arhitekturnih odločitev, lahko pa skrajša čas od raziskav do objavljivih dokumentov.

Končni vtis: naš pregled ICEBERG

Apache Iceberg ni samo nov format datoteke - je plast upravljanja in zmogljivosti, zaradi katere se podatkovna jezera obnašajo kot zanesljive baze podatkov, hkrati pa ostajajo odprta in neodvisna od pogona. Za večino srednje velikih do velikih podatkovnih ekip Iceberg zagotavlja pravo ravnovesje varnosti ACID, spreminjanja sheme/particij in uporabnosti v različnih pogonih. Pričakujte operativno krivuljo učenja, vendar se dolgoročna korist - v hitrosti, stabilnosti in prilagodljivosti - izplača.

Ključni zaključki

Iceberg zagotavlja ACID, potovanje skozi čas in hitro načrtovanje v shrambi objektov v oblaku.

Skrito particioniranje in spreminjanje sheme na podlagi ID-jev stolpcev zmanjšujeta okvare.

Močna podpora ekosistema v Spark, Flink, Trino in drugih.

Načrtujte strnjevanje in higieno metapodatkov od prvega dne.

Najbolj primerno za ekipe, ki izvajajo različne analitične obremenitve v velikem obsegu.

Naslednji koraki

Pilotirajte Iceberg na tabeli z velikim vplivom, vendar nekritično.

Standardizirajte različice pogona in konfigurirajte opravila strnjevanja/zadrževanja.

Dokumentirajte konvencije za spreminjanje sheme/particij.

Ocenite povečanje zmogljivosti in prihranke pri računalništvu po migraciji.

Pogosta vprašanja

V1: Kaj je Apache Iceberg in zakaj se uporablja v podatkovnih jezerih? Apache Iceberg je format tabele, ki prinaša transakcije ACID, potovanje skozi čas in učinkovite metapodatke v shrambo objektov. Uporablja se za zagotavljanje zanesljive analitike v velikem obsegu in neodvisnost od pogona v Spark, Flink, Trino in drugih.

V2: Kako se Iceberg primerja z Delta Lake in Apache Hudi? Iceberg poudarja nevtralnost pogona, spreminjanje sheme prek ID-jev stolpcev in učinkovito načrtovanje. Delta pogosto blesti v skladih, osredotočenih na Databricks, medtem ko je Hudi priljubljen za pretočne posodobitve in obremenitve, ki so močno odvisne od CDC.

V3: Ali Apache Iceberg podpira spreminjanje sheme in particij? Da. Iceberg omogoča dodajanje, preimenovanje in preurejanje stolpcev z uporabo stabilnih ID-jev, specifikacije particij pa lahko spreminjate, ne da bi prekinili obstoječe poizvedbe ali prepisovali stare podatke.

V4: Ali lahko uporabljam Iceberg z več pogoni za poizvedbe? Da. Iceberg podpira Spark, Flink, Trino/Presto in druge pogone, kar omogoča, da en sam nabor tabel služi paketni obdelavi ETL, pretakanju in ad hoc SQL brez podvajanja.

V5: Katere so najboljše operativne prakse za tabele Iceberg? Avtomatizirajte strnjevanje, da se izognete majhnim datotekam, iztecite stare posnetke, da upravljate rast metapodatkov, spremljajte velikosti manifestov in standardizirajte različice pogona za dosledno podporo funkcij.