What is Apache Iceberg and why is it used in data lakes?

Apache Iceberg is a table format that brings ACID transactions, time travel, and efficient metadata to object storage. It’s used to make large-scale analytics reliable and engine-agnostic across Spark, Flink, Trino, and more.

How does Iceberg compare to Delta Lake and Apache Hudi?

Iceberg emphasizes engine neutrality, schema evolution via column IDs, and efficient planning. Delta often shines in Databricks-centric stacks, while Hudi is popular for streaming upserts and CDC-heavy workloads.

Does Apache Iceberg support schema and partition evolution?

Yes. Iceberg allows adding, renaming, and reordering columns using stable IDs, and you can evolve partition specs without breaking existing queries or rewriting old data.

Can I use Iceberg with multiple query engines?

Yes. Iceberg supports Spark, Flink, Trino/Presto, and other engines, enabling a single set of tables to serve batch ETL, streaming, and ad hoc SQL without duplication.

What are the operational best practices for Iceberg tables?

Automate compaction to avoid small files, expire old snapshots to manage metadata growth, monitor manifest sizes, and standardize engine versions for consistent feature support.

Adakah Apache Iceberg Masa Depan Data Lake? Ulasan Mendalam ICEBERG

Jika data lake anda terasa lebih seperti pasir jerlus data—pertanyaan perlahan, evolusi skema yang bersepah, partisyen yang tidak konsisten—anda tidak keseorangan. Sejak beberapa tahun kebelakangan ini, satu teknologi secara senyap telah menjadi tulang belakang analitik berskala tinggi yang boleh dipercayai: Apache Iceberg. Dalam ulasan ICEBERG ini, kita akan membongkar apa yang menjadikannya berbeza daripada format jadual warisan, siapa yang patut menggunakannya, dan bagaimana ia berfungsi dalam saluran paip dunia sebenar.

Ini ialah penerokaan mendalam yang praktikal dan berorientasikan penyelesaian dengan contoh praktikal, pertukaran, dan panduan gaya pembeli untuk pasukan yang menilai peralihan kepada Iceberg.

Apakah Apache Iceberg—dan Mengapa Sekarang?

Apache Iceberg ialah format jadual berprestasi tinggi yang direka untuk set data analitik yang besar. Ia membawa kebolehpercayaan dan kesederhanaan jadual SQL ke dunia data lake yang luas dan fleksibel skema. Pendek kata: Iceberg mengubah storan objek anda (S3, ADLS, GCS, HDFS) menjadi jadual patuh ACID yang boleh anda ubah suai, pertanyaan dan tadbir pada skala yang besar dengan selamat. Pelbagai sumber menggambarkannya sebagai dibina khusus untuk analitik besar dengan ciri seperti evolusi skema, perubahan spesifikasi partisyen, pengambilan gambar, dan interoperabiliti berbilang enjin.

Mengapa sekarang? Kerana pasukan kejuruteraan data memerlukan:

Operasi ACID yang boleh dipercayai merentasi storan objek awan.

Jadual agnostik enjin yang boleh digunakan daripada Spark, Flink, Trino/Presto, Snowflake dan banyak lagi.

Pertanyaan yang lebih pantas dan murah melalui metadata yang lebih pintar, senarai manifest dan pempartisian tersembunyi.

Evolusi skema dan partisyen yang selamat tanpa menulis semula segala-galanya.

Keputusan

Untuk platform analitik moden, Apache Iceberg ialah pilihan utama untuk menyeragamkan jadual merentasi enjin dan awan dengan jaminan ACID yang mantap.

Ia mengatasi pempartisian DIY warisan dan reka letak Parquet biasa dari segi kebolehpercayaan dan kebolehurusan.

Walaupun perancangan migrasi dan tadbir urus tidak remeh, pengasingan syot kilat Iceberg, reka letak metadata dan penyepaduan enjin menjadikannya kemenangan jangka panjang bagi kebanyakan pasukan data.

Iceberg Sekilas Pandang: Keupayaan Utama

Transaksi ACID melalui storan objek

Pengasingan syot kilat dan bacaan perjalanan masa

Pempartisian tersembunyi (tiada lajur partisyen yang dibocorkan kepada pengguna)

Evolusi skema yang fleksibel (tambah, namakan semula, susun semula dengan lajur berasaskan ID)

Spesifikasi partisyen yang berkembang tanpa menulis semula sejarah

Interoperabiliti berbilang enjin (Spark, Flink, Trino/Presto dan banyak lagi)

Perancangan dipacu metadata untuk prestasi berskala besar

Ini bukan sekadar tuntutan pemasaran; seni bina Iceberg—jadual, syot kilat, manifest, senarai manifest dan fail metadata—secara sistematik mengurangkan overhead penyenaraian fail dan menjadikan perancangan sangat cekap pada skala petabait.

Ulasan ICEBERG Ini Adalah Untuk

Pemimpin kejuruteraan data yang mereka bentuk lakehouse berbilang enjin.

Pasukan platform menyatukan Spark/Trino/Flink pada format jadual tunggal.

Organisasi analitik mencapai had dengan pempartisian gaya Hive atau Parquet ad hoc.

Pasukan yang memerlukan perjalanan masa, pemulihan atau eksperimen yang boleh dihasilkan semula.

Masalah Besar Yang Diselesaikan oleh Iceberg

1) Keselamatan Mutasi pada Storan Objek

Data lake warisan bergelut dengan penulisan serentak dan kegagalan separa. Iceberg menggunakan semantik komit atom—melalui manifest syot kilat—untuk memastikan ketekalan transaksi walaupun pada skala yang besar. Anda boleh menulis, memampatkan dan mengemas kini dengan yakin dan bukannya menjaga penyenaraian S3.

2) Evolusi Skema Tanpa Mimpi Ngeri

Iceberg menggunakan ID lajur yang stabil, bukan sekadar nama, untuk evolusi skema. Ini bermakna anda boleh menamakan semula atau menyusun semula lajur tanpa merosakkan data yang lebih lama. Ia adalah kuasa besar senyap untuk set data yang berpanjangan di mana hanyutan skema tidak dapat dielakkan.

3) Pempartisian Yang Tidak Bocor

Pempartisian tersembunyi bermakna pengguna tidak perlu tahu atau mengambil berat tentang cara data dipartisi. Anda boleh mengembangkan spesifikasi partisyen dari semasa ke semasa (cth., hari → jam) manakala pertanyaan kekal konsisten. Tiada lagi SQL yang rosak kerana lajur partisyen.

4) Perancangan Cekap pada Skala

Dengan fail manifest dan pepohon metadata, Iceberg mengelakkan operasi penyenaraian fail yang mahal yang menghancurkan perancang pertanyaan pada skala petabait. Enjin membaca metadata padat dahulu, bukan berjuta-juta laluan fail.

Kes Penggunaan Dunia Sebenar

Lapisan analitik bersatu: Simpan fakta dan dimensi yang dipilih susun sebagai jadual Iceberg yang boleh dibaca oleh Spark untuk ETL, Trino untuk SQL ad hoc dan Flink untuk upsert penstriman.

Storan ciri pembelajaran mesin: Perjalanan masa membolehkan set latihan yang boleh dihasilkan semula; perubahan skema tidak memusnahkan ciri sejarah.

Tadbir urus dan pemulihan: Syot kilat membolehkan anda memulihkan penulisan yang tidak disengajakan dan menyokong dasar pengekalan data dengan kurang risiko.

Penumpuan penstriman + kelompok: Corak upsert dan cantum menjadi stabil, membolehkan saluran paip CDC pada skala.

Seni Bina: Cara Iceberg Menyusun Lake Anda

Fail metadata jadual: "Kebenaran" tentang jadual—skema, spesifikasi partisyen, syot kilat.

Syot kilat: Versi keadaan jadual yang tidak boleh diubah, membolehkan perjalanan masa dan pemulihan.

Senarai manifest: Indeks manifest yang tergolong dalam syot kilat.

Manifest: Senarai fail data dengan statistik partisyen dan metrik peringkat lajur.

Fail data: Biasanya Parquet (juga ORC/Avro), disimpan dalam storan objek.

Pendekatan metadata berlapis ini membolehkan penemuan dan pemangkasan pantas, mengurangkan kependaman perancangan untuk jadual besar.

Prestasi: Perkara Yang Diharapkan

Perancangan yang lebih pantas: Pengurangan ketara dalam overhead perancangan pertanyaan terima kasih kepada pemangkasan metadata dan manifest.

Pemangkasan yang lebih baik: Evolusi partisyen dan statistik lajur mendorong kurang I/O.

Keserentakan yang stabil: Pengasingan syot kilat menghalang pembaca daripada melihat penulisan separa.

Kawalan kos: Penyenaraian dan pengimbasan yang kurang membazir menurunkan bil pengiraan.

Keputusan sebenar bergantung pada enjin, saiz fail, dasar pemampatan dan beban kerja, tetapi reka bentuk Iceberg secara langsung menyasarkan titik kesakitan yang menyebabkan pertanyaan yang perlahan dan mahal dalam data lake tradisional.

Pengalaman Pembangun: Hari 1 hingga Hari 100

Persediaan Hari 1: Cipta katalog Iceberg (glue/hive/rest), takrifkan jadual dan halakan Spark/Trino/Flink kepadanya. Kebanyakan enjin menghantar penyambung Iceberg natif atau penyepaduan yang matang.

Evolusi skema dan partisyen: Tukar spesifikasi melalui DDL; Iceberg menjejaki versi supaya bacaan sejarah kekal sah.

Pemampatan dan penyelenggaraan: Rancang pemampatan berkala untuk mengurus fail kecil; memanfaatkan prosedur natif enjin atau kerja tersuai.

Kebersihan pengendalian data: Pantau kiraan syot kilat, pertumbuhan manifest dan lakukan tamat tempoh metadata untuk memastikan prestasi tajam.

Cara Iceberg Berbanding

Berbanding Parquet biasa pada S3: Iceberg menambah ACID, syot kilat yang konsisten dan metadata yang dioptimumkan, menghapuskan penyenaraian yang tidak stabil dan hanyutan skema.

Berbanding jadual Hive: Pempartisian tersembunyi Iceberg dan pengasingan syot kilat mengatasi lajur partisyen rapuh Hive dan kekurangan keselamatan transaksi.

Berbanding format lakehouse lain: Iceberg bersaing dengan Delta Lake dan Apache Hudi. Kekuatan Iceberg ialah kenetralan berbilang enjin, evolusi skema berasaskan ID lajur dan penggunaan komuniti yang meluas merentasi enjin. Delta menyerlah dalam tindanan berpusatkan Databricks; Hudi popular untuk upsert penstriman. Pilih berdasarkan keutamaan enjin, corak mutasi dan penjajaran ekosistem.

Kelemahan dan Pertukaran

Lengkung pembelajaran operasi: Anda perlu mengurus pemampatan, pengekalan syot kilat dan pembersihan metadata.

Kos migrasi: Berpindah daripada Hive atau Parquet mentah memerlukan perancangan yang teliti dan kadangkala penulisan semula yang berat.

Pencong enjin/versi: Sokongan ciri boleh berbeza mengikut enjin dan versi; menyeragamkan kombo yang diuji.

Penyebaran metadata: Tanpa tadbir urus, manifest dan syot kilat boleh berkembang dengan cepat.

Corak Anti Biasa Untuk Dielakkan

Mengabaikan pemampatan: Fail kecil membunuh prestasi. Automasikan pemampatan.

Syot kilat yang terlalu kerap: Pastikan kiraan syot kilat terkawal dengan dasar tamat tempoh.

Evolusi partisyen yang tidak terhad: Tukar spesifikasi partisyen dengan sengaja; audit impak prestasi.

Konfigurasi enjin sekali sahaja: Selaraskan konfigurasi Spark/Trino/Flink untuk Iceberg untuk mengelakkan tingkah laku yang mengejutkan.

Praktikal: Aliran Kerja Biasa

Mencipta Jadual Iceberg (Spark SQL)

CREATE TABLE catalog.db.events (
event_id BIGINT,
user_id BIGINT,
ts TIMESTAMP,
payload STRING
)
USING iceberg
PARTITIONED BY (days(ts));

Bacaan Perjalanan Masa

-- Pertanyaan mengikut cap masa syot kilat tertentu
SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';

Evolusi Skema

ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;

Mengoptimumkan Fail Kecil (Spark)

CALL catalog.system.rewrite_data_files(
table => 'db.events',
strategy => 'binpack',
target_file_size => 134217728
);

Perkara Yang Pengguna Katakan

Direktori perisian awam secara konsisten menggambarkan Apache Iceberg sebagai format jadual yang membawa kebolehpercayaan seperti SQL kepada data besar dan jadual analitik yang besar, menekankan operasi ACID dan prestasi tinggi pada storan objek. Walaupun beberapa penyenaraian perisian perniagaan mungkin menyebut produk bernama serupa yang tidak berkaitan dengan format jadual sumber terbuka, pastikan anda menilai "Apache Iceberg" secara khusus untuk kes penggunaan kejuruteraan data.

Tempat Iceberg Sesuai dalam Tindanan Moden

Storan: S3, ADLS, GCS, HDFS

Enjin: Spark (kelompok/ETL/ML), Flink (penstriman/CDC), Trino/Presto (SQL ad hoc), Snowflake (jadual luaran dengan sokongan yang semakin meningkat) dan banyak lagi

Orkestrasi: Airflow, Dagster, Prefect

Katalog/Metastore: AWS Glue, Hive Metastore, katalog REST

Tadbir urus: LakeFS, Ranger, sifat jadual terbina dalam + dasar pengekalan

Buku Permainan Migrasi (Langkah Praktikal)

Inventori jadual mengikut saiz, SLA dan corak pertanyaan.

Mulakan dengan jadual bukan kritikal dan berkesan tinggi (pertanyaan perlahan, skema tidak stabil).

Cipta persamaan Iceberg; tulis dwi atau isikan semula dengan syot kilat yang disahkan.

Sahkan dengan beban kerja perwakilan merentasi enjin.

Potong pengguna dan nyah tauliah laluan warisan.

Automasikan pemampatan dan tamat tempoh syot kilat dari hari pertama.

Pertimbangan Kos dan ROI

Penjimatan pengiraan daripada kurang I/O dan perancangan yang lebih pantas.

Pengurangan masa henti daripada keselamatan transaksi.

Tenaga kerja operasi yang lebih rendah berbanding menguruskan partisyen Parquet + Hive ad hoc.

Fleksibiliti untuk menukar enjin tanpa memformat semula data.

ROI biasanya bertambah baik dengan saiz jadual dan skala pasukan. Lebih banyak enjin dan saluran paip yang anda jalankan, lebih banyak penyeragaman Iceberg membuahkan hasil.

Keselamatan dan Pematuhan

Iceberg itu sendiri memfokuskan pada format jadual dan metadata; berintegrasi dengan IAM lapisan storan, penyulitan dan kawalan perimeter. Untuk tadbir urus data, pasangkan dengan katalog dan enjin dasar, dan gunakan audit syot kilat/perjalanan masa untuk menyiasat perubahan. Laksanakan keselamatan peringkat baris atau lajur pada lapisan enjin apabila diperlukan.

Adakah Apache Iceberg Sesuai Untuk Anda?

Pilih Iceberg jika anda:

Memerlukan ACID pada storan objek dengan sokongan berbilang enjin.

Menjangkakan perubahan skema dan partisyen yang kerap.

Menjalankan beban kerja yang pelbagai (kelompok + penstriman + SQL ad hoc).

Mahu perjalanan masa, kebolehhasilan dan pemulihan yang boleh dipercayai.

Pertimbangkan alternatif jika anda:

Semuanya menggunakan satu vendor yang sudah menyediakan format lakehouse terurus.

Mempunyai set data kecil atau laporan mudah di mana format jadual menambah sedikit nilai.

Perlu Diperhatikan: Mempercepatkan Kandungan dan Dokumentasi

Jika anda mendokumentasikan migrasi, membuat buku panduan dalaman atau meringkaskan pilihan platform untuk pihak berkepentingan, pembantu AI yang boleh mengumpulkan nota mesyuarat, coretan kod dan dokumen vendor boleh menjimatkan masa. By the way, Sider.AI menawarkan bar sisi AI dan alat kandungan yang membantu pasukan meringkaskan dokumen teknikal yang kompleks, menjana panduan cara dan menghasilkan draf ulasan dengan lebih pantas—berguna apabila anda menyeragamkan pada Iceberg dan memerlukan dokumentasi dalaman yang jelas untuk pengguna data. Ia tidak akan menggantikan keputusan seni bina anda, tetapi ia boleh memendekkan masa daripada penyelidikan kepada dokumen yang boleh diterbitkan.

Pengambilan Akhir: Ulasan ICEBERG Kami

Apache Iceberg bukan sekadar format fail baharu—ia adalah lapisan tadbir urus dan prestasi yang menjadikan data lake bertindak seperti pangkalan data yang boleh dipercayai sambil kekal terbuka dan agnostik enjin. Bagi kebanyakan pasukan data bersaiz sederhana hingga besar, Iceberg menyediakan keseimbangan yang betul bagi keselamatan ACID, evolusi skema/partisyen dan kebolehgunaan merentas enjin. Jangkakan lengkung pembelajaran operasi, tetapi ganjaran jangka panjang—dalam kelajuan, kestabilan dan fleksibiliti—adalah menarik.

Perkara Utama

Iceberg menyampaikan ACID, perjalanan masa dan perancangan pantas melalui storan objek awan.

Pempartisian tersembunyi dan evolusi skema berasaskan ID lajur mengurangkan kerosakan.

Sokongan ekosistem yang kukuh merentasi Spark, Flink, Trino dan banyak lagi.

Rancang pemampatan dan kebersihan metadata dari hari pertama.

Paling sesuai untuk pasukan yang menjalankan beban kerja analitik berskala besar yang pelbagai.

Langkah Seterusnya

Rintis Iceberg pada jadual yang berimpak tinggi tetapi tidak kritikal.

Seragamkan versi enjin dan konfigurasikan kerja pemampatan/pengekalan.

Dokumenkan konvensyen untuk evolusi skema/partisyen.

Nilaikan peningkatan prestasi dan penjimatan pengiraan selepas migrasi.

Soalan Lazim

S1: Apakah Apache Iceberg dan mengapa ia digunakan dalam data lake? Apache Iceberg ialah format jadual yang membawa transaksi ACID, perjalanan masa dan metadata yang cekap kepada storan objek. Ia digunakan untuk menjadikan analitik berskala besar boleh dipercayai dan agnostik enjin merentasi Spark, Flink, Trino dan banyak lagi.

S2: Bagaimanakah Iceberg berbanding dengan Delta Lake dan Apache Hudi? Iceberg menekankan kenetralan enjin, evolusi skema melalui ID lajur dan perancangan yang cekap. Delta selalunya menyerlah dalam tindanan berpusatkan Databricks, manakala Hudi popular untuk upsert penstriman dan beban kerja berat CDC.

S3: Adakah Apache Iceberg menyokong evolusi skema dan partisyen? Ya. Iceberg membenarkan penambahan, penamaan semula dan penyusunan semula lajur menggunakan ID yang stabil, dan anda boleh mengembangkan spesifikasi partisyen tanpa memecahkan pertanyaan sedia ada atau menulis semula data lama.

S4: Bolehkah saya menggunakan Iceberg dengan berbilang enjin pertanyaan? Ya. Iceberg menyokong Spark, Flink, Trino/Presto dan enjin lain, membolehkan satu set jadual tunggal untuk menyediakan kelompok ETL, penstriman dan SQL ad hoc tanpa penduaan.

S5: Apakah amalan terbaik operasi untuk jadual Iceberg? Automasikan pemampatan untuk mengelakkan fail kecil, tamatkan syot kilat lama untuk mengurus pertumbuhan metadata, pantau saiz manifest dan seragamkan versi enjin untuk sokongan ciri yang konsisten.

Adakah Apache Iceberg Masa Depan Data Lake? Ulasan ICEBERG Mendalam