What is Apache Iceberg and why is it used in data lakes?

Apache Iceberg is a table format that brings ACID transactions, time travel, and efficient metadata to object storage. It’s used to make large-scale analytics reliable and engine-agnostic across Spark, Flink, Trino, and more.

How does Iceberg compare to Delta Lake and Apache Hudi?

Iceberg emphasizes engine neutrality, schema evolution via column IDs, and efficient planning. Delta often shines in Databricks-centric stacks, while Hudi is popular for streaming upserts and CDC-heavy workloads.

Does Apache Iceberg support schema and partition evolution?

Yes. Iceberg allows adding, renaming, and reordering columns using stable IDs, and you can evolve partition specs without breaking existing queries or rewriting old data.

Can I use Iceberg with multiple query engines?

Yes. Iceberg supports Spark, Flink, Trino/Presto, and other engines, enabling a single set of tables to serve batch ETL, streaming, and ad hoc SQL without duplication.

What are the operational best practices for Iceberg tables?

Automate compaction to avoid small files, expire old snapshots to manage metadata growth, monitor manifest sizes, and standardize engine versions for consistent feature support.

Бъдещето на Data Lakes ли е Apache Iceberg? Задълбочен преглед на ICEBERG

Ако вашият data lake се усеща повече като жив пясък – бавни заявки, хаотична еволюция на схемата, непоследователни дялове – не сте сами. През последните няколко години една технология тихомълком се превърна в основата на надеждна аналитика в голям мащаб: Apache Iceberg. В този преглед на ICEBERG ще разгледаме какво го отличава от наследените таблични формати, кой трябва да го приеме и как се представя в реални работни процеси.

Това е практично и ориентирано към решения задълбочено изследване с практически примери, компромиси и насоки в стил „купувач“ за екипи, които оценяват преминаването към Iceberg.

Какво е Apache Iceberg – и защо точно сега?

Apache Iceberg е високоефективен табличен формат, разработен за огромни аналитични набори от данни. Той носи надеждността и простотата на SQL таблиците в необятния и променлив свят на data lakes. Накратко: Iceberg трансформира вашето обектно хранилище (S3, ADLS, GCS, HDFS) в ACID-съвместими таблици, които можете безопасно да променяте, да извършвате заявки към тях и да управлявате в голям мащаб. Множество източници го описват като специално създаден за голяма аналитика с функции като еволюция на схемата, промени в спецификациите на дяловете, моментни снимки и оперативна съвместимост с множество енджини.

Защо точно сега? Защото екипите за data engineering се нуждаят от:

Надеждни ACID операции в облачното обектно хранилище.

Таблици, които не зависят от конкретен енджин и могат да се използват от Spark, Flink, Trino/Presto, Snowflake и други.

По-бързи и по-евтини заявки чрез по-интелигентни метаданни, списъци с манифести и скрито разделяне.

Безопасна еволюция на схеми и дялове без презаписване на всичко.

Присъда

За съвременните аналитични платформи, Apache Iceberg е водещ избор за стандартизиране на таблици в различните енджини и облаци със стабилни ACID гаранции.

Той превъзхожда наследеното DIY разделяне и обикновените Parquet оформления по отношение на надеждност и управляемост.

Въпреки че планирането на миграцията и управлението не са тривиални, моментната изолация на Iceberg, оформлението на метаданните и интеграцията с енджините го правят дългосрочен успех за повечето екипи за данни.

Iceberg накратко: Ключови възможности

ACID транзакции върху обектно хранилище

Изолация на моментни снимки и четения за пътуване във времето

Скрито разделяне (без изтичане на колони за разделяне към потребителите)

Гъвкава еволюция на схемата (добавяне, преименуване, пренареждане с колони, базирани на ID)

Развиващи се спецификации на дяловете без презаписване на историята

Оперативна съвместимост с множество енджини (Spark, Flink, Trino/Presto и други)

Планиране, управлявано от метаданни, за висока производителност в голям мащаб

Това не са просто маркетингови твърдения; архитектурата на Iceberg – таблици, моментни снимки, манифести, списъци с манифести и файлове с метаданни – систематично намалява общия обем на изброяване на файлове и прави планирането високоефективно в мащаб от петабайти.

За кого е този преглед на ICEBERG

Лидери в data engineering, които проектират lakehouse с множество енджини.

Платформени екипи, консолидиращи Spark/Trino/Flink в един табличен формат.

Аналитични организации, които достигат границите с разделяне в стил Hive или ad hoc Parquet.

Екипи, изискващи пътуване във времето, връщане назад или възпроизводими експерименти.

Големите проблеми, които Iceberg решава

1) Безопасност на мутациите в обектното хранилище

Наследените data lakes се борят с едновременни записи и частични сривове. Iceberg използва семантика за атомарно извършване – чрез манифести на моментни снимки – за да гарантира консистентност на транзакциите дори в огромен мащаб. Можете да пишете, да извършвате компресиране и да актуализирате с увереност, вместо да наблюдавате S3 списъците.

2) Еволюция на схемата без кошмари

Iceberg използва стабилни ID на колони, а не само имена, за еволюция на схемата. Това означава, че можете да преименувате или пренаредите колони, без да повредите по-стари данни. Това е тиха суперсила за дълготрайни набори от данни, където отклонението на схемата е неизбежно.

3) Разделяне, което не изтича

Скритото разделяне означава, че потребителите не трябва да знаят или да се интересуват как са разделени данните. Можете да развивате спецификациите на дяловете във времето (напр. ден → час), докато заявките остават консистентни. Няма повече счупени SQL поради колони за разделяне.

4) Ефективно планиране в голям мащаб

С файлове с манифести и дървета с метаданни, Iceberg избягва скъпите операции по изброяване на файлове, които смазват плановиците на заявки в мащаб от петабайти. Енджините четат първо компактните метаданни, а не милиони пътища до файлове.

Реални случаи на употреба

Унифициран аналитичен слой: Съхранявайте подбрани факти и измерения като Iceberg таблици, които могат да бъдат четени от Spark за ETL, Trino за ad hoc SQL и Flink за поточно вмъкване.

Хранилища на машинно обучение: Пътуването във времето позволява възпроизводими набори за обучение; промените в схемата не унищожават историческите характеристики.

Управление и връщане назад: Моментните снимки ви позволяват да върнете назад случайни записи и да поддържате политики за запазване на данни с по-малък риск.

Сливане на поточно предаване + партиди: Моделите за вмъкване и MERGE стават стабилни, позволявайки CDC работни процеси в голям мащаб.

Архитектура: Как Iceberg организира вашия Lake

Файл с метаданни на таблицата: „Истината“ за таблицата – схема, спецификация на дяловете, моментни снимки.

Моментни снимки: Неизменни версии на състоянието на таблицата, позволяващи пътуване във времето и връщане назад.

Списъци с манифести: Индексиране кои манифести принадлежат към дадена моментна снимка.

Манифести: Списъци с файлове с данни със статистика за дяловете и показатели на ниво колона.

Файлове с данни: Обикновено Parquet (също ORC/Avro), съхранявани в обектно хранилище.

Този многослоен подход към метаданните позволява бързо откриване и орязване, намалявайки латентността на планирането за големи таблици.

Производителност: Какво да очаквате

По-бързо планиране: Значително намаляване на общите разходи за планиране на заявки благодарение на орязването на метаданните и манифестите.

По-добро орязване: Еволюцията на дяловете и статистиката на колоните водят до по-малко I/O.

Стабилна едновременност: Изолацията на моментните снимки не позволява на четците да виждат частични записи.

Контрол на разходите: По-малко разточително изброяване и сканиране намаляват сметките за изчисления.

Действителните резултати зависят от енджина, размерите на файловете, политиката за компресиране и работния процес, но дизайнът на Iceberg е насочен директно към проблемните точки, които причиняват бавни и скъпи заявки в традиционните data lakes.

Опит на разработчиците: От ден 1 до ден 100

Настройка за ден 1: Създайте Iceberg каталог (glue/hive/rest), дефинирайте таблици и насочете Spark/Trino/Flink към него. Повечето енджини доставят собствени Iceberg конектори или зрели интеграции.

Еволюция на схемата и дяловете: Променете спецификациите чрез DDL; Iceberg проследява версиите, така че историческите четения остават валидни.

Компресиране и поддръжка: Планирайте периодично компресиране за управление на малки файлове; използвайте процедури, вградени в енджина, или персонализирани задачи.

Хигиена на Data Ops: Наблюдавайте броя на моментните снимки, растежа на манифестите и извършвайте изтичане на метаданни, за да поддържате висока производителност.

Как се сравнява Iceberg

Срещу обикновен Parquet в S3: Iceberg добавя ACID, консистентни моментни снимки и оптимизирани метаданни, елиминирайки нестабилното изброяване и отклонението на схемата.

Срещу Hive таблици: Скритото разделяне и изолацията на моментните снимки на Iceberg надминават крехките колони за разделяне на Hive и липсата на безопасност на транзакциите.

Срещу други lakehouse формати: Iceberg се конкурира с Delta Lake и Apache Hudi. Силните страни на Iceberg са неутралността към множество енджини, еволюцията на схемата, базирана на ID на колони, и широкото приемане от общността в различните енджини. Delta блести в Databricks-центрични стекове; Hudi е популярен за поточно вмъкване. Изберете въз основа на предпочитания енджин, модели на мутации и подравняване на екосистемата.

Недостатъците и компромисите

Крива на оперативно обучение: Ще трябва да управлявате компресирането, запазването на моментни снимки и почистването на метаданни.

Разходи за миграция: Преместването от Hive или необработен Parquet изисква внимателно планиране и понякога тежки презаписвания.

Разминаване между енджин/версия: Поддръжката на функции може да варира в зависимост от енджина и версията; стандартизирайте тествани комбинации.

Разрастване на метаданните: Без управление, манифестите и моментните снимки могат да растат бързо.

Често срещани анти-модели, които трябва да се избягват

Игнориране на компресирането: Малките файлове убиват производителността. Автоматизирайте компресирането.

Твърде чести моментни снимки: Поддържайте броя на моментните снимки под контрол с политики за изтичане.

Неограничена еволюция на дяловете: Променяйте спецификациите на дяловете преднамерено; одитирайте въздействието върху производителността.

Еднократни конфигурации на енджини: Подравнете конфигурациите на Spark/Trino/Flink за Iceberg, за да избегнете изненадващо поведение.

Практически: Типични работни процеси

Създаване на Iceberg таблица (Spark SQL)

CREATE TABLE catalog.db.events (
event_id BIGINT,
user_id BIGINT,
ts TIMESTAMP,
payload STRING
)
USING iceberg
PARTITIONED BY (days(ts));

Четене с пътуване във времето

-- Заявка към определен времеви печат на моментна снимка
SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';

Еволюция на схемата

ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;

Оптимизиране на малки файлове (Spark)

CALL catalog.system.rewrite_data_files(
table => 'db.events',
strategy => 'binpack',
target_file_size => 134217728
);

Какво казват потребителите

Публичните софтуерни директории последователно описват Apache Iceberg като табличен формат, който носи SQL-подобна надеждност на големите данни и големите аналитични таблици, като наблягат на ACID операциите и високата производителност в обектното хранилище. Въпреки че някои списъци на бизнес софтуер могат да споменават продукти със сходни имена, които не са свързани с табличния формат с отворен код, уверете се, че оценявате "Apache Iceberg" специално за случаи на употреба в data engineering.

Къде се вписва Iceberg в съвременния стек

Съхранение: S3, ADLS, GCS, HDFS

Енджини: Spark (партиди/ETL/ML), Flink (поточно предаване/CDC), Trino/Presto (ad hoc SQL), Snowflake (външни таблици с нарастваща поддръжка) и други

Оркестрация: Airflow, Dagster, Prefect

Каталог/Метахранилище: AWS Glue, Hive Metastore, REST каталози

Управление: LakeFS, Ranger, вградени свойства на таблицата + политики за запазване

Наръчник за миграция (практически стъпки)

Инвентаризирайте таблиците по размер, SLA и модели на заявки.

Започнете с некритични таблици с висока степен на болка (бавни заявки, нестабилни схеми).

Създайте Iceberg еквиваленти; двойно записване или обратно попълване с валидирани моментни снимки.

Валидирайте с представителни работни процеси в различните енджини.

Прехвърлете потребителите и изведете от експлоатация наследените пътища.

Автоматизирайте компресирането и изтичането на моментни снимки от първия ден.

Съображения за разходи и ROI

Спестявания на изчисления от по-малко I/O и по-бързо планиране.

Намалено време на престой от безопасността на транзакциите.

По-нисък оперативен труд в сравнение с управлението на ad hoc Parquet + Hive дялове.

Гъвкавост за превключване на енджини без преформатиране на данните.

ROI обикновено се подобрява с размера на таблицата и мащаба на екипа. Колкото повече енджини и работни процеси изпълнявате, толкова повече се изплаща стандартизацията на Iceberg.

Сигурност и съответствие

Iceberg се фокусира върху табличния формат и метаданните; интегрирайте се с IAM на ниво хранилище, криптиране и контроли на периметъра. За управление на данни, сдвоете с каталози и политики, и използвайте одит на моментни снимки/пътуване във времето, за да проучите промените. Внедрете защита на ниво ред или колона на ниво енджин, когато е необходимо.

Подходящ ли е Apache Iceberg за вас?

Изберете Iceberg, ако:

Нуждаете се от ACID в обектното хранилище с поддръжка на множество енджини.

Очаквате чести промени в схемата и дяловете.

Изпълнявате разнообразни работни процеси (партиди + поточно предаване + ad hoc SQL).

Искате пътуване във времето, възпроизводимост и надеждно връщане назад.

Обмислете алтернативи, ако:

Сте изцяло за един доставчик, който вече предоставя управляван lakehouse формат.

Имате малки набори от данни или прости отчети, където табличните формати добавят малка стойност.

Заслужава си да се отбележи: Ускоряване на съдържанието и документацията

Ако документирате миграции, създавате вътрешни наръчници или обобщавате избора на платформа за заинтересованите страни, AI асистент, който може да събере бележки от срещи, фрагменти от код и документи на доставчици, може да спести време. Между другото, Sider.AI предлага AI странична лента и инструменти за съдържание, които помагат на екипите да обобщават сложни технически документи, да генерират ръководства и да изготвят чернови на рецензии по-бързо – полезно, когато стандартизирате Iceberg и се нуждаете от ясна вътрешна документация за потребителите на данни. Той няма да замени вашите архитектурни решения, но може да съкрати времето от проучване до публикуване на документи.

Окончателно мнение: Нашият преглед на ICEBERG

Apache Iceberg не е просто нов файлов формат – той е слой за управление и производителност, който кара data lakes да действат като надеждни бази данни, като същевременно остават отворени и независими от енджина. За повечето средни до големи екипи за данни, Iceberg осигурява правилния баланс на ACID безопасност, еволюция на схеми/дялове и използваемост в различни енджини. Очаквайте крива на оперативно обучение, но дългосрочната възвръщаемост – в скорост, стабилност и гъвкавост – е убедителна.

Основни изводи

Iceberg предоставя ACID, пътуване във времето и бързо планиране върху облачно обектно хранилище.

Скритото разделяне и еволюцията на схемата, базирана на ID на колони, намаляват счупванията.

Силна екосистемна поддръжка в Spark, Flink, Trino и други.

Планирайте компресиране и хигиена на метаданните от първия ден.

Най-подходящ за екипи, изпълняващи разнообразни аналитични работни процеси в голям мащаб.

Следващи стъпки

Пилотирайте Iceberg на таблица с голямо въздействие, но некритична.

Стандартизирайте версиите на енджините и конфигурирайте задачи за компресиране/запазване.

Документирайте конвенциите за еволюция на схемата/дяловете.

Оценете подобренията в производителността и спестяванията на изчисления след миграцията.

ЧЗВ

В1: Какво е Apache Iceberg и защо се използва в data lakes? Apache Iceberg е табличен формат, който носи ACID транзакции, пътуване във времето и ефективни метаданни в обектното хранилище. Използва се, за да направи широкомащабната аналитика надеждна и независима от енджина в Spark, Flink, Trino и други.

В2: Как Iceberg се сравнява с Delta Lake и Apache Hudi? Iceberg набляга на неутралността към енджините, еволюцията на схемата чрез ID на колони и ефективно планиране. Delta често блести в Databricks-центрични стекове, докато Hudi е популярен за поточно вмъкване и работни процеси, натоварени с CDC.

В3: Поддържа ли Apache Iceberg еволюция на схемата и дяловете? Да. Iceberg позволява добавяне, преименуване и пренареждане на колони, използвайки стабилни ID, и можете да развивате спецификациите на дяловете, без да нарушавате съществуващите заявки или да презаписвате стари данни.

В4: Мога ли да използвам Iceberg с множество енджини за заявки? Да. Iceberg поддържа Spark, Flink, Trino/Presto и други енджини, което позволява единствен набор от таблици да обслужва ETL партиди, поточно предаване и ad hoc SQL без дублиране.

В5: Кои са най-добрите оперативни практики за Iceberg таблици? Автоматизирайте компресирането, за да избегнете малки файлове, изтривайте стари моментни снимки, за да управлявате растежа на метаданните, наблюдавайте размерите на манифестите и стандартизирайте версиите на енджините за последователна поддръжка на функции.