What is Apache Iceberg and why is it used in data lakes?

Apache Iceberg is a table format that brings ACID transactions, time travel, and efficient metadata to object storage. It’s used to make large-scale analytics reliable and engine-agnostic across Spark, Flink, Trino, and more.

How does Iceberg compare to Delta Lake and Apache Hudi?

Iceberg emphasizes engine neutrality, schema evolution via column IDs, and efficient planning. Delta often shines in Databricks-centric stacks, while Hudi is popular for streaming upserts and CDC-heavy workloads.

Does Apache Iceberg support schema and partition evolution?

Yes. Iceberg allows adding, renaming, and reordering columns using stable IDs, and you can evolve partition specs without breaking existing queries or rewriting old data.

Can I use Iceberg with multiple query engines?

Yes. Iceberg supports Spark, Flink, Trino/Presto, and other engines, enabling a single set of tables to serve batch ETL, streaming, and ad hoc SQL without duplication.

What are the operational best practices for Iceberg tables?

Automate compaction to avoid small files, expire old snapshots to manage metadata growth, monitor manifest sizes, and standardize engine versions for consistent feature support.

Является ли Apache Iceberg будущим озер данных? Подробный обзор ICEBERG

Если ваше озеро данных больше похоже на зыбучие пески данных — медленные запросы, беспорядочная эволюция схемы, непоследовательное разделение на разделы — вы не одиноки. В течение последних нескольких лет одна технология незаметно стала основой надежной аналитики в большом масштабе: Apache Iceberg. В этом обзоре ICEBERG мы разберем, что отличает его от устаревших форматов таблиц, кому следует его внедрить и как он проявляет себя в реальных конвейерах.

Это практическое, ориентированное на решение глубокое погружение с практическими примерами, компромиссами и рекомендациями в стиле покупателя для команд, оценивающих переход на Iceberg.

Что такое Apache Iceberg — и почему сейчас?

Apache Iceberg — это высокопроизводительный формат таблиц, разработанный для огромных аналитических наборов данных. Он привносит надежность и простоту SQL-таблиц в обширный, изменчивый мир схем озер данных. Короче говоря: Iceberg преобразует ваше объектное хранилище (S3, ADLS, GCS, HDFS) в ACID-совместимые таблицы, которые вы можете безопасно изменять, запрашивать и управлять ими в масштабе. Многие источники описывают его как специально созданный для крупной аналитики с такими функциями, как эволюция схемы, изменения спецификации разделов, создание снимков и многодвижковая интероперабельность.

Почему сейчас? Потому что командам инженеров данных необходимо:

Надежные ACID-операции в облачном объектном хранилище.

Агностические к движку таблицы, пригодные для использования из Spark, Flink, Trino/Presto, Snowflake и других.

Более быстрые и дешевые запросы благодаря более разумным метаданным, спискам манифестов и скрытому разделению на разделы.

Безопасная эволюция схем и разделов без перезаписи всего.

Вердикт

Для современных аналитических платформ Apache Iceberg является ведущим выбором для стандартизации таблиц между движками и облаками с надежными гарантиями ACID.

Он превосходит устаревшее самодельное разделение на разделы и простые макеты Parquet в надежности и управляемости.

Хотя планирование миграции и управления не является тривиальным, изоляция снимков Iceberg, макет метаданных и интеграция движка делают его долгосрочным выигрышем для большинства команд, работающих с данными.

Iceberg вкратце: ключевые возможности

ACID-транзакции над объектным хранилищем

Изоляция снимков и чтение с возможностью перемещения во времени

Скрытое разделение (отсутствие утечки столбцов разделов для пользователей)

Гибкая эволюция схемы (добавление, переименование, изменение порядка со столбцами на основе ID)

Развивающиеся спецификации разделов без перезаписи истории

Многодвижковая интероперабельность (Spark, Flink, Trino/Presto и другие)

Планирование на основе метаданных для крупномасштабной производительности

Это не просто маркетинговые заявления; архитектура Iceberg — таблицы, снимки, манифесты, списки манифестов и файлы метаданных — систематически снижает накладные расходы на перечисление файлов и делает планирование очень эффективным в масштабе петабайт.

Для кого этот обзор ICEBERG

Руководители отдела инженерии данных, разрабатывающие многодвижковое озеро.

Платформенные команды, консолидирующие Spark/Trino/Flink в едином формате таблиц.

Аналитические организации, достигающие пределов с разделением в стиле Hive или специальным Parquet.

Команды, которым требуется перемещение во времени, откат или воспроизводимые эксперименты.

Основные проблемы, которые решает Iceberg

1) Безопасность мутаций в объектном хранилище

Устаревшие озера данных борются с параллельными записями и частичными сбоями. Iceberg использует семантику атомарных коммитов — через манифесты снимков — для обеспечения согласованности транзакций даже в огромном масштабе. Вы можете писать, выполнять сжатие и обновлять данные с уверенностью, вместо того чтобы присматривать за списками S3.

2) Эволюция схемы без кошмаров

Iceberg использует стабильные идентификаторы столбцов, а не только имена, для эволюции схемы. Это означает, что вы можете переименовывать или изменять порядок столбцов, не повреждая старые данные. Это тихая сверхспособность для долгоживущих наборов данных, где дрейф схемы неизбежен.

3) Разделение, которое не утекает

Скрытое разделение означает, что пользователям не нужно знать или заботиться о том, как разделены данные. Вы можете развивать спецификации разделов с течением времени (например, день → час), в то время как запросы остаются согласованными. Больше никаких сломанных SQL из-за столбцов разделов.

4) Эффективное планирование в масштабе

Благодаря файлам манифестов и деревьям метаданных Iceberg избегает дорогостоящих операций перечисления файлов, которые сокрушают планировщики запросов в масштабе петабайт. Движки сначала считывают компактные метаданные, а не миллионы путей к файлам.

Реальные варианты использования

Унифицированный аналитический уровень: храните тщательно отобранные факты и измерения в виде таблиц Iceberg, читаемых Spark для ETL, Trino для специальных SQL-запросов и Flink для потоковой передачи upsert.

Хранилища признаков машинного обучения: перемещение во времени позволяет создавать воспроизводимые наборы для обучения; изменения схемы не приводят к взрыву исторических признаков.

Управление и откат: снимки позволяют откатывать случайные записи и поддерживать политики хранения данных с меньшим риском.

Конвергенция потоковой передачи + пакетной обработки: шаблоны Upsert и MERGE становятся стабильными, обеспечивая конвейеры CDC в масштабе.

Архитектура: как Iceberg организует ваше озеро

Файл метаданных таблицы: «правда» о таблице — схема, спецификация разделов, снимки.

Снимки: неизменяемые версии состояния таблицы, обеспечивающие перемещение во времени и откат.

Списки манифестов: индекс, указывающий, какие манифесты принадлежат снимку.

Манифесты: списки файлов данных со статистикой разделов и метриками уровня столбцов.

Файлы данных: обычно Parquet (также ORC/Avro), хранящиеся в объектном хранилище.

Этот многоуровневый подход к метаданным позволяет быстро обнаруживать и выполнять усечение, сокращая задержку планирования для больших таблиц.

Производительность: чего ожидать

Более быстрое планирование: значительное сокращение накладных расходов на планирование запросов благодаря усечению метаданных и манифестам.

Лучшее усечение: эволюция разделов и статистика столбцов приводят к меньшему количеству операций ввода-вывода.

Стабильная параллельность: изоляция снимков предотвращает просмотр частичных записей читателями.

Контроль затрат: менее расточительное перечисление и сканирование снижают расходы на вычисления.

Фактические результаты зависят от движка, размеров файлов, политики сжатия и рабочей нагрузки, но конструкция Iceberg напрямую нацелена на болевые точки, которые вызывают медленные и дорогостоящие запросы в традиционных озерах данных.

Опыт разработчика: от дня 1 до дня 100

Настройка в первый день: создайте каталог Iceberg ({glue/hive/rest}), определите таблицы и укажите Spark/Trino/Flink на него. Большинство движков поставляются с собственными коннекторами Iceberg или зрелыми интеграциями.

Эволюция схемы и разделов: изменяйте спецификации с помощью DDL; Iceberg отслеживает версии, поэтому исторические чтения остаются действительными.

Сжатие и обслуживание: планируйте периодическое сжатие для управления небольшими файлами; используйте собственные процедуры движка или собственные задания.

Гигиена операций с данными: отслеживайте количество снимков, рост манифестов и выполняйте срок действия метаданных, чтобы поддерживать высокую производительность.

Как Iceberg сравнивается

По сравнению с обычным Parquet на S3: Iceberg добавляет ACID, согласованные снимки и оптимизированные метаданные, устраняя ненадежное перечисление и дрейф схемы.

По сравнению с таблицами Hive: скрытое разделение и изоляция снимков Iceberg превосходят хрупкие столбцы разделов Hive и отсутствие безопасности транзакций.

По сравнению с другими форматами озерных хранилищ: Iceberg конкурирует с Delta Lake и Apache Hudi. Сильными сторонами Iceberg являются многодвижковая нейтральность, эволюция схемы на основе идентификаторов столбцов и широкое распространение в сообществе движков. Delta преуспевает в Databricks-ориентированных стеках; Hudi популярен для потоковой передачи upsert. Выбирайте в зависимости от предпочтений движка, шаблонов мутаций и согласованности экосистемы.

Недостатки и компромиссы

Кривая обучения операциям: вам необходимо будет управлять сжатием, хранением снимков и очисткой метаданных.

Стоимость миграции: переход с Hive или необработанного Parquet требует тщательного планирования, а иногда и серьезных переписываний.

Перекос движка/версии: поддержка функций может различаться в зависимости от движка и версии; стандартизируйте протестированные комбинации.

Разрастание метаданных: без управления манифесты и снимки могут быстро расти.

Распространенные анти-шаблоны, которых следует избегать

Игнорирование сжатия: небольшие файлы убивают производительность. Автоматизируйте сжатие.

Слишком частые снимки: держите количество снимков под контролем с помощью политик истечения срока действия.

Неограниченная эволюция разделов: изменяйте спецификации разделов намеренно; проверяйте влияние на производительность.

Одноразовые конфигурации движка: согласуйте конфигурации Spark/Trino/Flink для Iceberg, чтобы избежать неожиданного поведения.

Практическое руководство: типичные рабочие процессы

Создание таблицы Iceberg (Spark SQL)

CREATE TABLE catalog.db.events (
event_id BIGINT,
user_id BIGINT,
ts TIMESTAMP,
payload STRING
)
USING iceberg
PARTITIONED BY (days(ts));

Чтение с возможностью перемещения во времени

-- Запрос по состоянию на определенную метку времени снимка
SELECT * FROM catalog.db.events TIMESTAMP AS OF '2025-09-21 00:00:00';

Эволюция схемы

ALTER TABLE catalog.db.events ADD COLUMN device_type STRING;
ALTER TABLE catalog.db.events RENAME COLUMN payload TO event_payload;

Оптимизация небольших файлов (Spark)

CALL catalog.system.rewrite_data_files(
table => 'db.events',
strategy => 'binpack',
target_file_size => 134217728
);

Что говорят пользователи

В общедоступных каталогах программного обеспечения Apache Iceberg неизменно описывается как формат таблиц, который обеспечивает надежность, подобную SQL, для больших данных и больших аналитических таблиц, подчеркивая операции ACID и высокую производительность в объектном хранилище. В то время как некоторые списки бизнес-программного обеспечения могут упоминать продукты с похожими названиями, не связанные с форматом таблиц с открытым исходным кодом, убедитесь, что вы оцениваете «Apache Iceberg» специально для вариантов использования инженерии данных.

Где Iceberg вписывается в современный стек

Хранилище: S3, ADLS, GCS, HDFS

Движки: Spark (пакетная/ETL/ML), Flink (потоковая/CDC), Trino/Presto (специальные SQL-запросы), Snowflake (внешние таблицы с растущей поддержкой) и другие

Оркестровка: Airflow, Dagster, Prefect

Каталог/Metastore: AWS Glue, Hive Metastore, REST catalogs

Управление: LakeFS, Ranger, встроенные свойства таблицы + политики хранения

Руководство по миграции (практические шаги)

Инвентаризируйте таблицы по размеру, SLA и шаблонам запросов.

Начните с некритичных, проблемных таблиц (медленные запросы, нестабильные схемы).

Создайте эквиваленты Iceberg; выполняйте двойную запись или обратную заливку с проверенными снимками.

Проверьте с помощью репрезентативных рабочих нагрузок на разных движках.

Переключите потребителей и выведите из эксплуатации устаревшие пути.

Автоматизируйте сжатие и срок действия снимков с первого дня.

Соображения о стоимости и рентабельности инвестиций

Экономия вычислительных ресурсов за счет меньшего количества операций ввода-вывода и более быстрого планирования.

Сокращение времени простоя из-за безопасности транзакций.

Снижение операционных затрат по сравнению с управлением специальными разделами Parquet + Hive.

Гибкость переключения движков без переформатирования данных.

Рентабельность инвестиций обычно улучшается с увеличением размера таблицы и масштаба команды. Чем больше движков и конвейеров вы запускаете, тем больше окупается стандартизация Iceberg.

Безопасность и соответствие требованиям

Iceberg сам по себе фокусируется на формате таблиц и метаданных; интегрируйтесь с IAM уровня хранилища, шифрованием и элементами управления периметром. Для управления данными объедините его с каталогами и механизмами политик, а также используйте аудит снимков/перемещения во времени для изучения изменений. При необходимости реализуйте безопасность на уровне строк или столбцов на уровне движка.

Подходит ли вам Apache Iceberg?

Выберите Iceberg, если вы:

Нужен ACID в объектном хранилище с поддержкой нескольких движков.

Ожидаете частых изменений схемы и разделов.

Запускаете разнообразные рабочие нагрузки (пакетная обработка + потоковая передача + специальные SQL-запросы).

Хотите перемещение во времени, воспроизводимость и надежные откаты.

Рассмотрите альтернативы, если вы:

Полностью полагаетесь на одного поставщика, который уже предоставляет управляемый формат озера.

У вас крошечные наборы данных или простые отчеты, где форматы таблиц мало что добавляют.

Стоит отметить: ускорение создания контента и документации

Если вы документируете миграции, создаете внутренние справочники или обобщаете варианты платформы для заинтересованных сторон, помощник на базе искусственного интеллекта, который может объединять заметки о встречах, фрагменты кода и документацию поставщиков, может сэкономить время. Кстати, Sider.AI предлагает боковую панель искусственного интеллекта и инструменты для работы с контентом, которые помогают командам обобщать сложные технические документы, создавать руководства и быстрее создавать черновики для рецензирования — полезно, когда вы стандартизируете Iceberg и нуждаетесь в четкой внутренней документации для потребителей данных. Это не заменит ваши архитектурные решения, но может сократить время от исследования до публикации документации.

Заключительное мнение: наш обзор ICEBERG

Apache Iceberg — это не просто новый формат файлов — это уровень управления и производительности, который заставляет озера данных действовать как надежные базы данных, оставаясь при этом открытыми и независимыми от движка. Для большинства команд, работающих с данными среднего и большого размера, Iceberg обеспечивает правильный баланс безопасности ACID, эволюции схемы/разделов и удобства использования на разных движках. Ожидайте кривой обучения операциям, но долгосрочная отдача — в скорости, стабильности и гибкости — убедительна.

Основные выводы

Iceberg обеспечивает ACID, перемещение во времени и быстрое планирование по облачному объектному хранилищу.

Скрытое разделение и эволюция схемы на основе идентификаторов столбцов уменьшают количество поломок.

Надежная поддержка экосистемы в Spark, Flink, Trino и других.

Планируйте сжатие и гигиену метаданных с первого дня.

Лучше всего подходит для команд, выполняющих разнообразные аналитические рабочие нагрузки в большом масштабе.

Следующие шаги

Проведите пилотное тестирование Iceberg на важной, но некритичной таблице.

Стандартизируйте версии движка и настройте задания сжатия/хранения.

Задокументируйте соглашения для эволюции схемы/разделов.

Оцените прирост производительности и экономию вычислительных ресурсов после миграции.

Часто задаваемые вопросы

Q1:Что такое Apache Iceberg и почему он используется в озерах данных? Apache Iceberg — это формат таблиц, который обеспечивает транзакции ACID, перемещение во времени и эффективные метаданные в объектном хранилище. Он используется для обеспечения надежности и независимости от движка крупномасштабной аналитики в Spark, Flink, Trino и других.

Q2:Как Iceberg сравнивается с Delta Lake и Apache Hudi? Iceberg подчеркивает нейтральность движка, эволюцию схемы с помощью идентификаторов столбцов и эффективное планирование. Delta часто преуспевает в Databricks-ориентированных стеках, а Hudi популярен для потоковой передачи upsert и рабочих нагрузок с большим количеством CDC.

Q3:Поддерживает ли Apache Iceberg эволюцию схемы и разделов? Да. Iceberg позволяет добавлять, переименовывать и изменять порядок столбцов с использованием стабильных идентификаторов, и вы можете развивать спецификации разделов, не нарушая существующие запросы и не переписывая старые данные.

Q4:Могу ли я использовать Iceberg с несколькими движками запросов? Да. Iceberg поддерживает Spark, Flink, Trino/Presto и другие движки, позволяя использовать единый набор таблиц для обслуживания пакетной ETL, потоковой передачи и специальных SQL-запросов без дублирования.

Q5:Каковы лучшие операционные практики для таблиц Iceberg? Автоматизируйте сжатие, чтобы избежать небольших файлов, удаляйте старые снимки, чтобы управлять ростом метаданных, отслеживайте размеры манифестов и стандартизируйте версии движка для обеспечения согласованной поддержки функций.

Apache Iceberg – будущее озёр данных? Подробный обзор ICEBERG