Sider.ai
  • Чат
  • Wisebase
  • Инструменты
  • Расширение
  • Клиенты
  • Цены
Скачать сейчас
Авторизоваться

Учитесь быстрее, мыслите глубже и развивайтесь умнее с Sider.

Продукты
Приложения
  • Расширения
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Инструменты
  • Создатель веб-сайтовNew
  • AI СлайдыNew
  • Писатель эссе на основе ИИ
  • Nano Banana Pro
  • Nano Banana Infographic
  • Генератор изображений на основе ИИ
  • Итальянский генератор мозгового штурма
  • Удаление фона
  • Изменение фона
  • Удаление объектов с фото
  • Удаление текста
  • Ретушь
  • Улучшение изображения
  • Создать
  • Переводчик на основе ИИ
  • Переводчик изображений
  • Переводчик PDF
Sider
  • Свяжитесь с нами
  • Центр помощи
  • Скачать
  • Цены
  • План обучения
  • Что нового
  • Блог
  • Сообщество
  • Партнеры
  • Партнерская программа
  • Пригласить
©2026 Все права защищены
Условия использования
Политика конфиденциальности
  • Домашняя страница
  • Блог
  • Инструменты ИИ
  • Учебное пособие по DeepSeek‑OCR: Сжатие историй чатов, журналов и данных для LLM

Учебное пособие по DeepSeek‑OCR: Сжатие историй чатов, журналов и данных для LLM

Обновлено 23 окт. 2025 г.

5 мин


Введение: Почему сжатие теперь является сверхспособностью для LLM Если вы когда-либо пытались втиснуть недельные журналы чатов, телеметрию или трассировки многосистемных приложений в промпт, вы наверняка сталкивались с жестким ограничением контекстного окна. Обычный подход — суммирование, обрезка, разделение на части — помогает лишь до определенной степени, прежде чем начнутся потери информации. DeepSeek‑OCR предлагает поразительный поворот: сжимать текст в визуальные токены, используя конвейер OCR‑VLM, чтобы значительно уменьшить контекст, не теряя при этом смысл. Ранние отчеты сообщества указывают на эффективность сжатия на порядок выше за счет использования визуальных токенов вместо необработанных текстовых токенов, парадигму, которую некоторые аналитики описывают как «Context Optical Compression» и «тысячи текстовых токенов в несколько сотен визуальных» для рабочих процессов с длинным контекстом.
В этом практическом, пошаговом руководстве по DeepSeek‑OCR вы узнаете, как сжимать истории чатов, журналы и данные для LLM, сохраняя при этом точность извлечения, а также как комбинировать сжатие на основе OCR с суммированием, иерархическим разделением на части и RAG для мощного и быстрого создания промптов.
Для кого это руководство
  • Для разработчиков AI-копилотов, которым необходимо обрабатывать длинные чаты и журналы действий
  • Для инженеров данных, обрабатывающих журналы, трассировки и метрики для рассуждений LLM
  • Для исследователей, прототипирующих сверхдлинные контекстные рабочие процессы с ограниченным бюджетом
Краткое описание: Если вы можете превратить разрастающийся текст в компактные визуальные представления, которые могут читать LLM, вы вернете себе контекстный бюджет, не жертвуя важными деталями рассуждений.
Что такое сжатие DeepSeek‑OCR? Основная идея
  • Сжатие визуальных токенов: Преобразуйте плотные текстовые фрагменты в высокоинформативные визуальные вложения; визуальные токены могут быть дешевле и компактнее, чем эквивалентные текстовые токены.
  • Context Optical Compression: Используйте OCR/VLM для кодирования большого текстового контекста в виде изображений или визуально структурированных макетов, сохраняя семантическую структуру при одновременном сокращении количества токенов.
  • Рабочие процессы с длинным контекстом: Сжимайте тысячи токенов в сотни визуальных токенов, обеспечивая более крупные рабочие наборы для планирования, использования инструментов или многоступенчатых рассуждений.
Когда это использовать
  • Истории чатов с повторяющимися фразами или предсказуемой структурой
  • Системные журналы, трассировки, результаты сборки или дампы аналитики
  • Снимки документации, панели мониторинга или полуструктурированные отчеты
Что вы создадите в этом руководстве Вы реализуете конвейер для:
  1. Нормализации и сегментации данных чата/журнала.
  1. Выбора стратегии сжатия (OCR‑визуальная, текстовое суммирование или гибридная).
  1. Генерации компактных визуальных представлений с помощью DeepSeek‑OCR.
  1. Индексации с метаданными для извлечения.
  1. Запроса с помощью гибридного RAG-промпта, который принимает как текст, так и изображения.
  1. Оценки точности и стоимости.
Раздел 1 — Подготовка данных: Сделайте беспорядочные истории удобными для модели
  • Нормализация временных меток и ролей: например, {user: timestamp - message}.
  • Минусы: требуется поддержка VLM; необходимы рендеринг и ввод-вывод изображений.
  • Использовать, когда: вам нужна высокая точность длинного контекста, диаграммы/таблицы или точное сохранение формулировок.
  • Гибридный (рекомендуется)
  • Сохраните «скелетное» текстовое резюме для привязки + прикрепите сжатые визуальные карточки для глубины.
  • Это обеспечивает баланс между точностью извлечения (текст) и полнотой/точностью (визуализация).
Раздел 3 — Создание визуальных контекстных карточек с помощью DeepSeek‑OCR Цель: Преобразовать текстовые фрагменты размером 5–20 КБ в изображения размером 512–1024 пикселей, оптимизированные для чтения OCR/VLM.
Предложения по шаблонам
  • Строка заголовка: ID сеанса, временной диапазон, метка темы.
  • Двухколоночный макет: левая колонка для ключевых поворотов/логов; правая колонка для основных моментов (ошибки, решения, команды, метрики).
  • Моноширинные блоки для строк кода/логов; маркерные резюме для контекста.
  • Контрастная тема; избегайте мелких шрифтов (менее 11–12 пунктов при масштабе 1x).
Советы по рендерингу
  • Используйте HTML/CSS для создания чистых, согласованных карточек (например, скриншоты Puppeteer/Playwright).
  • Включите стабильные якоря (номера строк, идентификаторы) для ссылки на конкретные элементы в промптах.
  • Ограничьтесь ~200–400 словами на карточку; создайте стопку карточек для каждого сеанса.
Проход DeepSeek‑OCR
  • Запустите DeepSeek‑OCR, чтобы убедиться в точности преобразования: карточка → OCR-текст. Это перепроверяет, что ваш макет и шрифты декодируются точно.
  • Если OCR-текст расходится, отрегулируйте шрифты, интервалы или разбейте плотный код на несколько карточек.
Почему это работает Сообщество и сторонние публикации указывают на значительное повышение эффективности при сжатии текстового контекста в визуальные токены с сохранением удобочитаемости.
Раздел 4 — Уровни суммирования: Сохраните скелет, сохраните мышцы Реализуйте многоуровневые резюме, чтобы вы могли увеличивать разрешение только при необходимости.
  • L0: Атомарные теги строк/ходов — роль, временная метка, тип (ошибка, примечание, код), вложение.
  • L1: Микро-резюме (1–2 предложения) для каждых 20–40 ходов или 2–5 минут журналов.
  • L2: Аннотация сеанса (5–8 пунктов) с решениями, блокировками, результатами и ссылками на визуальные карточки.
  • L3: Цепочка-цепочек — еженедельные или на уровне проекта сводки.
Практическая эвристика
  • Всегда включайте дословные якоря: коды ошибок, SQL ID, trace ID, commit SHA.
  • Используйте экстрактивные резюме перед абстрактными; затем уточните абстрактными для удобочитаемости.
  • Добавьте пункт «что изменилось с последнего сеанса», чтобы ускорить создание промптов для наверстывания упущенного.
Раздел 5 — Индексация и извлечение для гибридного RAG Схема метаданных
  • doc_id, session_id, time_range, roles, topic labels
  • importance score, error severity, component/service
  • links: {l0_id, l1_id, card_id}.
  • Объедините сжатие на основе OCR с многоуровневыми резюме и RAG для точности и глубины.
  • Оптимизируйте макеты, шрифты и индексацию, чтобы сохранить высокую точность и низкую задержку.
  • Рассматривайте сжатые карточки как первоклассные доказательства и цитируйте их в промптах.
Следующие шаги
  • Создайте прототип минимального конвейера для одного чат-проекта или набора данных журнала.
  • Проведите A/B-тестирование только текстового и гибридного сжатия для 10 типичных запросов.
  • Настройте дизайн карточек, сочетание извлекателей и бюджеты на основе метрик точности.
  • Масштабируйте для рабочих процессов команды с кэшированием, ACL и мониторингом.

FAQ

В1: Что такое DeepSeek‑OCR и зачем использовать его для сжатия истории чатов для LLM? DeepSeek‑OCR обеспечивает Context Optical Compression — кодирование больших текстовых фрагментов в виде визуальных токенов, которые VLM могут эффективно обрабатывать. Это может сократить бюджет токенов и лучше сохранить структуру, чем суммирование только текста, при этом поддерживая высокую точность для длинных контекстов.
В2: Как визуальное сжатие токенов соотносится с текстовым суммированием? Визуальное сжатие токенов часто обеспечивает более высокую эффективную степень сжатия, сохраняя при этом макет и точную формулировку, что помогает с цитатами, кодом и строками ошибок. Суммирование быстрее и проще, но может опустить редкие детали или внести ошибки абстракции.
В3: Могу ли я смешивать DeepSeek‑OCR с RAG для журналов и чатов? Да. Используйте текстовые резюме для быстрого извлечения и прикрепите визуальные карточки, проверенные OCR, для глубины. Двухэтапный извлекатель может сначала извлекать абстракты, затем наиболее релевантные карточки, балансируя точность и охват контекста.
В4: Какие макеты лучше всего подходят для OCR-сжатых контекстных карточек? Используйте чистый HTML/CSS со строкой заголовка, двухколоночным содержимым, моноширинными блоками для кода и четкими маркерами для основных моментов. Сохраняйте 200–400 слов на карточку, шрифты 11–12 пунктов или больше и проверяйте удобочитаемость с помощью OCR round‑trip.
В5: Как мне измерить, не теряет ли сжатие важную информацию? Отслеживайте Fidelity@K по отношению к золотому набору фактов, охват доказательств посредством цитирования номеров строк и метрики задержки/стоимости. Стремитесь к сохранению ≥95% фактов и убедитесь, что большинство ответов ссылаются на строку карточки или ID якоря.

Недавние статьи
Как освоить ChatPDF: Быстрый доступ к информации из объемных документов

Как освоить ChatPDF: Быстрый доступ к информации из объемных документов

Лучший альтернативный сервис X Auto-Translation для быстрой и точной автоматической перевода документов

Лучший альтернативный сервис X Auto-Translation для быстрой и точной автоматической перевода документов

Перевод с помощью Samsung AI недоступен в Иране? Практические решения

Перевод с помощью Samsung AI недоступен в Иране? Практические решения

Инструменты для перевода на персидский: практическое руководство для быстрой и точной работы

Инструменты для перевода на персидский: практическое руководство для быстрой и точной работы

Лучшая альтернатива Grok для глубоких исследований с цитированием

Лучшая альтернатива Grok для глубоких исследований с цитированием

Топ-15 функций AI-генератора изображений, которые вам действительно пригодятся

Топ-15 функций AI-генератора изображений, которые вам действительно пригодятся