What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Інструкція з DeepSeek‑OCR: Стиснення історій чатів, журналів та даних для LLM

Вступ: Чому стиснення зараз є суперсилою для LLM Якщо ви коли-небудь намагалися втиснути тижневі журнали чатів, телеметрію або трасування додатків із кількох систем у підказку, ви досягали жорсткої межі вікон контексту. Звичайна тактика — узагальнити, обрізати, розбити на частини — допомагає лише до певної міри, перш ніж почнуться втрати сигналу. DeepSeek‑OCR представляє вражаючий поворот: стискати текст у візуальні токени за допомогою конвеєра OCR‑VLM, щоб значно зменшити контекст, не відкидаючи сенс. Ранні звіти спільноти свідчать про ефективність стиснення на порядок, використовуючи візуальні токени замість необроблених текстових токенів, парадигму, яку деякі аналізи описують як «Оптичне стиснення контексту» та «тисячі текстових токенів у кілька сотень візуальних токенів» для робочих процесів із довгим контекстом.

У цьому практичному, покроковому підручнику з DeepSeek‑OCR ви дізнаєтеся, як стискати історії чатів, журнали та дані для LLM, зберігаючи точність пошуку, а також як поєднувати стиснення на основі OCR із підсумовуванням, ієрархічним розділенням на частини та RAG для потужних підказок із низькою затримкою.

Для кого цей посібник

Розробники AI-копілотів, яким необхідно обробляти довгі чати та журнали активності

Інженери даних, які обробляють журнали, трасування та метрики для міркувань LLM

Дослідники, які створюють прототипи робочих процесів з наддовгим контекстом за обмеженого бюджету

Суть в одному реченні: якщо ви можете перетворити розлогий текст на компактні візуальні представлення, які можуть читати LLM, ви повертаєте бюджет контексту, не жертвуючи хлібними крихтами міркувань.

Що таке стиснення DeepSeek‑OCR? Основна ідея

Стиснення візуальних токенів: перетворення щільних текстових проміжків у високоінформативні візуальні вбудовування; візуальні токени можуть бути дешевшими та компактнішими, ніж еквівалентні текстові токени.

Оптичне стиснення контексту: використовуйте OCR/VLM для кодування великого текстового контексту як зображень або візуально структурованих макетів, зберігаючи семантичну структуру, одночасно зменшуючи кількість токенів.

Робочі процеси з довгим контекстом: стискайте тисячі токенів у сотні візуальних токенів, забезпечуючи більші робочі набори для планування, використання інструментів або багаторазових міркувань.

Коли використовувати

Історії чатів з повторюваними фразами або передбачуваною структурою

Системні журнали, трасування, результати збірок або дампи аналітики

Знімки документації, інформаційні панелі або напівструктуровані звіти

Що ви створите в цьому підручнику Ви реалізуєте конвеєр для:

Нормалізація та сегментація даних чату/журналу.

Вибір стратегій стиснення (OCR‑візуальне, текстове узагальнення або гібридне).

Створення компактних візуальних представлень за допомогою DeepSeek‑OCR.

Індексація з метаданими для пошуку.

Запит за допомогою гібридної підказки RAG, яка приймає як текст, так і зображення.

Оцінка точності та вартості.

Розділ 1 — Підготовка даних: Зробіть безладні історії зручними для моделі

Нормалізація часових міток і ролей: наприклад, {e.g., <time> <role>: <message>}.

Недоліки: потрібна підтримка VLM; потрібне рендеринг та введення-виведення зображень.

Використовуйте, коли: вам потрібна точність довгого контексту, діаграми/таблиці або точне збереження фраз.

Гібридний (рекомендовано)

Зберігайте «скелетний» текстовий підсумок для прив’язки + прикріплюйте стиснуті візуальні картки для глибини.

Це балансує точність пошуку (текст) і відкликання/точність (візуальне).

Розділ 3 — Створення карток візуального контексту за допомогою DeepSeek‑OCR Мета: перетворити текстові проміжки 5–20 КБ на зображення 512–1024 пікселів, оптимізовані для читання OCR/VLM.

Пропозиції щодо шаблонів

Панель заголовка: ідентифікатор сесії, діапазон часу, мітка теми.

Двоколонковий макет: ліва колонка для ключових ходів/журналів; права колонка для основних моментів (помилки, рішення, команди, метрики).

Блоки з фіксованою шириною для рядків коду/журналу; короткі підсумки для контексту.

Зручна для контрасту тема; уникайте крихітних шрифтів (<11–12 pt у масштабі 1x).

Поради щодо рендерингу

Використовуйте HTML/CSS для створення чистих, узгоджених карток (наприклад, знімки екрана Puppeteer/Playwright).

Включіть стабільні якорі (номери рядків, ідентифікатори) для посилання на конкретні елементи в підказках.

Обмежтеся ~200–400 словами на картку; створіть стек карток для кожної сесії.

Прохід DeepSeek‑OCR

Запустіть DeepSeek‑OCR, щоб забезпечити точність зворотного зв’язку: картка → текст OCR. Це подвійна перевірка того, що ваш макет і шрифти точно декодуються.

Якщо текст OCR відрізняється, налаштуйте шрифти, інтервали або розбийте щільний код на кілька карток.

Чому це працює Спільні та сторонні записи вказують на значні вигоди в ефективності під час стиснення текстового контексту у візуальні токени, зберігаючи при цьому читабельність.

Розділ 4 — Шари узагальнення: Збережіть скелет, збережіть м’язи Реалізуйте шаруваті підсумки, щоб ви могли збільшувати роздільну здатність лише тоді, коли це потрібно.

L0: Атомарні теги рядка/ходу — роль, часова мітка, тип (помилка, примітка, код), вбудовування.

L1: Мікропідсумок (1–2 речення) для кожних 20–40 ходів або 2–5 хвилин журналів.

L2: Резюме сесії (5–8 пунктів) з рішеннями, блокувальниками, результатами та посиланнями на візуальні картки.

L3: Нитки-з-нитів — щотижневі або зведення на рівні проєкту.

Практична евристика

Завжди включайте дослівні якорі: коди помилок, ідентифікатори SQL, ідентифікатори трасування, SHA комітів.

Використовуйте екстрактивні підсумки перед абстрактивними; потім уточніть абстрактивними для читабельності.

Додайте пункт «що змінилося з останньої сесії», щоб прискорити підказки для надолуження.

Розділ 5 — Індексація та пошук для гібридного RAG Схема метаданих

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: {links to cards, L1, L2 summaries}.

Поєднайте стиснення на основі OCR з шаруватими підсумками та RAG для точності та глибини.

Оптимізуйте макети, шрифти та індексацію, щоб підтримувати високу точність і низьку затримку.

Розглядайте стиснуті картки як першокласні докази та цитуйте їх у підказках.

Наступні кроки

Створіть прототип мінімального конвеєра на одному проєкті чату або наборі даних журналу.

A/B тестування лише текстового та гібридного стиснення для 10 типових запитів.

Налаштуйте дизайн карток, мікс пошукача та бюджети на основі показників точності.

Масштабуйте до командних робочих процесів з кешуванням, ACL та моніторингом.

FAQ

Q1: Що таке DeepSeek‑OCR і навіщо використовувати його для стиснення історії чатів для LLM? DeepSeek‑OCR забезпечує оптичне стиснення контексту — кодування великих текстових проміжків як візуальних токенів, які VLM можуть ефективно обробляти. Це може зменшити бюджет токенів і краще зберегти структуру, ніж узагальнення лише тексту, зберігаючи при цьому високу точність для довгих контекстів.

Q2: Як порівнюється стиснення візуальних токенів з текстовим узагальненням? Стиснення візуальних токенів часто досягає вищого ефективного стиснення, зберігаючи при цьому макет і точне формулювання, що допомагає з цитатами, кодом і рядками помилок. Узагальнення швидше та простіше, але може опускати рідкісні деталі або вносити помилки абстракції.

Q3: Чи можу я поєднувати DeepSeek‑OCR з RAG для журналів і чатів? Так. Використовуйте текстові підсумки для швидкого відкликання та прикріплюйте візуальні картки, перевірені OCR, для глибини. Двохетапний пошукач може спочатку отримати реферати, а потім найрелевантніші картки, балансуючи точність і охоплення контексту.

Q4: Які макети найкраще підходять для карток контексту, стиснутих OCR? Використовуйте чистий HTML/CSS з панеллю заголовка, двоколонковим вмістом, блоками з фіксованою шириною для коду та чіткими маркерами для основних моментів. Зберігайте 200–400 слів на картку, шрифти 11–12 pt або більше та перевіряйте читабельність за допомогою зворотного зв’язку OCR.

Q5: Як мені виміряти, чи втрачає стиснення важливу інформацію? Відстежуйте Fidelity@K у порівнянні з золотим набором фактів, охоплення доказів за допомогою цитат номерів рядків, а також показники затримки/вартості. Націлюйтесь на ≥95% збереження фактів і переконайтеся, що більшість відповідей цитують рядок картки або ідентифікатор якоря.