Sider.ai
  • Чат
  • Wisebase
  • Инструменти
  • Разширение
  • клиенти
  • Ценообразуване
Свали сега
Влизам

Учете по-бързо, мислете по-дълбоко и растете по-умно със Sider.

Продукти
Приложения
  • Разширения
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Инструменти
  • Уеб създателNew
  • AI СлайдовеNew
  • AI Писател на есета
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI Генератор на изображения
  • Италиански генератор на мозъчна мъгла
  • Премахване на фон
  • Смяна на фона
  • Изтриване на снимка
  • Премахване на текст
  • Ретуширане
  • Увеличаване на изображение
  • Създайте
  • AI Преводач
  • Преводач на изображения
  • PDF Преводач
Sider
  • Свържете се с нас
  • Център за помощ
  • Изтегляне
  • Ценообразуване
  • Образователен план
  • Какво е ново
  • Блог
  • Общество
  • Партньори
  • Партньорска програма
  • Покани
©2026 Всички права запазени
Условия за ползване
Политика за поверителност
  • Начална страница
  • Блог
  • AI Инструменти
  • Ръководство за DeepSeek‑OCR: Компресиране на истории на чатове, логове и данни за LLM

Ръководство за DeepSeek‑OCR: Компресиране на истории на чатове, логове и данни за LLM

Актуализирано на 23 окт 2025

5 мин


Въведение: Защо компресирането вече е суперсила за LLM Ако някога сте се опитвали да съберете седмични чат логове, телеметрия или трасировки на приложения от много системи в подкана, тогава сте се сблъсквали с твърдия таван на контекстните прозорци. Обичайната практика – обобщаване, изчистване, разделяне на части – помага само донякъде, преди да започне загубата на сигнал. DeepSeek‑OCR въвежда поразителен обрат: компресиране на текст във визуални токени, използвайки OCR‑VLM конвейер, за драстично свиване на контекста, без да се изхвърля смисъл. Ранните доклади от общността цитират десетократно увеличение на ефективността на компресиране чрез използване на визуални токени вместо сурови текстови токени, парадигма, която някои анализи описват като „Контекстна оптична компресия“ и „хиляди текстови токени в няколкостотин визуални токена“ за работни процеси с дълъг контекст.
В този практически, стъпка по стъпка DeepSeek‑OCR урок ще научите как да компресирате истории на чатове, логове и данни за LLM, като същевременно запазите прецизността на извличане – плюс как да комбинирате компресиране, базирано на OCR, с обобщаване, йерархично разделяне и RAG за мощни подкани с ниска латентност.
За кого е предназначен този наръчник
  • Създатели на AI ко-пилоти, които трябва да поглъщат дълги чатове и следи от активност
  • Инженери по данни, които се борят с логове, трасировки и метрики за разсъждения на LLM
  • Изследователи, които прототипират работни процеси с ултрадълъг контекст с ограничен бюджет
Акцент в едно изречение: Ако можете да превърнете разпростиращ се текст в компактни визуални представяния, които LLM могат да четат, печелите обратно бюджет за контекст, без да жертвате трохите от разсъждения.
Какво представлява компресирането с DeepSeek‑OCR? Основната идея
  • Компресиране на визуални токени: Преобразувайте плътни текстови участъци във визуални вграждания с висока информация; визуалните токени могат да бъдат по-евтини и по-компактни от еквивалентните текстови токени.
  • Контекстна оптична компресия: Използвайте OCR/VLM, за да кодирате голям текстов контекст като изображения или визуално структурирани оформления, запазвайки семантичната структура, като същевременно намалявате броя на токените.
  • Работните процеси с дълъг контекст: Компресирайте хиляди токени в стотици визуални токени, което позволява по-големи работни набори за планиране, използване на инструменти или многоходови разсъждения.
Кога да го използвате
  • Чат истории с повтарящи се фрази или предвидима структура
  • Системни логове, трасировки, изходи от компилация или аналитични дъмпа
  • Снимки на документация, табла за управление или полуструктурирани отчети
Какво ще изградите в този урок Ще внедрите конвейер за:
  1. Нормализиране и сегментиране на данни от чат/лог.
  1. Избор на стратегии за компресиране (OCR‑визуална, текстово обобщаване или хибридна).
  1. Генериране на компактни визуални представяния чрез DeepSeek‑OCR.
  1. Индексиране с метаданни за извличане.
  1. Заявка с хибридна RAG подкана, която приема както текст, така и изображения.
  1. Оценка на точността и цената.
Раздел 1 — Подготовка на данни: Направете разхвърляните истории удобни за модела
  • Нормализиране на времеви печати и роли: напр. .
  • Недостатъци: изисква VLM поддръжка; нуждае се от рендиране и image I/O.
  • Използвайте, когато: се нуждаете от точност на дългия контекст, диаграми/таблици или точно запазване на фрази.
  • Хибриден (препоръчително)
  • Запазете „скелетен“ текстов резюме за закрепване + прикачете компресирани визуални карти за дълбочина.
  • Това балансира прецизността на извличане (текст) и извличането/точността (визия).
Раздел 3 — Изграждане на карти с визуален контекст с DeepSeek‑OCR Цел: Трансформиране на 5–20 KB текстови участъци в 512–1024 px изображения, оптимизирани за OCR/VLM четене.
Предложения за шаблони
  • Заглавна лента: ID на сесията, времеви диапазон, етикет на тема.
  • Оформление с две колони: лява колона за ключови ходове/логове; дясна колона за акценти (грешки, решения, команди, метрики).
  • Моноширинни блокове за код/логове; резюмета с водещи символи за контекст.
  • Контрастна тема; избягвайте малки шрифтове (<11–12 pt при 1x мащаб).
Съвети за рендиране
  • Използвайте HTML/CSS, за да създадете чисти, последователни карти (напр. снимки на екрани с Puppeteer/Playwright).
  • Включете стабилни котви (номера на редове, идентификатори), за да посочвате конкретни елементи в подканите.
  • Ограничете до ~200–400 думи на карта; създайте стек от карти на сесия.
Преминаване на DeepSeek‑OCR
  • Изпълнете DeepSeek‑OCR, за да осигурите двупосочна точност: карта → OCR текст. Това допълнително проверява дали вашето оформление и шрифтове се декодират точно.
  • Ако OCR текстът се различава, коригирайте шрифтовете, разстоянието или разделете плътния код на множество карти.
Защо това работи Общността и статиите на трети страни сочат към значителни подобрения в ефективността при компресиране на текстов контекст във визуални токени, като същевременно се запазва четливостта.
Раздел 4 — Слоеве за обобщаване: Запазете скелета, съхранявайте мускулите Внедрете слоести резюмета, за да можете да увеличавате разделителната способност само когато е необходимо.
  • L0: Атомни етикети на ред/завой — роля, времеви печат, тип (грешка, бележка, код), вграждане.
  • L1: Микро-резюме (1–2 изречения) за всеки 20–40 завъртания или 2–5 минути логове.
  • L2: Резюме на сесията (5–8 водещи символа) с решения, блокиращи фактори, резултати и връзки към визуални карти.
  • L3: Нишка от нишки — седмични или проекти ни обобщения.
Практически евристики
  • Винаги включвайте буквални котви: кодове за грешки, SQL идентификатори, trace идентификатори, commit SHAs.
  • Използвайте екстрактивни резюмета преди абстрактни; след това прецизирайте с абстрактни за четливост.
  • Добавете водещ символ „какво се е променило от последната сесия“, за да ускорите подканите за наваксване.
Раздел 5 — Индексиране и извличане за хибриден RAG Схема на метаданни
  • doc_id, session_id, time_range, roles, topic labels
  • importance score, error severity, component/service
  • links: .
  • Комбинирайте компресиране, базирано на OCR, със слоести резюмета и RAG за прецизност и дълбочина.
  • Оптимизирайте оформленията, шрифтовете и индексирането, за да поддържате висока точност и ниска латентност.
  • Третирайте компресираните карти като първокласни доказателства и ги цитирайте в подканите.
Следващи стъпки
  • Прототипирайте минималния конвейер на един проект за чат или набор от данни от логове.
  • Направете A/B тест само с текст спрямо хибридно компресиране за 10 типични заявки.
  • Настройте дизайна на картите, микса на retriever и бюджетите въз основа на показателите за точност.
  • Мащабирайте до работни процеси на екипа с кеширане, ACL и наблюдение.

ЧЗВ

В1: Какво е DeepSeek‑OCR и защо да го използвате за компресиране на истории на чатове за LLM? DeepSeek‑OCR позволява контекстна оптична компресия — кодиране на големи текстови участъци като визуални токени, които VLM могат да обработват ефективно. Това може да свие бюджетите за токени и да запази структурата по-добре от обобщаването само на текст, като същевременно поддържа висока точност за дълги контексти.
В2: Как визуалното компресиране на токени се сравнява с текстовото обобщаване? Визуалното компресиране на токени често постига по-висока ефективна компресия, като същевременно запазва оформлението и точното формулиране, което помага при цитати, код и низове за грешки. Обобщаването е по-бързо и по-просто, но може да пропусне редки детайли или да въведе грешки при абстрахиране.
В3: Мога ли да комбинирам DeepSeek‑OCR с RAG за логове и чатове? Да. Използвайте текстови резюмета за бързо извличане и прикачете OCR‑валидирани визуални карти за дълбочина. Двуетапен retriever може първо да извлече резюмета, след това най-подходящите карти, балансирайки прецизността и контекстното покритие.
В4: Кои оформления работят най-добре за OCR‑компресирани контекстни карти? Използвайте чист HTML/CSS със заглавна лента, двуколоново съдържание, моноширинни блокове за код и ясни водещи символи за акценти. Поддържайте 200–400 думи на карта, 11–12 pt шрифтове или по-големи и валидирайте четливостта с OCR двупосочно.
В5: Как да измеря дали компресирането губи важна информация? Проследявайте Fidelity@K спрямо златен набор от факти, покритие на доказателства чрез цитати на номера на редове и показатели за латентност/цена. Насочете се към ≥95% запазване на фактите и се уверете, че повечето отговори цитират ред от карта или ID на котва.

Нови статии
Как да овладеете ChatPDF: По-бързи прозрения от обемисти документи

Как да овладеете ChatPDF: По-бързи прозрения от обемисти документи

Най-добрата алтернатива на X Auto-Translation за бързи и точни документи

Най-добрата алтернатива на X Auto-Translation за бързи и точни документи

Преводът с AI на Samsung не е наличен в Иран? Практически решения

Преводът с AI на Samsung не е наличен в Иран? Практически решения

Инструменти за превод на персийски: практическо ръководство за по-бърза и точна работа

Инструменти за превод на персийски: практическо ръководство за по-бърза и точна работа

Най-добрата алтернатива на Grok за задълбочени, цитирани изследвания

Най-добрата алтернатива на Grok за задълбочени, цитирани изследвания

Топ 15 функции на AI генератор на изображения, които наистина ще използвате

Топ 15 функции на AI генератор на изображения, които наистина ще използвате