What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek‑OCR Vadovas: Pokalbių istorijų, žurnalų ir duomenų glaudinimas LLM

Įvadas: Kodėl suspaudimas dabar yra supergalia LLM Jei kada nors bandėte įkišti savaitės pokalbių žurnalus, telemetriją ar kelių sistemų programų sekimo duomenis į raginimą, susidūrėte su griežta konteksto langų riba. Įprastas veiksmų planas – apibendrinti, apkarpyti, suskaidyti – padeda tik tiek, kol įsėlina signalo praradimas. „DeepSeek‑OCR“ pristato stulbinantį posūkį: suspaudžia tekstą į vaizdo žymenis naudojant OCR‑VLM dujotiekį, kad smarkiai sumažintų kontekstą, neišmetant prasmės. Ankstyvieji bendruomenės pranešimai nurodo didesnį nei eilės eilės suspaudimo efektyvumą, naudojant vaizdinius žymenis, o ne neapdorotus teksto žymenis, paradigmą, kurią kai kurios analizės apibūdina kaip „Context Optical Compression“ ir „tūkstančius teksto žymenų į kelis šimtus vaizdo žymenų“ ilgam konteksto darbo eigoms.

Šioje praktinėje, žingsnis po žingsnio „DeepSeek‑OCR“ mokymo programoje sužinosite, kaip suspausti pokalbių istorijas, žurnalus ir duomenis, skirtus LLM, išlaikant paieškos tikslumą – taip pat, kaip sujungti OCR pagrindu sukurtą suspaudimą su apibendrinimu, hierarchiniu suskaidymu ir RAG, kad būtų galima greitai ir efektyviai raginti.

Kam skirtas šis vadovas

AI pilotų kūrėjams, kurie turi įtraukti ilgus pokalbius ir veiklos pėdsakus

Duomenų inžinieriams, tvarkantiems žurnalus, sekimo duomenis ir metriką LLM argumentacijai

Tyrėjams, prototipų kūrimui itin ilgo konteksto darbo eigoms su ribotu biudžetu

Kabliukas vienu sakiniu: jei galite paversti platų tekstą kompaktiškais vaizdiniais atvaizdais, kuriuos LLM gali perskaityti, atgausite konteksto biudžetą neprarandant argumentavimo trupinių.

Kas yra „DeepSeek‑OCR“ suspaudimas? Pagrindinė idėja

Vaizdo žymenų suspaudimas: paverskite tankius teksto intervalus didelės informacijos vaizdiniais įterpiniais; vaizdo žymenys gali būti pigesni ir kompaktiškesni nei atitinkami teksto žymenys.

Context Optical Compression: naudokite OCR/VLM, kad užkoduotumėte didelį tekstinį kontekstą kaip vaizdus arba vizualiai struktūruotus maketus, išsaugodami semantinę struktūrą ir sumažindami žymenų skaičių.

Ilgos trukmės konteksto darbo eigos: suspauskite tūkstančius žymenų į šimtus vaizdo žymenų, suteikdami galimybę didesniems darbo rinkiniams planuoti, naudoti įrankius arba argumentuoti keliais etapais.

Kada jį naudoti

Pokalbių istorijos su pasikartojančiomis frazėmis arba nuspėjama struktūra

Sistemos žurnalai, sekimo duomenys, kompiliavimo rezultatai arba analizės išrašai

Dokumentacijos momentinės nuotraukos, informacijos suvestinės arba pusiau struktūruotos ataskaitos

Ką sukursite šioje mokymo programoje Įdiegsite dujotiekį, kad:

Normalizuokite ir segmentuokite pokalbių/žurnalų duomenis.

Pasirinkite suspaudimo strategijas (OCR‑visual, tekstinis apibendrinimas arba hibridinis).

Generuokite kompaktiškus vaizdinius atvaizdus per „DeepSeek‑OCR“.

Indeksuokite su metaduomenimis, kad būtų galima atgauti.

Užklauskite naudodami hibridinį RAG raginimą, kuris priima tekstą ir vaizdus.

Įvertinkite tikslumą ir kainą.

1 skyrius – Duomenų paruošimas: padarykite netvarkingas istorijas patogiomis modeliui

Normalizuokite laiko žymes ir vaidmenis: pvz., .

Trūkumai: reikalingas VLM palaikymas; reikia atvaizdavimo ir vaizdo įvesties/išvesties.

Naudokite, kai: jums reikia ilgo konteksto tikslumo, diagramų/lentelių arba tikslaus frazių išsaugojimo.

Hibridinis (rekomenduojama)

Išlaikykite „skeleto“ teksto santrauką, kad pritvirtintumėte + pridėkite suspaustas vaizdines korteles, kad būtų gylis.

Tai subalansuoja paieškos tikslumą (tekstas) ir atšaukimą/tikslumą (vaizdas).

3 skyrius – Vaizdinio konteksto kortelių kūrimas naudojant „DeepSeek‑OCR“ Tiksas: Transformuokite 5–20 KB teksto intervalus į 512–1024 px vaizdus, optimizuotus OCR/VLM skaitymui.

Šablonų pasiūlymai

Pavadinimo juosta: seanso ID, laiko intervalas, temos etiketė.

Dviejų stulpelių maketas: kairysis stulpelis pagrindiniams posūkiams/žurnalams; dešinysis stulpelis svarbiausiems dalykams (klaidos, sprendimai, komandos, metrika).

Monospace blokai kodo/žurnalo eilutėms; kulkų santraukos kontekstui.

Kontrastinga tema; venkite mažų šriftų (<11–12 pt 1x masteliu).

Atvaizdavimo patarimai

Naudokite HTML/CSS, kad sukurtumėte švarias, nuoseklias korteles (pvz., „Puppeteer/Playwright“ ekrano kopijas).

Įtraukite stabilius inkarus (eilučių numerius, ID), kad nurodytumėte konkrečius elementus raginimuose.

Apribokite iki ~200–400 žodžių vienai kortelei; sukurkite kortelių krūvą kiekvienam seansui.

„DeepSeek‑OCR“ leidimas

Paleiskite „DeepSeek‑OCR“, kad užtikrintumėte apvalaus kelio tikslumą: kortelė → OCR tekstas. Tai dar kartą patikrina, ar jūsų maketas ir šriftai tiksliai iššifruojami.

Jei OCR tekstas skiriasi, sureguliuokite šriftus, tarpus arba suskaidykite tankų kodą į kelias korteles.

Kodėl tai veikia Bendruomenės ir trečiųjų šalių aprašymai rodo didelį efektyvumo padidėjimą suspaudžiant tekstinį kontekstą į vaizdo žymenis, išlaikant skaitomumą.

4 skyrius – Apibendrinimo sluoksniai: laikykite skeletą, laikykite raumenis Įdiekite sluoksniuotas santraukas, kad galėtumėte padidinti skyrą tik tada, kai reikia.

L0: atominės eilutės/posūkio žymos – vaidmuo, laiko žyma, tipas (klaida, pastaba, kodas), įterpimas.

L1: mikro santrauka (1–2 sakiniai) kas 20–40 posūkių arba 2–5 minutes žurnalų.

L2: seanso abstraktas (5–8 kulkos) su sprendimais, blokatoriais, rezultatais ir nuorodomis į vaizdines korteles.

L3: gijų gija – savaitės arba projekto lygio apibendrinimai.

Praktinė heuristika

Visada įtraukite pažodinius inkarus: klaidų kodus, SQL ID, sekimo ID, commit SHA.

Prieš abstrakciją naudokite ekstrahuojančias santraukas; tada patikslinkite jas abstrakcijos būdu, kad būtų lengviau skaityti.

Pridėkite kulką „kas pasikeitė nuo paskutinio seanso“, kad pagreitintumėte prisijungimo raginimą.

5 skyrius – Indeksavimas ir paieška hibridiniam RAG Metaduomenų schema

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: .

Sujunkite OCR pagrindu sukurtą suspaudimą su sluoksniuotomis santraukomis ir RAG, kad gautumėte tikslumą ir gylį.

Optimizuokite maketus, šriftus ir indeksavimą, kad išlaikytumėte didelį tikslumą ir mažą delsą.

Apsvarstykite suspaustas korteles kaip pirmos klasės įrodymus ir cituokite jas raginimuose.

Kiti žingsniai

Sukurkite minimalų dujotiekio prototipą vienam pokalbių projektui arba žurnalų duomenų rinkiniui.

A/B testas tik tekstą vs hibridinį suspaudimą 10 tipinių užklausų.

Sureguliuokite kortelių dizainą, paieškos sistemos derinį ir biudžetus, atsižvelgdami į tikslumo metriką.

Padidinkite mastelį iki komandos darbo eigų naudodami talpyklą, ACL ir stebėjimą.

DUK

1 klausimas: Kas yra „DeepSeek‑OCR“ ir kodėl jį naudoti pokalbių istorijoms suspausti LLM? „DeepSeek‑OCR“ suteikia galimybę Context Optical Compression – užkoduoti didelius teksto intervalus kaip vaizdo žymenis, kuriuos VLM gali efektyviai apdoroti. Tai gali sumažinti žymenų biudžetus ir geriau išsaugoti struktūrą nei tik teksto apibendrinimas, išlaikant didelį tikslumą ilgiems kontekstams.

2 klausimas: Kaip vaizdo žymenų suspaudimas lyginamas su teksto apibendrinimu? Vaizdo žymenų suspaudimas dažnai pasiekia didesnį efektyvų suspaudimą, išlaikant maketą ir tikslų frazių pateikimą, o tai padeda cituojant, koduojant ir klaidų eilutes. Apibendrinimas yra greitesnis ir paprastesnis, tačiau gali praleisti retas detales arba įvesti abstrakcijos klaidų.

3 klausimas: Ar galiu maišyti „DeepSeek‑OCR“ su RAG žurnalams ir pokalbiams? Taip. Norėdami greitai atšaukti, naudokite teksto santraukas ir pridėkite OCR patvirtintas vaizdines korteles, kad būtų gylis. Dviejų etapų paieškos sistema gali pirmiausia gauti abstrakcijas, tada tinkamiausias korteles, subalansuodama tikslumą ir konteksto aprėptį.

4 klausimas: Kokie maketai geriausiai tinka OCR suspaustoms konteksto kortelėms? Naudokite švarų HTML/CSS su pavadinimo juosta, dviejų stulpelių turiniu, monospace blokais kodui ir aiškiomis kulkomis svarbiausiems dalykams. Laikykite 200–400 žodžių vienai kortelei, 11–12 pt šriftų ar didesnių ir patvirtinkite skaitomumą naudodami OCR apvalų kelionę.

5 klausimas: Kaip išmatuoti, ar suspaudimas praranda svarbią informaciją? Stebėkite Fidelity@K pagal auksinį faktų rinkinį, įrodymų aprėptį per eilučių numerių citatas ir delsos/kainos metriką. Siekite ≥95% faktų išsaugojimo ir užtikrinkite, kad dauguma atsakymų cituotų kortelės eilutę arba inkaro ID.