What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek-OCR õpetus: vestlusajalugude, logide ja andmete pakkimine LLM-ide jaoks

Sissejuhatus: Miks on tihendamine nüüd LLM-ide jaoks supervõime Kui oled kunagi püüdnud toppida nädala jagu vestluslogisid, telemeetriat või mitme süsteemi rakenduse jälgi viipesse, siis oled kohanud konteksti akende kõva piiri. Tavaline mänguraamat – kokkuvõtmine, kärpimine, tükeldamine – viib sind ainult nii kaugele, enne kui signaali kadu sisse hiilib. DeepSeek‑OCR tutvustab silmatorkavat nihet: tihenda tekst nägemisžetoonideks, kasutades OCR‑VLM torujuhet, et konteksti dramaatiliselt kokku tõmmata, ilma tähendust ära viskamata. Kogukonna varased aruanded viitavad suurusjärgu võrra suuremale tihendamise efektiivsusele, kasutades visuaalseid žetoone toorteksti žetoonide asemel, paradigmat, mida mõned analüüsid kirjeldavad kui „Konteksti optiline tihendamine“ ja „tuhanded tekstižetoonid mõnesaja nägemisžetooni vastu“ pika kontekstiga töövoogude jaoks.

Selles praktilises, samm-sammult DeepSeek‑OCR õpetuses õpid, kuidas tihendada vestluste ajalugu, logisid ja andmeid LLM-ide jaoks, säilitades samal ajal otsingutäpsuse – lisaks sellele, kuidas kombineerida OCR-põhist tihendamist kokkuvõtmise, hierarhilise tükeldamise ja RAG-iga võimsa ja madala latentsusega viipamise jaoks.

Kellele see juhend on mõeldud

AI-kaaspilootide ehitajad, kes peavad alla laadima pikki vestlusi ja tegevusjälgi

Andmetehnikud, kes maadlevad logide, jälgede ja mõõdikutega LLM-i arutluskäigu jaoks

Teadlased, kes prototüüpivad ülimalt pika kontekstiga töövooge piiratud eelarvega

Haak lauses: Kui saad muuta laialivalguva teksti kompaktseteks visuaalseteks esitusteks, mida LLM-id saavad lugeda, siis võidad tagasi kontekstieelarve, ohverdamata arutluskäigu leivapuru.

Mis on DeepSeek‑OCR tihendamine? Põhiidee

Nägemisžetoonide tihendamine: Teisenda tihedad tekstivahemikud kõrge informatsioonisisaldusega visuaalseteks manusteks; nägemisžetoonid võivad olla odavamad ja kompaktsemad kui samaväärsed tekstižetoonid.

Konteksti optiline tihendamine: Kasuta OCR/VLM-i, et kodeerida suur tekstiline kontekst piltide või visuaalselt struktureeritud paigutustena, säilitades semantilise struktuuri, vähendades samal ajal žetoonide arvu.

Pika kontekstiga töövoog: Tihenda tuhanded žetoonid sadadeks nägemisžetoonideks, võimaldades suuremaid töökomplekte planeerimiseks, tööriistade kasutamiseks või mitmekordseks arutluskäiguks.

Millal seda kasutada

Vestluste ajalugu korduva sõnastuse või prognoositava struktuuriga

Süsteemilogid, jäljed, väljundite ehitamine või analüütilised väljavõtted

Dokumentatsiooni hetktõmmised, armatuurlauad või poolstruktureeritud aruanded

Mida sa selles õpetuses ehitad Sa rakendad torujuhtme, et:

Normaliseeri ja segmenteeri vestlus-/logiandmed.

Vali tihendamisstrateegiad (OCR‑visuaalne, tekstiline kokkuvõte või hübriid).

Genereeri kompaktsed visuaalsed esitused DeepSeek‑OCR kaudu.

Indekseeri koos metaandmetega otsingu jaoks.

Päring hübriidse RAG viipaga, mis aktsepteerib nii teksti kui ka pilte.

Hinda truudust ja kulu.

1. jagu – Andmete ettevalmistamine: Muuda segased ajalood mudelisõbralikuks

Normaliseeri ajatemplid ja rollid: nt .

Miinused: nõuab VLM-i tuge; vajab renderdamist ja pildi I/O-d.

Kasuta, kui: vajad pikka kontekstitruudust, diagramme/tabeleid või täpset sõnastuse säilitamist.

Hübriid (soovitatav)

Säilita „skeleti“ tekstiline kokkuvõte ankurdamiseks + lisa tihendatud visuaalsed kaardid sügavuse jaoks.

See tasakaalustab otsingutäpsuse (tekst) ja meeldetuletuse/truuduse (nägemine).

3. jagu – Visuaalse konteksti kaartide loomine DeepSeek‑OCR-iga Eesmärk: teisendada 5–20 KB teksti vahemikud 512–1024 piksli suurusteks piltideks, mis on optimeeritud OCR/VLM-i lugemiseks.

Mallide soovitused

Tiitelriba: seansi ID, ajavahemik, teema silt.

Kahe veeruga paigutus: vasak veerg põhiliste pöörete/logide jaoks; parem veerg esiletõstude jaoks (vead, otsused, käsud, mõõdikud).

Monospace plokid koodi/logi ridade jaoks; punktide kokkuvõtted konteksti jaoks.

Kontrastisõbralik teema; väldi pisikesi fonte (<11–12 pt 1x skaalal).

Renderdamise näpunäited

Kasuta HTML/CSS-i, et luua puhtaid ja ühtlaseid kaarte (nt Puppeteer/Playwright ekraanipildid).

Kaasa stabiilsed ankrud (reanumbrid, ID-d), et viidata konkreetsetele üksustele viipades.

Piirdu ~200–400 sõnaga kaardi kohta; loo iga seansi kohta kaardipakk.

DeepSeek‑OCR läbimine

Käivita DeepSeek‑OCR, et tagada edasi-tagasi truudus: kaart → OCR-tekst. See kontrollib topelt, kas sinu paigutus ja fondid dekodeerivad täpselt.

Kui OCR-tekst lahkneb, siis kohanda fonte, vahekaugust või jaga tihe kood mitmeks kaardiks.

Miks see töötab Kogukonna ja kolmandate osapoolte kirjutised viitavad sisukatele efektiivsuse suurenemistele, kui tihendada tekstiline kontekst nägemisžetoonideks, säilitades samal ajal loetavuse.

4. jagu – Kokkuvõtete kihid: Säilita skelett, säilita lihased Rakenda kihilised kokkuvõtted, et saaksid resolutsiooni suurendada ainult vajadusel.

L0: Atomaarsed rea-/pöördetähised – roll, ajatempel, tüüp (viga, märge, kood), manustamine.

L1: Mikrokokkuvõte (1–2 lauset) iga 20–40 pöörde või 2–5 minuti logide kohta.

L2: Seansi kokkuvõte (5–8 punkti) koos otsuste, blokeerijate, tulemuste ja linkidega visuaalsetele kaartidele.

L3: Lõim-lõimest – iganädalased või projektitaseme koondandmed.

Praktiline heuristika

Kaasa alati sõnasõnalised ankrud: veakoodid, SQL-i ID-d, jälgimis-ID-d, commit SHA-d.

Kasuta enne abstraktseid kokkuvõtteid ekstraktiivseid kokkuvõtteid; seejärel täpsusta abstraktsete kokkuvõtetega loetavuse huvides.

Lisa punkt „mis on muutunud alates viimasest seansist“, et kiirendada järelejõudmise viipamist.

5. jagu – Hübriidse RAG-i indekseerimine ja otsing Metaandmete skeem

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: .

Kombineeri OCR-põhine tihendamine kihiliste kokkuvõtete ja RAG-iga täpsuse ja sügavuse saavutamiseks.

Optimeeri paigutusi, fonte ja indekseerimist, et hoida truudus kõrge ja latentsus madal.

Käsitle tihendatud kaarte esmaklassilise tõendusmaterjalina ja tsiteeri neid viipades.

Järgmised sammud

Prototüübi minimaalne torujuhe ühel vestlusprojektil või logiandmete kogumil.

A/B test ainult tekstipõhise vs hübriidtihenduse kohta 10 tüüpilise päringu jaoks.

Häälesta kaardi kujundus, otsija segu ja eelarved, lähtudes truuduse mõõdikutest.

Mastaabi meeskonna töövoogudele vahemällu salvestamise, ACL-ide ja jälgimisega.

KKK

K1: Mis on DeepSeek‑OCR ja miks seda kasutada LLM-ide jaoks vestluste ajaloo tihendamiseks? DeepSeek‑OCR võimaldab konteksti optilist tihendamist – kodeerides suured tekstivahemikud visuaalsete žetoonidena, mida VLM-id saavad tõhusalt töödelda. See võib vähendada žetoonide eelarveid ja säilitada struktuuri paremini kui ainult tekstipõhine kokkuvõte, säilitades samal ajal pika konteksti jaoks kõrge truuduse.

K2: Kuidas on visuaalne žetoonide tihendamine võrreldes teksti kokkuvõttega? Visuaalne žetoonide tihendamine saavutab sageli suurema efektiivse tihendamise, säilitades samal ajal paigutuse ja täpse sõnastuse, mis aitab tsitaatide, koodi ja veakirjade puhul. Kokkuvõte on kiirem ja lihtsam, kuid võib jätta välja haruldasi detaile või tekitada abstraktsiooni vigu.

K3: Kas ma saan kombineerida DeepSeek‑OCR-i RAG-iga logide ja vestluste jaoks? Jah. Kasuta tekstilisi kokkuvõtteid kiireks meeldetuletuseks ja lisa OCR-i valideeritud visuaalsed kaardid sügavuse jaoks. Kaheetapiline otsija saab kõigepealt hankida kokkuvõtted ja seejärel kõige asjakohasemad kaardid, tasakaalustades täpsuse ja konteksti katvuse.

K4: Millised paigutused sobivad kõige paremini OCR-i tihendatud kontekstikaartide jaoks? Kasuta puhast HTML/CSS-i tiitelribaga, kahe veeruga sisuga, monospace plokkidega koodi jaoks ja selgete punktidega esiletõstude jaoks. Hoia 200–400 sõna kaardi kohta, 11–12 pt fonte või suuremaid ja valideeri loetavust OCR-i edasi-tagasi käiguga.

K5: Kuidas ma mõõdan, kas tihendamine kaotab olulist teavet? Jälgi Fidelity@K-d faktide kuldkomplekti vastu, tõendusmaterjali katvust reanumbri tsiteeringute kaudu ja latentsus-/kulumeetrikaid. Sihi ≥95% faktide säilitamist ja tagada, et enamik vastuseid tsiteerivad kaardi rida või ankru ID-d.