What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek-OCR Upute: Komprimiranje Povijesti Razgovora, Logova i Podataka za LLM-ove

Uvod: Zašto je kompresija sada supersila za LLM-ove Ako ste ikada pokušali ugurati tjedan dana vrijedne zapise razgovora, telemetrije ili tragove aplikacija s više sustava u prompt, naišli ste na tvrdi strop kontekstnih prozora. Uobičajeni pristup – sažimanje, obrezivanje, dijeljenje – dovodi vas samo do određene točke prije nego što se uvuče gubitak signala. DeepSeek‑OCR uvodi upečatljiv preokret: komprimira tekst u vizualne tokene koristeći OCR‑VLM cjevovod kako bi dramatično smanjio kontekst bez odbacivanja značenja. Rani izvještaji zajednice navode učinkovitost kompresije za red veličine iskorištavanjem vizualnih tokena umjesto sirovih tekstualnih tokena, paradigmu koju neke analize opisuju kao "Context Optical Compression" i "tisuće tekstualnih tokena u nekoliko stotina vizualnih tokena" za radne procese dugog konteksta.

U ovom praktičnom, korak-po-korak DeepSeek‑OCR tutorialu, naučit ćete kako komprimirati povijesti razgovora, zapise i podatke za LLM-ove uz zadržavanje preciznosti dohvaćanja – plus kako kombinirati kompresiju temeljenu na OCR-u sa sažimanjem, hijerarhijskim dijeljenjem i RAG-om za snažno promptanje s niskom latencijom.

Kome je ovaj vodič namijenjen

Graditeljima AI kopilota koji moraju unijeti duge razgovore i tragove aktivnosti

Inženjerima podataka koji se bore sa zapisima, tragovima i mjernim podacima za LLM zaključivanje

Istraživačima koji prototipiziraju radne procese ultra-dugog konteksta s ograničenim proračunom

Uvod u jednoj rečenici: Ako možete pretvoriti razgranati tekst u kompaktne vizualne reprezentacije koje LLM-ovi mogu čitati, vraćate proračun konteksta bez žrtvovanja mrvica rezoniranja.

Što je DeepSeek‑OCR kompresija? Osnovna ideja

Kompresija vizualnih tokena: Pretvorite guste raspone teksta u vizualne ugradnje s visokim informacijama; vizualni tokeni mogu biti jeftiniji i kompaktniji od ekvivalentnih tekstualnih tokena.

Context Optical Compression: Koristite OCR/VLM za kodiranje velikog tekstualnog konteksta kao slika ili vizualno strukturiranih izgleda, čuvajući semantičku strukturu uz smanjenje broja tokena.

Radni procesi dugog konteksta: Komprimirajte tisuće tokena u stotine vizualnih tokena, omogućujući veće radne skupove za planiranje, korištenje alata ili zaključivanje u više koraka.

Kada ga koristiti

Povijesti razgovora s ponavljajućim frazama ili predvidljivom strukturom

Zapisi sustava, tragovi, izlazi izgradnje ili analitički ispisi

Snimke dokumentacije, nadzorne ploče ili polustrukturirana izvješća

Što ćete izgraditi u ovom tutorialu Implementirat ćete cjevovod za:

Normalizaciju i segmentaciju podataka chata/zapisa.

Odabir strategija kompresije (OCR‑vizualna, tekstualna sažimanja ili hibridna).

Generiranje kompaktnih vizualnih reprezentacija putem DeepSeek‑OCR-a.

Indeksiranje s metapodacima za dohvaćanje.

Upit s hibridnim RAG promptom koji prihvaća i tekst i slike.

Procjenu vjernosti i troškova.

Odjeljak 1 — Priprema podataka: Učinite neuredne povijesti prilagođenima modelu

Normalizacija vremenskih oznaka i uloga: npr. {timestamp: user/system: message}

Protiv: zahtijeva VLM podršku; potrebno je renderiranje i slikovni I/O.

Koristite kada: vam je potrebna vjernost dugog konteksta, dijagrami/tablice ili točno zadržavanje fraziranja.

Hibridni (preporučeno)

Zadržite "kosturnu" tekstualnu sažetak za sidrenje + priložite komprimirane vizualne kartice za dubinu.

Ovo uravnotežuje preciznost dohvaćanja (tekst) i prisjećanje/vjernost (vizija).

Odjeljak 3 — Izgradnja vizualnih kontekstnih kartica s DeepSeek‑OCR-om Cilj: Pretvorite 5–20 KB tekstualnih raspona u 512–1024 px slike optimizirane za OCR/VLM čitanje.

Prijedlozi predložaka

Naslovna traka: ID sesije, vremenski raspon, oznaka teme.

Dvosupčani izgled: lijevi stupac za ključne okrete/zapise; desni stupac za istaknute dijelove (pogreške, odluke, naredbe, mjerne podatke).

Monospace blokovi za retke koda/zapisa; sažeci s točkama za kontekst.

Tema prilagođena kontrastu; izbjegavajte sitne fontove (<11–12 pt pri 1x mjerilu).

Savjeti za renderiranje

Koristite HTML/CSS za izradu čistih, dosljednih kartica (npr. snimke zaslona Puppeteer/Playwright).

Uključite stabilna sidra (brojeve redaka, ID-ove) za referenciranje određenih stavki u promptovima.

Ograničite na ~200–400 riječi po kartici; stvorite stog kartica po sesiji.

DeepSeek‑OCR prolaz

Pokrenite DeepSeek‑OCR kako biste osigurali vjernost povratnog putovanja: kartica → OCR tekst. Ovo dvostruko provjerava da se vaš izgled i fontovi točno dekodiraju.

Ako se OCR tekst razlikuje, prilagodite fontove, razmak ili razbijte gusti kod u više kartica.

Zašto ovo funkcionira Izvještaji zajednice i trećih strana ukazuju na značajna poboljšanja učinkovitosti pri komprimiranju tekstualnog konteksta u vizualne tokene uz zadržavanje čitljivosti.

Odjeljak 4 — Slojevi sažimanja: Zadržite kostur, pohranite mišić Implementirajte slojevite sažetke kako biste mogli povećati razlučivost samo kada je to potrebno.

L0: Atomske oznake retka/okreta — uloga, vremenska oznaka, vrsta (pogreška, bilješka, kod), ugradnja.

L1: Mikro‑sažetak (1–2 rečenice) za svakih 20–40 okretaja ili 2–5 minuta zapisa.

L2: Sažetak sesije (5–8 točaka) s odlukama, blokatorima, ishodima i poveznicama na vizualne kartice.

L3: Niz‑nizova — tjedni ili skupni pregledi na razini projekta.

Praktične heuristike

Uvijek uključite doslovna sidra: kodove pogrešaka, SQL ID-ove, ID-ove praćenja, SHA-ove predaje.

Koristite ekstraktivne sažetke prije apstraktnih; zatim ih poboljšajte apstraktnim radi čitljivosti.

Dodajte točku "što se promijenilo od zadnje sesije" kako biste ubrzali promptanje za nadoknađivanje.

Odjeljak 5 — Indeksiranje i dohvaćanje za hibridni RAG Shema metapodataka

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: {doc_id: URL, line_number: URL}

Kombinirajte kompresiju temeljenu na OCR-u sa slojevitim sažecima i RAG-om za preciznost i dubinu.

Optimizirajte izglede, fontove i indeksiranje kako biste održali visoku vjernost i nisku latenciju.

Tretirajte komprimirane kartice kao dokaze prvog reda i citirajte ih u promptovima.

Sljedeći koraci

Prototipizirajte minimalni cjevovod na jednom projektu chata ili skupu podataka zapisa.

A/B testirajte samo tekstualnu u odnosu na hibridnu kompresiju za 10 tipičnih upita.

Prilagodite dizajn kartice, kombinaciju dohvaćanja i proračune na temelju mjernih podataka vjernosti.

Proširite na timske radne procese s predmemoriranjem, ACL-ovima i nadzorom.

FAQ

P1: Što je DeepSeek‑OCR i zašto ga koristiti za komprimiranje povijesti razgovora za LLM-ove? DeepSeek‑OCR omogućuje Context Optical Compression — kodiranje velikih raspona teksta kao vizualnih tokena koje VLM-ovi mogu učinkovito obraditi. Ovo može smanjiti proračune tokena i bolje očuvati strukturu od samo tekstualnog sažimanja uz održavanje visoke vjernosti za duge kontekste.

P2: Kako se kompresija vizualnih tokena uspoređuje s tekstualnim sažimanjem? Kompresija vizualnih tokena često postiže veću učinkovitu kompresiju uz zadržavanje izgleda i točnog fraziranja, što pomaže s citatima, kodom i nizovima pogrešaka. Sažimanje je brže i jednostavnije, ali može izostaviti rijetke detalje ili uvesti pogreške apstrakcije.

P3: Mogu li kombinirati DeepSeek‑OCR s RAG-om za zapise i razgovore? Da. Koristite tekstualne sažetke za brzo prisjećanje i priložite OCR‑validirane vizualne kartice za dubinu. Dvorazinski dohvatnik može prvo dohvatiti sažetke, a zatim najrelevantnije kartice, uravnotežujući preciznost i pokrivenost konteksta.

P4: Koji izgledi najbolje funkcioniraju za OCR‑komprimirane kontekstne kartice? Koristite čisti HTML/CSS s naslovnom trakom, dvosupčanim sadržajem, monospace blokovima za kod i jasnim točkama za istaknute dijelove. Zadržite 200–400 riječi po kartici, 11–12 pt fontove ili veće i potvrdite čitljivost s OCR povratnim putovanjem.

P5: Kako mjerim gubi li kompresija važne informacije? Pratite Fidelity@K u odnosu na zlatni skup činjenica, pokrivenost dokaza putem citata brojeva redaka i metrike latencije/troškova. Ciljajte ≥95% zadržavanja činjenica i osigurajte da većina odgovora citira redak kartice ili ID sidra.