What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Vadnica DeepSeek‑OCR: Stiskanje zgodovine klepetov, dnevnikov in podatkov za LLM

Uvod: Zakaj je kompresija zdaj supermoč za LLM-je Če ste kdaj poskušali v poziv stlačiti cel teden dnevnikov klepetov, telemetrije ali sledi aplikacij z več sistemov, ste naleteli na trdo mejo oken konteksta. Običajni pristopi – povzemanje, obrezovanje, razdeljevanje – vas pripeljejo le do določene točke, preden se prikrade izguba signala. DeepSeek-OCR uvaja presenetljiv preobrat: stiskanje besedila v vizualne žetone z uporabo OCR-VLM cevovoda za dramatično zmanjšanje konteksta, ne da bi pri tem zavrgli pomen. Zgodnja poročila skupnosti navajajo učinkovitost kompresije za velikostni red, saj izkoriščajo vizualne žetone namesto surovih besedilnih žetonov, kar nekatere analize opisujejo kot »Optično kompresijo konteksta« in »na tisoče besedilnih žetonov v nekaj sto vizualnih žetonov« za delovne tokove z dolgim kontekstom.

V tem praktičnem, korak za korakom DeepSeek-OCR priročniku se boste naučili, kako stisniti zgodovino klepetov, dnevnike in podatke za LLM-je, hkrati pa ohraniti natančnost iskanja – poleg tega, kako kombinirati kompresijo, ki temelji na OCR, s povzemanjem, hierarhičnim razdeljevanjem in RAG za močno spodbujanje z nizko zakasnitvijo.

Komu je ta vodnik namenjen

Razvijalcem AI kopilotov, ki morajo vnesti dolge klepete in sledi dejavnosti

Podatkovnim inženirjem, ki se ukvarjajo z dnevniki, sledmi in meritvami za sklepanje LLM-jev

Raziskovalcem, ki prototipirajo delovne tokove z izjemno dolgim kontekstom s skromnim proračunom

Ključna ideja v enem stavku: Če lahko obsežno besedilo spremenite v kompaktne vizualne predstavitve, ki jih LLM-ji lahko preberejo, si povrnete proračun konteksta, ne da bi žrtvovali sledi sklepanja.

Kaj je DeepSeek-OCR kompresija? Osrednja ideja

Kompresija vizualnih žetonov: pretvorite goste razpone besedila v vizualne vtise z visoko vsebnostjo informacij; vizualni žetoni so lahko cenejši in bolj kompaktni od enakovrednih besedilnih žetonov.

Optična kompresija konteksta: uporabite OCR/VLM za kodiranje velikega besedilnega konteksta kot slike ali vizualno strukturirane postavitve, pri čemer ohranite semantično strukturo in hkrati zmanjšate število žetonov.

Delovni tokovi z dolgim kontekstom: stisnite na tisoče žetonov v stotine vizualnih žetonov, kar omogoča večje delovne nize za načrtovanje, uporabo orodij ali sklepanje v več korakih.

Kdaj ga uporabiti

Zgodovina klepetov s ponavljajočimi se frazami ali predvidljivo strukturo

Sistemski dnevniki, sledi, izpisi gradnje ali izpisi analiz

Posnetki dokumentacije, nadzorne plošče ali polstrukturirana poročila

Kaj boste ustvarili v tem priročniku Implementirali boste cevovod za:

Normalizirajte in segmentirajte podatke klepetov/dnevnikov.

Izberite strategije kompresije (OCR-vizualna, besedilno povzemanje ali hibridna).

Ustvarite kompaktne vizualne predstavitve prek DeepSeek-OCR.

Indeksirajte z metapodatki za iskanje.

Poizvedujte s hibridnim RAG pozivom, ki sprejema besedilo in slike.

Ocenite zvestobo in stroške.

1. razdelek – Priprava podatkov: Naj bodo neurejene zgodovine prijazne modelom

Normalizirajte časovne žige in vloge: npr. .

Slabosti: zahteva podporo VLM; potrebuje upodabljanje in slikovni I/O.

Uporabite, ko: potrebujete zvestobo dolgega konteksta, diagrame/tabele ali natančno ohranitev besedila.

Hibridna (priporočeno)

Obdržite »skeletno« besedilno povzemanje za sidranje + priložite stisnjene vizualne kartice za globino.

To uravnoteži natančnost iskanja (besedilo) in priklic/zvestobo (vizualno).

3. razdelek – Ustvarjanje vizualnih kartic konteksta z DeepSeek-OCR Cilj: Preoblikujte 5–20 KB razponov besedila v slike velikosti 512–1024 px, optimizirane za branje OCR/VLM.

Predlogi predlog

Naslovna vrstica: ID seje, časovno obdobje, oznaka teme.

Dvo-stolpična postavitev: levi stolpec za ključne poteze/dnevnike; desni stolpec za poudarke (napake, odločitve, ukazi, meritve).

Monospace bloki za vrstice kode/dnevnika; povzetki s točkami za kontekst.

Tema, prijazna kontrastu; izogibajte se drobnim pisavam (manj kot 11–12 pt pri 1x povečavi).

Nasveti za upodabljanje

Uporabite HTML/CSS za ustvarjanje čistih in doslednih kartic (npr. posnetki zaslona Puppeteer/Playwright).

Vključite stabilna sidra (številke vrstic, ID-ji) za sklicevanje na določene elemente v pozivih.

Omejite na ~200–400 besed na kartico; ustvarite sklad kartic na sejo.

DeepSeek-OCR prehod

Zaženite DeepSeek-OCR, da zagotovite zvestobo povratnega potovanja: kartica → OCR besedilo. To preveri, ali se vaša postavitev in pisave natančno dekodirajo.

Če se besedilo OCR razlikuje, prilagodite pisave, razmik ali razdelite gosto kodo na več kartic.

Zakaj to deluje Pisanja skupnosti in tretjih oseb kažejo na pomembne izboljšave učinkovitosti pri stiskanju besedilnega konteksta v vizualne žetone ob ohranjanju berljivosti.

4. razdelek – Plasti povzemanja: Obdržite okostje, shranite mišice Implementirajte plastovite povzetke, tako da lahko povečate ločljivost samo, ko je to potrebno.

L0: Atomske oznake vrstic/potez – vloga, časovni žig, vrsta (napaka, opomba, koda), vdelava.

L1: Mikro-povzetek (1–2 stavka) za vsakih 20–40 potez ali 2–5 minut dnevnikov.

L2: Povzetek seje (5–8 točk) z odločitvami, blokatorji, rezultati in povezavami do vizualnih kartic.

L3: Nit-od-niti – tedenski ali zbirniki na ravni projekta.

Praktične hevristike

Vedno vključite dobesedna sidra: kode napak, SQL ID-je, sledilne ID-je, SHA-je za potrditev.

Uporabite ekstraktivne povzetke pred abstraktivnimi; nato jih izboljšajte z abstraktivnimi za berljivost.

Dodajte točko »kaj se je spremenilo od zadnje seje«, da pospešite spodbujanje za dohitevanje.

5. razdelek – Indeksiranje in iskanje za hibridni RAG Shema metapodatkov

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: .

Kombinirajte kompresijo, ki temelji na OCR, s plastovitimi povzetki in RAG za natančnost in globino.

Optimizirajte postavitve, pisave in indeksiranje, da ohranite visoko zvestobo in nizko zakasnitev.

Obravnavajte stisnjene kartice kot prvovrstne dokaze in jih navajajte v pozivih.

Naslednji koraki

Prototipirajte minimalni cevovod na enem projektu klepetov ali naboru podatkov dnevnikov.

A/B testiranje samo besedilne in hibridne kompresije za 10 tipičnih poizvedb.

Prilagodite obliko kartice, mešanico iskalnika in proračune na podlagi metrik zvestobe.

Povečajte na delovne tokove ekipe s predpomnjenjem, ACL-ji in nadzorom.

Pogosta vprašanja

V1: Kaj je DeepSeek-OCR in zakaj ga uporabljati za stiskanje zgodovine klepetov za LLM-je? DeepSeek-OCR omogoča optično kompresijo konteksta – kodiranje velikih razponov besedila kot vizualnih žetonov, ki jih VLM-ji lahko učinkovito obdelajo. To lahko zmanjša proračune žetonov in bolje ohrani strukturo kot samo besedilno povzemanje, hkrati pa ohranja visoko zvestobo za dolge kontekste.

V2: Kako se vizualna kompresija žetonov primerja z besedilnim povzemanjem? Vizualna kompresija žetonov pogosto doseže višjo učinkovito kompresijo, hkrati pa ohranja postavitev in natančno besedilo, kar pomaga pri citatih, kodi in nizih napak. Povzemanje je hitrejše in enostavnejše, vendar lahko izpusti redke podrobnosti ali vnese napake pri abstrakciji.

V3: Ali lahko mešam DeepSeek-OCR z RAG za dnevnike in klepete? Da. Uporabite besedilne povzetke za hiter priklic in priložite vizualne kartice, potrjene z OCR, za globino. Dvo-stopenjski iskalnik lahko najprej pridobi povzetke, nato pa najbolj ustrezne kartice, kar uravnoteži natančnost in pokritost konteksta.

V4: Katere postavitve najbolje delujejo za OCR-stisnjene kartice konteksta? Uporabite čist HTML/CSS z naslovno vrstico, dvo-stolpično vsebino, monospace bloke za kodo in jasne točke za poudarke. Ohranite 200–400 besed na kartico, pisave 11–12 pt ali večje in preverite berljivost s povratnim potovanjem OCR.

V5: Kako izmerim, ali kompresija izgublja pomembne informacije? Spremljajte Fidelity@K glede na zlati nabor dejstev, pokritost dokazov prek navedb številk vrstic in metrike zakasnitve/stroškov. Ciljajte na ≥95-odstotno ohranitev dejstev in zagotovite, da večina odgovorov navaja vrstico kartice ali ID sidra.