What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek‑OCR Tutorial: Komprimering av chatlogg, logger og data for LLM-er

Introduksjon: Hvorfor komprimering nå er en superkraft for LLM-er Hvis du noen gang har prøvd å stappe en ukes verdt av chatlogger, telemetri eller multi-system applikasjonsspor inn i en prompt, har du møtt det harde taket for kontekstvinduer. Den vanlige fremgangsmåten – oppsummere, beskjære, dele opp – tar deg bare så langt før signaltap sniker seg inn. DeepSeek-OCR introduserer en slående vri: komprimer tekst til visuelle tokens ved hjelp av en OCR-VLM-pipeline for å dramatisk redusere konteksten uten å kaste bort mening. Tidlige rapporter fra fellesskapet siterer effektiv komprimering i størrelsesorden ved å utnytte visuelle tokens i stedet for rå teksttokens, et paradigme som noen analyser beskriver som «Context Optical Compression» og «tusener av teksttokens til noen få hundre visuelle tokens» for arbeidsflyter med lang kontekst.

I denne praktiske, trinnvise DeepSeek-OCR-tutorialen lærer du hvordan du komprimerer chathistorier, logger og data for LLM-er samtidig som du opprettholder presisjon ved henting – pluss hvordan du kombinerer OCR-basert komprimering med oppsummering, hierarkisk oppdeling og RAG for kraftig prompting med lav latens.

Hvem denne guiden er for

Byggere av AI-copiloter som må ta inn lange chatter og aktivitetsspor

Dataingeniører som håndterer logger, spor og metrikker for LLM-resonnement

Forskere som prototyperer arbeidsflyter med ultralang kontekst på et budsjett

Kjernebudskap i én setning: Hvis du kan gjøre omfattende tekst om til kompakte visuelle representasjoner som LLM-er kan lese, vinner du tilbake kontekstbudsjettet uten å ofre resonnementets smuler.

Hva er DeepSeek-OCR-komprimering? Kjernen i ideen

Visuell token-komprimering: Konverter tette tekstspenn til høyinformasjons visuelle embeddinger; visuelle tokens kan være billigere og mer kompakte enn tilsvarende teksttokens.

Context Optical Compression: Bruk OCR/VLM for å kode stor tekstlig kontekst som bilder eller visuelt strukturerte layouter, og bevar semantisk struktur samtidig som du reduserer antall tokens.

Arbeidsflyter med lang kontekst: Komprimer tusenvis av tokens til hundrevis av visuelle tokens, noe som muliggjør større arbeidssett for planlegging, verktøybruk eller resonnement i flere omganger.

Når bør du bruke det

Chathistorier med repeterende formuleringer eller forutsigbar struktur

Systemlogger, spor, byggresultater eller analyseuttrekk

Dokumentasjonsøyeblikksbilder, dashboards eller semistrukturerte rapporter

Hva du vil bygge i denne tutorialen Du vil implementere en pipeline for å:

Normalisere og segmentere chat/loggdata.

Velge komprimeringsstrategier (OCR-visuell, tekstlig oppsummering eller hybrid).

Generere kompakte visuelle representasjoner via DeepSeek-OCR.

Indeksere med metadata for henting.

Spørre med en hybrid RAG-prompt som aksepterer både tekst og bilder.

Evaluere nøyaktighet og kostnad.

Seksjon 1 – Dataforberedelse: Gjør rotete historier modellvennlige

Normaliser tidsstempler og roller: f.eks. .

Ulemper: krever VLM-støtte; trenger rendering og bilde I/O.

Bruk når: du trenger lang kontekstnøyaktighet, diagrammer/tabeller eller nøyaktig bevaring av formuleringer.

Hybrid (anbefales)

Behold «skjelett»-tekstoppsummering for forankring + legg ved komprimerte visuelle kort for dybde.

Dette balanserer presisjon ved henting (tekst) og tilbakekalling/nøyaktighet (visjon).

Seksjon 3 – Bygge visuelle kontekstkort med DeepSeek-OCR Mål: Transformer 5–20 KB tekstspenn til 512–1024 px bilder optimalisert for OCR/VLM-lesing.

Forslag til maler

Tittellinje: økt-ID, tidsintervall, emneetikett.

To-kolonne layout: venstre kolonne for viktige hendelser/logger; høyre kolonne for høydepunkter (feil, beslutninger, kommandoer, metrikker).

Monospace-blokker for kode/logglinjer; punktvis oppsummering for kontekst.

Kontrastvennlig tema; unngå små skrifter (<11–12 pt ved 1x skala).

Renderingstips

Bruk HTML/CSS for å produsere rene, konsistente kort (f.eks. Puppeteer/Playwright skjermbilder).

Inkluder stabile ankre (linjenumre, ID-er) for å referere til spesifikke elementer i prompter.

Begrens til ~200–400 ord per kort; lag en stabel med kort per økt.

DeepSeek-OCR passering

Kjør DeepSeek-OCR for å sikre nøyaktighet ved rundtur: kort → OCR-tekst. Dette dobbeltsjekker at layouten og skriftene dine dekodes nøyaktig.

Hvis OCR-teksten avviker, juster skrifter, avstand eller del opp tett kode i flere kort.

Hvorfor dette fungerer Fellesskaps- og tredjepartsskrivelser peker på meningsfulle effektivitetsgevinster ved komprimering av tekstlig kontekst til visuelle tokens samtidig som lesbarheten opprettholdes.

Seksjon 4 – Oppsummeringslag: Behold skjelettet, lagre muskelen Implementer lagdelte oppsummeringer slik at du kan skalere oppløsningen bare når det er nødvendig.

L0: Atomiske linje/hendelses-tagger – rolle, tidsstempel, type (feil, notat, kode), embedding.

L1: Mikrooppsummering (1–2 setninger) for hver 20–40 hendelse eller 2–5 minutter med logger.

L2: Øktabstrakt (5–8 punkter) med beslutninger, blokkeringer, resultater og lenker til visuelle kort.

L3: Tråd-av-tråder – ukentlige eller prosjektnivå sammendrag.

Praktisk heuristikk

Inkluder alltid ordrette ankre: feilkoder, SQL-ID-er, sporings-ID-er, commit SHA-er.

Bruk ekstraktive oppsummeringer før abstrakte; raffiner deretter med abstraktive for lesbarhet.

Legg til et punkt om «hva har endret seg siden forrige økt» for å fremskynde prompting.

Seksjon 5 – Indeksering og henting for hybrid RAG Metadatakjema

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

lenker: .

Kombiner OCR-basert komprimering med lagdelte oppsummeringer og RAG for presisjon og dybde.

Optimaliser layouter, skrifter og indeksering for å holde nøyaktigheten høy og latensen lav.

Behandle komprimerte kort som førsteklasses bevis og siter dem i prompter.

Neste steg

Prototyp den minimale pipelinen på ett chatprosjekt eller loggdatasett.

A/B-test tekst-only vs hybrid komprimering for 10 typiske spørringer.

Juster kortdesign, retriever-miks og budsjetter basert på nøyaktighetsmetrikker.

Skaler til teamarbeidsflyter med caching, ACL-er og overvåking.

FAQ

Q1: Hva er DeepSeek-OCR og hvorfor bruke det til å komprimere chathistorier for LLM-er? DeepSeek-OCR muliggjør Context Optical Compression – koding av store tekstspenn som visuelle tokens som VLM-er kan behandle effektivt. Dette kan redusere tokenbudsjetter og bevare strukturen bedre enn tekst-only oppsummering, samtidig som høy nøyaktighet opprettholdes for lange kontekster.

Q2: Hvordan sammenlignes visuell token-komprimering med tekstoppsummering? Visuell token-komprimering oppnår ofte høyere effektiv komprimering samtidig som layout og nøyaktig formulering beholdes, noe som hjelper med sitater, kode og feilstrenger. Oppsummering er raskere og enklere, men kan utelate sjeldne detaljer eller introdusere abstraksjonsfeil.

Q3: Kan jeg blande DeepSeek-OCR med RAG for logger og chatter? Ja. Bruk tekstoppsummeringer for rask tilbakekalling og legg ved OCR-validerte visuelle kort for dybde. En to-trinns retriever kan hente abstrakter først, deretter de mest relevante kortene, og balansere presisjon og kontekstdekning.

Q4: Hvilke layouter fungerer best for OCR-komprimerte kontekstkort? Bruk ren HTML/CSS med en tittellinje, to-kolonneinnhold, monospace-blokker for kode og klare punkter for høydepunkter. Behold 200–400 ord per kort, 11–12 pt skrifter eller større, og valider lesbarhet med en OCR-rundtur.

Q5: Hvordan måler jeg om komprimering mister viktig informasjon? Spor Fidelity@K mot et gullsett med fakta, bevisdekning via linjenummersiteringer og latens/kostnadsmetrikker. Mål ≥95 % faktabevaring og sørg for at de fleste svar siterer en kortlinje eller anker-ID.