What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek-OCR Tutorial: Komprimering af chat-historikker, logfiler og data til LLM'er

Introduktion: Hvorfor komprimering nu er en superkraft for LLM'er Hvis du nogensinde har forsøgt at proppe en uges chatlogs, telemetri eller multi-system applikationsspor ind i en prompt, er du stødt på den hårde grænse for kontekstvinduer. Den sædvanlige fremgangsmåde – opsummering, beskæring, opdeling – bringer dig kun et stykke af vejen, før signaltab sniger sig ind. DeepSeek‑OCR introducerer et slående twist: komprimer tekst til vision tokens ved hjælp af en OCR‑VLM pipeline for dramatisk at mindske konteksten uden at smide betydningen væk. Tidlige rapporter fra fællesskabet citerer effektivitet i komprimeringen i størrelsesordenen, ved at udnytte visuelle tokens i stedet for rå teksttokens, et paradigme som nogle analyser beskriver som "Context Optical Compression" og "tusindvis af teksttokens til et par hundrede vision tokens" for long-context workflows.

I denne praktiske, trin-for-trin DeepSeek‑OCR tutorial, vil du lære, hvordan du komprimerer chathistorier, logs og data for LLM'er, mens du bevarer genfindingspræcision – plus hvordan du kombinerer OCR‑baseret komprimering med opsummering, hierarkisk opdeling og RAG for kraftfuld prompting med lav latens.

Hvem denne guide er for

Bygherrer af AI-copiloter, der skal indtage lange chats og aktivitetsspor

Dataingeniører, der kæmper med logs, spor og metrics for LLM-ræsonnement

Forskere, der laver prototyper af ultra-lange kontekst-workflows på et budget

Fang i én sætning: Hvis du kan forvandle omfattende tekst til kompakte visuelle repræsentationer, som LLM'er kan læse, vinder du kontekstbudget tilbage uden at ofre brødkrummerne til ræsonnement.

Hvad er DeepSeek‑OCR Komprimering? Kernideen

Vision token komprimering: Konverter tætte tekstspænd til højinformations visuelle embeddings; vision tokens kan være billigere og mere kompakte end tilsvarende teksttokens.

Context Optical Compression: Brug OCR/VLM til at kode stor tekstlig kontekst som billeder eller visuelt strukturerede layouts, der bevarer semantisk struktur, mens tokenantallet reduceres drastisk.

Long‑context workflows: Komprimer tusindvis af tokens til hundreder af vision tokens, hvilket muliggør større arbejdssæt til planlægning, værktøjsbrug eller multi-turn ræsonnement.

Hvornår skal man bruge det

Chathistorier med gentagne formuleringer eller forudsigelig struktur

Systemlogs, spor, build-outputs eller analytics-dumps

Dokumentations snapshots, dashboards eller semi‑strukturerede rapporter

Hvad du vil bygge i denne tutorial Du vil implementere en pipeline til:

Normaliser og segmenter chat/logdata.

Vælg komprimeringsstrategier (OCR‑visual, tekstlig opsummering eller hybrid).

Generer kompakte visuelle repræsentationer via DeepSeek‑OCR.

Indekser med metadata til genfinding.

Forespørg med en hybrid RAG prompt, der accepterer både tekst og billeder.

Evaluer troværdighed og omkostninger.

Sektion 1 — Datapræparation: Gør rodede historier modelvenlige

Normaliser tidsstempler og roller: f.eks. .

Ulemper: kræver VLM support; har brug for rendering og billede I/O.

Brug når: du har brug for lang kontekst troværdighed, diagrammer/tabeller eller nøjagtig fastholdelse af formuleringer.

Hybrid (anbefales)

Behold "skelet" tekstresume for forankring + vedhæft komprimerede visuelle kort for dybde.

Dette balancerer genfindingspræcision (tekst) og recall/troværdighed (vision).

Sektion 3 — Opbygning af visuelle kontekstkort med DeepSeek‑OCR Mål: Transformer 5–20 KB tekstspænd til 512–1024 px billeder optimeret til OCR/VLM læsning.

Template forslag

Title bar: session ID, tidsinterval, emne label.

To‑kolonne layout: venstre kolonne for nøgle-turns/logs; højre kolonne for highlights (fejl, beslutninger, kommandoer, metrics).

Monospace blokke for kode/log linjer; bullet resuméer for kontekst.

Kontrast‑venligt tema; undgå små skrifttyper (<11–12 pt ved 1x skala).

Rendering tips

Brug HTML/CSS til at producere rene, konsistente kort (f.eks. Puppeteer/Playwright screenshots).

Inkluder stabile ankre (linjenumre, ID'er) for at referere til specifikke elementer i prompts.

Begræns til ~200–400 ord per kort; opret en stak kort per session.

DeepSeek‑OCR pass

Kør DeepSeek‑OCR for at sikre round‑trip troværdighed: kort → OCR tekst. Dette dobbelttjekker, at dit layout og dine skrifttyper afkodes nøjagtigt.

Hvis OCR-teksten afviger, juster skrifttyper, afstand eller opdel tæt kode i flere kort.

Hvorfor dette virker Fællesskabs- og tredjepartsskrivelser peger på meningsfulde effektivitetsgevinster, når man komprimerer tekstlig kontekst til vision tokens, samtidig med at læsbarheden bevares.

Sektion 4 — Opsummeringslag: Behold skelettet, gem musklerne Implementer lagdelte resuméer, så du kun kan skalere opløsningen op, når det er nødvendigt.

L0: Atomare linje/turn tags — rolle, tidsstempel, type (fejl, note, kode), embedding.

L1: Mikro‑resume (1–2 sætninger) for hver 20–40 turns eller 2–5 minutters logs.

L2: Session abstrakt (5–8 bullets) med beslutninger, blokeringer, resultater og links til visuelle kort.

L3: Thread‑of‑threads — ugentlige eller projekt‑niveau rollups.

Praktisk heuristik

Inkluder altid verbatim ankre: fejlkoder, SQL ID'er, spor ID'er, commit SHA'er.

Brug ekstraktive resuméer før abstraktive; derefter forfines med abstraktive for læsbarhed.

Tilføj en "hvad har ændret sig siden sidste session" bullet for at fremskynde catch‑up prompting.

Sektion 5 — Indeksering og genfinding for hybrid RAG Metadata skema

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: .

Kombiner OCR‑baseret komprimering med lagdelte resuméer og RAG for præcision og dybde.

Optimer layouts, skrifttyper og indeksering for at holde troværdigheden høj og latensen lav.

Behandl komprimerede kort som førsteklasses bevis og citer dem i prompts.

Næste skridt

Lav en prototype af den minimale pipeline på et chatprojekt eller logdatasæt.

A/B test tekst‑kun vs hybrid komprimering for 10 typiske forespørgsler.

Finjuster kortdesign, retriever mix og budgetter baseret på troværdigheds metrics.

Skaler til team workflows med caching, ACL'er og overvågning.

FAQ

Q1:Hvad er DeepSeek‑OCR og hvorfor bruge det til at komprimere chathistorier for LLM'er? DeepSeek‑OCR muliggør Context Optical Compression – kodning af store tekstspænd som visuelle tokens, som VLM'er effektivt kan behandle. Dette kan mindske tokenbudgetter og bevare strukturen bedre end tekst‑kun opsummering, samtidig med at der opretholdes høj troværdighed for lange kontekster.

Q2:Hvordan kan visual token komprimering sammenlignes med tekst opsummering? Visual token komprimering opnår ofte højere effektiv komprimering, samtidig med at layout og nøjagtig formulering bevares, hvilket hjælper med citater, kode og fejl strings. Opsummering er hurtigere og enklere, men kan udelade sjældne detaljer eller introducere abstraktionsfejl.

Q3:Kan jeg blande DeepSeek‑OCR med RAG for logs og chats? Ja. Brug tekst resuméer for hurtig recall og vedhæft OCR‑validerede visuelle kort for dybde. En to‑trins retriever kan hente abstrakter først, derefter de mest relevante kort, hvilket balancerer præcision og kontekstdækning.

Q4:Hvilke layouts fungerer bedst for OCR‑komprimerede kontekstkort? Brug ren HTML/CSS med en title bar, to‑kolonne indhold, monospace blokke for kode og klare bullets for highlights. Hold 200–400 ord per kort, 11–12 pt skrifttyper eller større, og valider læsbarhed med en OCR round‑trip.

Q5:Hvordan måler jeg, om komprimering mister vigtige oplysninger? Spor Fidelity@K mod et gold set af fakta, evidensdækning via linje‑nummer citater og latens/omkostnings metrics. Sigt efter ≥95% fastholdelse af fakta, og sørg for, at de fleste svar citerer en kortlinje eller et anker ID.