Introduksjon: Hvorfor komprimering nå er en superkraft for LLM-er
Hvis du noen gang har prøvd å stappe en ukes verdt av chatlogger, telemetri eller multi-system applikasjonsspor inn i en prompt, har du møtt det harde taket for kontekstvinduer. Den vanlige fremgangsmåten – oppsummere, beskjære, dele opp – tar deg bare så langt før signaltap sniker seg inn. DeepSeek-OCR introduserer en slående vri: komprimer tekst til visuelle tokens ved hjelp av en OCR-VLM-pipeline for å dramatisk redusere konteksten uten å kaste bort mening. Tidlige rapporter fra fellesskapet siterer effektiv komprimering i størrelsesorden ved å utnytte visuelle tokens i stedet for rå teksttokens, et paradigme som noen analyser beskriver som «Context Optical Compression» og «tusener av teksttokens til noen få hundre visuelle tokens» for arbeidsflyter med lang kontekst.
I denne praktiske, trinnvise DeepSeek-OCR-tutorialen lærer du hvordan du komprimerer chathistorier, logger og data for LLM-er samtidig som du opprettholder presisjon ved henting – pluss hvordan du kombinerer OCR-basert komprimering med oppsummering, hierarkisk oppdeling og RAG for kraftig prompting med lav latens.
Hvem denne guiden er for
- Byggere av AI-copiloter som må ta inn lange chatter og aktivitetsspor
- Dataingeniører som håndterer logger, spor og metrikker for LLM-resonnement
- Forskere som prototyperer arbeidsflyter med ultralang kontekst på et budsjett
Kjernebudskap i én setning: Hvis du kan gjøre omfattende tekst om til kompakte visuelle representasjoner som LLM-er kan lese, vinner du tilbake kontekstbudsjettet uten å ofre resonnementets smuler.
Hva er DeepSeek-OCR-komprimering? Kjernen i ideen
- Visuell token-komprimering: Konverter tette tekstspenn til høyinformasjons visuelle embeddinger; visuelle tokens kan være billigere og mer kompakte enn tilsvarende teksttokens.
- Context Optical Compression: Bruk OCR/VLM for å kode stor tekstlig kontekst som bilder eller visuelt strukturerte layouter, og bevar semantisk struktur samtidig som du reduserer antall tokens.
- Arbeidsflyter med lang kontekst: Komprimer tusenvis av tokens til hundrevis av visuelle tokens, noe som muliggjør større arbeidssett for planlegging, verktøybruk eller resonnement i flere omganger.
Når bør du bruke det
- Chathistorier med repeterende formuleringer eller forutsigbar struktur
- Systemlogger, spor, byggresultater eller analyseuttrekk
- Dokumentasjonsøyeblikksbilder, dashboards eller semistrukturerte rapporter
Hva du vil bygge i denne tutorialen
Du vil implementere en pipeline for å:
- Normalisere og segmentere chat/loggdata.
- Velge komprimeringsstrategier (OCR-visuell, tekstlig oppsummering eller hybrid).
- Generere kompakte visuelle representasjoner via DeepSeek-OCR.
- Indeksere med metadata for henting.
- Spørre med en hybrid RAG-prompt som aksepterer både tekst og bilder.
- Evaluere nøyaktighet og kostnad.
Seksjon 1 – Dataforberedelse: Gjør rotete historier modellvennlige
- Normaliser tidsstempler og roller: f.eks. .
- Ulemper: krever VLM-støtte; trenger rendering og bilde I/O.
- Bruk når: du trenger lang kontekstnøyaktighet, diagrammer/tabeller eller nøyaktig bevaring av formuleringer.
- Behold «skjelett»-tekstoppsummering for forankring + legg ved komprimerte visuelle kort for dybde.
- Dette balanserer presisjon ved henting (tekst) og tilbakekalling/nøyaktighet (visjon).
Seksjon 3 – Bygge visuelle kontekstkort med DeepSeek-OCR
Mål: Transformer 5–20 KB tekstspenn til 512–1024 px bilder optimalisert for OCR/VLM-lesing.
Forslag til maler
- Tittellinje: økt-ID, tidsintervall, emneetikett.
- To-kolonne layout: venstre kolonne for viktige hendelser/logger; høyre kolonne for høydepunkter (feil, beslutninger, kommandoer, metrikker).
- Monospace-blokker for kode/logglinjer; punktvis oppsummering for kontekst.
- Kontrastvennlig tema; unngå små skrifter (<11–12 pt ved 1x skala).
Renderingstips
- Bruk HTML/CSS for å produsere rene, konsistente kort (f.eks. Puppeteer/Playwright skjermbilder).
- Inkluder stabile ankre (linjenumre, ID-er) for å referere til spesifikke elementer i prompter.
- Begrens til ~200–400 ord per kort; lag en stabel med kort per økt.
DeepSeek-OCR passering
- Kjør DeepSeek-OCR for å sikre nøyaktighet ved rundtur: kort → OCR-tekst. Dette dobbeltsjekker at layouten og skriftene dine dekodes nøyaktig.
- Hvis OCR-teksten avviker, juster skrifter, avstand eller del opp tett kode i flere kort.
Hvorfor dette fungerer
Fellesskaps- og tredjepartsskrivelser peker på meningsfulle effektivitetsgevinster ved komprimering av tekstlig kontekst til visuelle tokens samtidig som lesbarheten opprettholdes.
Seksjon 4 – Oppsummeringslag: Behold skjelettet, lagre muskelen
Implementer lagdelte oppsummeringer slik at du kan skalere oppløsningen bare når det er nødvendig.
- L0: Atomiske linje/hendelses-tagger – rolle, tidsstempel, type (feil, notat, kode), embedding.
- L1: Mikrooppsummering (1–2 setninger) for hver 20–40 hendelse eller 2–5 minutter med logger.
- L2: Øktabstrakt (5–8 punkter) med beslutninger, blokkeringer, resultater og lenker til visuelle kort.
- L3: Tråd-av-tråder – ukentlige eller prosjektnivå sammendrag.
Praktisk heuristikk
- Inkluder alltid ordrette ankre: feilkoder, SQL-ID-er, sporings-ID-er, commit SHA-er.
- Bruk ekstraktive oppsummeringer før abstrakte; raffiner deretter med abstraktive for lesbarhet.
- Legg til et punkt om «hva har endret seg siden forrige økt» for å fremskynde prompting.
Seksjon 5 – Indeksering og henting for hybrid RAG
Metadatakjema
- doc_id, session_id, time_range, roles, topic labels
- importance score, error severity, component/service
- Kombiner OCR-basert komprimering med lagdelte oppsummeringer og RAG for presisjon og dybde.
- Optimaliser layouter, skrifter og indeksering for å holde nøyaktigheten høy og latensen lav.
- Behandle komprimerte kort som førsteklasses bevis og siter dem i prompter.
Neste steg
- Prototyp den minimale pipelinen på ett chatprosjekt eller loggdatasett.
- A/B-test tekst-only vs hybrid komprimering for 10 typiske spørringer.
- Juster kortdesign, retriever-miks og budsjetter basert på nøyaktighetsmetrikker.
- Skaler til teamarbeidsflyter med caching, ACL-er og overvåking.
FAQ
Q1: Hva er DeepSeek-OCR og hvorfor bruke det til å komprimere chathistorier for LLM-er?
DeepSeek-OCR muliggjør Context Optical Compression – koding av store tekstspenn som visuelle tokens som VLM-er kan behandle effektivt. Dette kan redusere tokenbudsjetter og bevare strukturen bedre enn tekst-only oppsummering, samtidig som høy nøyaktighet opprettholdes for lange kontekster.
Q2: Hvordan sammenlignes visuell token-komprimering med tekstoppsummering?
Visuell token-komprimering oppnår ofte høyere effektiv komprimering samtidig som layout og nøyaktig formulering beholdes, noe som hjelper med sitater, kode og feilstrenger. Oppsummering er raskere og enklere, men kan utelate sjeldne detaljer eller introdusere abstraksjonsfeil.
Q3: Kan jeg blande DeepSeek-OCR med RAG for logger og chatter?
Ja. Bruk tekstoppsummeringer for rask tilbakekalling og legg ved OCR-validerte visuelle kort for dybde. En to-trinns retriever kan hente abstrakter først, deretter de mest relevante kortene, og balansere presisjon og kontekstdekning.
Q4: Hvilke layouter fungerer best for OCR-komprimerte kontekstkort?
Bruk ren HTML/CSS med en tittellinje, to-kolonneinnhold, monospace-blokker for kode og klare punkter for høydepunkter. Behold 200–400 ord per kort, 11–12 pt skrifter eller større, og valider lesbarhet med en OCR-rundtur.
Q5: Hvordan måler jeg om komprimering mister viktig informasjon?
Spor Fidelity@K mot et gullsett med fakta, bevisdekning via linjenummersiteringer og latens/kostnadsmetrikker. Mål ≥95 % faktabevaring og sørg for at de fleste svar siterer en kortlinje eller anker-ID.