What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek‑OCR-opas: Chat-historiat, lokit ja data pakattuna LLM:iä varten

Johdanto: Miksi pakkaaminen on nyt LLM:ien supervoima Jos olet koskaan yrittänyt ahtaa viikon edestä chattilokeja, telemetriaa tai usean järjestelmän sovellusjälkiä kehotteeseen, olet törmännyt konteksti-ikkunoiden kovaan kattoon. Tavallinen pelikirja – tiivistä, karsi, pilko – auttaa vain tiettyyn pisteeseen asti, ennen kuin signaalin menetys hiipii sisään. DeepSeek‑OCR esittelee silmiinpistävän käänteen: pakkaa teksti visuaalisiksi tokeneiksi käyttämällä OCR‑VLM-putkea, jotta konteksti kutistuu dramaattisesti ilman, että merkitystä heitetään pois. Varhaiset yhteisön raportit mainitsevat suuruusluokan verran paremman pakkaustehokkuuden hyödyntämällä visuaalisia tokeneita raakatekstitokeneiden sijaan, paradigmaa, jota jotkut analyysit kuvaavat "kontekstin optiseksi pakkaamiseksi" ja "tuhansiksi tekstitokeneiksi muutamaksi sadaksi visuaaliseksi tokeniksi" pitkän kontekstin työnkuluissa.

Tässä käytännönläheisessä, vaiheittaisessa DeepSeek‑OCR-tutoriaalissa opit pakkaamaan chattihistorioita, lokeja ja dataa LLM:ille säilyttäen samalla hakutarkkuuden – sekä yhdistämään OCR-pohjaisen pakkauksen tiivistämiseen, hierarkkiseen pilkkomiseen ja RAG:iin tehokasta, matalan latenssin kehotteen luomista varten.

Kenelle tämä opas on suunnattu

AI-pilottien rakentajille, joiden on nieltävä pitkiä chatteja ja toimintajälkiä

Data engineerit, jotka kamppailevat lokien, jälkien ja mittareiden kanssa LLM-päätöksentekoa varten

Tutkijat, jotka prototyyppivät erittäin pitkän kontekstin työnkulkuja pienellä budjetilla

Yhden lauseen kiteytys: Jos voit muuttaa laajan tekstin kompakteiksi visuaalisiksi esityksiksi, joita LLM:t voivat lukea, voitat takaisin kontekstibudjetin uhraamatta päättelyn murusia.

Mitä on DeepSeek‑OCR-pakkaus? Ydinajatus

Visuaalinen tokenpakkaus: Muunna tiheät tekstijaksot korkean informaation visuaalisiksi upotuksiksi; visuaaliset tokenit voivat olla halvempia ja pienikokoisempia kuin vastaavat tekstitokenit.

Kontekstin optinen pakkaus: Käytä OCR/VLM:ää koodaamaan suuri tekstuaalinen konteksti kuvina tai visuaalisesti jäsenneltyinä asetteluina, säilyttäen semanttisen rakenteen samalla kun leikkaat tokenien määrää.

Pitkän kontekstin työnkulut: Pakkaa tuhansia tokeneita satoihin visuaalisiin tokeneihin, mikä mahdollistaa suuremmat työmäärät suunnittelua, työkalujen käyttöä tai monivaiheista päättelyä varten.

Milloin sitä kannattaa käyttää

Chat-historiat, joissa on toistuvia ilmauksia tai ennustettava rakenne

Järjestelmälokit, jäljet, build-tulosteet tai analytiikkavedokset

Dokumentaation tilannevedokset, kojetaulut tai puolistrukturoidut raportit

Mitä rakennat tässä tutoriaalissa Toteutat putken, joka:

Normalisoi ja segmentoi chat-/lokidataa.

Valitsee pakkausstrategioita (OCR‑visuaalinen, tekstuaalinen tiivistys tai hybridi).

Luo kompakteja visuaalisia esityksiä DeepSeek‑OCR:n avulla.

Indeksoi metatiedot hakua varten.

Kyselee hybridillä RAG-kehotteella, joka hyväksyy sekä tekstiä että kuvia.

Arvioi tarkkuutta ja kustannuksia.

Osa 1 — Datan valmistelu: Tee sotkuisista historioista malliystävällisiä

Normalisoi aikaleimat ja roolit: esim. {format_datetime(timestamp)}.

Haitat: vaatii VLM-tukea; tarvitsee renderöinnin ja kuvan I/O:n.

Käytä, kun: tarvitset pitkän kontekstin tarkkuutta, kaavioita/taulukoita tai tarkkaa ilmaisun säilyttämistä.

Hybridi (suositus)

Säilytä "luuranko"-tekstiyhteenveto ankkurointia varten + liitä pakatut visuaaliset kortit syvyyttä varten.

Tämä tasapainottaa hakutarkkuuden (teksti) ja palautuksen/tarkkuuden (visio).

Osa 3 — Visuaalisten kontekstikorttien rakentaminen DeepSeek‑OCR:llä Tavoite: Muunna 5–20 KB:n tekstijaksot 512–1024 px:n kuviksi, jotka on optimoitu OCR/VLM-lukemista varten.

Malliehdotuksia

Otsikkopalkki: istunnon tunnus, aikaväli, aihetunniste.

Kaksipalstainen asettelu: vasen palsta tärkeimmille käänteille/logeille; oikea palsta kohokohdille (virheet, päätökset, komennot, mittarit).

Monospace-lohkot koodi-/lokiriveille; bullet-yhteenvedot kontekstille.

Kontrastiyhteensopiva teema; vältä pieniä fontteja (<11–12 pt 1x-skaalalla).

Renderöintivinkkejä

Käytä HTML/CSS:ää puhtaiden, yhtenäisten korttien tuottamiseen (esim. Puppeteer/Playwright-kuvakaappaukset).

Sisällytä vakaat ankkurit (rivinumerot, tunnukset) viitataksesi tiettyihin kohteisiin kehotteissa.

Rajoita noin 200–400 sanaan per kortti; luo pino kortteja per istunto.

DeepSeek‑OCR-läpikäynti

Suorita DeepSeek‑OCR varmistaaksesi edestakaisen tarkkuuden: kortti → OCR-teksti. Tämä tarkistaa, että asettelusi ja fonttisi purkautuvat tarkasti.

Jos OCR-teksti poikkeaa, säädä fontteja, väliä tai jaa tiheä koodi useisiin kortteihin.

Miksi tämä toimii Yhteisön ja kolmansien osapuolten kirjoitukset viittaavat merkittäviin tehokkuushyötyihin pakattaessa tekstuaalista kontekstia visuaalisiksi tokeneiksi säilyttäen samalla luettavuuden.

Osa 4 — Yhteenvedotasot: Säilytä luuranko, varastoi lihakset Toteuta kerroksittaisia yhteenvetoja, jotta voit suurentaa resoluutiota vain tarvittaessa.

L0: Atomirivi-/käännetunnisteet – rooli, aikaleima, tyyppi (virhe, huomautus, koodi), upotus.

L1: Mikro-yhteenveto (1–2 lausetta) jokaista 20–40 käännöstä tai 2–5 minuutin lokia kohden.

L2: Istunnon abstrakti (5–8 bullet-kohtaa) päätöksillä, esteillä, tuloksilla ja linkeillä visuaalisiin kortteihin.

L3: Säikeiden säie – viikoittaiset tai projektitason yhteenvedot.

Käytännönläheisiä heuristiikkoja

Sisällytä aina sanatarkat ankkurit: virhekoodit, SQL-tunnukset, jäljitystunnukset, commit SHA:t.

Käytä poimivia yhteenvetoja ennen abstraktiivisia; tarkenna sitten abstraktiivisilla luettavuuden parantamiseksi.

Lisää "mitä on muuttunut edellisen istunnon jälkeen" -bullet-kohta nopeuttamaan kehotteiden sisäistämistä.

Osa 5 — Indeksointi ja haku hybridi-RAG:lle Metatietokaavio

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: {L0, L1, L2 cards}.

Yhdistä OCR-pohjainen pakkaus kerroksittaisiin yhteenvetoihin ja RAG:iin tarkkuuden ja syvyyden saavuttamiseksi.

Optimoi asettelut, fontit ja indeksointi pitääksesi tarkkuuden korkealla ja latenssin alhaalla.

Kohtele pakattuja kortteja ensiluokkaisina todisteina ja siteeraa niitä kehotteissa.

Seuraavat vaiheet

Prototyypioi minimaalinen putki yhdellä chat-projektilla tai lokidatasarjalla.

A/B-testaa vain tekstiä vs. hybridipakkaus 10 tyypilliselle kyselylle.

Säädä kortin suunnittelua, hakukoneen sekoitusta ja budjetteja tarkkuusmittareiden perusteella.

Skaalaa tiimityönkulkuihin välimuistilla, ACL:illä ja valvonnalla.

FAQ

K1: Mikä on DeepSeek‑OCR ja miksi sitä kannattaa käyttää chattihistorioiden pakkaamiseen LLM:ille? DeepSeek‑OCR mahdollistaa kontekstin optisen pakkauksen – suurten tekstijaksojen koodaamisen visuaalisiksi tokeneiksi, joita VLM:t voivat käsitellä tehokkaasti. Tämä voi pienentää tokenibudjetteja ja säilyttää rakenteen paremmin kuin vain tekstin tiivistäminen säilyttäen samalla korkean tarkkuuden pitkissä konteksteissa.

K2: Miten visuaalinen tokenpakkaus vertautuu tekstin tiivistämiseen? Visuaalinen tokenpakkaus saavuttaa usein korkeamman tehollisen pakkauksen säilyttäen samalla asettelun ja tarkan ilmaisun, mikä auttaa lainauksissa, koodissa ja virhemerkkijonoissa. Tiivistys on nopeampaa ja yksinkertaisempaa, mutta se voi jättää pois harvinaisia yksityiskohtia tai aiheuttaa abstraktiovirheitä.

K3: Voinko yhdistää DeepSeek‑OCR:n RAG:iin lokeille ja chateille? Kyllä. Käytä tekstiyhteenvetoja nopeaan palautukseen ja liitä OCR:n vahvistamat visuaaliset kortit syvyyttä varten. Kaksivaiheinen hakukone voi noutaa ensin abstraktit ja sitten osuvimmat kortit, tasapainottaen tarkkuuden ja kontekstin kattavuuden.

K4: Mitkä asettelut toimivat parhaiten OCR:llä pakatuille kontekstikorteille? Käytä puhdasta HTML/CSS:ää, jossa on otsikkopalkki, kaksipalstainen sisältö, monospace-lohkot koodille ja selkeät bullet-kohdat kohokohdille. Pidä 200–400 sanaa per kortti, 11–12 pt:n fontit tai suuremmat ja varmista luettavuus OCR-edestakaisella matkalla.

K5: Kuinka mittaan, menettääkö pakkaus tärkeää tietoa? Seuraa Fidelity@K:ta kultaista faktajoukkoa vasten, todisteiden kattavuutta rivinumeroviittauksilla ja latenssi-/kustannusmittareita. Tavoittele ≥95 %:n faktojen säilyttämistä ja varmista, että useimmat vastaukset viittaavat korttiriviin tai ankkuritunnukseen.