What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Tutorial DeepSeek-OCR: Compresia istoricului conversațiilor, a jurnalelor și a datelor pentru LLM-uri

Introducere: De ce compresia este acum o superputere pentru LLM-uri Dacă ați încercat vreodată să introduceți într-un prompt jurnale de chat, telemetrie sau urme de aplicații multi-sistem pentru o săptămână, v-ați lovit de limita superioară a ferestrelor de context. Tactica obișnuită - rezumare, eliminare, fragmentare - vă ajută doar până într-un anumit punct, înainte ca pierderea semnalului să se strecoare. DeepSeek‑OCR introduce o întorsătură izbitoare: comprimă textul în tokeni vizuali folosind un pipeline OCR‑VLM pentru a reduce dramatic contextul fără a arunca sensul. Rapoartele timpurii ale comunității citează o eficiență a compresiei de ordinul mărimii prin valorificarea tokenilor vizuali în locul tokenilor de text brut, o paradigmă pe care unele analize o descriu drept „Context Optical Compression” și „mii de tokeni de text în câteva sute de tokeni vizuali” pentru fluxuri de lucru cu context lung.

În acest tutorial practic, pas cu pas, DeepSeek‑OCR, veți învăța cum să comprimați istoricul chat-urilor, jurnalele și datele pentru LLM-uri, păstrând în același timp precizia de recuperare - plus cum să combinați compresia bazată pe OCR cu rezumarea, fragmentarea ierarhică și RAG pentru un prompting puternic, cu latență scăzută.

Cui se adresează acest ghid

Constructorilor de copiloți AI care trebuie să ingereze chat-uri lungi și trasee de activitate

Inginerilor de date care se luptă cu jurnale, urme și metrici pentru raționamentul LLM

Cercetătorilor care prototipează fluxuri de lucru cu context ultra-lung, cu un buget limitat

Cârlig într-o singură propoziție: Dacă puteți transforma textul extins în reprezentări vizuale compacte pe care LLM-urile le pot citi, câștigați înapoi bugetul de context fără a sacrifica firimiturile de raționament.

Ce este compresia DeepSeek‑OCR? Ideea de bază

Compresia tokenilor vizuali: Convertiți întinderile de text dense în încorporări vizuale cu informații ridicate; tokenii vizuali pot fi mai ieftini și mai compacti decât tokenii de text echivalenți.

Context Optical Compression: Utilizați OCR/VLM pentru a codifica contextul textual larg ca imagini sau aspecte vizual structurate, păstrând structura semantică, reducând în același timp numărul de tokeni.

Fluxuri de lucru cu context lung: Comprimați mii de tokeni în sute de tokeni vizuali, permițând seturi de lucru mai mari pentru planificare, utilizare de instrumente sau raționament multi-turn.

Când să-l folosiți

Istoricul chat-urilor cu formulări repetitive sau structură predictibilă

Jurnale de sistem, urme, rezultate de compilare sau dump-uri de analiză

Instantanee de documentație, tablouri de bord sau rapoarte semi-structurate

Ce veți construi în acest tutorial Veți implementa un pipeline pentru:

Normalizarea și segmentarea datelor de chat/jurnal.

Alegerea strategiilor de compresie (OCR‑vizual, rezumare textuală sau hibridă).

Generarea de reprezentări vizuale compacte prin DeepSeek‑OCR.

Indexarea cu metadate pentru recuperare.

Interogarea cu un prompt RAG hibrid care acceptă atât text, cât și imagini.

Evaluarea fidelității și a costurilor.

Secțiunea 1 — Pregătirea datelor: Faceți istoricele dezordonate prietenoase cu modelul

Normalizarea timestamp-urilor și a rolurilor: ex., {timestamp, role}.

Contra: necesită suport VLM; necesită redare și I/O de imagini.

Utilizați când: aveți nevoie de fidelitate lungă a contextului, diagrame/tabele sau reținere exactă a formulării.

Hibrid (recomandat)

Păstrați rezumatul text „scheletic” pentru ancorare + atașați carduri vizuale comprimate pentru profunzime.

Aceasta echilibrează precizia de recuperare (text) și reamintirea/fidelitatea (viziune).

Secțiunea 3 — Construirea de carduri de context vizual cu DeepSeek‑OCR Obiectiv: Transformați întinderi de text de 5–20 KB în imagini de 512–1024 px optimizate pentru citirea OCR/VLM.

Sugestii de șabloane

Bara de titlu: ID sesiune, interval de timp, etichetă de subiect.

Aspect cu două coloane: coloana din stânga pentru viraje/jurnale cheie; coloana din dreapta pentru evidențieri (erori, decizii, comenzi, metrici).

Blocuri monospațiale pentru linii de cod/jurnal; rezumate punctate pentru context.

Temă prietenoasă cu contrastul; evitați fonturile mici (<11–12 pt la scara 1x).

Sfaturi de redare

Utilizați HTML/CSS pentru a produce carduri curate, consistente (de ex., capturi de ecran Puppeteer/Playwright).

Includeți ancore stabile (numere de linie, ID-uri) pentru a face referire la elemente specifice din prompte.

Limitați la ~200–400 de cuvinte per card; creați o stivă de carduri per sesiune.

Trecere DeepSeek‑OCR

Rulați DeepSeek‑OCR pentru a asigura fidelitatea dus-întors: card → text OCR. Aceasta verifică de două ori dacă aspectul și fonturile dvs. se decodifică cu precizie.

Dacă textul OCR deviază, ajustați fonturile, spațierea sau împărțiți codul dens în mai multe carduri.

De ce funcționează acest lucru Articolele scrise de comunitate și de terți indică câștiguri semnificative de eficiență la comprimarea contextului textual în tokeni vizuali, păstrând în același timp lizibilitatea.

Secțiunea 4 — Straturi de rezumare: Păstrați scheletul, stocați mușchii Implementați rezumate stratificate, astfel încât să puteți scala rezoluția numai atunci când este necesar.

L0: Etichete atomice de linie/viraj — rol, timestamp, tip (eroare, notă, cod), încorporare.

L1: Micro-rezumat (1–2 propoziții) pentru fiecare 20–40 de viraje sau 2–5 minute de jurnale.

L2: Rezumatul sesiunii (5–8 puncte) cu decizii, blocanți, rezultate și link-uri către carduri vizuale.

L3: Fir-de-fire — roll-up-uri săptămânale sau la nivel de proiect.

Euristici practice

Includeți întotdeauna ancore verbatim: coduri de eroare, ID-uri SQL, ID-uri de urmărire, SHA-uri de commit.

Utilizați rezumate extractive înainte de abstractive; apoi rafinați cu abstractive pentru lizibilitate.

Adăugați un punct „ce s-a schimbat de la ultima sesiune” pentru a accelera prompting-ul de recuperare.

Secțiunea 5 — Indexare și recuperare pentru RAG hibrid Schema metadatelor

doc_id, session_id, time_range, roles, topic labels

scor de importanță, severitatea erorii, componentă/serviciu

link-uri: {visual_card_id, summary_id}.

Combinați compresia bazată pe OCR cu rezumate stratificate și RAG pentru precizie și profunzime.

Optimizați aspectele, fonturile și indexarea pentru a menține fidelitatea ridicată și latența scăzută.

Tratați cardurile comprimate ca dovezi de primă clasă și citați-le în prompte.

Pașii următori

Prototipați pipeline-ul minim pe un proiect de chat sau set de date de jurnal.

Testați A/B compresia numai text vs. compresia hibridă pentru 10 interogări tipice.

Reglați designul cardului, amestecul de retriever și bugetele pe baza metricilor de fidelitate.

Scalați la fluxurile de lucru ale echipei cu caching, ACL-uri și monitorizare.

Întrebări frecvente

Î1:Ce este DeepSeek‑OCR și de ce să-l folosiți pentru a comprima istoricul chat-urilor pentru LLM-uri? DeepSeek‑OCR permite Context Optical Compression - codificarea unor întinderi mari de text ca tokeni vizuali pe care VLM-urile le pot procesa eficient. Acest lucru poate reduce bugetele de tokeni și poate păstra structura mai bine decât rezumarea numai text, menținând în același timp o fidelitate ridicată pentru contexte lungi.

Î2:Cum se compară compresia tokenilor vizuali cu rezumarea textului? Compresia tokenilor vizuali atinge adesea o compresie efectivă mai mare, păstrând în același timp aspectul și formularea exactă, ceea ce ajută cu citatele, codul și șirurile de eroare. Rezumarea este mai rapidă și mai simplă, dar poate omite detalii rare sau poate introduce erori de abstractizare.

Î3:Pot amesteca DeepSeek‑OCR cu RAG pentru jurnale și chat-uri? Da. Utilizați rezumate de text pentru recuperare rapidă și atașați carduri vizuale validate OCR pentru profunzime. Un retriever în două etape poate prelua mai întâi rezumate, apoi cele mai relevante carduri, echilibrând precizia și acoperirea contextului.

Î4:Ce aspecte funcționează cel mai bine pentru cardurile de context comprimate OCR? Utilizați HTML/CSS curat cu o bară de titlu, conținut cu două coloane, blocuri monospațiale pentru cod și puncte clare pentru evidențieri. Păstrați 200–400 de cuvinte per card, fonturi de 11–12 pt sau mai mari și validați lizibilitatea cu o cursă dus-întors OCR.

Î5:Cum măsor dacă compresia pierde informații importante? Urmăriți Fidelity@K față de un set de fapte de aur, acoperirea dovezilor prin citate cu numere de linie și metrici de latență/cost. Vizați ≥95% reținere a faptelor și asigurați-vă că majoritatea răspunsurilor citează o linie de card sau un ID de ancoră.