What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Tutorial DeepSeek‑OCR: Compressió d'historials de xat, registres i dades per a LLMs

Introducció: Per què la compressió és ara una superpotència per als LLM Si alguna vegada has intentat ficar registres de xat d'una setmana, telemetria o rastres d'aplicacions multi-sistema en un prompt, t'has trobat amb el sostre dur de les finestres de context. La jugada habitual (resumir, podar, dividir) només et porta fins a un cert punt abans que la pèrdua de senyal comenci a aparèixer. DeepSeek‑OCR introdueix un gir sorprenent: comprimir el text en tokens de visió utilitzant una pipeline OCR‑VLM per reduir dràsticament el context sense descartar el significat. Els primers informes de la comunitat citen una eficiència de compressió d'ordre de magnitud aprofitant els tokens visuals en lloc dels tokens de text en brut, un paradigma que algunes anàlisis descriuen com a "Context Optical Compression" i "milers de tokens de text en pocs centenars de tokens de visió" per als fluxos de treball de context llarg.

En aquest tutorial pràctic i pas a pas de DeepSeek‑OCR, aprendràs a comprimir històries de xat, registres i dades per als LLM mentre conserves la precisió de recuperació, a més de com combinar la compressió basada en OCR amb la resumització, la divisió jeràrquica i RAG per a un prompting potent i de baixa latència.

A qui va dirigida aquesta guia

Constructors de copilots d'IA que han d'ingerir xats llargs i rastres d'activitat

Enginyers de dades que gestionen registres, rastres i mètriques per al raonament de LLM

Investigadors que prototipen fluxos de treball de context ultra llarg amb un pressupost

Atracció en una frase: si pots convertir un text extens en representacions visuals compactes que els LLM puguin llegir, recuperes el pressupost de context sense sacrificar les molles de raonament.

Què és la compressió DeepSeek‑OCR? La idea central

Compressió de tokens de visió: converteix trams de text densos en embeddings visuals d'alta informació; els tokens de visió poden ser més barats i compactes que els tokens de text equivalents.

Context Optical Compression: utilitza OCR/VLM per codificar un context textual gran com a imatges o dissenys estructurats visualment, preservant l'estructura semàntica alhora que redueix els recomptes de tokens.

Fluxos de treball de context llarg: comprimeix milers de tokens en centenars de tokens de visió, permetent conjunts de treball més grans per a la planificació, l'ús d'eines o el raonament multi-torn.

Quan utilitzar-lo

Històries de xat amb frases repetitives o estructura predictible

Registres del sistema, rastres, sortides de compilació o dumps d'analítica

Instantànies de documentació, dashboards o informes semi-estructurats

Què construiràs en aquest tutorial Implementaràs una pipeline per:

Normalitzar i segmentar dades de xat/registre.

Triar estratègies de compressió (OCR‑visual, resumització textual o híbrida).

Generar representacions visuals compactes mitjançant DeepSeek‑OCR.

Indexar amb metadades per a la recuperació.

Consultar amb un prompt RAG híbrid que accepti tant text com imatges.

Avaluar la fidelitat i el cost.

Secció 1: Preparació de dades: fes que els històries desordenades siguin amigables per al model

Normalitzar timestamps i rols: e.g., {timestamp: 2024-07-23T14:30:00Z, role: 'user', content: 'Hola, món!'}.

Contres: requereix suport VLM; necessita renderització i I/O d'imatge.

Utilitza-ho quan: necessites fidelitat de context llarg, diagrames/taules o retenció de frases exactes.

Híbrid (recomanat)

Mantén un resum de text “esqueletal” per ancorar + adjunta targetes visuals comprimides per a la profunditat.

Això equilibra la precisió de recuperació (text) i el record/fidelitat (visió).

Secció 3: Construcció de targetes de context visual amb DeepSeek‑OCR Objectiu: Transformar trams de text de 5–20 KB en imatges de 512–1024 px optimitzades per a la lectura OCR/VLM.

Suggeriments de plantilles

Barra de títol: ID de sessió, interval de temps, etiqueta de tema.

Disseny de dues columnes: columna esquerra per a girs/registres clau; columna dreta per a aspectes destacats (errors, decisions, ordres, mètriques).

Blocs monoespaiats per a línies de codi/registre; resums de vinyetes per al context.

Tema amigable per al contrast; evita fonts petites (<11–12 pt a escala 1x).

Consells de renderització

Utilitza HTML/CSS per produir targetes netes i consistents (p. ex., captures de pantalla de Puppeteer/Playwright).

Inclou àncores estables (números de línia, ID) per fer referència a elements específics als prompts.

Limita a ~200–400 paraules per targeta; crea una pila de targetes per sessió.

Pas de DeepSeek‑OCR

Executa DeepSeek‑OCR per assegurar la fidelitat d'anada i tornada: targeta → text OCR. Això comprova per segona vegada que el teu disseny i les teves fonts es descodifiquen amb precisió.

Si el text OCR divergeix, ajusta les fonts, l'espaiat o divideix el codi dens en diverses targetes.

Per què funciona això Escrits de la comunitat i de tercers assenyalen guanys d'eficiència significatius en comprimir el context textual en tokens de visió mentre es manté la llegibilitat.

Secció 4: Capes de resumització: mantén l'esquelet, emmagatzema el múscul Implementa resums en capes perquè puguis augmentar la resolució només quan sigui necessari.

L0: Etiquetes atòmiques de línia/torn: rol, timestamp, tipus (error, nota, codi), embedding.

L1: Micro-resum (1–2 frases) per cada 20–40 girs o 2–5 minuts de registres.

L2: Abstracte de sessió (5–8 vinyetes) amb decisions, bloquejadors, resultats i enllaços a targetes visuals.

L3: Fil de fils: resums setmanals o de nivell de projecte.

Heurístiques pràctiques

Inclou sempre àncores verbatim: codis d'error, ID SQL, ID de rastre, SHAs de commit.

Utilitza resums extractius abans d'abstractius; després refina amb abstractius per a la llegibilitat.

Afegeix una vinyeta de “què ha canviat des de l'última sessió” per accelerar el prompting de posada al dia.

Secció 5: Indexació i recuperació per a RAG híbrid Esquema de metadades

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: {card_id: , summary_id: }

Combina la compressió basada en OCR amb resums en capes i RAG per a la precisió i la profunditat.

Optimitza els dissenys, les fonts i la indexació per mantenir la fidelitat alta i la latència baixa.

Tracta les targetes comprimides com a evidència de primera classe i cita-les als prompts.

Propers passos

Prototipa la pipeline mínima en un projecte de xat o conjunt de dades de registre.

Prova A/B només amb text vs compressió híbrida per a 10 consultes típiques.

Ajusta el disseny de la targeta, la combinació de recuperadors i els pressupostos en funció de les mètriques de fidelitat.

Escala als fluxos de treball d'equip amb emmagatzematge en memòria cau, ACL i monitoratge.

FAQ

P1: Què és DeepSeek‑OCR i per què utilitzar-lo per comprimir històries de xat per als LLM? DeepSeek‑OCR permet la compressió òptica de context (Context Optical Compression): codificar trams de text grans com a tokens visuals que els VLM poden processar de manera eficient. Això pot reduir els pressupostos de tokens i preservar millor l'estructura que la resumització només de text, mantenint alhora una alta fidelitat per als contextos llargs.

P2: Com es compara la compressió de tokens visuals amb la resumització de text? La compressió de tokens visuals sovint aconsegueix una compressió efectiva més alta alhora que conserva el disseny i les frases exactes, cosa que ajuda amb les citacions, el codi i les cadenes d'error. La resumització és més ràpida i senzilla, però pot ometre detalls rars o introduir errors d'abstracció.

P3: Puc combinar DeepSeek‑OCR amb RAG per a registres i xats? Sí. Utilitza resums de text per a una recuperació ràpida i adjunta targetes visuals validades per OCR per a la profunditat. Un recuperador de dues etapes pot obtenir primer els abstracts i, després, les targetes més rellevants, equilibrant la precisió i la cobertura del context.

P4: Quins dissenys funcionen millor per a les targetes de context comprimides per OCR? Utilitza HTML/CSS net amb una barra de títol, contingut de dues columnes, blocs monoespaiats per al codi i vinyetes clares per als aspectes destacats. Mantén 200–400 paraules per targeta, fonts de 11–12 pt o més grans, i valida la llegibilitat amb un viatge d'anada i tornada OCR.

P5: Com puc mesurar si la compressió està perdent informació important? Fes un seguiment de Fidelity@K en comparació amb un conjunt d'or de fets, la cobertura d'evidències mitjançant citacions de número de línia i les mètriques de latència/cost. L'objectiu és ≥95% de retenció de fets i assegura't que la majoria de respostes citin una línia de targeta o un ID d'àncora.