Sider.ai
  • Xat
  • Wisebase
  • Eines
  • Extensió
  • Clients
  • Preus
Descarrega ara
iniciar Sessió

Aprèn més ràpid, pensa més profundament i creix més intel·ligent amb Sider.

Productes
Aplicacions
  • Extensions
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Eines
  • Creador de llocs webNew
  • AI SlidesNew
  • Escriptor d'assajos AI
  • Nano Banana Pro
  • Nano Banana Infographic
  • Generador d'imatges AI
  • Generador de Brainrot Italià
  • Eliminador de fons
  • Canviador de fons
  • Esborrador de fotos
  • Eliminador de text
  • Repintar
  • Millorador d'imatges
  • Crear
  • Traductor AI
  • Traductor d'imatges
  • Traductor de PDF
Sider
  • Contacta'ns
  • Centre d'ajuda
  • Descarregar
  • Preus
  • Pla d'Educació
  • Què hi ha de nou
  • Blog
  • Comunitat
  • Socis
  • Afiliat
  • Convida
©2026 Tots els drets reservats
Condicions d'ús
Política de privacitat
  • Pàgina d'inici
  • Bloc
  • Eines d'IA
  • Tutorial DeepSeek‑OCR: Compressió d'historials de xat, registres i dades per a LLMs

Tutorial DeepSeek‑OCR: Compressió d'historials de xat, registres i dades per a LLMs

Actualitzat el 23 Oct. 2025

5 min


Introducció: Per què la compressió és ara una superpotència per als LLM Si alguna vegada has intentat ficar registres de xat d'una setmana, telemetria o rastres d'aplicacions multi-sistema en un prompt, t'has trobat amb el sostre dur de les finestres de context. La jugada habitual (resumir, podar, dividir) només et porta fins a un cert punt abans que la pèrdua de senyal comenci a aparèixer. DeepSeek‑OCR introdueix un gir sorprenent: comprimir el text en tokens de visió utilitzant una pipeline OCR‑VLM per reduir dràsticament el context sense descartar el significat. Els primers informes de la comunitat citen una eficiència de compressió d'ordre de magnitud aprofitant els tokens visuals en lloc dels tokens de text en brut, un paradigma que algunes anàlisis descriuen com a "Context Optical Compression" i "milers de tokens de text en pocs centenars de tokens de visió" per als fluxos de treball de context llarg.
En aquest tutorial pràctic i pas a pas de DeepSeek‑OCR, aprendràs a comprimir històries de xat, registres i dades per als LLM mentre conserves la precisió de recuperació, a més de com combinar la compressió basada en OCR amb la resumització, la divisió jeràrquica i RAG per a un prompting potent i de baixa latència.
A qui va dirigida aquesta guia
  • Constructors de copilots d'IA que han d'ingerir xats llargs i rastres d'activitat
  • Enginyers de dades que gestionen registres, rastres i mètriques per al raonament de LLM
  • Investigadors que prototipen fluxos de treball de context ultra llarg amb un pressupost
Atracció en una frase: si pots convertir un text extens en representacions visuals compactes que els LLM puguin llegir, recuperes el pressupost de context sense sacrificar les molles de raonament.
Què és la compressió DeepSeek‑OCR? La idea central
  • Compressió de tokens de visió: converteix trams de text densos en embeddings visuals d'alta informació; els tokens de visió poden ser més barats i compactes que els tokens de text equivalents.
  • Context Optical Compression: utilitza OCR/VLM per codificar un context textual gran com a imatges o dissenys estructurats visualment, preservant l'estructura semàntica alhora que redueix els recomptes de tokens.
  • Fluxos de treball de context llarg: comprimeix milers de tokens en centenars de tokens de visió, permetent conjunts de treball més grans per a la planificació, l'ús d'eines o el raonament multi-torn.
Quan utilitzar-lo
  • Històries de xat amb frases repetitives o estructura predictible
  • Registres del sistema, rastres, sortides de compilació o dumps d'analítica
  • Instantànies de documentació, dashboards o informes semi-estructurats
Què construiràs en aquest tutorial Implementaràs una pipeline per:
  1. Normalitzar i segmentar dades de xat/registre.
  1. Triar estratègies de compressió (OCR‑visual, resumització textual o híbrida).
  1. Generar representacions visuals compactes mitjançant DeepSeek‑OCR.
  1. Indexar amb metadades per a la recuperació.
  1. Consultar amb un prompt RAG híbrid que accepti tant text com imatges.
  1. Avaluar la fidelitat i el cost.
Secció 1: Preparació de dades: fes que els històries desordenades siguin amigables per al model
  • Normalitzar timestamps i rols: e.g., {timestamp: 2024-07-23T14:30:00Z, role: 'user', content: 'Hola, món!'}.
  • Contres: requereix suport VLM; necessita renderització i I/O d'imatge.
  • Utilitza-ho quan: necessites fidelitat de context llarg, diagrames/taules o retenció de frases exactes.
  • Híbrid (recomanat)
  • Mantén un resum de text “esqueletal” per ancorar + adjunta targetes visuals comprimides per a la profunditat.
  • Això equilibra la precisió de recuperació (text) i el record/fidelitat (visió).
Secció 3: Construcció de targetes de context visual amb DeepSeek‑OCR Objectiu: Transformar trams de text de 5–20 KB en imatges de 512–1024 px optimitzades per a la lectura OCR/VLM.
Suggeriments de plantilles
  • Barra de títol: ID de sessió, interval de temps, etiqueta de tema.
  • Disseny de dues columnes: columna esquerra per a girs/registres clau; columna dreta per a aspectes destacats (errors, decisions, ordres, mètriques).
  • Blocs monoespaiats per a línies de codi/registre; resums de vinyetes per al context.
  • Tema amigable per al contrast; evita fonts petites (<11–12 pt a escala 1x).
Consells de renderització
  • Utilitza HTML/CSS per produir targetes netes i consistents (p. ex., captures de pantalla de Puppeteer/Playwright).
  • Inclou àncores estables (números de línia, ID) per fer referència a elements específics als prompts.
  • Limita a ~200–400 paraules per targeta; crea una pila de targetes per sessió.
Pas de DeepSeek‑OCR
  • Executa DeepSeek‑OCR per assegurar la fidelitat d'anada i tornada: targeta → text OCR. Això comprova per segona vegada que el teu disseny i les teves fonts es descodifiquen amb precisió.
  • Si el text OCR divergeix, ajusta les fonts, l'espaiat o divideix el codi dens en diverses targetes.
Per què funciona això Escrits de la comunitat i de tercers assenyalen guanys d'eficiència significatius en comprimir el context textual en tokens de visió mentre es manté la llegibilitat.
Secció 4: Capes de resumització: mantén l'esquelet, emmagatzema el múscul Implementa resums en capes perquè puguis augmentar la resolució només quan sigui necessari.
  • L0: Etiquetes atòmiques de línia/torn: rol, timestamp, tipus (error, nota, codi), embedding.
  • L1: Micro-resum (1–2 frases) per cada 20–40 girs o 2–5 minuts de registres.
  • L2: Abstracte de sessió (5–8 vinyetes) amb decisions, bloquejadors, resultats i enllaços a targetes visuals.
  • L3: Fil de fils: resums setmanals o de nivell de projecte.
Heurístiques pràctiques
  • Inclou sempre àncores verbatim: codis d'error, ID SQL, ID de rastre, SHAs de commit.
  • Utilitza resums extractius abans d'abstractius; després refina amb abstractius per a la llegibilitat.
  • Afegeix una vinyeta de “què ha canviat des de l'última sessió” per accelerar el prompting de posada al dia.
Secció 5: Indexació i recuperació per a RAG híbrid Esquema de metadades
  • doc_id, session_id, time_range, roles, topic labels
  • importance score, error severity, component/service
  • links: {card_id: , summary_id: }
  • Combina la compressió basada en OCR amb resums en capes i RAG per a la precisió i la profunditat.
  • Optimitza els dissenys, les fonts i la indexació per mantenir la fidelitat alta i la latència baixa.
  • Tracta les targetes comprimides com a evidència de primera classe i cita-les als prompts.
Propers passos
  • Prototipa la pipeline mínima en un projecte de xat o conjunt de dades de registre.
  • Prova A/B només amb text vs compressió híbrida per a 10 consultes típiques.
  • Ajusta el disseny de la targeta, la combinació de recuperadors i els pressupostos en funció de les mètriques de fidelitat.
  • Escala als fluxos de treball d'equip amb emmagatzematge en memòria cau, ACL i monitoratge.

FAQ

P1: Què és DeepSeek‑OCR i per què utilitzar-lo per comprimir històries de xat per als LLM? DeepSeek‑OCR permet la compressió òptica de context (Context Optical Compression): codificar trams de text grans com a tokens visuals que els VLM poden processar de manera eficient. Això pot reduir els pressupostos de tokens i preservar millor l'estructura que la resumització només de text, mantenint alhora una alta fidelitat per als contextos llargs.
P2: Com es compara la compressió de tokens visuals amb la resumització de text? La compressió de tokens visuals sovint aconsegueix una compressió efectiva més alta alhora que conserva el disseny i les frases exactes, cosa que ajuda amb les citacions, el codi i les cadenes d'error. La resumització és més ràpida i senzilla, però pot ometre detalls rars o introduir errors d'abstracció.
P3: Puc combinar DeepSeek‑OCR amb RAG per a registres i xats? Sí. Utilitza resums de text per a una recuperació ràpida i adjunta targetes visuals validades per OCR per a la profunditat. Un recuperador de dues etapes pot obtenir primer els abstracts i, després, les targetes més rellevants, equilibrant la precisió i la cobertura del context.
P4: Quins dissenys funcionen millor per a les targetes de context comprimides per OCR? Utilitza HTML/CSS net amb una barra de títol, contingut de dues columnes, blocs monoespaiats per al codi i vinyetes clares per als aspectes destacats. Mantén 200–400 paraules per targeta, fonts de 11–12 pt o més grans, i valida la llegibilitat amb un viatge d'anada i tornada OCR.
P5: Com puc mesurar si la compressió està perdent informació important? Fes un seguiment de Fidelity@K en comparació amb un conjunt d'or de fets, la cobertura d'evidències mitjançant citacions de número de línia i les mètriques de latència/cost. L'objectiu és ≥95% de retenció de fets i assegura't que la majoria de respostes citin una línia de targeta o un ID d'àncora.

Articles Recents
Com dominar ChatPDF: obtenir informació més ràpidament de documents densos

Com dominar ChatPDF: obtenir informació més ràpidament de documents densos

La millor alternativa a X Auto-Translation per a documents ràpids i precisos

La millor alternativa a X Auto-Translation per a documents ràpids i precisos

La traducció AI de Samsung no està disponible a l'Iran? Solucions pràctiques

La traducció AI de Samsung no està disponible a l'Iran? Solucions pràctiques

Eines de traducció persa: una guia pràctica per a un treball més ràpid i precís

Eines de traducció persa: una guia pràctica per a un treball més ràpid i precís

La millor alternativa a Grok per a una recerca profunda i citada

La millor alternativa a Grok per a una recerca profunda i citada

Les 15 millors funcions del generador d'imatges d'IA que realment utilitzaràs

Les 15 millors funcions del generador d'imatges d'IA que realment utilitzaràs