What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Návod DeepSeek‑OCR: Komprese chatovacích historií, logů a dat pro LLM

Úvod: Proč je komprese nyní pro LLM velmocí Pokud jste se někdy pokusili nacpat týdenní záznamy chatu, telemetrii nebo trasování aplikací z více systémů do promptu, narazili jste na tvrdý strop kontextových oken. Obvyklý postup – shrnutí, prořezání, rozdělení na části – vás dostane jen tak daleko, než se začne vkrádat ztráta signálu. DeepSeek‑OCR představuje pozoruhodný zvrat: komprimuje text do vizuálních tokenů pomocí OCR‑VLM pipeline, aby dramaticky zmenšil kontext, aniž by zahodil význam. První zprávy komunity uvádějí efektivitu komprese o celý řád díky využití vizuálních tokenů namísto surových textových tokenů, což je paradigma, které některé analýzy popisují jako „Context Optical Compression“ a „tisíce textových tokenů do několika stovek vizuálních tokenů“ pro pracovní postupy s dlouhým kontextem.

V tomto praktickém, krok za krokem DeepSeek‑OCR tutoriálu se naučíte, jak komprimovat historie chatu, protokoly a data pro LLM při zachování přesnosti vyhledávání – a také jak kombinovat kompresi založenou na OCR se shrnutím, hierarchickým rozdělením na části a RAG pro výkonné promptování s nízkou latencí.

Pro koho je tento průvodce určen

Tvůrci AI kopilotů, kteří musí ingestovat dlouhé chaty a záznamy aktivit

Datoví inženýři zápasící s protokoly, trasováním a metrikami pro usuzování LLM

Výzkumníci, kteří prototypují pracovní postupy s ultra‑dlouhým kontextem s omezeným rozpočtem

Háček v jedné větě: Pokud dokážete proměnit rozsáhlý text na kompaktní vizuální reprezentace, které LLM dokážou číst, získáte zpět rozpočet kontextu, aniž byste obětovali drobky usuzování.

Co je DeepSeek‑OCR komprese? Hlavní myšlenka

Komprese vizuálních tokenů: Převod hustých textových úseků na vizuální embeddingy s vysokou informační hodnotou; vizuální tokeny mohou být levnější a kompaktnější než ekvivalentní textové tokeny.

Context Optical Compression: Použijte OCR/VLM k zakódování velkého textového kontextu jako obrázky nebo vizuálně strukturovaná rozvržení, čímž se zachová sémantická struktura a zároveň se sníží počet tokenů.

Pracovní postupy s dlouhým kontextem: Komprimujte tisíce tokenů do stovek vizuálních tokenů, což umožní větší pracovní sady pro plánování, použití nástrojů nebo vícenásobné usuzování.

Kdy ji použít

Historie chatů s opakujícími se frázemi nebo předvídatelnou strukturou

Systémové protokoly, trasování, výstupy sestavení nebo analytické výpisy

Snímky dokumentace, řídicí panely nebo polo‑strukturované zprávy

Co v tomto tutoriálu vytvoříte Implementujete pipeline pro:

Normalizaci a segmentaci dat chatu/protokolu.

Výběr kompresních strategií (OCR‑vizuální, textové shrnutí nebo hybridní).

Generování kompaktních vizuálních reprezentací prostřednictvím DeepSeek‑OCR.

Indexování s metadaty pro vyhledávání.

Dotazování pomocí hybridního RAG promptu, který přijímá text i obrázky.

Vyhodnocení věrnosti a nákladů.

Sekce 1 – Příprava dat: Udělejte z chaotických historií model‑friendly

Normalizace časových značek a rolí: např. .

Nevýhody: vyžaduje podporu VLM; potřebuje renderování a image I/O.

Použijte, když: potřebujete věrnost dlouhého kontextu, diagramy/tabulky nebo přesné zachování frází.

Hybridní (doporučeno)

Ponechte „kosterní“ textové shrnutí pro ukotvení + připojte komprimované vizuální karty pro hloubku.

To vyvažuje přesnost vyhledávání (text) a recall/věrnost (vize).

Sekce 3 – Vytváření vizuálních kontextových karet pomocí DeepSeek‑OCR Cíl: Transformovat 5–20 KB textových úseků na obrázky o velikosti 512–1024 px optimalizované pro čtení OCR/VLM.

Návrhy šablon

Záhlaví: ID relace, časový rozsah, popisek tématu.

Rozvržení se dvěma sloupci: levý sloupec pro klíčové tahy/protokoly; pravý sloupec pro zvýraznění (chyby, rozhodnutí, příkazy, metriky).

Monospace bloky pro řádky kódu/protokolu; shrnutí s odrážkami pro kontext.

Motiv přátelský ke kontrastu; vyhněte se drobným písmům (<11–12 pt při měřítku 1x).

Tipy pro renderování

Použijte HTML/CSS k vytvoření čistých a konzistentních karet (např. snímky obrazovky Puppeteer/Playwright).

Zahrňte stabilní kotvy (čísla řádků, ID) pro odkazování na konkrétní položky v promptech.

Omezte se na ~200–400 slov na kartu; vytvořte zásobník karet na relaci.

DeepSeek‑OCR pass

Spusťte DeepSeek‑OCR, abyste zajistili věrnost round‑trip: karta → OCR text. Tím se dvakrát zkontroluje, zda se vaše rozvržení a písma dekódují přesně.

Pokud se OCR text liší, upravte písma, mezery nebo rozdělte hustý kód do více karet.

Proč to funguje Komunitní a externí zprávy poukazují na smysluplné zvýšení efektivity při komprimování textového kontextu do vizuálních tokenů při zachování čitelnosti.

Sekce 4 – Vrstvy shrnutí: Ponechte kostru, uložte svaly Implementujte vrstvené shrnutí, abyste mohli zvětšit rozlišení pouze v případě potřeby.

L0: Atomické tagy řádků/tahů – role, časová značka, typ (chyba, poznámka, kód), embedding.

L1: Mikro‑shrnutí (1–2 věty) pro každých 20–40 tahů nebo 2–5 minut protokolů.

L2: Abstrakt relace (5–8 odrážek) s rozhodnutími, blokátory, výsledky a odkazy na vizuální karty.

L3: Vlákno‑vláken – týdenní nebo projektové souhrny.

Praktické heuristiky

Vždy zahrňte doslovné kotvy: kódy chyb, SQL ID, trace ID, commit SHA.

Používejte extraktivní shrnutí před abstraktivním; poté dolaďte pomocí abstraktivního pro čitelnost.

Přidejte odrážku „co se změnilo od poslední relace“ pro urychlení promptování pro dohnání.

Sekce 5 – Indexování a vyhledávání pro hybridní RAG Schéma metadat

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: .

Kombinujte kompresi založenou na OCR s vrstvenými shrnutími a RAG pro přesnost a hloubku.

Optimalizujte rozvržení, písma a indexování, abyste udrželi vysokou věrnost a nízkou latenci.

Zacházejte s komprimovanými kartami jako s prvotřídními důkazy a citujte je v promptech.

Další kroky

Vytvořte prototyp minimální pipeline na jednom chatovacím projektu nebo datové sadě protokolů.

A/B testování pouze textové vs. hybridní komprese pro 10 typických dotazů.

Vylaďte návrh karty, mix retrieverů a rozpočty na základě metrik věrnosti.

Škálování pro týmové pracovní postupy s ukládáním do mezipaměti, ACL a monitorováním.

FAQ

Q1:Co je DeepSeek‑OCR a proč jej používat ke komprimaci historií chatů pro LLM? DeepSeek‑OCR umožňuje Context Optical Compression – kódování velkých textových úseků jako vizuálních tokenů, které mohou VLM efektivně zpracovávat. To může zmenšit rozpočty tokenů a zachovat strukturu lépe než shrnutí pouze textu při zachování vysoké věrnosti pro dlouhé kontexty.

Q2:Jak se porovnává komprese vizuálních tokenů s textovým shrnutím? Komprese vizuálních tokenů často dosahuje vyšší efektivní komprese při zachování rozvržení a přesného frázování, což pomáhá s citacemi, kódem a chybovými řetězci. Shrnutí je rychlejší a jednodušší, ale může vynechat vzácné detaily nebo zavést chyby abstrakce.

Q3:Mohu kombinovat DeepSeek‑OCR s RAG pro protokoly a chaty? Ano. Použijte textové shrnutí pro rychlé vyhledávání a připojte OCR‑validované vizuální karty pro hloubku. Dvoustupňový retriever může nejprve načíst abstrakty a poté nejrelevantnější karty, čímž vyváží přesnost a pokrytí kontextu.

Q4:Jaká rozvržení fungují nejlépe pro OCR‑komprimované kontextové karty? Použijte čisté HTML/CSS se záhlavím, dvou‑sloupcovým obsahem, monospace bloky pro kód a jasné odrážky pro zvýraznění. Udržujte 200–400 slov na kartu, písma o velikosti 11–12 pt nebo větší a ověřte čitelnost pomocí OCR round‑trip.

Q5:Jak zjistím, zda komprese neztrácí důležité informace? Sledujte Fidelity@K proti zlaté sadě faktů, pokrytí důkazů pomocí citací čísel řádků a metriky latence/nákladů. Zamiřte na ≥95% zachování faktů a zajistěte, aby většina odpovědí citovala řádek karty nebo kotevní ID.