What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Poradnik DeepSeek‑OCR: Kompresowanie historii czatów, logów i danych dla LLM

Wprowadzenie: Dlaczego Kompresja Jest Teraz Supermocą dla LLM-ów Jeśli kiedykolwiek próbowałeś upchnąć tygodniowe logi z czatu, dane telemetryczne lub ślady aplikacji wielosystemowych do podpowiedzi, napotkałeś twardy sufit okien kontekstowych. Zwykła taktyka — podsumowywanie, przycinanie, dzielenie na części — prowadzi tylko do pewnego momentu, zanim wkradnie się utrata sygnału. DeepSeek-OCR wprowadza uderzające rozwiązanie: kompresuj tekst do tokenów wizyjnych za pomocą potoku OCR-VLM, aby radykalnie zmniejszyć kontekst bez utraty znaczenia. Wczesne raporty społeczności cytują efektywność kompresji rzędu wielkości, wykorzystując tokeny wizualne zamiast surowych tokenów tekstowych, paradygmat, który niektóre analizy opisują jako „Optyczna Kompresja Kontekstu” i „tysiące tokenów tekstowych w kilkaset tokenów wizyjnych” dla przepływów pracy z długim kontekstem.

W tym praktycznym, krok po kroku samouczku DeepSeek-OCR dowiesz się, jak kompresować historie czatów, logi i dane dla LLM-ów, zachowując precyzję wyszukiwania — a także jak łączyć kompresję opartą na OCR z podsumowywaniem, hierarchicznym dzieleniem na części i RAG dla potężnego, niskolatencyjnego podpowiadania.

Dla kogo jest ten przewodnik

Twórcy AI-copilotów, którzy muszą przetwarzać długie czaty i ślady aktywności

Inżynierowie danych zmagający się z logami, śladami i metrykami dla rozumowania LLM-ów

Badacze prototypujący ultra-długie przepływy pracy kontekstowej z ograniczonym budżetem

Haczyk w jednym zdaniu: Jeśli możesz przekształcić rozległy tekst w zwarte reprezentacje wizualne, które LLM-y mogą czytać, odzyskujesz budżet kontekstowy bez poświęcania okruchów rozumowania.

Czym Jest Kompresja DeepSeek-OCR? Podstawowa Idea

Kompresja tokenów wizyjnych: Konwertuj gęste fragmenty tekstu na osadzenia wizualne o wysokiej zawartości informacji; tokeny wizyjne mogą być tańsze i bardziej zwarte niż równoważne tokeny tekstowe.

Optyczna Kompresja Kontekstu: Użyj OCR/VLM do kodowania dużego kontekstu tekstowego jako obrazy lub wizualnie ustrukturyzowane układy, zachowując strukturę semantyczną przy jednoczesnym zmniejszeniu liczby tokenów.

Przepływy pracy z długim kontekstem: Kompresuj tysiące tokenów do setek tokenów wizyjnych, umożliwiając większe zestawy robocze do planowania, używania narzędzi lub wieloetapowego rozumowania.

Kiedy Używać

Historie czatów z powtarzającymi się zwrotami lub przewidywalną strukturą

Logi systemowe, ślady, wyniki kompilacji lub zrzuty analityczne

Migawki dokumentacji, pulpity nawigacyjne lub raporty częściowo ustrukturyzowane

Co Zbudujesz w Tym Samouczku Wdrożysz potok do:

Normalizacji i segmentacji danych czatu/logów.

Wyboru strategii kompresji (OCR-wizualna, podsumowanie tekstowe lub hybrydowa).

Generowania zwartych reprezentacji wizualnych za pośrednictwem DeepSeek-OCR.

Indeksowania z metadanymi do wyszukiwania.

Wykonywania zapytań za pomocą hybrydowej podpowiedzi RAG, która akceptuje zarówno tekst, jak i obrazy.

Oceny wierności i kosztów.

Sekcja 1 — Przygotowanie Danych: Uczyń Nieuporządkowane Historie Przyjaznymi dla Modelu

Normalizacja znaczników czasu i ról: np. {timestamp: user, role: agent, text: "Example text"}.

Wady: wymaga obsługi VLM; potrzebuje renderowania i wejścia/wyjścia obrazu.

Używaj, gdy: potrzebujesz wierności długiego kontekstu, diagramów/tabel lub dokładnego zachowania brzmienia.

Hybrydowa (zalecana)

Zachowaj „szkieletowe” podsumowanie tekstowe do zakotwiczenia + dołącz skompresowane karty wizualne dla głębi.

To równoważy precyzję wyszukiwania (tekst) i przypominanie/wierność (wizja).

Sekcja 3 — Budowanie Wizualnych Kart Kontekstowych z DeepSeek-OCR Cel: Przekształć 5–20 KB fragmentów tekstu w obrazy o rozmiarze 512–1024 px zoptymalizowane pod kątem odczytu OCR/VLM.

Sugestie dotyczące szablonów

Pasek tytułu: ID sesji, zakres czasu, etykieta tematu.

Układ dwukolumnowy: lewa kolumna dla kluczowych zwrotów/logów; prawa kolumna dla najważniejszych informacji (błędy, decyzje, polecenia, metryki).

Bloki o stałej szerokości znaków dla linii kodu/logu; podsumowania punktowe dla kontekstu.

Motyw przyjazny dla kontrastu; unikaj małych czcionek (<11–12 pt w skali 1x).

Wskazówki dotyczące renderowania

Użyj HTML/CSS do tworzenia czystych, spójnych kart (np. zrzuty ekranu Puppeteer/Playwright).

Dołącz stabilne kotwice (numery linii, identyfikatory), aby odwoływać się do konkretnych elementów w podpowiedziach.

Ogranicz do ~200–400 słów na kartę; utwórz stos kart na sesję.

Przejście DeepSeek-OCR

Uruchom DeepSeek-OCR, aby zapewnić wierność w obie strony: karta → tekst OCR. To podwójnie sprawdza, czy układ i czcionki są dokładnie dekodowane.

Jeśli tekst OCR odbiega, dostosuj czcionki, odstępy lub podziel gęsty kod na wiele kart.

Dlaczego to działa Społeczność i artykuły stron trzecich wskazują na znaczące zyski w efektywności podczas kompresowania kontekstu tekstowego do tokenów wizyjnych przy zachowaniu czytelności.

Sekcja 4 — Warstwy Podsumowań: Zachowaj Szkielet, Przechowuj Mięśnie Wdróż warstwowe podsumowania, aby móc skalować rozdzielczość tylko wtedy, gdy jest to potrzebne.

L0: Atomowe tagi linii/zwrotów — rola, znacznik czasu, typ (błąd, notatka, kod), osadzenie.

L1: Mikro-podsumowanie (1–2 zdania) dla każdych 20–40 zwrotów lub 2–5 minut logów.

L2: Abstrakt sesji (5–8 punktów) z decyzjami, blokadami, wynikami i linkami do kart wizualnych.

L3: Wątek-wątków — cotygodniowe lub zagregowania na poziomie projektu.

Praktyczne heurystyki

Zawsze dołączaj dosłowne kotwice: kody błędów, identyfikatory SQL, identyfikatory śledzenia, SHAs commitów.

Używaj podsumowań ekstracyjnych przed abstrakcyjnymi; następnie doprecyzuj abstrakcyjnymi dla czytelności.

Dodaj punkt „co się zmieniło od ostatniej sesji”, aby przyspieszyć podpowiadanie uzupełniające.

Sekcja 5 — Indeksowanie i Wyszukiwanie dla Hybrydowego RAG Schemat metadanych

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: {card_id: card_url, anchor_id: line_number}.

Połącz kompresję opartą na OCR z warstwowymi podsumowaniami i RAG, aby uzyskać precyzję i głębię.

Zoptymalizuj układy, czcionki i indeksowanie, aby utrzymać wysoką wierność i niskie opóźnienia.

Traktuj skompresowane karty jako dowody pierwszej klasy i cytuj je w podpowiedziach.

Następne Kroki

Stwórz prototyp minimalnego potoku dla jednego projektu czatu lub zbioru danych logów.

Przeprowadź test A/B kompresji tylko tekstowej i hybrydowej dla 10 typowych zapytań.

Dostosuj projekt karty, miks retrievera i budżety na podstawie metryk wierności.

Skaluj do przepływów pracy zespołu z pamięcią podręczną, ACL i monitoringiem.

FAQ

P1: Czym jest DeepSeek-OCR i dlaczego używać go do kompresowania historii czatów dla LLM-ów? DeepSeek-OCR umożliwia Optyczną Kompresję Kontekstu — kodowanie dużych fragmentów tekstu jako tokenów wizualnych, które VLM-y mogą wydajnie przetwarzać. Może to zmniejszyć budżety tokenów i lepiej zachować strukturę niż podsumowanie tylko tekstowe, przy jednoczesnym zachowaniu wysokiej wierności dla długich kontekstów.

P2: Jak wypada kompresja tokenów wizualnych w porównaniu z podsumowaniem tekstu? Kompresja tokenów wizualnych często osiąga wyższą efektywną kompresję, zachowując układ i dokładne brzmienie, co pomaga w przypadku cytatów, kodu i ciągów błędów. Podsumowanie jest szybsze i prostsze, ale może pomijać rzadkie szczegóły lub wprowadzać błędy abstrakcji.

P3: Czy mogę łączyć DeepSeek-OCR z RAG dla logów i czatów? Tak. Użyj podsumowań tekstowych do szybkiego przypominania i dołącz karty wizualne zweryfikowane przez OCR dla głębi. Dwustopniowy retriever może najpierw pobrać abstrakty, a następnie najbardziej odpowiednie karty, równoważąc precyzję i zasięg kontekstu.

P4: Jakie układy działają najlepiej dla kart kontekstowych skompresowanych za pomocą OCR? Użyj czystego HTML/CSS z paskiem tytułu, dwukolumnową zawartością, blokami o stałej szerokości znaków dla kodu i wyraźnymi punktami dla najważniejszych informacji. Zachowaj 200–400 słów na kartę, czcionki 11–12 pt lub większe i zweryfikuj czytelność za pomocą przejścia OCR w obie strony.

P5: Jak mierzyć, czy kompresja powoduje utratę ważnych informacji? Śledź Wierność@K w odniesieniu do złotego zestawu faktów, pokrycie dowodów za pomocą cytatów numerów linii oraz metryki opóźnienia/kosztów. Celuj w ≥95% zachowania faktów i upewnij się, że większość odpowiedzi cytuje linię karty lub identyfikator kotwicy.