What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Tutorial DeepSeek-OCR: Memampatkan Sejarah Sembang, Log & Data untuk LLM

Pengenalan: Mengapa Pemampatan Kini Menjadi Kuasa Besar untuk LLM Jika anda pernah cuba memasukkan log sembang, telemetri atau kesan aplikasi berbilang sistem selama seminggu ke dalam gesaan, anda telah menemui had tingkap konteks. Cara biasa—meringkaskan, memangkas, memecah—hanya membawa anda setakat ini sebelum kehilangan isyarat mula masuk. DeepSeek-OCR memperkenalkan kelainan yang menarik: memampatkan teks menjadi token penglihatan menggunakan saluran paip OCR-VLM untuk mengurangkan konteks secara dramatik tanpa membuang makna. Laporan awal komuniti menyebut kecekapan pemampatan order-of-magnitude dengan memanfaatkan token visual dan bukannya token teks mentah, paradigma yang digambarkan oleh beberapa analisis sebagai "Pemampatan Optik Konteks" dan "beribu-ribu token teks menjadi beberapa ratus token penglihatan" untuk aliran kerja konteks panjang.

Dalam tutorial DeepSeek-OCR langkah demi langkah yang praktikal ini, anda akan mempelajari cara memampatkan sejarah sembang, log dan data untuk LLM sambil mengekalkan ketepatan perolehan—serta cara menggabungkan pemampatan berasaskan OCR dengan peringkasan, pemecahan hierarki dan RAG untuk gesaan berkuasa dan kependaman rendah.

Untuk siapa panduan ini

Pembina kopilot AI yang mesti memasukkan sembang panjang dan jejak aktiviti

Jurutera data yang bergelut dengan log, kesan dan metrik untuk penaakulan LLM

Penyelidik membuat prototaip aliran kerja konteks ultra-panjang dengan bajet yang terhad

Intipati dalam satu ayat: Jika anda boleh menukar teks yang bersepah menjadi perwakilan visual padat yang boleh dibaca oleh LLM, anda mendapat kembali bajet konteks tanpa mengorbankan serpihan penaakulan.

Apakah Pemampatan DeepSeek-OCR? Idea Teras

Pemampatan token penglihatan: Tukar rentang teks tumpat menjadi pembenaman visual maklumat tinggi; token penglihatan boleh menjadi lebih murah dan lebih padat daripada token teks yang setara.

Pemampatan Optik Konteks: Gunakan OCR/VLM untuk mengekod konteks tekstual yang besar sebagai imej atau reka letak berstruktur visual, mengekalkan struktur semantik sambil mengurangkan kiraan token.

Aliran kerja konteks panjang: Mampatkan beribu-ribu token menjadi beratus-ratus token penglihatan, membolehkan set kerja yang lebih besar untuk perancangan, penggunaan alat atau penaakulan berbilang pusingan.

Bila Hendak Menggunakannya

Sejarah sembang dengan ungkapan berulang atau struktur yang boleh diramal

Log sistem, kesan, output binaan atau lambakan analitik

Petikan dokumentasi, papan pemuka atau laporan separa berstruktur

Perkara yang Akan Anda Bina dalam Tutorial Ini Anda akan melaksanakan saluran paip untuk:

Menormalkan dan membahagikan data sembang/log.

Memilih strategi pemampatan (OCR-visual, peringkasan tekstual atau hibrid).

Menjana perwakilan visual padat melalui DeepSeek-OCR.

Mengindeks dengan metadata untuk perolehan.

Pertanyaan dengan gesaan RAG hibrid yang menerima kedua-dua teks dan imej.

Menilai kesetiaan dan kos.

Bahagian 1 — Penyediaan Data: Jadikan Sejarah yang Tidak Kemas Mesra Model

Menormalkan cap waktu dan peranan: contohnya, {timestamp: ISO8601, role: {pengguna, pembantu, sistem}}.

Kontra: memerlukan sokongan VLM; memerlukan pemaparan dan I/O imej.

Gunakan apabila: anda memerlukan kesetiaan konteks panjang, gambar rajah/jadual atau pengekalan ungkapan yang tepat.

Hibrid (disyorkan)

Kekalkan ringkasan teks "rangka" untuk penambat + lampirkan kad visual termampat untuk kedalaman.

Ini mengimbangkan ketepatan perolehan (teks) dan ingatan/kesetiaan (penglihatan).

Bahagian 3 — Membina Kad Konteks Visual dengan DeepSeek-OCR Matlamat: Menukarkan rentang teks 5–20 KB menjadi imej 512–1024 px yang dioptimumkan untuk pembacaan OCR/VLM.

Cadangan templat

Bar tajuk: ID sesi, julat masa, label topik.

Reka letak dua lajur: lajur kiri untuk pusingan/log utama; lajur kanan untuk sorotan (ralat, keputusan, arahan, metrik).

Blok monoruang untuk baris kod/log; ringkasan bulet untuk konteks.

Tema mesra kontras; elakkan fon kecil (<11–12 pt pada skala 1x).

Petua pemaparan

Gunakan HTML/CSS untuk menghasilkan kad yang bersih dan konsisten (contohnya, tangkapan skrin Puppeteer/Playwright).

Sertakan penambat yang stabil (nombor baris, ID) untuk merujuk item tertentu dalam gesaan.

Hadkan kepada ~200–400 perkataan setiap kad; buat timbunan kad setiap sesi.

Lulus DeepSeek-OCR

Jalankan DeepSeek-OCR untuk memastikan kesetiaan pergi balik: kad → teks OCR. Ini menyemak semula bahawa reka letak dan fon anda menyahkod dengan tepat.

Jika teks OCR menyimpang, laraskan fon, jarak atau pecahkan kod tumpat kepada berbilang kad.

Mengapa ini berkesan Penulisan komuniti dan pihak ketiga menunjukkan peningkatan kecekapan yang bermakna apabila memampatkan konteks tekstual menjadi token penglihatan sambil mengekalkan kebolehbacaan.

Bahagian 4 — Lapisan Peringkasan: Kekalkan Rangka, Simpan Otot laksanakan ringkasan berlapis supaya anda boleh meningkatkan resolusi hanya apabila diperlukan.

L0: Tag baris/pusingan atom — peranan, cap waktu, jenis (ralat, nota, kod), pembenaman.

L1: Ringkasan mikro (1–2 ayat) untuk setiap 20–40 pusingan atau 2–5 minit log.

L2: Abstrak sesi (5–8 bulet) dengan keputusan, penyekat, hasil dan pautan ke kad visual.

L3: Rentetan-rentetan — rangkuman mingguan atau peringkat projek.

Heuristik praktikal

Sentiasa sertakan penambat verbatim: kod ralat, ID SQL, ID kesan, SHA commit.

Gunakan ringkasan ekstraktif sebelum abstrak; kemudian perhalusi dengan abstrak untuk kebolehbacaan.

Tambahkan bulet "perkara yang telah berubah sejak sesi terakhir" untuk mempercepatkan gesaan mengejar.

Bahagian 5 — Pengindeksan dan Perolehan untuk RAG Hibrid Skema metadata

doc_id, session_id, time_range, roles, topic labels

skor kepentingan, keterukan ralat, komponen/perkhidmatan

pautan: {kad visual, ringkasan, transkrip}

Gabungkan pemampatan berasaskan OCR dengan ringkasan berlapis dan RAG untuk ketepatan dan kedalaman.

Optimumkan reka letak, fon dan pengindeksan untuk memastikan kesetiaan tinggi dan kependaman rendah.

Anggap kad termampat sebagai bukti kelas pertama dan petikannya dalam gesaan.

Langkah Seterusnya

Buat prototaip saluran paip minimum pada satu projek sembang atau set data log.

Uji A/B pemampatan teks sahaja vs hibrid untuk 10 pertanyaan biasa.

Laras reka bentuk kad, campuran pengambil dan bajet berdasarkan metrik kesetiaan.

Skala kepada aliran kerja pasukan dengan caching, ACL dan pemantauan.

Soalan Lazim

S1: Apakah DeepSeek-OCR dan mengapa menggunakannya untuk memampatkan sejarah sembang untuk LLM? DeepSeek-OCR membolehkan Pemampatan Optik Konteks—mengekod rentang teks yang besar sebagai token visual yang boleh diproses oleh VLM dengan cekap. Ini boleh mengurangkan bajet token dan mengekalkan struktur dengan lebih baik daripada peringkasan teks sahaja sambil mengekalkan kesetiaan yang tinggi untuk konteks yang panjang.

S2: Bagaimanakah pemampatan token visual dibandingkan dengan peringkasan teks? Pemampatan token visual selalunya mencapai pemampatan berkesan yang lebih tinggi sambil mengekalkan reka letak dan ungkapan yang tepat, yang membantu dengan petikan, kod dan rentetan ralat. Peringkasan adalah lebih pantas dan mudah tetapi boleh menghilangkan butiran yang jarang berlaku atau memperkenalkan ralat abstraksi.

S3: Bolehkah saya mencampurkan DeepSeek-OCR dengan RAG untuk log dan sembang? Ya. Gunakan ringkasan teks untuk ingatan pantas dan lampirkan kad visual yang disahkan OCR untuk kedalaman. Pengambil dua peringkat boleh mendapatkan abstrak dahulu, kemudian kad yang paling berkaitan, mengimbangkan ketepatan dan liputan konteks.

S4: Reka letak manakah yang paling sesuai untuk kad konteks termampat OCR? Gunakan HTML/CSS yang bersih dengan bar tajuk, kandungan dua lajur, blok monoruang untuk kod dan bulet yang jelas untuk sorotan. Kekalkan 200–400 perkataan setiap kad, fon 11–12 pt atau lebih besar dan sahkan kebolehbacaan dengan perjalanan pergi balik OCR.

S5: Bagaimanakah cara saya mengukur sama ada pemampatan kehilangan maklumat penting? Jejaki Kesetiaan@K terhadap set fakta emas, liputan bukti melalui petikan nombor baris dan metrik kependaman/kos. Sasar ≥95% pengekalan fakta dan pastikan kebanyakan jawapan memetik baris kad atau ID penambat.