What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

Tutorial DeepSeek-OCR: Mengompresi Riwayat Obrolan, Log & Data untuk LLM

Pendahuluan: Mengapa Kompresi Sekarang Menjadi Kekuatan Super untuk LLM Jika Anda pernah mencoba memasukkan log obrolan, telemetri, atau jejak aplikasi multi-sistem selama seminggu ke dalam prompt, Anda pasti sudah mencapai batas atas jendela konteks. Strategi umum—merangkum, memangkas, membagi—hanya membawa Anda sejauh ini sebelum kehilangan sinyal mulai terjadi. DeepSeek-OCR memperkenalkan sentuhan yang mencolok: mengompres teks menjadi token visual menggunakan pipeline OCR-VLM untuk secara dramatis memperkecil konteks tanpa membuang makna. Laporan awal dari komunitas menyebutkan efisiensi kompresi hingga orde besaran dengan memanfaatkan token visual alih-alih token teks mentah, sebuah paradigma yang oleh beberapa analisis digambarkan sebagai “Context Optical Compression” dan “ribuan token teks menjadi beberapa ratus token visual” untuk alur kerja konteks panjang.

Dalam tutorial DeepSeek-OCR langkah demi langkah yang praktis ini, Anda akan mempelajari cara mengompres riwayat obrolan, log, dan data untuk LLM sambil mempertahankan presisi pengambilan—ditambah cara menggabungkan kompresi berbasis OCR dengan peringkasan, pemecahan hierarkis, dan RAG untuk prompting yang kuat dan latensi rendah.

Untuk siapa panduan ini

Pembuat kopilot AI yang harus menelan obrolan panjang dan jejak aktivitas

Insinyur data yang bergulat dengan log, jejak, dan metrik untuk penalaran LLM

Peneliti yang membuat prototipe alur kerja konteks ultra-panjang dengan anggaran terbatas

Inti dalam satu kalimat: Jika Anda dapat mengubah teks yang luas menjadi representasi visual ringkas yang dapat dibaca oleh LLM, Anda mendapatkan kembali anggaran konteks tanpa mengorbankan remah-remah penalaran.

Apa Itu Kompresi DeepSeek-OCR? Ide Inti

Kompresi token visual: Mengonversi rentang teks padat menjadi penyematan visual berinformasi tinggi; token visual bisa lebih murah dan lebih ringkas daripada token teks yang setara.

Context Optical Compression: Gunakan OCR/VLM untuk menyandikan konteks tekstual besar sebagai gambar atau tata letak terstruktur secara visual, menjaga struktur semantik sambil memangkas jumlah token.

Alur kerja konteks panjang: Kompres ribuan token menjadi ratusan token visual, memungkinkan set kerja yang lebih besar untuk perencanaan, penggunaan alat, atau penalaran multi-giliran.

Kapan Menggunakannya

Riwayat obrolan dengan susunan kata yang berulang atau struktur yang dapat diprediksi

Log sistem, jejak, keluaran build, atau dump analitik

Snapshot dokumentasi, dasbor, atau laporan semi-terstruktur

Apa yang Akan Anda Bangun dalam Tutorial Ini Anda akan mengimplementasikan pipeline untuk:

Menormalkan dan mensegmentasi data obrolan/log.

Memilih strategi kompresi (OCR-visual, peringkasan tekstual, atau hibrida).

Menghasilkan representasi visual ringkas melalui DeepSeek-OCR.

Mengindeks dengan metadata untuk pengambilan.

Membuat kueri dengan prompt RAG hibrida yang menerima teks dan gambar.

Mengevaluasi fidelitas dan biaya.

Bagian 1 — Persiapan Data: Membuat Riwayat yang Berantakan Menjadi Ramah Model

Menormalkan stempel waktu dan peran: misalnya, {timestamp, role}.

Kontra: membutuhkan dukungan VLM; membutuhkan rendering dan I/O gambar.

Gunakan saat: Anda membutuhkan fidelitas konteks panjang, diagram/tabel, atau retensi susunan kata yang tepat.

Hibrida (disarankan)

Simpan ringkasan teks “kerangka” untuk penjangkaran + lampirkan kartu visual terkompresi untuk kedalaman.

Ini menyeimbangkan presisi pengambilan (teks) dan recall/fidelitas (visual).

Bagian 3 — Membangun Kartu Konteks Visual dengan DeepSeek-OCR Sasaran: Mengubah rentang teks 5–20 KB menjadi gambar 512–1024 px yang dioptimalkan untuk pembacaan OCR/VLM.

Saran templat

Bilah judul: ID sesi, rentang waktu, label topik.

Tata letak dua kolom: kolom kiri untuk giliran/log utama; kolom kanan untuk sorotan (kesalahan, keputusan, perintah, metrik).

Blok monospace untuk baris kode/log; ringkasan poin untuk konteks.

Tema yang ramah kontras; hindari font kecil (<11–12 pt pada skala 1x).

Tips rendering

Gunakan HTML/CSS untuk menghasilkan kartu yang bersih dan konsisten (misalnya, tangkapan layar Puppeteer/Playwright).

Sertakan jangkar stabil (nomor baris, ID) untuk mereferensikan item tertentu dalam prompt.

Batasi hingga ~200–400 kata per kartu; buat tumpukan kartu per sesi.

Lulus DeepSeek-OCR

Jalankan DeepSeek-OCR untuk memastikan fidelitas pulang pergi: kartu → teks OCR. Ini memeriksa ulang bahwa tata letak dan font Anda didekodekan secara akurat.

Jika teks OCR berbeda, sesuaikan font, spasi, atau pecah kode padat menjadi beberapa kartu.

Mengapa ini berhasil Tulisan komunitas dan pihak ketiga menunjukkan peningkatan efisiensi yang berarti saat mengompres konteks tekstual menjadi token visual sambil mempertahankan keterbacaan.

Bagian 4 — Lapisan Peringkasan: Pertahankan Kerangka, Simpan Otot Implementasikan ringkasan berlapis sehingga Anda dapat meningkatkan resolusi hanya jika diperlukan.

L0: Tag baris/giliran atomik — peran, stempel waktu, tipe (kesalahan, catatan, kode), penyematan.

L1: Ringkasan mikro (1–2 kalimat) untuk setiap 20–40 giliran atau 2–5 menit log.

L2: Abstrak sesi (5–8 poin) dengan keputusan, pemblokir, hasil, dan tautan ke kartu visual.

L3: Rangkaian utas — rollup mingguan atau tingkat proyek.

Heuristik praktis

Selalu sertakan jangkar verbatim: kode kesalahan, ID SQL, ID jejak, SHA commit.

Gunakan ringkasan ekstraktif sebelum abstraktif; kemudian perbaiki dengan abstraktif untuk keterbacaan.

Tambahkan poin “apa yang berubah sejak sesi terakhir” untuk mempercepat prompting susulan.

Bagian 5 — Pengindeksan dan Pengambilan untuk RAG Hibrida Skema metadata

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: {line_number, card_id}.

Gabungkan kompresi berbasis OCR dengan ringkasan berlapis dan RAG untuk presisi dan kedalaman.

Optimalkan tata letak, font, dan pengindeksan untuk menjaga fidelitas tetap tinggi dan latensi tetap rendah.

Perlakukan kartu terkompresi sebagai bukti kelas satu dan kutip dalam prompt.

Langkah Berikutnya

Buat prototipe pipeline minimal pada satu proyek obrolan atau dataset log.

Uji A/B kompresi hanya teks vs hibrida untuk 10 kueri umum.

Sesuaikan desain kartu, campuran retriever, dan anggaran berdasarkan metrik fidelitas.

Skala ke alur kerja tim dengan caching, ACL, dan pemantauan.

FAQ

P1: Apa itu DeepSeek-OCR dan mengapa menggunakannya untuk mengompres riwayat obrolan untuk LLM? DeepSeek-OCR memungkinkan Context Optical Compression—menyandikan rentang teks besar sebagai token visual yang dapat diproses secara efisien oleh VLM. Ini dapat memperkecil anggaran token dan mempertahankan struktur lebih baik daripada peringkasan hanya teks sambil mempertahankan fidelitas tinggi untuk konteks panjang.

P2: Bagaimana perbandingan kompresi token visual dengan peringkasan teks? Kompresi token visual sering mencapai kompresi efektif yang lebih tinggi sambil mempertahankan tata letak dan susunan kata yang tepat, yang membantu dengan kutipan, kode, dan string kesalahan. Peringkasan lebih cepat dan sederhana tetapi dapat menghilangkan detail langka atau memperkenalkan kesalahan abstraksi.

P3: Bisakah saya mencampur DeepSeek-OCR dengan RAG untuk log dan obrolan? Ya. Gunakan ringkasan teks untuk recall cepat dan lampirkan kartu visual yang divalidasi OCR untuk kedalaman. Retriever dua tahap dapat mengambil abstrak terlebih dahulu, kemudian kartu yang paling relevan, menyeimbangkan presisi dan cakupan konteks.

P4: Tata letak apa yang paling cocok untuk kartu konteks terkompresi OCR? Gunakan HTML/CSS bersih dengan bilah judul, konten dua kolom, blok monospace untuk kode, dan poin yang jelas untuk sorotan. Pertahankan 200–400 kata per kartu, font 11–12 pt atau lebih besar, dan validasi keterbacaan dengan pulang pergi OCR.

P5: Bagaimana cara mengukur apakah kompresi menghilangkan informasi penting? Lacak Fidelity@K terhadap set fakta emas, cakupan bukti melalui kutipan nomor baris, dan metrik latensi/biaya. Targetkan retensi fakta ≥95% dan pastikan sebagian besar jawaban mengutip baris kartu atau ID jangkar.