Klaim berani: Pengurangan token 20× tanpa kehilangan makna
Jika Anda melihat tagihan LLM Anda melonjak karena kuitansi, faktur, atau PDF pindaian yang panjang, janji pengurangan token 20× terasa hampir terlalu bagus untuk menjadi kenyataan. Namun, itulah yang dicapai oleh alur kerja DeepSeek‑OCR baru-baru ini dengan memampatkan teks visual menjadi representasi semantik yang ramping sebelum menyerahkan apa pun ke model bahasa. Lebih sedikit token yang masuk, respons lebih cepat keluar, biaya jauh lebih rendah — dan seringkali akurasi lebih baik pada tugas hilir.
Dalam penjelasan ini, kami menguraikan bagaimana DeepSeek‑OCR mencapai pengurangan tersebut, di mana ia bersinar (dan di mana tidak), dan bagaimana menghubungkannya ke alur kerja nyata seperti QA dokumen, RAG, dan pemahaman formulir — tanpa mengubah data Anda menjadi bubur.
—
Primer cepat: Apa sebenarnya DeepSeek‑OCR itu?
Anggap DeepSeek‑OCR sebagai alur vision-language yang mengutamakan OCR dan dioptimalkan untuk beban kerja era LLM. Alih-alih membuang teks mentah atau gambar langsung ke model tujuan umum, DeepSeek‑OCR:
- Mendeteksi dan mengenali teks dari gambar/PDF dengan kesadaran tata letak yang kuat.
- Menormalkan dan memampatkan teks tersebut menjadi representasi terstruktur.
- Menghasilkan keluaran hemat token yang selaras dengan perintah hilir.
Hasilnya? Anda menghabiskan lebih sedikit token per halaman sambil meningkatkan rasio signal‑to‑noise untuk LLM Anda.
—
Mengapa token lepas kendali pada dokumen
Sebagian besar tim memulai dengan pendekatan naif: mengubah PDF menjadi teks dan memasukkan semuanya ke dalam prompt. Di situlah biaya meledak. Inilah alasannya:
- Tata letak yang membengkak: Header, footer, nomor halaman, watermark, dan konten duplikat memakan token.
- Semantik berlebihan: Nama vendor yang sama muncul di setiap halaman; item baris mengulangi label.
- Teks bernilai rendah: Boilerplate legal, batas tabel, atau noise OCR.
- Wilayah yang tidak relevan: Logo, stempel, tanda tangan yang tidak menjawab pertanyaan Anda.
DeepSeek‑OCR menyerang setiap lapisan ini dengan kompresi yang ditargetkan.
—
Lima tuas di balik pengurangan token 20×
Alih-alih satu trik, DeepSeek‑OCR menggabungkan beberapa teknik. Tumpukan yang tepat bervariasi berdasarkan implementasi, tetapi ini adalah tuas inti yang menggerakkan jarum.
1) Ekstraksi sadar wilayah: jangan membaca apa yang tidak akan Anda gunakan
- Segmentasi visual mengisolasi blok teks, tabel, dan zona key-value.
- Wilayah yang tidak relevan (logo, header dekoratif) difilter.
- Prompt hilir hanya dapat meminta wilayah yang dipilih, misalnya, “tabel item,” “alamat penagihan,” “total.”
Hasil: Pengurangan 2–5× dengan mengecualikan wilayah non‑jawaban.
2) Normalisasi struktur-pertama: kompres tata letak menjadi makna
- Alih-alih teks multi‑baris mentah, DeepSeek‑OCR menghasilkan JSON terstruktur atau skema ringkas.
- Contoh: peta key‑value, baris tabel sebagai array, bagian hierarkis dengan ID.
- Kanonikalisasi opsional (format tanggal, kode mata uang) menghilangkan variasi yang memakan banyak token.
Hasil: Pengurangan 3–8× dengan merepresentasikan tata letak secara ringkas.
3) Deduplikasi dan entitas kanonik: satu ID, banyak penyebutan
- Entitas berulang (nama perusahaan, alamat, pengenal kebijakan) dipetakan ke satu entri kanonik.
- Referensi menjadi ID pendek alih-alih string panjang.
Hasil: Pengurangan 1,5–3× dalam dokumen berulang.
4) Ringkasan sadar konten: simpan fakta, hilangkan omong kosong
- Peringkas tingkat bidang memampatkan paragraf verbose menjadi pernyataan faktual.
- Pola yang disesuaikan dengan domain (misalnya, asuransi, logistik, keuangan) mempertahankan detail penting kepatuhan.
Hasil: Pengurangan 2–6× tergantung pada verbositas.
5) Serialisasi optimal token: pilih format yang diuraikan LLM dengan murah
- JSON ringkas dengan kunci pendek, atau tuple yang dipandu skema.
- Menghindari YAML verbose, whitespace berlebihan, dan label bersarang panjang.
- Urutan bidang yang stabil mengurangi overhead prompt di seluruh batch.
Hasil: Pengurangan 1,2–2× dari disiplin pemformatan murni.
Ditumpuk bersama, tuas ini secara rutin melintasi 10× pada PDF yang berantakan dan dapat mencapai 20× pada formulir multi‑halaman, faktur, dan laporan padat, terutama ketika tabel mendominasi.
—
Seperti apa tampilan alur dalam praktiknya?
Mari kita jalani alur berorientasi solusi yang praktis. Anda dapat menyesuaikan ini dengan infrastruktur Anda, baik Anda menjalankan DeepSeek‑OCR di tempat atau melalui API.
- Menelan dan melakukan segmentasi
- Input: PDF pindaian, gambar, atau PDF hibrida.
- Langkah-langkah: deteksi halaman → proposal wilayah → blok teks dan deteksi tabel → penyaringan noise.
- Output: peta wilayah dengan koordinat dan tipe (header/body/footer, paragraf/tabel, logo/tanda tangan).
- Mengenali dan menyelaraskan
- OCR akurasi tinggi dengan model bahasa untuk koreksi bias ejaan.
- Penggabungan baris, penyelarasan kolom, dan asosiasi sel tabel.
- Output: node teks + struktur tabel yang ditambatkan ke koordinat.
- Normalisasi ke dalam skema
- Pilih skema per kelas dokumen: faktur, kuitansi, bill of lading, catatan medis.
- Ekstrak bidang dengan regex + classifier + LLM fallback untuk kasus edge.
- Output: JSON ringkas dengan kunci pendek dan stabil (misalnya, inv_id, issue_dt, due_dt, vendor_id, items[]).
- Deduplikasi dan kanonikalisasi
- Petakan nama/alamat vendor ke ID kanonik.
- Normalkan mata uang, tanggal, unit; hapus bagian boilerplate.
- Opsional: ringkasan sadar konten untuk catatan panjang.
- Tegakkan serialisasi hemat token (JSON ketat, kunci yang diurutkan).
- Sediakan jendela konteks minimal yang selaras dengan pertanyaan.
- Ambil hanya bidang yang relevan dengan prompt melalui skema fungsi/alat.
Ini adalah momen penghematan token bertambah, karena Anda tidak lagi membayar untuk menjelaskan ulang seluruh dokumen ke model — Anda hanya memberikan apa yang dibutuhkannya, dalam bentuk semurah mungkin.
—
Contoh: mengubah faktur 5‑halaman menjadi 20× lebih sedikit token
Baseline (naif)
- 5 halaman teks OCR → ~9.000–12.000 token termasuk header, footer, tabel, catatan hukum.
- Prompt bertanya: “Berapa total yang harus dibayar, pajak berdasarkan yurisdiksi, dan biaya keterlambatan?”
- Model membuang konteks pada paragraf yang tidak relevan.
Dengan kompresi DeepSeek‑OCR
- Penyaringan wilayah menghapus watermark header/footer, ketentuan boilerplate, dan detail vendor duplikat.
- Ekstraksi tabel menghasilkan items[] sebagai 50 baris × 6 kolom → 300 sel ringkas, bukan 1.500+ kata.
- Kanonikalisasi menyusutkan string entitas; alamat yang di-dedup mereferensikan sekali.
- Konteks akhir: ~450–600 token.
Hasil
- 15–20× lebih sedikit token.
- Latensi lebih cepat, biaya lebih rendah, dan akurasi lebih tinggi pada pertanyaan yang ditargetkan karena noise telah dihilangkan.
—
Di mana DeepSeek‑OCR bersinar (dan di mana tidak)
Kekuatan
- Dokumen bisnis terstruktur: faktur, kuitansi, PO, label pengiriman, laporan bank.
- Konsistensi multi‑halaman: bagian berulang terkompresi dengan baik.
- Konten padat tabel: penghematan token terbesar dengan array dibandingkan prosa.
- Alur RAG: potongan yang telah dinormalisasi meningkatkan presisi pengambilan.
Keterbatasan
- Teks tulisan tangan, sangat bergaya: kualitas pengenalan mendorong segalanya.
- Pendapat hukum/narasi medis: ringkasan berat berisiko kehilangan nuansa; pertimbangkan mode fidelitas lebih tinggi.
- Tabel kompleks dengan rentang baris/rentang kolom: perlu pemetaan sel dan QA yang cermat.
Mitigasi
- Gunakan ambang batas kepercayaan dan fallback ke potongan gambar saat tidak yakin.
- Pertahankan mode ganda: tampilan semantik ringkas dan tampilan fidelitas tinggi sesuai permintaan.
- Catat penyelarasan antara bidang skema dan koordinat visual untuk keterlacakan.
—
Cara mengintegrasikan DeepSeek‑OCR dengan tumpukan LLM Anda
Panduan yang dipimpin pertanyaan yang dapat Anda ikuti hari ini.
Apa yang ditanyakan pengguna?
- Tentukan kelas tugas sebelumnya: ekstraksi total, QA item‑baris, pencocokan entitas.
- Petakan setiap tugas ke konteks minimal: beberapa bidang yang menjawab pertanyaan.
Bagaimana kita menyimpan output OCR?
- Simpan keduanya: (1) JSON semantik ringkas dan (2) teks mentah atau potongan halaman opsional untuk verifikasi.
- Gunakan kunci pendek dan pengurutan stabil untuk meminimalkan token pada setiap panggilan.
Bagaimana kita mengambil hanya apa yang dibutuhkan?
- Bungkus panggilan LLM Anda dalam skema alat/fungsi sehingga model hanya menerima bidang yang relevan.
- Contoh argumen alat: total, taxes_by_region[], outstanding_balance, due_date, items[sku, qty, unit_price].
Bagaimana kita menjaga kualitas tetap tinggi?
- Tambahkan skor kepercayaan per bidang; atur ambang batas untuk tinjauan manusia.
- Pertahankan tautan kembali ke koordinat halaman untuk auditabilitas.
- Jalankan tes diferensial: bandingkan total dari dua ekstraktor independen.
—
Mengukur 20×: apa yang harus dilacak
- Token per halaman (sebelum vs. sesudah): KPI inti Anda.
- Latensi per kueri: pengurangan harus linier dengan token, seringkali lebih baik karena lebih sedikit penguraian.
- Akurasi pada pertanyaan target: jangan menukar dengan kebenaran.
- Tingkat human‑in‑the‑loop: bertujuan untuk mengurangi dari waktu ke waktu seiring peningkatan kepercayaan.
Kiat: Jalankan benchmark 100‑dokumen di tiga templat teratas Anda. Tetapkan anggaran per alur kerja (misalnya, <$0,01 per kueri dokumen) dan ulangi hingga Anda mencapainya.
—
Pemodelan biaya: perhitungan kasar untuk persetujuan keuangan
- Baseline: 10.000 token per dokumen dengan harga $X/1 juta token → $0,01 per 1.000 token → $0,10 per dokumen.
- Setelah kompresi: 500 token → $0,005 per dokumen.
- Pada 100 ribu dokumen/bulan: dari $10.000 menjadi $500 — pengurangan 95%, sebelum penghematan latensi dan lebih sedikit percobaan ulang.
Angka akan bervariasi menurut penyedia, tetapi arahnya tetap: kompres dulu, tanya kemudian.
—
Kesalahan umum (dan perbaikan cepat)
- Ringkasan berlebihan: kehilangan istilah peraturan. Perbaikan: masukkan daftar putih frasa dan bagian yang harus disimpan.
- Pergeseran skema: kunci berubah dari waktu ke waktu. Perbaikan: beri versi skema Anda; tolak bidang yang tidak dikenal.
- Ketidakselarasan tabel: kesalahan sel off‑by‑one. Perbaikan: pemeriksaan silang visual dan validator total‑recompute.
- Pembengkakan prompt: prompt sistem verbose mengimbangi penghematan Anda. Perbaikan: minimalis templat dan skema alat.
—
Skenario dunia nyata yang dapat Anda terapkan minggu ini
- Operasi keuangan: otomatis validasi total faktur dan pajak dengan 20× lebih sedikit token; tandai anomali untuk ditinjau.
- Logistik: ekstrak ID kontainer, pelabuhan, dan tanggal dari bill of lading; rekonsiliasi dengan ERP.
- Admin perawatan kesehatan: kompres EOB menjadi bidang standar untuk ajudikasi klaim.
- Ritel: ekstrak item baris dari kuitansi untuk loyalitas dan alur kerja pengembalian.
—
Perlu dicatat: menggunakan Sider.AI untuk mengoperasionalkan alur
Jika Anda menyatukan OCR, normalisasi, dan panggilan LLM, orkestrasi dan kecepatan iterasi penting. Omong-omong, Sider.AI dapat membantu tim mengubah ini menjadi alur kerja yang dapat diulang: Anda dapat membandingkan penggunaan token di berbagai pengaturan OCR, menjalankan pengujian A/B pada format serialisasi, dan membandingkan biaya model tanpa menulis ulang kode lem. Imbalannya adalah konvergensi lebih cepat pada tujuan pengurangan token 20× itu. —
Kesimpulan utama
- Pengurangan token 20× DeepSeek‑OCR berasal dari menumpuk penyaringan wilayah, normalisasi struktur‑pertama, deduplikasi, ringkasan cerdas, dan serialisasi optimal token.
- Penghematan terbesar adalah pada dokumen bisnis multi‑halaman yang padat tabel.
- Pertahankan tampilan ganda: lapisan semantik ringkas untuk panggilan LLM murah dan fallback fidelitas tinggi untuk audit.
- Ukur tanpa henti: token per halaman, akurasi, dan latensi — dan ulangi skema Anda.
- Orkestrasi untuk skala: prompt yang selaras dengan pengambilan dan skema alat membuat penghematan tetap ada.
—
Langkah selanjutnya: rencana implementasi minimal
- Identifikasi tiga jenis dokumen teratas Anda dan tentukan skema ringkas.
- Siapkan DeepSeek‑OCR dengan segmentasi wilayah dan ekstraksi tabel.
- Tambahkan kanonikalisasi dan deduplikasi; catat kepercayaan per bidang.
- Serialisasikan ke JSON ketat dengan kunci pendek; tegakkan pengurutan stabil.
- Bungkus prompt LLM Anda dalam skema fungsi/alat yang hanya menggunakan bidang yang dibutuhkan.
- Benchmark penggunaan token dan akurasi; ulangi hingga Anda mencapai 10–20×.
FAQ
Q1:Bagaimana DeepSeek‑OCR mencapai pengurangan token 20× dalam praktiknya?
Dengan menggabungkan penyaringan wilayah, normalisasi berbasis skema, deduplikasi, ringkasan sadar konten, dan serialisasi ringkas. Langkah-langkah ini menghilangkan teks yang tidak relevan dan berlebihan sehingga LLM hanya melihat data yang hemat token dan selaras dengan tugas.
Q2:Apakah pengurangan token dengan DeepSeek‑OCR akan merusak akurasi pada faktur atau kuitansi?
Tidak jika Anda menjaga bidang penting tetap utuh dan menggunakan ambang batas kepercayaan. Dalam banyak kasus, akurasi meningkat karena noise dihilangkan dan model berfokus pada bidang terstruktur yang relevan.
Q3:Jenis dokumen apa yang paling diuntungkan dari kompresi token DeepSeek‑OCR?
Dokumen bisnis multi‑halaman yang padat tabel seperti faktur, pesanan pembelian, dokumen pengiriman, dan laporan bank. Header berlebihan dan entitas berulang terkompresi dengan sangat baik.
Q4:Bagaimana cara mengintegrasikan DeepSeek‑OCR dengan LLM saya tanpa meledakkan prompt?
Simpan JSON semantik ringkas dan ambil hanya bidang yang dibutuhkan per pertanyaan menggunakan panggilan alat/fungsi. Pertahankan JSON ketat dengan kunci pendek dan pengurutan stabil untuk meminimalkan token.
Q5:Bisakah saya menggunakan Sider.AI dengan DeepSeek‑OCR untuk optimalisasi biaya?
Ya. Sider.AI dapat mengatur eksperimen di seluruh pengaturan OCR dan format serialisasi, membandingkan penggunaan token dan akurasi, dan membantu Anda mencapai pengurangan 10–20× yang konsisten dalam produksi.