How does DeepSeek‑OCR achieve 20× token reduction in practice?

By combining region filtering, schema‑based normalization, deduplication, content‑aware summarization, and compact serialization. These steps strip irrelevant and redundant text so the LLM sees only token‑efficient, task‑aligned data.

Will token reduction with DeepSeek‑OCR hurt accuracy on invoices or receipts?

Not if you keep critical fields intact and use confidence thresholds. In many cases, accuracy improves because noise is removed and the model focuses on structured, relevant fields.

What document types benefit most from DeepSeek‑OCR token compression?

Table‑heavy, multi‑page business documents like invoices, purchase orders, shipping documents, and bank statements. Redundant headers and repeated entities compress especially well.

How do I integrate DeepSeek‑OCR with my LLM without blowing up prompts?

Store a compact semantic JSON and retrieve only the fields needed per question using tool/function calls. Keep tight JSON with short keys and stable ordering to minimize tokens.

Can I use [Sider.AI](https://sider.ai) with DeepSeek‑OCR for cost optimization?

Yes. [Sider.AI](https://sider.ai) can orchestrate experiments across OCR settings and serialization formats, benchmark token usage and accuracy, and help you reach consistent 10–20× reductions in production.

Kaip „DeepSeek-OCR“ leidžia 20 kartų sumažinti žymenų skaičių

Drąsus teiginys: 20 kartų mažiau žetonų (angl. tokens) neprarandant prasmės

Jei pastebėjote, kad jūsų LLM (didelio kalbos modelio) sąskaitos šoktelėjo dėl ilgų kvitų, sąskaitų faktūrų ar nuskaitytų PDF failų, pažadas sumažinti žetonų skaičių 20 kartų skamba beveik per gerai, kad būtų tiesa. Tačiau būtent tai pasiekia naujausios „DeepSeek‑OCR“ sistemos, suspausdamos vizualų tekstą į glaustas, semantines reprezentacijas prieš perduodant ką nors kalbos modeliui. Mažiau įvesties žetonų, greitesni atsakymai, gerokai mažesnės sąnaudos ir dažnai geresnis tikslumas atliekant tolesnes užduotis.

Šiame paaiškinime išnagrinėsime, kaip „DeepSeek‑OCR“ pasiekia tuos sumažinimus, kur jis labiausiai tinka (ir kur ne), ir kaip jį įdiegti į realius darbo procesus, tokius kaip dokumentų kokybės užtikrinimas, RAG (Retrieval-Augmented Generation) ir formų supratimas – nepaverčiant jūsų duomenų koše.

—

Trumpas įvadas: kas iš tikrųjų yra „DeepSeek‑OCR“?

Įsivaizduokite „DeepSeek‑OCR“ kaip OCR (optinio simbolių atpažinimo) sistemą, optimizuotą LLM eros darbo krūviams. Užuot tiesiog įmetus neapdorotą tekstą ar vaizdus tiesiai į bendrosios paskirties modelį, „DeepSeek‑OCR“:

Aptinka ir atpažįsta tekstą iš vaizdų / PDF failų, puikiai suvokdamas išdėstymą.

Normalizuoja ir suspaudžia tą tekstą į struktūruotas reprezentacijas.

Sukuriamas efektyvus išvesties žetonų skaičius, suderintas su tolesniais raginimais.

Rezultatas? Išleidžiate daug mažiau žetonų vienam puslapiui, tuo pačiu pagerindami signalo ir triukšmo santykį savo LLM.

—

Kodėl žetonų skaičius nekontroliuojamai išauga dokumentuose

Dauguma komandų pradeda nuo primityvaus požiūrio: konvertuoja PDF failus į tekstą ir viską sugrūda į raginimą. Štai kur išlaidos sprogsta. Štai kodėl:

Išdėstymo išpūtimas: antraštės, poraštės, puslapių numeriai, vandens ženklai ir pasikartojantis turinys sunaudoja žetonus.

Perteklinė semantika: tas pats pardavėjo pavadinimas rodomas kiekviename puslapyje; eilutės elementai kartoja etiketes.

Mažos vertės tekstas: teisinės kalbos šablonai, lentelių kraštinės arba OCR triukšmas.

Nesvarbios sritys: logotipai, antspaudai, parašai, kurie neatsako į jūsų klausimą.

„DeepSeek‑OCR“ atakuoja kiekvieną iš šių sluoksnių tikslingu suspaudimu.

—

Penki svertai, padedantys 20 kartų sumažinti žetonų skaičių

Užuot naudojus vieną triuką, „DeepSeek‑OCR“ sujungia kelis metodus. Tikslus rinkinys priklauso nuo įgyvendinimo, tačiau tai yra pagrindiniai svertai, kurie lemia pokyčius.

1) Regioną atpažįstantis ištraukimas: neskaitykite to, ko nenaudosite

Vaizdo segmentavimas atskiria teksto blokus, lenteles ir raktų-vertybių zonas.

Nesvarbios sritys (logotipai, dekoratyvinės antraštės) filtruojamos.

Tolesni raginimai gali prašyti tik pasirinktų regionų, pvz., „prekių lentelė“, „atsiskaitymo adresas“, „sumos“. Rezultatas: 2–5 kartus sumažinamas žetonų skaičius, neįtraukiant sričių, kuriose nėra atsakymų.

2) Struktūra pirmiausia: išdėstymo suspaudimas į prasmę

Užuot pateikus neapdorotą kelių eilučių tekstą, „DeepSeek‑OCR“ išveda struktūruotą JSON arba kompaktiškas schemas.

Pavyzdžiai: raktų-vertybių žemėlapiai, lentelių eilutės kaip masyvai, hierarchinės sekcijos su ID.

Pasirenkama kanonizacija (datų formatai, valiutų kodai) pašalina daug žetonų naudojančius variantus. Rezultatas: 3–8 kartus sumažinamas žetonų skaičius glaustai atvaizduojant išdėstymą.

3) Dubliavimo panaikinimas ir kanoniniai subjektai: vienas ID, daug paminėjimų

Pasikartojantys subjektai (įmonės pavadinimas, adresai, politikos identifikatoriai) susiejami su vienu kanoniniu įrašu.

Nuorodos tampa trumpais ID, o ne ilgomis eilutėmis. Rezultatas: 1,5–3 kartus sumažinamas žetonų skaičius pasikartojančiuose dokumentuose.

4) Turinį atpažįstantis apibendrinimas: palikite faktus, atmeskite nereikšmingus dalykus

Laukų lygio apibendrintojai suspaudžia išsamias pastraipas į faktinius teiginius.

Domenui pritaikyti modeliai (pvz., draudimas, logistika, finansai) išsaugo reikalavimus atitinkančias detales. Rezultatas: 2–6 kartus sumažinamas žetonų skaičius, priklausomai nuo išsamumo.

5) Žetonams optimalus serializavimas: pasirinkite formatus, kuriuos LLM analizuoja pigiai

Kompaktiškas JSON su trumpais raktais arba schemos valdomi rinkiniai.

Venkite išsamaus YAML, per didelio tarpo ir ilgų įdėtų etikečių.

Stabilus laukų išdėstymas sumažina raginimo išlaidas visose grupėse. Rezultatas: 1,2–2 kartus sumažinamas žetonų skaičius dėl grynos formatavimo disciplinos.

Sudėjus kartu, šie svertai nuolat viršija 10 kartų ant netvarkingų PDF failų ir gali pasiekti 20 kartų ant kelių puslapių formų, sąskaitų faktūrų ir tankių ataskaitų, ypač kai dominuoja lentelės.

—

Kaip atrodo sistema praktikoje?

Aptarkime praktinį, į sprendimus orientuotą srautą. Galite pritaikyti tai savo infrastruktūrai, nesvarbu, ar „DeepSeek‑OCR“ paleidžiate vietoje, ar per API.

Įtraukimas ir segmentavimas

Įvestis: nuskaitytas PDF, vaizdas arba hibridinis PDF.

Žingsniai: puslapio aptikimas → regiono pasiūlymai → teksto bloko ir lentelės aptikimas → triukšmo filtravimas.

Išvestis: regiono žemėlapis su koordinatėmis ir tipais (antraštė / pagrindinė dalis / poraštė, pastraipa / lentelė, logotipas / parašas).

Atpažinimas ir sulygiavimas

Didelio tikslumo OCR su kalbos modeliais, skirtais rašybos šališkumo korekcijai.

Eilučių suliejimas, stulpelių sulygiavimas ir lentelių langelių susiejimas.

Išvestis: teksto mazgai + lentelių struktūros, pritvirtintos prie koordinačių.

Normalizavimas į schemą

Pasirinkite schemą pagal dokumento klasę: sąskaita faktūra, kvitas, važtaraštis, medicininė pažyma.

Ištraukite laukus naudodami regex + klasifikatorių + LLM atsarginį variantą kraštutiniams atvejams.

Išvestis: kompaktiškas JSON su trumpais, stabiliais raktais (pvz., inv_id, issue_dt, due_dt, vendor_id, items[]).

Dubliavimo panaikinimas ir kanonizavimas

Susiekite pardavėjo pavadinimus / adresus su kanoniniais ID.

Normalizuokite valiutas, datas, vienetus; pašalinkite standartines sekcijas.

Suspaudimas ir serializavimas

Pasirenkama: turinį atpažįstantis apibendrinimas ilgiems užrašams.

Užtikrinkite žetonams pigų serializavimą (glaudus JSON, užsakyti raktai).

LLM sąsaja

Pateikite minimalų, į klausimą orientuotą konteksto langą.

Gaukite tik tuos laukus, kurie yra susiję su raginimu, naudodami funkcijos / įrankio schemą.

Tai yra momentas, kai žetonų sutaupymas padidėja, nes jūs nebeapmokate už viso dokumento pakartotinį paaiškinimą modeliui – jūs pateikiate tik tai, ko jam reikia, pigiausia įmanoma forma.

—

Pavyzdys: 5 puslapių sąskaitos faktūros pavertimas 20 kartų mažesniu žetonų skaičiumi

Pagrindinė (primityvi)

5 puslapiai OCR teksto → ~9 000–12 000 žetonų, įskaitant antraštes, poraštes, lenteles, teisinius užrašus.

Raginimas klausia: „Kokia visa mokėtina suma, mokesčiai pagal jurisdikciją ir visi delspinigiai?“

Modelis švaisto kontekstą nesvarbioms pastraipoms.

Su „DeepSeek‑OCR“ suspaudimu

Regiono filtravimas pašalina antraščių / poraštės vandens ženklus, standartines sąlygas ir pasikartojančias pardavėjo detales.

Lentelės ištraukimas pateikia items[] kaip 50 eilučių × 6 stulpelių → 300 kompaktiškų langelių, o ne 1 500+ žodžių.

Kanonizavimas sumažina subjekto eilutes; pašalinti pasikartojantys adresai nurodomi vieną kartą.

Galutinis kontekstas: ~450–600 žetonų.

Rezultatas

15–20 kartų mažiau žetonų.

Greitesnis latentinis laikotarpis, mažesnės sąnaudos ir didesnis tikslumas atliekant tikslinius klausimus, nes triukšmas buvo pašalintas.

—

Kur „DeepSeek‑OCR“ labiausiai tinka (ir kur ne)

Privalumai

Struktūruoti verslo dokumentai: sąskaitos faktūros, kvitai, pirkimo užsakymai, siuntimo etiketės, banko išrašai.

Kelių puslapių nuoseklumas: pasikartojančios sekcijos gerai suspaudžiamos.

Daug lentelių turinys: didžiausias žetonų sutaupymas naudojant masyvus, o ne prozą.

RAG sistemos: iš anksto normalizuoti gabalai padidina paieškos tikslumą.

Apribojimai

Rankraštinis, labai stilizuotas tekstas: atpažinimo kokybė lemia viską.

Teisinės nuomonės / medicininiai aprašymai: didelis apibendrinimas kelia niuansų praradimo riziką; apsvarstykite didesnio tikslumo režimus.

Sudėtingos lentelės su eilučių / stulpelių aprėptimi: reikia kruopštaus langelių susiejimo ir kokybės užtikrinimo.

Švelninimas

Naudokite pasitikėjimo slenksčius ir grįžkite prie vaizdo iškarpų, kai nesate tikri.

Laikykite dvigubus režimus: kompaktišką semantinį vaizdą ir pagal poreikį didelio tikslumo vaizdą.

Registruokite schemos laukų ir vaizdinių koordinačių sulygiavimą, kad būtų galima atsekti.

—

Kaip integruoti „DeepSeek‑OCR“ su savo LLM rinkiniu

Į klausimą orientuotas vadovas, kuriuo galite vadovautis šiandien.

Ko klausia vartotojas?

Iš anksto apibrėžkite užduočių klases: sumų ištraukimas, eilutės elemento kokybės užtikrinimas, subjekto atitikimas.

Susiekite kiekvieną užduotį su minimaliu kontekstu: keliais laukais, kurie atsako į klausimą.

Kaip saugome OCR išvestį?

Saugokite abu: (1) kompaktišką semantinį JSON ir (2) pasirenkamą neapdorotą tekstą arba puslapio iškarpas patikrinimui.

Naudokite trumpus raktus ir stabilią tvarką, kad sumažintumėte žetonų skaičių kiekvieno skambučio metu.

Kaip gauti tik tai, ko reikia?

Apvyniokite savo LLM skambutį įrankio / funkcijos schema, kad modelis gautų tik atitinkamus laukus.

Pavyzdys įrankio argumentai: sumos, mokesčiai_pagal_regioną[], nesumokėtas_likutis, mokėjimo_data, prekės[sku, qty, unit_price].

Kaip išlaikyti aukštą kokybę?

Pridėkite pasitikėjimo balus kiekvienam laukui; nustatykite slenksčius, kad žmogus peržiūrėtų.

Laikykite nuorodas atgal į puslapio koordinates, kad būtų galima audituoti.

Vykdykite diferencinius testus: palyginkite sumas iš dviejų nepriklausomų ekstraktorių.

—

20 kartų matavimas: ką sekti

Žetonai viename puslapyje (prieš ir po): jūsų pagrindinis KPI.

Latentinis laikotarpis vienai užklausai: sumažinimas turėtų būti tiesinis su žetonais, dažnai geresnis dėl mažesnės analizės.

Tikslumas atliekant tikslinius klausimus: neaukokite teisingumo.

Žmogaus įtraukimo rodiklis: siekite sumažinti laikui bėgant, kai pasitikėjimas didėja.

Patarimas: paleiskite 100 dokumentų etaloną per tris geriausius šablonus. Nustatykite biudžetą kiekvienam darbo eigai (pvz., <$0,01 vienai dokumento užklausai) ir kartokite, kol pasieksite.

—

Išlaidų modeliavimas: apytiksliai skaičiavimai finansams patvirtinti

Pagrindinis: 10 000 žetonų viename dokumente už $X/1M žetonų → $0,01 už 1 000 žetonų → $0,10 už dokumentą.

Po suspaudimo: 500 žetonų → $0,005 už dokumentą.

Kai 100 tūkst. dokumentų per mėnesį: nuo 10 000 USD iki 500 USD – 95% sumažinimas, prieš taupant latentinį laikotarpį ir mažiau pakartotinių bandymų.

Skaičiai skirsis priklausomai nuo teikėjo, tačiau kryptis išlieka: pirmiausia suspauskite, klauskite vėliau.

—

Dažnos klaidos (ir greiti pataisymai)

Per didelis apibendrinimas: reguliavimo terminų praradimas. Pataisymas: įtraukite į baltąjį sąrašą privalomus išlaikyti frazes ir sekcijas.

Schemos dreifas: raktai keičiasi laikui bėgant. Pataisymas: verskite savo schemą; atmesti nežinomus laukus.

Lentelės nesutapimas: vieno langelio klaidos. Pataisymas: vaizdiniai kryžminiai patikrinimai ir bendrosios sumos perskaičiavimo validatoriai.

Ragų išpūtimas: išsamūs sistemos raginimai kompensuoja jūsų santaupas. Pataisymas: šablono minimalizmas ir įrankių schemos.

—

Realūs scenarijai, kuriuos galite įgyvendinti šią savaitę

Finansų operacijos: automatiškai patvirtinkite sąskaitų faktūrų sumas ir mokesčius su 20 kartų mažiau žetonų; pažymėkite anomalijas peržiūrai.

Logistika: ištraukite konteinerių ID, uostus ir datas iš važtaraščių; suderinkite su ERP.

Sveikatos priežiūros administravimas: suspauskite EOB į standartizuotus laukus, skirtus pretenzijų nagrinėjimui.

Mažmeninė prekyba: ištraukite eilutės elementus iš kvitų lojalumo ir grąžinimo darbo eigoms.

—

Verta paminėti: Sider.AI naudojimas sistemai įgyvendinti

Jei sujungsite OCR, normalizavimą ir LLM skambučius, orkestravimas ir iteracijos greitis yra svarbūs. Beje, Sider.AI gali padėti komandoms paversti tai pakartojama darbo eiga: galite palyginti žetonų naudojimą tarp skirtingų OCR nustatymų, vykdyti A/B testus su serializavimo formatais ir įvertinti modelio išlaidas, neperrašydami klijų kodo. Nauda yra greitesnė konvergencija į tą 20 kartų žetonų sumažinimo tikslą.

—

Pagrindiniai dalykai

„DeepSeek‑OCR“ 20 kartų sumažintas žetonų skaičius gaunamas sujungus regiono filtravimą, pirmiausia struktūrą normalizuojant, pašalinant dubliavimą, protingai apibendrinant ir optimaliai serializuojant žetonus.

Didžiausias sutaupymas pasiekiamas ant daug lentelių turinčių, kelių puslapių verslo dokumentų.

Laikykite dvigubus vaizdus: kompaktišką semantinį sluoksnį pigiems LLM skambučiams ir didelio tikslumo atsarginį variantą auditams.

Matuokite nenumaldomai: žetonus viename puslapyje, tikslumą ir latentinį laikotarpį – ir kartokite savo schemą.

Orkestruokite mastelį: paieškos suderinti raginimai ir įrankių schemos užtikrina, kad sutaupymai išliks.

—

Tolesni žingsniai: minimalus įgyvendinimo planas

Nustatykite tris geriausius dokumentų tipus ir apibrėžkite kompaktiškas schemas.

Nustatykite „DeepSeek‑OCR“ su regiono segmentavimu ir lentelių ištraukimu.

Pridėkite kanonizavimą ir dubliavimo panaikinimą; registruokite pasitikėjimą vienam laukui.

Serializuokite į griežtą JSON su trumpais raktais; užtikrinkite stabilų išdėstymą.

Apvyniokite savo LLM raginimus į funkcijos / įrankio schemas, naudojančias tik reikiamus laukus.

Įvertinkite žetonų naudojimą ir tikslumą; kartokite, kol pasieksite 10–20 kartų.

DUK

Q1:Kaip „DeepSeek‑OCR“ praktiškai pasiekia 20 kartų sumažintą žetonų skaičių? Sujungiant regiono filtravimą, schemos pagrindu sukurtą normalizavimą, dubliavimo panaikinimą, turinį atpažįstantį apibendrinimą ir kompaktišką serializavimą. Šie žingsniai pašalina nesvarbų ir perteklinį tekstą, kad LLM matytų tik efektyvius žetonus, su užduotimi suderintus duomenis.

Q2:Ar žetonų sumažinimas naudojant „DeepSeek‑OCR“ pakenks sąskaitų faktūrų ar kvitų tikslumui? Ne, jei išlaikysite nepažeistus kritinius laukus ir naudosite pasitikėjimo slenksčius. Daugeliu atvejų tikslumas pagerėja, nes triukšmas pašalinamas, o modelis sutelkia dėmesį į struktūruotus, atitinkamus laukus.

Q3:Kokie dokumentų tipai labiausiai naudingi iš „DeepSeek‑OCR“ žetonų suspaudimo? Daug lentelių turintys, kelių puslapių verslo dokumentai, tokie kaip sąskaitos faktūros, pirkimo užsakymai, siuntimo dokumentai ir banko išrašai. Ypač gerai suspaudžiamos perteklinės antraštės ir pasikartojantys subjektai.

Q4:Kaip integruoti „DeepSeek‑OCR“ su savo LLM, neišpučiant raginimų? Saugokite kompaktišką semantinį JSON ir gaukite tik tuos laukus, kurių reikia vienam klausimui, naudodami įrankių / funkcijų skambučius. Laikykite griežtą JSON su trumpais raktais ir stabiliu išdėstymu, kad sumažintumėte žetonų skaičių.

Q5:Ar galiu naudoti Sider.AI su „DeepSeek‑OCR“ išlaidoms optimizuoti? Taip. Sider.AI gali organizuoti eksperimentus tarp OCR nustatymų ir serializavimo formatų, įvertinti žetonų naudojimą ir tikslumą bei padėti jums pasiekti nuoseklų 10–20 kartų sumažinimą gamyboje.