Drąsus teiginys: 20 kartų mažiau žetonų (angl. tokens) neprarandant prasmės
Jei pastebėjote, kad jūsų LLM (didelio kalbos modelio) sąskaitos šoktelėjo dėl ilgų kvitų, sąskaitų faktūrų ar nuskaitytų PDF failų, pažadas sumažinti žetonų skaičių 20 kartų skamba beveik per gerai, kad būtų tiesa. Tačiau būtent tai pasiekia naujausios „DeepSeek‑OCR“ sistemos, suspausdamos vizualų tekstą į glaustas, semantines reprezentacijas prieš perduodant ką nors kalbos modeliui. Mažiau įvesties žetonų, greitesni atsakymai, gerokai mažesnės sąnaudos ir dažnai geresnis tikslumas atliekant tolesnes užduotis.
Šiame paaiškinime išnagrinėsime, kaip „DeepSeek‑OCR“ pasiekia tuos sumažinimus, kur jis labiausiai tinka (ir kur ne), ir kaip jį įdiegti į realius darbo procesus, tokius kaip dokumentų kokybės užtikrinimas, RAG (Retrieval-Augmented Generation) ir formų supratimas – nepaverčiant jūsų duomenų koše.
—
Trumpas įvadas: kas iš tikrųjų yra „DeepSeek‑OCR“?
Įsivaizduokite „DeepSeek‑OCR“ kaip OCR (optinio simbolių atpažinimo) sistemą, optimizuotą LLM eros darbo krūviams. Užuot tiesiog įmetus neapdorotą tekstą ar vaizdus tiesiai į bendrosios paskirties modelį, „DeepSeek‑OCR“:
- Aptinka ir atpažįsta tekstą iš vaizdų / PDF failų, puikiai suvokdamas išdėstymą.
- Normalizuoja ir suspaudžia tą tekstą į struktūruotas reprezentacijas.
- Sukuriamas efektyvus išvesties žetonų skaičius, suderintas su tolesniais raginimais.
Rezultatas? Išleidžiate daug mažiau žetonų vienam puslapiui, tuo pačiu pagerindami signalo ir triukšmo santykį savo LLM.
—
Kodėl žetonų skaičius nekontroliuojamai išauga dokumentuose
Dauguma komandų pradeda nuo primityvaus požiūrio: konvertuoja PDF failus į tekstą ir viską sugrūda į raginimą. Štai kur išlaidos sprogsta. Štai kodėl:
- Išdėstymo išpūtimas: antraštės, poraštės, puslapių numeriai, vandens ženklai ir pasikartojantis turinys sunaudoja žetonus.
- Perteklinė semantika: tas pats pardavėjo pavadinimas rodomas kiekviename puslapyje; eilutės elementai kartoja etiketes.
- Mažos vertės tekstas: teisinės kalbos šablonai, lentelių kraštinės arba OCR triukšmas.
- Nesvarbios sritys: logotipai, antspaudai, parašai, kurie neatsako į jūsų klausimą.
„DeepSeek‑OCR“ atakuoja kiekvieną iš šių sluoksnių tikslingu suspaudimu.
—
Penki svertai, padedantys 20 kartų sumažinti žetonų skaičių
Užuot naudojus vieną triuką, „DeepSeek‑OCR“ sujungia kelis metodus. Tikslus rinkinys priklauso nuo įgyvendinimo, tačiau tai yra pagrindiniai svertai, kurie lemia pokyčius.
1) Regioną atpažįstantis ištraukimas: neskaitykite to, ko nenaudosite
- Vaizdo segmentavimas atskiria teksto blokus, lenteles ir raktų-vertybių zonas.
- Nesvarbios sritys (logotipai, dekoratyvinės antraštės) filtruojamos.
- Tolesni raginimai gali prašyti tik pasirinktų regionų, pvz., „prekių lentelė“, „atsiskaitymo adresas“, „sumos“.
Rezultatas: 2–5 kartus sumažinamas žetonų skaičius, neįtraukiant sričių, kuriose nėra atsakymų.
2) Struktūra pirmiausia: išdėstymo suspaudimas į prasmę
- Užuot pateikus neapdorotą kelių eilučių tekstą, „DeepSeek‑OCR“ išveda struktūruotą JSON arba kompaktiškas schemas.
- Pavyzdžiai: raktų-vertybių žemėlapiai, lentelių eilutės kaip masyvai, hierarchinės sekcijos su ID.
- Pasirenkama kanonizacija (datų formatai, valiutų kodai) pašalina daug žetonų naudojančius variantus.
Rezultatas: 3–8 kartus sumažinamas žetonų skaičius glaustai atvaizduojant išdėstymą.
3) Dubliavimo panaikinimas ir kanoniniai subjektai: vienas ID, daug paminėjimų
- Pasikartojantys subjektai (įmonės pavadinimas, adresai, politikos identifikatoriai) susiejami su vienu kanoniniu įrašu.
- Nuorodos tampa trumpais ID, o ne ilgomis eilutėmis.
Rezultatas: 1,5–3 kartus sumažinamas žetonų skaičius pasikartojančiuose dokumentuose.
4) Turinį atpažįstantis apibendrinimas: palikite faktus, atmeskite nereikšmingus dalykus
- Laukų lygio apibendrintojai suspaudžia išsamias pastraipas į faktinius teiginius.
- Domenui pritaikyti modeliai (pvz., draudimas, logistika, finansai) išsaugo reikalavimus atitinkančias detales.
Rezultatas: 2–6 kartus sumažinamas žetonų skaičius, priklausomai nuo išsamumo.
5) Žetonams optimalus serializavimas: pasirinkite formatus, kuriuos LLM analizuoja pigiai
- Kompaktiškas JSON su trumpais raktais arba schemos valdomi rinkiniai.
- Venkite išsamaus YAML, per didelio tarpo ir ilgų įdėtų etikečių.
- Stabilus laukų išdėstymas sumažina raginimo išlaidas visose grupėse.
Rezultatas: 1,2–2 kartus sumažinamas žetonų skaičius dėl grynos formatavimo disciplinos.
Sudėjus kartu, šie svertai nuolat viršija 10 kartų ant netvarkingų PDF failų ir gali pasiekti 20 kartų ant kelių puslapių formų, sąskaitų faktūrų ir tankių ataskaitų, ypač kai dominuoja lentelės.
—
Kaip atrodo sistema praktikoje?
Aptarkime praktinį, į sprendimus orientuotą srautą. Galite pritaikyti tai savo infrastruktūrai, nesvarbu, ar „DeepSeek‑OCR“ paleidžiate vietoje, ar per API.
- Įtraukimas ir segmentavimas
- Įvestis: nuskaitytas PDF, vaizdas arba hibridinis PDF.
- Žingsniai: puslapio aptikimas → regiono pasiūlymai → teksto bloko ir lentelės aptikimas → triukšmo filtravimas.
- Išvestis: regiono žemėlapis su koordinatėmis ir tipais (antraštė / pagrindinė dalis / poraštė, pastraipa / lentelė, logotipas / parašas).
- Atpažinimas ir sulygiavimas
- Didelio tikslumo OCR su kalbos modeliais, skirtais rašybos šališkumo korekcijai.
- Eilučių suliejimas, stulpelių sulygiavimas ir lentelių langelių susiejimas.
- Išvestis: teksto mazgai + lentelių struktūros, pritvirtintos prie koordinačių.
- Pasirinkite schemą pagal dokumento klasę: sąskaita faktūra, kvitas, važtaraštis, medicininė pažyma.
- Ištraukite laukus naudodami regex + klasifikatorių + LLM atsarginį variantą kraštutiniams atvejams.
- Išvestis: kompaktiškas JSON su trumpais, stabiliais raktais (pvz., inv_id, issue_dt, due_dt, vendor_id, items[]).
- Dubliavimo panaikinimas ir kanonizavimas
- Susiekite pardavėjo pavadinimus / adresus su kanoniniais ID.
- Normalizuokite valiutas, datas, vienetus; pašalinkite standartines sekcijas.
- Suspaudimas ir serializavimas
- Pasirenkama: turinį atpažįstantis apibendrinimas ilgiems užrašams.
- Užtikrinkite žetonams pigų serializavimą (glaudus JSON, užsakyti raktai).
- Pateikite minimalų, į klausimą orientuotą konteksto langą.
- Gaukite tik tuos laukus, kurie yra susiję su raginimu, naudodami funkcijos / įrankio schemą.
Tai yra momentas, kai žetonų sutaupymas padidėja, nes jūs nebeapmokate už viso dokumento pakartotinį paaiškinimą modeliui – jūs pateikiate tik tai, ko jam reikia, pigiausia įmanoma forma.
—
Pavyzdys: 5 puslapių sąskaitos faktūros pavertimas 20 kartų mažesniu žetonų skaičiumi
Pagrindinė (primityvi)
- 5 puslapiai OCR teksto → ~9 000–12 000 žetonų, įskaitant antraštes, poraštes, lenteles, teisinius užrašus.
- Raginimas klausia: „Kokia visa mokėtina suma, mokesčiai pagal jurisdikciją ir visi delspinigiai?“
- Modelis švaisto kontekstą nesvarbioms pastraipoms.
Su „DeepSeek‑OCR“ suspaudimu
- Regiono filtravimas pašalina antraščių / poraštės vandens ženklus, standartines sąlygas ir pasikartojančias pardavėjo detales.
- Lentelės ištraukimas pateikia items[] kaip 50 eilučių × 6 stulpelių → 300 kompaktiškų langelių, o ne 1 500+ žodžių.
- Kanonizavimas sumažina subjekto eilutes; pašalinti pasikartojantys adresai nurodomi vieną kartą.
- Galutinis kontekstas: ~450–600 žetonų.
Rezultatas
- 15–20 kartų mažiau žetonų.
- Greitesnis latentinis laikotarpis, mažesnės sąnaudos ir didesnis tikslumas atliekant tikslinius klausimus, nes triukšmas buvo pašalintas.
—
Kur „DeepSeek‑OCR“ labiausiai tinka (ir kur ne)
Privalumai
- Struktūruoti verslo dokumentai: sąskaitos faktūros, kvitai, pirkimo užsakymai, siuntimo etiketės, banko išrašai.
- Kelių puslapių nuoseklumas: pasikartojančios sekcijos gerai suspaudžiamos.
- Daug lentelių turinys: didžiausias žetonų sutaupymas naudojant masyvus, o ne prozą.
- RAG sistemos: iš anksto normalizuoti gabalai padidina paieškos tikslumą.
Apribojimai
- Rankraštinis, labai stilizuotas tekstas: atpažinimo kokybė lemia viską.
- Teisinės nuomonės / medicininiai aprašymai: didelis apibendrinimas kelia niuansų praradimo riziką; apsvarstykite didesnio tikslumo režimus.
- Sudėtingos lentelės su eilučių / stulpelių aprėptimi: reikia kruopštaus langelių susiejimo ir kokybės užtikrinimo.
Švelninimas
- Naudokite pasitikėjimo slenksčius ir grįžkite prie vaizdo iškarpų, kai nesate tikri.
- Laikykite dvigubus režimus: kompaktišką semantinį vaizdą ir pagal poreikį didelio tikslumo vaizdą.
- Registruokite schemos laukų ir vaizdinių koordinačių sulygiavimą, kad būtų galima atsekti.
—
Kaip integruoti „DeepSeek‑OCR“ su savo LLM rinkiniu
Į klausimą orientuotas vadovas, kuriuo galite vadovautis šiandien.
Ko klausia vartotojas?
- Iš anksto apibrėžkite užduočių klases: sumų ištraukimas, eilutės elemento kokybės užtikrinimas, subjekto atitikimas.
- Susiekite kiekvieną užduotį su minimaliu kontekstu: keliais laukais, kurie atsako į klausimą.
Kaip saugome OCR išvestį?
- Saugokite abu: (1) kompaktišką semantinį JSON ir (2) pasirenkamą neapdorotą tekstą arba puslapio iškarpas patikrinimui.
- Naudokite trumpus raktus ir stabilią tvarką, kad sumažintumėte žetonų skaičių kiekvieno skambučio metu.
Kaip gauti tik tai, ko reikia?
- Apvyniokite savo LLM skambutį įrankio / funkcijos schema, kad modelis gautų tik atitinkamus laukus.
- Pavyzdys įrankio argumentai: sumos, mokesčiai_pagal_regioną[], nesumokėtas_likutis, mokėjimo_data, prekės[sku, qty, unit_price].
Kaip išlaikyti aukštą kokybę?
- Pridėkite pasitikėjimo balus kiekvienam laukui; nustatykite slenksčius, kad žmogus peržiūrėtų.
- Laikykite nuorodas atgal į puslapio koordinates, kad būtų galima audituoti.
- Vykdykite diferencinius testus: palyginkite sumas iš dviejų nepriklausomų ekstraktorių.
—
20 kartų matavimas: ką sekti
- Žetonai viename puslapyje (prieš ir po): jūsų pagrindinis KPI.
- Latentinis laikotarpis vienai užklausai: sumažinimas turėtų būti tiesinis su žetonais, dažnai geresnis dėl mažesnės analizės.
- Tikslumas atliekant tikslinius klausimus: neaukokite teisingumo.
- Žmogaus įtraukimo rodiklis: siekite sumažinti laikui bėgant, kai pasitikėjimas didėja.
Patarimas: paleiskite 100 dokumentų etaloną per tris geriausius šablonus. Nustatykite biudžetą kiekvienam darbo eigai (pvz., <$0,01 vienai dokumento užklausai) ir kartokite, kol pasieksite.
—
Išlaidų modeliavimas: apytiksliai skaičiavimai finansams patvirtinti
- Pagrindinis: 10 000 žetonų viename dokumente už $X/1M žetonų → $0,01 už 1 000 žetonų → $0,10 už dokumentą.
- Po suspaudimo: 500 žetonų → $0,005 už dokumentą.
- Kai 100 tūkst. dokumentų per mėnesį: nuo 10 000 USD iki 500 USD – 95% sumažinimas, prieš taupant latentinį laikotarpį ir mažiau pakartotinių bandymų.
Skaičiai skirsis priklausomai nuo teikėjo, tačiau kryptis išlieka: pirmiausia suspauskite, klauskite vėliau.
—
Dažnos klaidos (ir greiti pataisymai)
- Per didelis apibendrinimas: reguliavimo terminų praradimas. Pataisymas: įtraukite į baltąjį sąrašą privalomus išlaikyti frazes ir sekcijas.
- Schemos dreifas: raktai keičiasi laikui bėgant. Pataisymas: verskite savo schemą; atmesti nežinomus laukus.
- Lentelės nesutapimas: vieno langelio klaidos. Pataisymas: vaizdiniai kryžminiai patikrinimai ir bendrosios sumos perskaičiavimo validatoriai.
- Ragų išpūtimas: išsamūs sistemos raginimai kompensuoja jūsų santaupas. Pataisymas: šablono minimalizmas ir įrankių schemos.
—
Realūs scenarijai, kuriuos galite įgyvendinti šią savaitę
- Finansų operacijos: automatiškai patvirtinkite sąskaitų faktūrų sumas ir mokesčius su 20 kartų mažiau žetonų; pažymėkite anomalijas peržiūrai.
- Logistika: ištraukite konteinerių ID, uostus ir datas iš važtaraščių; suderinkite su ERP.
- Sveikatos priežiūros administravimas: suspauskite EOB į standartizuotus laukus, skirtus pretenzijų nagrinėjimui.
- Mažmeninė prekyba: ištraukite eilutės elementus iš kvitų lojalumo ir grąžinimo darbo eigoms.
—
Verta paminėti: Sider.AI naudojimas sistemai įgyvendinti
Jei sujungsite OCR, normalizavimą ir LLM skambučius, orkestravimas ir iteracijos greitis yra svarbūs. Beje, Sider.AI gali padėti komandoms paversti tai pakartojama darbo eiga: galite palyginti žetonų naudojimą tarp skirtingų OCR nustatymų, vykdyti A/B testus su serializavimo formatais ir įvertinti modelio išlaidas, neperrašydami klijų kodo. Nauda yra greitesnė konvergencija į tą 20 kartų žetonų sumažinimo tikslą. —
Pagrindiniai dalykai
- „DeepSeek‑OCR“ 20 kartų sumažintas žetonų skaičius gaunamas sujungus regiono filtravimą, pirmiausia struktūrą normalizuojant, pašalinant dubliavimą, protingai apibendrinant ir optimaliai serializuojant žetonus.
- Didžiausias sutaupymas pasiekiamas ant daug lentelių turinčių, kelių puslapių verslo dokumentų.
- Laikykite dvigubus vaizdus: kompaktišką semantinį sluoksnį pigiems LLM skambučiams ir didelio tikslumo atsarginį variantą auditams.
- Matuokite nenumaldomai: žetonus viename puslapyje, tikslumą ir latentinį laikotarpį – ir kartokite savo schemą.
- Orkestruokite mastelį: paieškos suderinti raginimai ir įrankių schemos užtikrina, kad sutaupymai išliks.
—
Tolesni žingsniai: minimalus įgyvendinimo planas
- Nustatykite tris geriausius dokumentų tipus ir apibrėžkite kompaktiškas schemas.
- Nustatykite „DeepSeek‑OCR“ su regiono segmentavimu ir lentelių ištraukimu.
- Pridėkite kanonizavimą ir dubliavimo panaikinimą; registruokite pasitikėjimą vienam laukui.
- Serializuokite į griežtą JSON su trumpais raktais; užtikrinkite stabilų išdėstymą.
- Apvyniokite savo LLM raginimus į funkcijos / įrankio schemas, naudojančias tik reikiamus laukus.
- Įvertinkite žetonų naudojimą ir tikslumą; kartokite, kol pasieksite 10–20 kartų.
DUK
Q1:Kaip „DeepSeek‑OCR“ praktiškai pasiekia 20 kartų sumažintą žetonų skaičių?
Sujungiant regiono filtravimą, schemos pagrindu sukurtą normalizavimą, dubliavimo panaikinimą, turinį atpažįstantį apibendrinimą ir kompaktišką serializavimą. Šie žingsniai pašalina nesvarbų ir perteklinį tekstą, kad LLM matytų tik efektyvius žetonus, su užduotimi suderintus duomenis.
Q2:Ar žetonų sumažinimas naudojant „DeepSeek‑OCR“ pakenks sąskaitų faktūrų ar kvitų tikslumui?
Ne, jei išlaikysite nepažeistus kritinius laukus ir naudosite pasitikėjimo slenksčius. Daugeliu atvejų tikslumas pagerėja, nes triukšmas pašalinamas, o modelis sutelkia dėmesį į struktūruotus, atitinkamus laukus.
Q3:Kokie dokumentų tipai labiausiai naudingi iš „DeepSeek‑OCR“ žetonų suspaudimo?
Daug lentelių turintys, kelių puslapių verslo dokumentai, tokie kaip sąskaitos faktūros, pirkimo užsakymai, siuntimo dokumentai ir banko išrašai. Ypač gerai suspaudžiamos perteklinės antraštės ir pasikartojantys subjektai.
Q4:Kaip integruoti „DeepSeek‑OCR“ su savo LLM, neišpučiant raginimų?
Saugokite kompaktišką semantinį JSON ir gaukite tik tuos laukus, kurių reikia vienam klausimui, naudodami įrankių / funkcijų skambučius. Laikykite griežtą JSON su trumpais raktais ir stabiliu išdėstymu, kad sumažintumėte žetonų skaičių.
Q5:Ar galiu naudoti Sider.AI su „DeepSeek‑OCR“ išlaidoms optimizuoti?
Taip. Sider.AI gali organizuoti eksperimentus tarp OCR nustatymų ir serializavimo formatų, įvertinti žetonų naudojimą ir tikslumą bei padėti jums pasiekti nuoseklų 10–20 kartų sumažinimą gamyboje.