Drosmīgs apgalvojums: 20 reizes mazāk tokenu, nezaudējot nozīmi
Ja jūsu LLM rēķins ir strauji pieaudzis garu kvīšu, rēķinu vai skenētu PDF failu dēļ, solījums par 20 reižu tokenu samazinājumu šķiet gandrīz pārāk labs, lai būtu patiess. Tomēr tieši to pašlaik sasniedz apstrādes konveijeri, saspiežot vizuālo tekstu liesās, semantiskās reprezentācijās, pirms nodot jebko valodu modelim. Mazāk tokenu iekšā, ātrākas atbildes ārā, ievērojami zemākas izmaksas — un bieži vien labāka precizitāte pakārtotajos uzdevumos.
Šajā skaidrojumā mēs iztirzāsim, kā panāk šos samazinājumus, kur tas spīd (un kur nē), un kā to savienot ar reāliem darbplūsmām, piemēram, dokumentu QA, RAG un veidlapu izpratni — nepārvēršot jūsu datus putrā.
—
Īss ieskats: kas īsti ir ?
Domājiet par kā par OCR‑first redzes-valodas apstrādes konveijeru, kas optimizēts LLM‑ēras darba slodzēm. Tā vietā, lai iemestu neapstrādātu tekstu vai attēlus tieši vispārēja pielietojuma modelī, :
- Atpazīst tekstu no attēliem/PDF failiem ar spēcīgu izkārtojuma izpratni.
- Normalizē un saspiež šo tekstu strukturētās reprezentācijās.
- Izveido tokenu ziņā efektīvus izvades datus, kas saskaņoti ar pakārtotajiem uzvedņiem.
Rezultāts? Jūs tērējat daudz mazāk tokenu vienā lapā, vienlaikus uzlabojot signāla un trokšņa attiecību savam LLM.
—
Kāpēc tokeni nekontrolējami pieaug dokumentos
Lielākā daļa komandu sāk ar naivu pieeju: konvertē PDF failus tekstā un iebāž visu uzvednē. Tieši tur izmaksas eksplodē. Lūk, kāpēc:
- Izkārtojuma uzpūšanās: Galvenes, kājenes, lappušu numuri, ūdenszīmes un dublēts saturs ēd tokenus.
- Lieka semantika: Tas pats piegādātāja nosaukums parādās katrā lapā; rindkopas atkārto etiķetes.
- Zemas vērtības teksts: Juridisks teksts, tabulu apmales vai OCR troksnis.
- Nenovēršami reģioni: Logotipi, zīmogi, paraksti, kas neatbild uz jūsu jautājumu.
uzbrūk katram no šiem slāņiem ar mērķtiecīgu saspiešanu.
—
Pieci sviras punkti aiz 20 reižu tokenu samazinājuma
apvieno vairākas metodes, nevis vienu triku. Precīzs komplekts atšķiras atkarībā no ieviešanas, bet šie ir galvenie sviras punkti, kas virza adatu.
1) Reģionam jutīga ieguve: nelasiet to, ko neizmantosit
- Vizuālā segmentācija izolē teksta blokus, tabulas un atslēgas vērtību zonas.
- Nenovēršami reģioni (logotipi, dekoratīvas galvenes) tiek filtrēti.
- Pakārtotie uzvedņi var pieprasīt tikai atlasītus reģionus, piemēram, “preču tabulu”, “norēķinu adresi”, “kopsummas”.
Rezultāts: 2–5 reizes samazinājums, izslēdzot reģionus, kas nesniedz atbildes.
2) Struktūrai prioritāra normalizācija: saspiest izkārtojumu nozīmē
- Neapstrādāta daudzrindu teksta vietā izvada strukturētu JSON vai kompaktas shēmas.
- Piemēri: atslēgu vērtību kartes, tabulu rindas kā masīvi, hierarhiskas sadaļas ar ID.
- Pēc izvēles kanonizācija (datumu formāti, valūtas kodi) novērš tokenu ziņā smagas variācijas.
Rezultāts: 3–8 reizes samazinājums, kodolīgi attēlojot izkārtojumu.
3) Dublikātu noņemšana un kanoniskas entītijas: viens ID, daudzi pieminējumi
- Atkārtotas entītijas (uzņēmuma nosaukums, adreses, politikas identifikatori) kartējas uz vienu kanonisku ierakstu.
- Atsauces kļūst par īsiem ID, nevis garām virknēm.
Rezultāts: 1,5–3 reizes samazinājums atkārtotos dokumentos.
4) Saturam jutīga apkopošana: saglabāt faktus, atmest pūkas
- Lauku līmeņa apkopotāji saspiež daudz vārdu rindkopas faktos.
- Domēnam pielāgoti modeļi (piemēram, apdrošināšana, loģistika, finanses) saglabā atbilstībai kritiskas detaļas.
Rezultāts: 2–6 reizes samazinājums atkarībā no vārdiskuma.
5) Tokenu ziņā optimāla serializācija: izvēlēties formātus, ko LLM parsē lēti
- Kompakts JSON ar īsām atslēgām vai shēmas vadītiem kortežiem.
- Izvairās no daudz vārdu YAML, pārmērīgas atstarpes un garām ligzdotām etiķetēm.
- Stabila lauku secība samazina uzvedņu izmaksas starp partijām.
Rezultāts: 1,2–2 reizes samazinājums no tīras formatēšanas disciplīnas.
Saliekot kopā, šīs sviras regulāri pārsniedz 10 reizes uz nekārtīgiem PDF failiem un var sasniegt 20 reizes uz daudzlapu veidlapām, rēķiniem un blīviem ziņojumiem, īpaši, ja dominē tabulas.
—
Kā apstrādes konveijers izskatās praksē?
Iepazīsimies ar praktisku, uz risinājumiem orientētu plūsmu. Jūs varat pielāgot to savai infrastruktūrai neatkarīgi no tā, vai jūs izmantojat uz vietas vai izmantojot API.
- Ievade: skenēts PDF, attēls vai hibrīda PDF.
- Soļi: lapas noteikšana → reģiona priekšlikumi → teksta bloka un tabulas noteikšana → trokšņa filtrēšana.
- Izvade: reģiona karte ar koordinātēm un tipiem (galvene/pamatteksts/kājene, rindkopa/tabula, logotips/paraksts).
- Augstas precizitātes OCR ar valodu modeļiem pareizrakstības kļūdu labošanai.
- Līniju sapludināšana, kolonnu saskaņošana un tabulas šūnu asociācija.
- Izvade: teksta mezgli + tabulas struktūras, kas noenkurotas pie koordinātēm.
- Atlasiet shēmu katrai dokumentu klasei: rēķins, kvīts, pavadzīme, medicīniskā atzīme.
- Iegūstiet laukus ar regex + klasifikatoru + LLM rezerves variantu ārkārtas gadījumiem.
- Izvade: kompakts JSON ar īsām, stabilām atslēgām (piemēram, inv_id, issue_dt, due_dt, vendor_id, items[]).
- Noņemt dublikātus un kanonizēt
- Kartēt piegādātāju nosaukumus/adreses uz kanoniskiem ID.
- Normalizēt valūtas, datumus, vienības; noņemt parastus tekstus.
- Pēc izvēles: saturam jutīga apkopošana garām piezīmēm.
- Ieviest tokenu ziņā lētu serializāciju (ciešs JSON, sakārtotas atslēgas).
- Nodrošiniet minimālu, jautājumam saskaņotu konteksta logu.
- Iegūstiet tikai uzvednei atbilstošus laukus, izmantojot funkcijas/rīka shēmu.
Šis ir brīdis, kad tokenu ietaupījumi palielinās, jo jūs vairs nemaksājat par visa dokumenta atkārtotu paskaidrošanu modelim — jūs piegādājat tikai to, kas tam ir nepieciešams, pēc iespējas lētākā formā.
—
Piemērs: 5 lapu rēķina pārvēršana par 20 reizes mazāk tokeniem
Sākotnējais (naivs)
- 5 lapas OCR teksta → ~9000–12000 tokenu, ieskaitot galvenes, kājenes, tabulas, juridiskas piezīmes.
- Uzvedne jautā: “Kāda ir kopējā summa, nodokļi pēc jurisdikcijas un jebkādas nokavējuma maksas?”
- Modelis tērē kontekstu nevajadzīgām rindkopām.
Ar saspiešanu
- Reģiona filtrēšana noņem galvenes/kājenes ūdenszīmes, parastus noteikumus un dublētas piegādātāja detaļas.
- Tabulas ieguve izvada items[] kā 50 rindas × 6 kolonnas → 300 kompaktas šūnas, nevis 1500+ vārdus.
- Kanonizācija samazina entītiju virknes; dublētas adreses tiek atsauktas vienreiz.
- Galīgais konteksts: ~450–600 tokenu.
Rezultāts
- 15–20 reizes mazāk tokenu.
- Ātrāka latentums, zemākas izmaksas un augstāka precizitāte mērķtiecīgos jautājumos, jo troksnis tika noņemts.
—
Kur spīd (un kur nē)
Stiprās puses
- Strukturēti biznesa dokumenti: rēķini, kvītis, pasūtījumi, piegādes etiķetes, bankas izraksti.
- Vairāku lapu konsekvence: atkārtotas sadaļas saspiežas labi.
- Tabulām bagāts saturs: lielākie tokenu ietaupījumi ar masīviem, nevis prozu.
- RAG apstrādes konveijeri: iepriekš normalizēti fragmenti palielina izguves precizitāti.
Ierobežojumi
- Ar roku rakstīts, ļoti stilizēts teksts: atpazīšanas kvalitāte virza visu.
- Juridiski atzinumi/medicīniski apraksti: smaga apkopošana riskē ar nianšu zudumu; apsveriet augstākas precizitātes režīmus.
- Sarežģītas tabulas ar rindu/kolonnu pārklājumiem: nepieciešama rūpīga šūnu kartēšana un QA.
Mazinoši pasākumi
- Izmantojiet uzticamības sliekšņus un atgriezieties pie attēlu apgriezieniem, ja neesat pārliecināts.
- Saglabājiet duālos režīmus: kompaktu semantisku skatu un pieprasītu augstas precizitātes skatu.
- Reģistrējiet saskaņošanu starp shēmas laukiem un vizuālajām koordinātēm izsekojamībai.
—
Kā integrēt ar savu LLM steku
Jautājumu vadīta rokasgrāmata, kurai varat sekot šodien.
Ko lietotājs jautā?
- Definējiet uzdevumu klases iepriekš: kopsummu ieguve, rindkopu QA, entītiju saskaņošana.
- Kartējiet katru uzdevumu uz minimālu kontekstu: dažiem laukiem, kas atbild uz jautājumu.
Kā mēs glabājam OCR izvadi?
- Glabājiet abus: (1) kompaktu semantisku JSON un (2) pēc izvēles neapstrādātu tekstu vai lapas apgriezienus verifikācijai.
- Izmantojiet īsas atslēgas un stabilu secību, lai samazinātu tokenus katrā zvanā.
Kā mēs iegūstam tikai to, kas ir nepieciešams?
- Ietiniet savu LLM zvanu rīka/funkcijas shēmā, lai modelis saņemtu tikai atbilstošus laukus.
- Rīka argumentu piemērs: kopsummas, nodokļi_pēc_reģiona[], neapmaksātais_atlikums, termiņš, preces[sku, daudzums, vienības_cena].
Kā mēs saglabājam augstu kvalitāti?
- Pievienojiet uzticamības rādītājus katram laukam; iestatiet sliekšņus cilvēku pārskatīšanai.
- Saglabājiet saites atpakaļ uz lapas koordinātēm audita iespējai.
- Palaidiet diferenciālos testus: salīdziniet kopsummas no diviem neatkarīgiem ieguvējiem.
—
20 reižu mērīšana: kas jāseko
- Tokeni vienā lapā (pirms un pēc): jūsu galvenais KPI.
- Latentums vienā vaicājumā: samazinājumiem jābūt lineāriem ar tokeniem, bieži vien labāk, jo ir mazāk parsēšanas.
- Precizitāte mērķa jautājumos: neaizmainiet pareizību.
- Cilvēka iesaistes līmenis: mērķis ir samazināt laika gaitā, uzlabojoties uzticamībai.
Padoms: palaidiet 100 dokumentu etalonu savos trīs populārākajos šablonos. Izveidojiet budžetu katrai darbplūsmai (piemēram, <$0,01 par dokumenta vaicājumu) un atkārtojiet, līdz to sasniedzat.
—
Izmaksu modelēšana: aptuvena matemātika finansēm parakstīšanai
- Sākotnējais: 10 000 tokenu vienā dokumentā par $X/1M tokeniem → $0,01 par 1000 tokeniem → $0,10 par dokumentu.
- Pēc saspiešanas: 500 tokenu → $0,005 par dokumentu.
- Pie 100k dokumentiem mēnesī: no $10 000 līdz $500 — 95% samazinājums, pirms latentuma ietaupījumiem un mazākiem atkārtotiem mēģinājumiem.
Skaitļi atšķirsies atkarībā no pakalpojumu sniedzēja, bet virziens saglabājas: vispirms saspiest, jautāt vēlāk.
—
Biežākie trūkumi (un ātri labojumi)
- Pārmērīga apkopošana: regulatīvu terminu zaudēšana. Labojums: baltā saraksta obligāti saglabājamās frāzes un sadaļas.
- Shēmas novirze: atslēgas laika gaitā mainās. Labojums: veidojiet savas shēmas versijas; noraidiet nezināmus laukus.
- Tabulas nepareiza saskaņošana: par vienu šūnu kļūdas. Labojums: vizuālas savstarpējas pārbaudes un kopējās pārrēķināšanas validatori.
- Uzvedņu uzpūšanās: daudz vārdu sistēmas uzvedņi kompensē jūsu ietaupījumus. Labojums: šablonu minimālisms un rīku shēmas.
—
Reāli scenāriji, ko varat ieviest šonedēļ
- Finanšu operācijas: automātiski validējiet rēķinu kopsummas un nodokļus ar 20 reizes mazāk tokeniem; atzīmējiet anomālijas pārskatīšanai.
- Loģistika: iegūstiet konteineru ID, ostas un datumus no pavadzīmēm; saskaņojiet ar ERP.
- Veselības aprūpes administrēšana: saspiest EOB standartizētos laukos pretenziju izskatīšanai.
- Mazumtirdzniecība: iegūstiet rindkopas no kvītīm lojalitātes un atgriešanas darbplūsmām.
—
Vērts atzīmēt: Sider.AI izmantošana apstrādes konveijera darbībai
Ja jūs sašujat kopā OCR, normalizāciju un LLM zvanus, orķestrēšana un iterācijas ātrums ir svarīgi. Starp citu, Sider.AI var palīdzēt komandām pārvērst to atkārtojamā darbplūsmā: jūs varat salīdzināt tokenu lietojumu dažādos OCR iestatījumos, palaist A/B testus serializācijas formātos un novērtēt modeļa izmaksas, nepārrakstot līmēšanas kodu. Ieguvums ir ātrāka konverģence uz šo 20 reižu tokenu samazināšanas mērķi. —
Galvenie secinājumi
- 20 reižu tokenu samazinājums rodas no reģiona filtrēšanas, struktūrai prioritāras normalizācijas, dublikātu noņemšanas, viedas apkopošanas un tokenu ziņā optimālas serializācijas.
- Ietaupījumi ir vislielākie uz tabulām bagātiem, daudzlapu biznesa dokumentiem.
- Saglabājiet duālos skatus: kompaktu semantisku slāni lētiem LLM zvaniem un augstas precizitātes rezerves variantu auditiem.
- Neatlaidīgi mēriet: tokenus vienā lapā, precizitāti un latentumu — un atkārtojiet savu shēmu.
- Orķestrējiet mērogu: izguvei saskaņoti uzvedņi un rīku shēmas nodrošina, ka ietaupījumi ir stabili.
—
Nākamie soļi: minimāls ieviešanas plāns
- Identificējiet savus trīs populārākos dokumentu tipus un definējiet kompaktas shēmas.
- Iestatiet ar reģiona segmentāciju un tabulas ieguvi.
- Pievienojiet kanonizāciju un dublikātu noņemšanu; reģistrējiet uzticamību katram laukam.
- Serializējiet ciešam JSON ar īsām atslēgām; ieviest stabilu secību.
- Ietiniet savus LLM uzvedņus funkciju/rīku shēmās, patērējot tikai nepieciešamos laukus.
- Novērtējiet tokenu lietojumu un precizitāti; atkārtojiet, līdz sasniedzat 10–20 reizes.
BUJ
Q1:Kā praksē sasniedz 20 reižu tokenu samazinājumu?
Apvienojot reģiona filtrēšanu, uz shēmu balstītu normalizāciju, dublikātu noņemšanu, saturam jutīgu apkopošanu un kompaktu serializāciju. Šie soļi noņem nevajadzīgu un lieku tekstu, lai LLM redzētu tikai tokenu ziņā efektīvus, uzdevumam saskaņotus datus.
Q2:Vai tokenu samazināšana ar kaitēs precizitātei rēķinos vai kvītīs?
Nē, ja jūs saglabājat neskartus kritiskus laukus un izmantojat uzticamības sliekšņus. Daudzos gadījumos precizitāte uzlabojas, jo troksnis tiek noņemts un modelis koncentrējas uz strukturētiem, atbilstošiem laukiem.
Q3:Kādi dokumentu tipi visvairāk gūst labumu no tokenu saspiešanas?
Tabulām bagāti, daudzlapu biznesa dokumenti, piemēram, rēķini, pirkuma pasūtījumi, nosūtīšanas dokumenti un bankas izraksti. Liekas galvenes un atkārtotas entītijas saspiežas īpaši labi.
Q4:Kā es varu integrēt ar savu LLM, nepalielinot uzvednes?
Glabājiet kompaktu semantisku JSON un iegūstiet tikai tos laukus, kas nepieciešami katram jautājumam, izmantojot rīku/funkciju zvanus. Saglabājiet ciešu JSON ar īsām atslēgām un stabilu secību, lai samazinātu tokenus.
Q5:Vai es varu izmantot Sider.AI ar izmaksu optimizācijai?
Jā. Sider.AI var orķestrēt eksperimentus dažādos OCR iestatījumos un serializācijas formātos, novērtēt tokenu lietojumu un precizitāti un palīdzēt jums sasniegt konsekventus 10–20 reižu samazinājumus ražošanā.