Įvadas: Problema su per dideliu teksto kiekiu nėra jo ilgis
Su "ilgu kontekstu" dideliuose kalbos modeliuose (LLM) yra taip, kad visi apsimeta, jog tai išspręsta problema, kol neįkeli jiems 200 puslapių PDF ir negauni haiku apie nieką. Modeliai kovoja ne su pačiu ilgiu; jie dūsta nuo nereikšmingumo. Šlamštas į vidų, tikėtinas šlamštas į išorę. Jei norite atsakymų, kurie turi prasmę, jums nereikia didesnio modelio. Jums reikia mažiau šiukšlių.
Pristatome DeepSeek‑OCR. Tai OCR variklis, kuris daro tai, ką turėtų daryti geri įrankiai: jis paverčia vaizdus ir PDF į tekstą be dramos. Tačiau esmė čia ne tik OCR. Esmė yra DeepSeek‑OCR naudojimas ilgam tekstui suspausti – išgauti struktūrą, sumažinti perteklių, išlaikyti signalą – kad tolesni LLM nešvaistytų žetonų figūrų antraštėms iš 1998 m.
"Suspausti" yra pagrindinis žodis. Ne ZIP archyvo suspaudimas. Semantinis suspaudimas. Žmonės tai daro nuolat. Perskaitykite puslapį, atsiminkite pastraipą. Perskaitykite pastraipą, išsaugokite sakinį. Mes tai vadiname supratimu. Su DeepSeek‑OCR kilpoje, galite apytiksliai įvertinti tą srautą: švariai ištraukite tekstą, protingai segmentuokite jį ir generuokite sluoksniuotas santraukas, su kuriomis modelis iš tikrųjų gali dirbti. Mažiau heroizmo, daugiau rezultatų.
Tai yra instrukcija. Bet tai taip pat yra nedidelė intervencija bet kam, kuris mano, kad žalių PDF įkišimas į pokalbių lauką ir meldimasis yra darbo eiga. Padarykime tai sistema.
Ką iš tikrųjų reiškia "Kaip naudoti DeepSeek‑OCR ilgam tekstui suspausti LLM"
Įrankiai nesuspaudžia; sprendimus priima. Kai žmonės sako "kaip naudoti DeepSeek‑OCR ilgam tekstui suspausti LLM", jie iš tikrųjų nori atkuriamo būdo pereiti nuo netvarkingų, vaizdinių dokumentų prie glaustų, struktūruotų teksto fragmentų, kuriuos kalbos modelis gali apdoroti be haliucinacinių išnašų. Procesas suskirstomas į keturis darbus:
- Tikslus ištraukimas: teisingai paimkite žodžius iš puslapio.
- Struktūros atkūrimas: išsaugokite antraštes, sąrašus, lenteles ir skaitymo tvarką.
- Semantinis kondensavimas: sumažinkite perteklių išsaugodami prasmę.
- Gavimų tvarka: modelį maitinkite tik tuo, ko jam reikia, kai jam to reikia.
DeepSeek‑OCR tvarko pirmus du. Jūs (ir jūsų LLM) tvarkote pastaruosius du. Gautas srautas "suspaudžia ilgą tekstą LLM" vienintele prasme, kuri yra svarbi: mažiau žetonų, tie patys atsakymai, mažiau nesąmonių.
1 žingsnis: Naudokite DeepSeek‑OCR teisingai (ištraukimo sluoksnis)
Blogas OCR nuodija viską pasroviui. Jei pradedate nuo rašybos klaidų, sugadintų stulpelių ir atskirtų poraščių, apsimetančių sakiniais, jūsų "suspaudimas" tiesiog kanonizuos klaidas. DeepSeek‑OCR užduotis yra pateikti jums švarų tekstą su išdėstymo užuominomis.
- Pirmiausia teikite pirmenybę PDF teksto ištraukimui. Jei PDF yra skaitmeninis (pasirenkamas tekstas), ištraukite tekstą tiesiogiai ir naudokite OCR tik įterptiems vaizdams ar nuskaitytiems puslapiams. Neapdorokite OCR to, kas jau yra tekstas – klaidų įvedimas klaidoms taisyti nėra protinga.
- Nuskaitytiems PDF naudokite DeepSeek‑OCR su puslapio lygio ir bloko lygio išdėstymo aptikimu. Norite, kad antraštės, pastraipos, lentelės ir figūrų antraštės būtų atskirtos. Modelis jums vėliau padėkos.
- Nustatykite įskaitomą eilutės plotį. Ilgos nepertraukiamos eilutės iš dviejų stulpelių PDF yra tai, kaip gaunate sutrintus indeksus, kurie atrodo kaip beat poezija.
- Ištraukite lenteles kaip CSV arba Markdown, kur įmanoma. Lentelėse yra daug prasmės. Kai jos išlieka nepažeistos, jūsų suspaudimas tampa protingesnis, o ne kvailesnis.
Rezultatas: korpusas, kuris vis dar yra ilgas, bet ne chaotiškas – tekstas, antraštės, sąrašai, lentelės, vaizdai su alt tipo antraštėmis. Struktūra yra pirmasis suspaudimas.
2 žingsnis: skirstykite pagal prasmę, o ne pagal puslapių numerius
Dažna klaida: supjaustykite pagal puslapius arba žetonų skaičių ir laikykite tai baigtu. Puslapių numeriai skirti spausdintuvams; prasmei nerūpi folijos. Naudokite DeepSeek‑OCR išdėstymo užuominas, kad suskirstytumėte pagal skyrius ir poskyrius.
- Vienas fragmentas kiekvienai aukščiausio lygio antraštei (H1/H2), su poskyriais H3/H4. Laikykite kiekvieną fragmentą žemesnį už patogų tikslinio modelio konteksto langą – tarkime, 800–1 200 žetonų.
- Laikykite lenteles ir jų paaiškinamąsias pastraipas kartu. Jų atskyrimas yra puikus būdas priversti modelį išrasti duomenis, kad užpildytų spragą.
- Nemaišykite priedų medžiagos su pagrindiniu tekstu. Tai yra neprivalomas skaitymas; traktuokite jį taip.
Suspaudimas pradeda vykti jūsų skirstymo strategijoje: griežtesni, nuoseklūs vienetai, kuriuos LLM gali suvirškinti nepamiršdamas pradžios pusiaukelėje per pabaigą.
3 žingsnis: semantinis suspaudimo etapas: sluoksniuotos santraukos
Dabar dalis "suspauskite ilgą tekstą LLM". Užuot sumažinus visą dokumentą iki vienos vykdomosios santraukos (kurią vadovai mėgsta, o modeliai nekenčia), sukurkite sluoksniuotas santraukas kiekvienam fragmentui:
- Trumpa apžvalga (5–10 punktų): pagrindiniai punktai, teiginiai, apibrėžimai, skaičiai.
- Vienos pastraipos esmė: ką atidus skaitytojas išsaugotų po penkių minučių.
- Žodyno ištraukimas: meno terminai ir jų vienos eilutės apibrėžimai.
- Citatos ir inkarai: skyriaus antraštė, puslapio numeris, lentelės ID.
Tai yra suspaudimas su nuorodų vientisumu. Punktai yra jūsų nesuspaudžiamas indeksas; pastraipa yra jūsų suspaudžiamas kodekas. Laikykite abu. Kai vėliau užduosite modeliui klausimą, gaukite punktus ir atitinkamą pastraipą, o ne visą fragmentą. Jūs įkelsite mažiau žetonų ir gausite geresnius atsakymus. Magijos triukas: tai tik redagavimas.
4 žingsnis: apibendrinkite lenteles kaip žmogus analitikas
Lentelės yra ten, kur ilgi dokumentai slepia savo tikrąją esmę. Nesupaprastinkite jų į tekstą, nebent jums patinka prarasti informaciją.
- Laikykite žalią lentelę (CSV/Markdown) dėl kilmės.
- Pridėkite "lentelės atmintinę": 3–5 punktai apie tai, ką rodo lentelė, vienas sakinys apie tai, ką ji reiškia, ir bet kokius keistumus (trūkstamos eilutės, raudonos vėliavos, išnašos su durklais).
- Išsaugokite vienetus, laiko intervalus ir kohortų apibrėžimus. "Pardavimai padidėjo 10 %" yra smulkmena be "ketvirtis po ketvirčio, be FX, tik APAC".
Pateikite atmintinę plius lentelę LLM, kai užklausa apima skaičius. Tai yra suspaudimas pagal aiškumą, o ne pagal ištrynimą.
5 žingsnis: gavimas prieš generavimą (RAG, minus buzzword)
Jums nereikia sakyti "RAG", kad atliktumėte RAG. Jums tiesiog reikia pasirinkti tinkamus fragmentus, prieš paprašant modelio atsakyti.
- Indeksuokite sluoksniuotas santraukas su vektorine paieška (sinonimai, perfrazės) ir antraštes su raktinių žodžių paieška (tikslūs atitikmenys). Dvi paieškos, trumpi sąrašai, susikerta juos.
- Gaukite: punktai + esmė + atitinkamos lentelės atmintinės. Pasirinktinai įtraukite kelis geriausius sakinius iš šaltinio fragmento kaip žalią tekstą niuansams.
- Atsakykite su įrodymais: nurodykite modeliui cituoti fragmento ID arba puslapį.
Tai yra tai, kaip suspausti ilgą tekstą LLM be lobotomizuojant jūsų įvestis. Galvokite apie bibliotekininką, o ne apie maišytuvą.
Minimalus, nuobodžiai efektyvus skatinimo modelis
Kiekvienam fragmentui paleiskite nuoseklų apibendrinimo raginimą. Nuoseklumas yra pusė mūšio.
Ragelio skeletas:
"Jūs esate atidus techninis redaktorius. Apibendrinkite šį fragmentą su punktais (tik faktai), vienos pastraipos esme, terminų žodynu ir citatomis (skyriaus antraštė ir puslapis). Išsaugokite vienetus, datas ir kvalifikatorius. Jei teiginiui trūksta įrodymų tekste, pažymėkite jį [necitatuota]. Venkite perrašyti lenteles; nurodykite jas pagal ID. Įvestis prasideda po ---."
Tada įkelkite fragmentą. Išsaugokite išvestį su fragmento ID. Dabar jūs pagaminote savo suspaudimo sluoksnį, panašiai kaip geras žurnalistas laiko užrašus atskirai nuo citatų.
Kodėl būtent DeepSeek‑OCR?
Egzistuoja daugybė OCR įrankių. Kai kurie yra greiti ir neteisingi; kai kurie yra lėti ir neteisingi. DeepSeek‑OCR yra greitas ir, svarbiausia, gerbia išdėstymą. Jo kelių stulpelių tvarkymas ir figūrų antraščių atskyrimas sutaupo jums valandų po apdorojimo. Klausimas nėra "ar jis tobulas?" – nė vienas iš jų nėra. Klausimas yra, ar gedimo režimai yra nuspėjami. Su DeepSeek‑OCR jie dažniausiai yra: sudėtingos ligatūros, antraštės įsiliejančios į pagrindinį tekstą ir retkarčiais matematika. Galite planuoti tai. Planavimas yra pusė suspaudimo.
Taip pat verta pasakyti: OCR, kuri grąžina žetonus efektyvų tekstą, yra svarbi. Jei jūsų OCR prideda fantominių tarpų, sugadintą žodžių kėlimą arba pasikartojančias eilutes, jūs mokate už tuos žetonus kiekviename tolesniame skambutyje. DeepSeek‑OCR paprastai išlaiko jį švarų. Mažiau pjuvenų, mažiau atplaišų.
Praktinė darbo eiga: nuo PDF iki atsakymų be pūkų
Pragmatiška "kaip naudoti DeepSeek‑OCR ilgam tekstui suspausti LLM" darbo eiga, kuri iš tikrųjų pristato:
- Aptikite skaitmeninį tekstą ir nuskaitytus puslapius; prireikus maišykite režimus.
- Paleiskite DeepSeek‑OCR su įjungtu išdėstymo ištraukimu ir lentelių aptikimu.
- Eksportas: Markdown tekstui (antraštės, sąrašai), CSV/Markdown lentelėms, PNG nuorodos figūroms (pasirinktinai).
- Pataisykite žodžių kėlimą: iškelkite žodžius eilutės lūžiuose tik tuo atveju, jei kita eilutė prasideda mažosiomis raidėmis.
- Sujunkite sugadintas pastraipas; palikite tuščias eilutes tarp skyrių.
- Konvertuokite išmaniąsias kabutes, normalizuokite Unicode (NFC). Modeliai rūpinasi, nes žetonai rūpinasi.
- Padalinkite pagal H2/H3 ribas; prijunkite lenteles prie artimiausios nurodančios pastraipos.
- Įgyvendinkite dydžio apribojimus (1k žetonų vienam fragmento tikslui). Neskaidykite viduryje argumento.
- Paleiskite nuoseklų apibendrinimo raginimą vienam fragmentui.
- Pridėkite atskirą lentelės atmintinę vienai lentelei.
- Sukurkite vektorių indeksą virš punktų ir esmės teksto.
- Sukurkite raktinių žodžių indeksą virš antraščių, žodyno terminų ir lentelės ID.
- Gaukite 3–6 geriausius fragmentus pagal vektorių + raktinių žodžių susikirtimą.
- Sukurkite kontekstą: punktai + esmė + bet kokios lentelės atmintinės + 2–3 cituojami sakiniai iš šaltinio.
- Paprašykite atsakymo su citatomis; uždrauskite spėlioti.
- Jei atsakymas cituoja [necitatuotus] teiginius, automatiškai iš naujo gaukite pirminį fragmentą.
- Jei skaičiai rodomi be vienetų, atmesti ir iš naujo paprašyti su vieneto apribojimu.
Sveikiname, jūs suspaudėte ilgą tekstą LLM nepaverčiant jo avižine koše.
Suspaudimas nėra apibendrinimas; tai triažas
Apibendrinimas bando pasakyti mažiau. Suspaudimas bando išlaikyti tą pačią prasmę mažiau žetonų. Skirtingi tikslai. Su DeepSeek‑OCR kuriate informacijos srautą, kurio kiekvienas etapas išmeta kažką, ko jums nereikia:
- OCR išmeta pikselius ir išlaiko tekstą.
- Skirstymas išmeta puslapių ribas ir išlaiko argumentus.
- Sluoksniuotos santraukos išmeta pasikartojimą ir išlaiko teiginius.
- Gavimas išmeta daugumą teiginių ir išlaiko kelis, kurie atsako į klausimą.
Tas paskutinis žingsnis yra ten, kur dauguma "ilgo konteksto" fantazijų miršta. 200 tūkst. žetonų konteksto langas yra salono triukas, jei modelis nežino, kurie 2 tūkst. žetonų yra svarbūs. Suspaudimas yra tai, kaip jūs nusprendžiate.
Apie klaidas, šališkumą ir "Modelis taip pasakė"
Jei suspaudžiate netinkamus dalykus, suspaudžiate tiesą iš dokumento. Tada modelis laimingai argumentuoja su tuo, kas liko, ir skamba autoritetingai tai darydamas. Apsaugos:
- Išsaugokite citatas pažodžiui; aiškiai pažymėkite perfrazes.
- Išlaikykite kilmę fragmento ir sakinio lygiu, kai tai praktiška.
- Palaikykite mažą "pažodinį talpyklą" apibrėžimams, lygtims ir reguliavimo kalbai, kuri neturi būti apibendrinta.
- Versijuokite viską. Jei šaltinis keičiasi, anuliuokite santraukas. Netiekite savaitės senumo suši.
DeepSeek‑OCR kartais sujungs antraštę ir pastraipą arba neteisingai perskaitys ligatūrą. Gerai. Štai kodėl jūsų santraukos cituoja skyrius ir puslapius. Kai abejojate, parodykite kvitus.
Žetonų matematika, nuobodu, bet tikra
"Kaip naudoti DeepSeek‑OCR ilgam tekstui suspausti LLM" ekonomika priklauso nuo žetonų. OCR tekstas yra pigus; LLM kontekstas nėra.
- Jei kiekvienas fragmentas yra ~1 000 žetonų žalias, o jūsų sluoksniuotos santraukos yra ~200 žetonų, jūs jau pasiekėte 5 kartus suspaudimą.
- Užklausos metu, gaunant 5 santraukas naudojama ~1 000 žetonų konteksto vietoj 5 000+ žalių. Tai dar prieš pridedant atsakymą.
- Pridėkite lenteles pasirinktinai. 200 eilučių lentelė yra mirtis tūkstančiu ląstelių; 5 punktų atmintinė plius 10 eilučių filtruotas išrašas yra gyvenimas.
Jums nereikia skaičiuoklės, kad pamatytumėte santaupas. Jums tiesiog reikia nustoti kišti visus dokumentus į raginimus kaip vėlyvą naktį burito.
Kur Sider.AI tinka (jei iš tikrųjų norite, kad tai veiktų)
Štai dalis, kurioje visi tikisi rinkodaros pūkų. Vietoj to: Sider.AI iš tikrųjų veikia – bent jau šiam dalykui. Įkelkite užsispyrusį PDF, leiskite jam paleisti OCR ir gausite švarų, naršomą tekstą su skyrių inkaras, kuriuos galite supjaustyti į fragmentus be priežiūros. Pokalbių sluoksnis nėra magija; tai disciplinuotas gavimas per suspaustas santraukas, kurias jūs paruošėte. Malonus siurprizas yra tai, kad jis neapsimeta, kad yra PDF skaitytuvas su daktaro laipsniu. Tai kompetentingas asistentas su aštriu peiliu, o tai yra būtent tai, ko norite, kai tikslas yra suspausti ilgą tekstą LLM nesugadindamas prasmės. Jei atsinešate DeepSeek‑OCR ištraukimui ir naudojate Sider.AI gavimui ir skatinimo higienai, jūs gaunate srautą, kuris gerbia žetonus, laiką ir jūsų sveiką protą. Įspėjimai su poraštės žymeklio dydžiu
- Sudėtinga matematika: OCR plius apibendrinimas iškraipys simbolines išraiškas, jei jas suplokštinsite. Laikykite LaTeX arba vaizdus lygtims; apibendrinkite žodžiais, o ne simboliais.
- Diagramos: niekada neprašykite modelio "nuspėti" nepažymėtos diagramos. Tai yra tarot, o ne analizė. OCR antraštę, laikykite vaizdą nuorodai ir užduokite tikslinius klausimus.
- Teisė ir atitiktis: kai kuris tekstas turi būti išsaugotas pažodžiui. Pažymėkite jį. Neslėpkite nuostatos ir tada paklauskite modelio, ar nuostata egzistuoja. Taip neveikia nuostatos – ar teisininkai.
Pavyzdinis modelis, patikrintas sveiku protu
Tarkime, kad turite 120 puslapių metinę ataskaitą.
- OCR su DeepSeek‑OCR -> gaukite Markdown tekstą + CSV lenteles.
- Skirstykite pagal skyrius: "Valdymo diskusija", "Rizikos veiksniai" ir kt.
- Santraukos vienam fragmentui: 8 punktai, 1 esmės pastraipa, žodynas, citatos.
- Lentelės atmintinės pajamoms, išlaidoms, darbuotojų skaičiui ir segmentams.
- Sukurkite dvigubą indeksą: vektorius virš punktų; raktinius žodžius virš antraščių ir žodyno.
- Užklausa: "Kaip pasikeitė bendrasis pelnas kasmet ir kodėl?" Gaukite du fragmentus su išlaidų komentarais + pajamų lentelės atmintinę. Atsakykite su citatomis ir 1–2 cituojamais sakiniais.
Jūs neperskaitėte 120 puslapių. Jūs neapsimetėte, kad modelis taip pat tai padarė. Jūs suspaudėte ilgą tekstą LLM ir gavote atsakymą, kuris atlaiko dienos šviesą.
Nuspėjamų būdų, kaip tai pasisuka į šoną, trikčių šalinimas
- Modelis cituoja skyrių, kuris nepalaiko teiginio. Pataisymas: sugriežtinkite gavimą – padidinkite raktinių žodžių atitikimus skyrių pavadinimams, sumažinkite bendrinius vektorių atitikimus.
- Santraukos prieštarauja šaltiniui. Pataisymas: pridėkite "nėra perfrazės" režimą jautriems skyriams; įtraukite 2–3 pažodinius sakinius į kontekstą.
- OCR klaidos kaupiasi antraštėse arba poraštėse. Pataisymas: išmokykite savo priešprocesorių pašalinti pasikartojančius šablonus prieš apibendrinimą; tai yra triukšmas.
- Lentelės išpučia žetonų biudžetą. Pataisymas: ribokite iki N geriausių eilučių pagal svarbą ir laikykite atmintinę; įtraukite nuorodą į visą CSV, jei reikia kasti giliau.
Kvailas ir protingas būdas "Suspausti ilgą tekstą LLM"
Kvailas: "Apibendrinkite šį 300 puslapių PDF."
Protingas: "Iš šių 10 skyrių santraukų ir 3 lentelės atmintinių atsakykite į šį siaurą klausimą, cituodami šaltinį."
Pirmasis glosto modelį ir švaisto jūsų pinigus. Pastarasis glosto jūsų vartotojus ir gerbia realybę. DeepSeek‑OCR suteikia jums švarų tekstą; jūsų srautas išlaiko jį sąžiningu.
Išvada: suspaudimas kaip pagarba
Gerbkite skaitytoją. Gerbkite žetonus. Gerbkite tiesą. Tai yra pagrindinė linija, kaip naudoti DeepSeek‑OCR ilgam tekstui suspausti LLM. OCR žingsnis yra minimalus įnašas; visa kita yra redakcinis sprendimas, pasirengęs kaip darbo eiga – skirstymas pagal idėjas, apibendrinimas be niuansų šalinimo, gavimas to, kas svarbu, ir leidimas modeliui atsakyti su kvitais.
Ilgi konteksto langai yra gražūs. Aišškus kontekstas yra geresnis. Jei norite modelių, kurie elgiasi kaip atidūs skaitytojai, maitinkite juos tuo, ką atidūs skaitytojai laiko. Visa kita yra tik puslapių skaičius.
DUK
Q1:Kaip naudoti DeepSeek‑OCR ilgam tekstui suspausti LLM neprarandant prasmės?
Ištraukite švarų tekstą su išsaugotu išdėstymu, skirstykite pagal antraštes (ne puslapius) ir generuokite sluoksniuotas santraukas – punktus, vienos pastraipos esmę, žodyną ir citatas. Užklausos metu gaukite tik tas santraukas ir atitinkamas lentelės atmintines. Tai suspaudžia ilgą tekstą LLM išlaikant signalą.
Q2:Koks yra geriausias fragmento dydis, kai suspaudžiate ilgą tekstą LLM?
Siektinas dydis yra 800–1 200 žetonų vienam fragmentui, suderintas su skyriais ar poskyriais, o ne su savavališkais puslapių pertraukimais. Tikslas yra nuoseklūs argumentai, o ne vienodas baitų skaičius; taip jūs suspaudžiate ilgą tekstą LLM neskaldant logikos per pusę.
Q3:Ar turėčiau OCR kiekvieną PDF puslapį su DeepSeek‑OCR net jei tekstas yra pasirenkamas?
Ne. Jei tekstas yra skaitmeninis, ištraukite jį tiesiogiai ir naudokite DeepSeek‑OCR tik nuskaitytiems puslapiams ar vaizdams. Iš naujo OCR švarus tekstas prideda klaidų – o tai yra priešingybė ilgam tekstui suspausti LLM.
Klausimas 4: Kaip elgtis su lentelėmis, kai suspaudžiu ilgą tekstą LLM? Išsaugokite lenteles CSV/Markdown formatu ir pridėkite trumpą atmintinę: ką ji rodo, ką reiškia ir kokie yra apribojimai. Ištraukite atmintinę ir filtruotą ištrauką, kai tai yra svarbu; tai protingiau nei įdėti 200 eilučių tinklelį į užklausą.
Klausimas 5: Kur Sider.AI įsipaišo į šį darbo srautą su DeepSeek-OCR? Naudokite DeepSeek-OCR tiksliam ištraukimui, o Sider.AI – disciplinuotam paieškos ir apibendrinimo palaikymui. Kartu jie praktiškai suspaudžia ilgą tekstą, skirtą LLM: mažiau eikvojama žymenų, aiškesni atsakymai ir citatos, kurios atlaiko patikrinimą.