Įvadas: Kodėl suspaudimas dabar yra supergalia LLM
Jei kada nors bandėte įkišti savaitės pokalbių žurnalus, telemetriją ar kelių sistemų programų sekimo duomenis į raginimą, susidūrėte su griežta konteksto langų riba. Įprastas veiksmų planas – apibendrinti, apkarpyti, suskaidyti – padeda tik tiek, kol įsėlina signalo praradimas. „DeepSeek‑OCR“ pristato stulbinantį posūkį: suspaudžia tekstą į vaizdo žymenis naudojant OCR‑VLM dujotiekį, kad smarkiai sumažintų kontekstą, neišmetant prasmės. Ankstyvieji bendruomenės pranešimai nurodo didesnį nei eilės eilės suspaudimo efektyvumą, naudojant vaizdinius žymenis, o ne neapdorotus teksto žymenis, paradigmą, kurią kai kurios analizės apibūdina kaip „Context Optical Compression“ ir „tūkstančius teksto žymenų į kelis šimtus vaizdo žymenų“ ilgam konteksto darbo eigoms.
Šioje praktinėje, žingsnis po žingsnio „DeepSeek‑OCR“ mokymo programoje sužinosite, kaip suspausti pokalbių istorijas, žurnalus ir duomenis, skirtus LLM, išlaikant paieškos tikslumą – taip pat, kaip sujungti OCR pagrindu sukurtą suspaudimą su apibendrinimu, hierarchiniu suskaidymu ir RAG, kad būtų galima greitai ir efektyviai raginti.
Kam skirtas šis vadovas
- AI pilotų kūrėjams, kurie turi įtraukti ilgus pokalbius ir veiklos pėdsakus
- Duomenų inžinieriams, tvarkantiems žurnalus, sekimo duomenis ir metriką LLM argumentacijai
- Tyrėjams, prototipų kūrimui itin ilgo konteksto darbo eigoms su ribotu biudžetu
Kabliukas vienu sakiniu: jei galite paversti platų tekstą kompaktiškais vaizdiniais atvaizdais, kuriuos LLM gali perskaityti, atgausite konteksto biudžetą neprarandant argumentavimo trupinių.
Kas yra „DeepSeek‑OCR“ suspaudimas? Pagrindinė idėja
- Vaizdo žymenų suspaudimas: paverskite tankius teksto intervalus didelės informacijos vaizdiniais įterpiniais; vaizdo žymenys gali būti pigesni ir kompaktiškesni nei atitinkami teksto žymenys.
- Context Optical Compression: naudokite OCR/VLM, kad užkoduotumėte didelį tekstinį kontekstą kaip vaizdus arba vizualiai struktūruotus maketus, išsaugodami semantinę struktūrą ir sumažindami žymenų skaičių.
- Ilgos trukmės konteksto darbo eigos: suspauskite tūkstančius žymenų į šimtus vaizdo žymenų, suteikdami galimybę didesniems darbo rinkiniams planuoti, naudoti įrankius arba argumentuoti keliais etapais.
Kada jį naudoti
- Pokalbių istorijos su pasikartojančiomis frazėmis arba nuspėjama struktūra
- Sistemos žurnalai, sekimo duomenys, kompiliavimo rezultatai arba analizės išrašai
- Dokumentacijos momentinės nuotraukos, informacijos suvestinės arba pusiau struktūruotos ataskaitos
Ką sukursite šioje mokymo programoje
Įdiegsite dujotiekį, kad:
- Normalizuokite ir segmentuokite pokalbių/žurnalų duomenis.
- Pasirinkite suspaudimo strategijas (OCR‑visual, tekstinis apibendrinimas arba hibridinis).
- Generuokite kompaktiškus vaizdinius atvaizdus per „DeepSeek‑OCR“.
- Indeksuokite su metaduomenimis, kad būtų galima atgauti.
- Užklauskite naudodami hibridinį RAG raginimą, kuris priima tekstą ir vaizdus.
- Įvertinkite tikslumą ir kainą.
1 skyrius – Duomenų paruošimas: padarykite netvarkingas istorijas patogiomis modeliui
- Normalizuokite laiko žymes ir vaidmenis: pvz., .
- Trūkumai: reikalingas VLM palaikymas; reikia atvaizdavimo ir vaizdo įvesties/išvesties.
- Naudokite, kai: jums reikia ilgo konteksto tikslumo, diagramų/lentelių arba tikslaus frazių išsaugojimo.
- Hibridinis (rekomenduojama)
- Išlaikykite „skeleto“ teksto santrauką, kad pritvirtintumėte + pridėkite suspaustas vaizdines korteles, kad būtų gylis.
- Tai subalansuoja paieškos tikslumą (tekstas) ir atšaukimą/tikslumą (vaizdas).
3 skyrius – Vaizdinio konteksto kortelių kūrimas naudojant „DeepSeek‑OCR“
Tiksas: Transformuokite 5–20 KB teksto intervalus į 512–1024 px vaizdus, optimizuotus OCR/VLM skaitymui.
Šablonų pasiūlymai
- Pavadinimo juosta: seanso ID, laiko intervalas, temos etiketė.
- Dviejų stulpelių maketas: kairysis stulpelis pagrindiniams posūkiams/žurnalams; dešinysis stulpelis svarbiausiems dalykams (klaidos, sprendimai, komandos, metrika).
- Monospace blokai kodo/žurnalo eilutėms; kulkų santraukos kontekstui.
- Kontrastinga tema; venkite mažų šriftų (<11–12 pt 1x masteliu).
Atvaizdavimo patarimai
- Naudokite HTML/CSS, kad sukurtumėte švarias, nuoseklias korteles (pvz., „Puppeteer/Playwright“ ekrano kopijas).
- Įtraukite stabilius inkarus (eilučių numerius, ID), kad nurodytumėte konkrečius elementus raginimuose.
- Apribokite iki ~200–400 žodžių vienai kortelei; sukurkite kortelių krūvą kiekvienam seansui.
„DeepSeek‑OCR“ leidimas
- Paleiskite „DeepSeek‑OCR“, kad užtikrintumėte apvalaus kelio tikslumą: kortelė → OCR tekstas. Tai dar kartą patikrina, ar jūsų maketas ir šriftai tiksliai iššifruojami.
- Jei OCR tekstas skiriasi, sureguliuokite šriftus, tarpus arba suskaidykite tankų kodą į kelias korteles.
Kodėl tai veikia
Bendruomenės ir trečiųjų šalių aprašymai rodo didelį efektyvumo padidėjimą suspaudžiant tekstinį kontekstą į vaizdo žymenis, išlaikant skaitomumą.
4 skyrius – Apibendrinimo sluoksniai: laikykite skeletą, laikykite raumenis
Įdiekite sluoksniuotas santraukas, kad galėtumėte padidinti skyrą tik tada, kai reikia.
- L0: atominės eilutės/posūkio žymos – vaidmuo, laiko žyma, tipas (klaida, pastaba, kodas), įterpimas.
- L1: mikro santrauka (1–2 sakiniai) kas 20–40 posūkių arba 2–5 minutes žurnalų.
- L2: seanso abstraktas (5–8 kulkos) su sprendimais, blokatoriais, rezultatais ir nuorodomis į vaizdines korteles.
- L3: gijų gija – savaitės arba projekto lygio apibendrinimai.
Praktinė heuristika
- Visada įtraukite pažodinius inkarus: klaidų kodus, SQL ID, sekimo ID, commit SHA.
- Prieš abstrakciją naudokite ekstrahuojančias santraukas; tada patikslinkite jas abstrakcijos būdu, kad būtų lengviau skaityti.
- Pridėkite kulką „kas pasikeitė nuo paskutinio seanso“, kad pagreitintumėte prisijungimo raginimą.
5 skyrius – Indeksavimas ir paieška hibridiniam RAG
Metaduomenų schema
- doc_id, session_id, time_range, roles, topic labels
- importance score, error severity, component/service
- Sujunkite OCR pagrindu sukurtą suspaudimą su sluoksniuotomis santraukomis ir RAG, kad gautumėte tikslumą ir gylį.
- Optimizuokite maketus, šriftus ir indeksavimą, kad išlaikytumėte didelį tikslumą ir mažą delsą.
- Apsvarstykite suspaustas korteles kaip pirmos klasės įrodymus ir cituokite jas raginimuose.
Kiti žingsniai
- Sukurkite minimalų dujotiekio prototipą vienam pokalbių projektui arba žurnalų duomenų rinkiniui.
- A/B testas tik tekstą vs hibridinį suspaudimą 10 tipinių užklausų.
- Sureguliuokite kortelių dizainą, paieškos sistemos derinį ir biudžetus, atsižvelgdami į tikslumo metriką.
- Padidinkite mastelį iki komandos darbo eigų naudodami talpyklą, ACL ir stebėjimą.
DUK
1 klausimas: Kas yra „DeepSeek‑OCR“ ir kodėl jį naudoti pokalbių istorijoms suspausti LLM?
„DeepSeek‑OCR“ suteikia galimybę Context Optical Compression – užkoduoti didelius teksto intervalus kaip vaizdo žymenis, kuriuos VLM gali efektyviai apdoroti. Tai gali sumažinti žymenų biudžetus ir geriau išsaugoti struktūrą nei tik teksto apibendrinimas, išlaikant didelį tikslumą ilgiems kontekstams.
2 klausimas: Kaip vaizdo žymenų suspaudimas lyginamas su teksto apibendrinimu?
Vaizdo žymenų suspaudimas dažnai pasiekia didesnį efektyvų suspaudimą, išlaikant maketą ir tikslų frazių pateikimą, o tai padeda cituojant, koduojant ir klaidų eilutes. Apibendrinimas yra greitesnis ir paprastesnis, tačiau gali praleisti retas detales arba įvesti abstrakcijos klaidų.
3 klausimas: Ar galiu maišyti „DeepSeek‑OCR“ su RAG žurnalams ir pokalbiams?
Taip. Norėdami greitai atšaukti, naudokite teksto santraukas ir pridėkite OCR patvirtintas vaizdines korteles, kad būtų gylis. Dviejų etapų paieškos sistema gali pirmiausia gauti abstrakcijas, tada tinkamiausias korteles, subalansuodama tikslumą ir konteksto aprėptį.
4 klausimas: Kokie maketai geriausiai tinka OCR suspaustoms konteksto kortelėms?
Naudokite švarų HTML/CSS su pavadinimo juosta, dviejų stulpelių turiniu, monospace blokais kodui ir aiškiomis kulkomis svarbiausiems dalykams. Laikykite 200–400 žodžių vienai kortelei, 11–12 pt šriftų ar didesnių ir patvirtinkite skaitomumą naudodami OCR apvalų kelionę.
5 klausimas: Kaip išmatuoti, ar suspaudimas praranda svarbią informaciją?
Stebėkite Fidelity@K pagal auksinį faktų rinkinį, įrodymų aprėptį per eilučių numerių citatas ir delsos/kainos metriką. Siekite ≥95% faktų išsaugojimo ir užtikrinkite, kad dauguma atsakymų cituotų kortelės eilutę arba inkaro ID.