Sider.ai
  • Chat
  • Wisebase
  • Mga gamit
  • Extension
  • Mga kliyente
  • Pagpepresyo
I-download na ngayon
Mag log in

Matuto nang mas mabilis, mag-isip nang mas malalim, at lumago nang mas matalino kasama ang Sider.

Mga Produkto
Mga App
  • Mga Extension
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Mga Kasangkapan
  • Tagalikha ng WebsiteNew
  • AI SlidesNew
  • AI Manunulat ng Sanaysay
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI Tagalikha ng Larawan
  • Italian Brainrot Generator
  • Tagapag-alis ng Background
  • Tagapagpalit ng Background
  • Pambura ng Larawan
  • Tagapag-alis ng Teksto
  • Inpaint
  • Tagapagpataas ng Kalidad ng Larawan
  • Lumikha
  • AI Tagasalin
  • Tagasalin ng Larawan
  • Tagasalin ng PDF
Sider
  • Makipag-ugnayan sa Amin
  • Sentro ng Tulong
  • I-download
  • Pagpepresyo
  • Plano ng Edukasyon
  • Ano'ng Bago
  • Blog
  • Komunidad
  • Mga Kasosyo
  • Affiliate
  • Imbitahan
©2026 Lahat ng Karapatan ay Nakalaan
Mga Tuntunin ng Paggamit
Patakaran sa Privacy
  • Home Page
  • Blog
  • Mga Kasangkapan ng AI
  • Tutorial sa DeepSeek‑OCR: Pag-compress ng mga History ng Chat, Logs at Data para sa mga LLM

Tutorial sa DeepSeek‑OCR: Pag-compress ng mga History ng Chat, Logs at Data para sa mga LLM

Na-update noong Oct 23, 2025

5 min


Introduksyon: Bakit ang Compression ay Isa Nang Superpower para sa mga LLM Kung sinubukan mo nang isiksik ang isang linggong chat logs, telemetry, o multi-system app traces sa isang prompt, naranasan mo na ang limitasyon ng context windows. Ang karaniwang paraan—mag-summarize, mag-prune, mag-chunk—ay may hangganan bago magsimulang mawala ang signal. Ipinapakilala ng DeepSeek-OCR ang isang kapansin-pansing pagbabago: i-compress ang teksto sa vision tokens gamit ang isang OCR-VLM pipeline upang lubos na paliitin ang konteksto nang hindi itinatapon ang kahulugan. Ang mga unang ulat mula sa komunidad ay nagpapakita ng napakalaking compression efficiency sa pamamagitan ng paggamit ng visual tokens sa halip na raw text tokens, isang paradigm na inilalarawan ng ilang pagsusuri bilang “Context Optical Compression” at “libu-libong text tokens sa ilang daang vision tokens” para sa long-context workflows.
Sa praktikal at sunud-sunod na DeepSeek-OCR tutorial na ito, matututuhan mo kung paano i-compress ang mga chat histories, logs, at data para sa mga LLM habang pinapanatili ang retrieval precision—pati na rin kung paano pagsamahin ang OCR-based compression sa summarization, hierarchical chunking, at RAG para sa malakas at low-latency na prompting.
Para kanino ang gabay na ito
  • Mga tagabuo ng AI copilots na kailangang sumipsip ng mahahabang chats at activity trails
  • Mga data engineers na nagtatrabaho sa mga logs, traces, at metrics para sa LLM reasoning
  • Mga researcher na nagpo-prototype ng ultra-long context workflows na may limitadong budget
Hook sa isang pangungusap: Kung kaya mong gawing siksik na visual representations ang malawak na teksto na kayang basahin ng mga LLM, makakakuha ka ng context budget nang hindi isinasakripisyo ang mga bakas ng reasoning.
Ano ang DeepSeek-OCR Compression? Ang Pangunahing Ideya
  • Vision token compression: Gawing high-information visual embeddings ang dense text spans; ang vision tokens ay maaaring mas mura at mas siksik kaysa sa katumbas na text tokens.
  • Context Optical Compression: Gumamit ng OCR/VLM upang i-encode ang malaking textual context bilang mga imahe o visually structured layouts, na pinapanatili ang semantic structure habang binabawasan ang bilang ng mga token.
  • Long-context workflows: I-compress ang libu-libong tokens sa daan-daang vision tokens, na nagbibigay-daan sa mas malaking working sets para sa pagpaplano, paggamit ng tool, o multi-turn reasoning.
Kailan Ito Gagamitin
  • Mga chat histories na may paulit-ulit na pagpapahayag o predictable na istraktura
  • System logs, traces, build outputs, o analytics dumps
  • Mga documentation snapshots, dashboards, o semi-structured reports
Ano ang Itatayo Mo sa Tutorial na Ito Magpapatupad ka ng isang pipeline upang:
  1. I-normalize at i-segment ang data ng chat/log.
  1. Pumili ng mga compression strategies (OCR-visual, textual summarization, o hybrid).
  1. Bumuo ng mga compact visual representations sa pamamagitan ng DeepSeek-OCR.
  1. Mag-index gamit ang metadata para sa retrieval.
  1. Magtanong gamit ang isang hybrid RAG prompt na tumatanggap ng parehong teksto at mga imahe.
  1. Suriin ang fidelity at gastos.
Seksyon 1 — Paghahanda ng Data: Gawing Model-Friendly ang Magulong Histories
  • I-normalize ang mga timestamps at roles: hal., .
  • Cons: nangangailangan ng suporta sa VLM; kailangan ng rendering at image I/O.
  • Gamitin kapag: kailangan mo ng long context fidelity, diagrams/tables, o eksaktong pagpapanatili ng pagpapahayag.
  • Hybrid (inirerekomenda)
  • Panatilihin ang “skeletal” text summary para sa anchoring + ilakip ang mga compressed visual cards para sa lalim.
  • Binabalanse nito ang retrieval precision (text) at recall/fidelity (vision).
Seksyon 3 — Pagbuo ng Visual Context Cards gamit ang DeepSeek-OCR Layunin: Gawing 5–20 KB text spans sa 512–1024 px images na na-optimize para sa OCR/VLM reading.
Mga suhestiyon sa template
  • Title bar: session ID, time range, topic label.
  • Two-column layout: kaliwang column para sa mga key turns/logs; kanang column para sa mga highlights (errors, decisions, commands, metrics).
  • Monospace blocks para sa code/log lines; bullet summaries para sa konteksto.
  • Contrast-friendly theme; iwasan ang maliliit na fonts (<11–12 pt sa 1x scale).
Mga tip sa rendering
  • Gumamit ng HTML/CSS upang makagawa ng malinis at consistent na cards (hal., Puppeteer/Playwright screenshots).
  • Isama ang mga stable anchors (line numbers, IDs) upang tukuyin ang mga tiyak na item sa prompts.
  • Limitahan sa ~200–400 na salita bawat card; lumikha ng isang stack ng mga card bawat session.
DeepSeek-OCR pass
  • Patakbuhin ang DeepSeek-OCR upang matiyak ang round-trip fidelity: card → OCR text. Doblehin nito ang pagsusuri na ang iyong layout at mga font ay nagde-decode nang tumpak.
  • Kung ang OCR text ay lumihis, ayusin ang mga font, spacing, o hatiin ang dense code sa maraming cards.
Bakit ito gumagana Ang mga write-up ng komunidad at third-party ay tumutukoy sa makabuluhang mga pakinabang sa kahusayan kapag nagko-compress ng textual context sa vision tokens habang pinapanatili ang pagiging madaling mabasa.
Seksyon 4 — Mga Layer ng Summarization: Panatilihin ang Skeleton, Itago ang Muscle Magpatupad ng mga layered summaries upang maaari mong palakihin ang resolution kung kinakailangan lamang.
  • L0: Atomic line/turn tags — role, timestamp, type (error, note, code), embedding.
  • L1: Micro-summary (1–2 pangungusap) para sa bawat 20–40 turns o 2–5 minuto ng mga logs.
  • L2: Session abstract (5–8 bullets) na may mga desisyon, blockers, kinalabasan, at mga link sa visual cards.
  • L3: Thread-of-threads — lingguhan o project-level rollups.
Mga praktikal na heuristics
  • Palaging isama ang mga verbatim anchors: error codes, SQL IDs, trace IDs, commit SHAs.
  • Gumamit ng extractive summaries bago ang abstractive; pagkatapos ay pinuhin gamit ang abstractive para sa pagiging madaling mabasa.
  • Magdagdag ng “ano ang nagbago mula noong nakaraang session” bullet upang mapabilis ang catch-up prompting.
Seksyon 5 — Pag-index at Retrieval para sa Hybrid RAG Metadata schema
  • doc_id, session_id, time_range, roles, topic labels
  • importance score, error severity, component/service
  • links: .
  • Pagsamahin ang OCR-based compression sa mga layered summaries at RAG para sa precision at lalim.
  • I-optimize ang mga layout, font, at pag-index upang panatilihing mataas ang fidelity at mababa ang latency.
  • Tratuhin ang mga compressed cards bilang first-class evidence at banggitin ang mga ito sa mga prompts.
Mga Susunod na Hakbang
  • I-prototype ang minimal pipeline sa isang chat project o log dataset.
  • A/B test text-only vs hybrid compression para sa 10 tipikal na mga query.
  • I-tune ang card design, retriever mix, at mga budget batay sa mga fidelity metrics.
  • I-scale sa team workflows na may caching, ACLs, at monitoring.

FAQ

T1: Ano ang DeepSeek-OCR at bakit ito gagamitin upang i-compress ang mga chat histories para sa mga LLM? Pinapagana ng DeepSeek-OCR ang Context Optical Compression—pag-encode ng malalaking text spans bilang visual tokens na kayang iproseso nang mahusay ng mga VLM. Maaari nitong paliitin ang mga token budgets at mas mapanatili ang istraktura kaysa sa text-only summarization habang pinapanatili ang mataas na fidelity para sa mahahabang konteksto.
T2: Paano ihahambing ang visual token compression sa text summarization? Ang visual token compression ay madalas na nakakamit ng mas mataas na effective compression habang pinapanatili ang layout at eksaktong pagpapahayag, na nakakatulong sa mga quotations, code, at error strings. Ang summarization ay mas mabilis at mas simple ngunit maaaring mag-omit ng mga bihirang detalye o magpakilala ng mga abstraction errors.
T3: Maaari ko bang ihalo ang DeepSeek-OCR sa RAG para sa mga logs at chats? Oo. Gumamit ng mga text summaries para sa mabilis na recall at ilakip ang mga OCR-validated visual cards para sa lalim. Ang isang two-stage retriever ay maaaring kumuha muna ng mga abstracts, pagkatapos ay ang pinaka-relevant na mga cards, na nagbabalanse sa precision at context coverage.
T4: Anong mga layout ang pinakamahusay na gumagana para sa mga OCR-compressed context cards? Gumamit ng malinis na HTML/CSS na may title bar, two-column content, monospace blocks para sa code, at malinaw na bullets para sa mga highlights. Panatilihin ang 200–400 na salita bawat card, 11–12 pt na mga font o mas malaki, at patunayan ang pagiging madaling mabasa gamit ang isang OCR round-trip.
T5: Paano ko susukatin kung ang compression ay nawawalan ng mahalagang impormasyon? Subaybayan ang Fidelity@K laban sa isang gold set ng mga katotohanan, evidence coverage sa pamamagitan ng mga line-number citations, at mga latency/cost metrics. I-target ang ≥95% fact retention at tiyakin na ang karamihan sa mga sagot ay bumabanggit ng isang card line o anchor ID.

Mga Kamakailang Artikulo
Paano Maging Eksperto sa ChatPDF: Mas Mabilis na Pagkuha ng Impormasyon mula sa Makakapal na Dokumento

Paano Maging Eksperto sa ChatPDF: Mas Mabilis na Pagkuha ng Impormasyon mula sa Makakapal na Dokumento

Ang Pinakamahusay na Alternatibo sa X Auto-Translation para sa Mabilis at Tumpak na Mga Dokumento

Ang Pinakamahusay na Alternatibo sa X Auto-Translation para sa Mabilis at Tumpak na Mga Dokumento

Hindi Available ang Samsung AI Translation sa Iran? Mga Praktikal na Solusyon

Hindi Available ang Samsung AI Translation sa Iran? Mga Praktikal na Solusyon

Mga Kasangkapan sa Pagsasalin ng Persian: Isang Praktikal na Gabay para sa Mas Mabilis at Tumpak na Trabaho

Mga Kasangkapan sa Pagsasalin ng Persian: Isang Praktikal na Gabay para sa Mas Mabilis at Tumpak na Trabaho

Ang Pinakamahusay na Alternatibo sa Grok para sa Malalim at May Sanggunian na Pananaliksik

Ang Pinakamahusay na Alternatibo sa Grok para sa Malalim at May Sanggunian na Pananaliksik

Top 15 Features ng AI Image Generator na Talagang Magagamit Mo

Top 15 Features ng AI Image Generator na Talagang Magagamit Mo