What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek-OCR ટ્યુટોરીયલ: LLMs માટે ચેટ હિસ્ટ્રીઝ, લોગ અને ડેટાને કોમ્પ્રેસ કરવો

પરિચય: LLM માટે કમ્પ્રેશન શા માટે હવે સુપરપાવર છે જો તમે ક્યારેય એક અઠવાડિયાના ચેટ લોગ્સ, ટેલિમેટ્રી અથવા મલ્ટી-સિસ્ટમ એપ્લિકેશન ટ્રેસને પ્રોમ્પ્ટમાં ભરવાનો પ્રયાસ કર્યો હોય, તો તમે સંદર્ભ વિન્ડોની હાર્ડ સીલિંગનો અનુભવ કર્યો હશે. સામાન્ય પ્લેબુક—સારાંશ, કાપણી, ભાગ પાડવો—માત્ર તમને દૂર સુધી લઈ જાય છે તે પહેલાં સિગ્નલ લોસ શરૂ થાય છે. DeepSeek-OCR એક આકર્ષક ટ્વિસ્ટ રજૂ કરે છે: અર્થ ફેંકી દીધા વિના સંદર્ભને નાટ્યાત્મક રીતે સંકોચવા માટે OCR-VLM પાઇપલાઇનનો ઉપયોગ કરીને ટેક્સ્ટને વિઝન ટોકન્સમાં સંકુચિત કરો. શરૂઆતના સમુદાય અહેવાલો કાચા ટેક્સ્ટ ટોકન્સને બદલે વિઝ્યુઅલ ટોકન્સનો લાભ લઈને ઓર્ડર-ઓફ-મેગ્નિટ્યુડ કમ્પ્રેશન કાર્યક્ષમતાનો ઉલ્લેખ કરે છે, એક પરિમાણ જેને કેટલાક વિશ્લેષણો લાંબા-સંદર્ભ વર્કફ્લો માટે "સંદર્ભ ઓપ્ટિકલ કમ્પ્રેશન" અને "હજારો ટેક્સ્ટ ટોકન્સને થોડા સો વિઝન ટોકન્સમાં" તરીકે વર્ણવે છે.

આ વ્યવહારુ, સ્ટેપ-બાય-સ્ટેપ DeepSeek-OCR ટ્યુટોરીયલમાં, તમે રિટ્રીવલ પ્રિસિઝન જાળવી રાખીને LLM માટે ચેટ હિસ્ટ્રી, લોગ અને ડેટાને કેવી રીતે સંકુચિત કરવો તે શીખી શકશો—વધુમાં શક્તિશાળી, લો-લેટન્સી પ્રોમ્પ્ટિંગ માટે OCR-આધારિત કમ્પ્રેશનને સારાંશ, હાયરાર્કિકલ ચંકિંગ અને RAG સાથે કેવી રીતે જોડવું.

આ માર્ગદર્શિકા કોના માટે છે

AI કોપાયલોટ્સના નિર્માતાઓ કે જેમણે લાંબી ચેટ્સ અને પ્રવૃત્તિ ટ્રેલ્સને સમાવિષ્ટ કરવી આવશ્યક છે

LLM તર્ક માટે લોગ, ટ્રેસ અને મેટ્રિક્સને નિયંત્રિત કરતા ડેટા એન્જિનિયર્સ

બજેટ પર અલ્ટ્રા-લાંબા સંદર્ભ વર્કફ્લોનું પ્રોટોટાઇપિંગ કરતા સંશોધકો

એક વાક્યમાં હૂક: જો તમે વિસ્તરેલા ટેક્સ્ટને કોમ્પેક્ટ વિઝ્યુઅલ રજૂઆતોમાં ફેરવી શકો છો જેને LLM વાંચી શકે છે, તો તમે તર્કના બ્રેડક્રમ્સનું બલિદાન આપ્યા વિના સંદર્ભ બજેટ પાછું જીતી લો છો.

DeepSeek-OCR કમ્પ્રેશન શું છે? મુખ્ય વિચાર

વિઝન ટોકન કમ્પ્રેશન: ગાઢ ટેક્સ્ટ સ્પેન્સને ઉચ્ચ-માહિતી વિઝ્યુઅલ એમ્બેડિંગ્સમાં કન્વર્ટ કરો; વિઝન ટોકન્સ સમકક્ષ ટેક્સ્ટ ટોકન્સ કરતાં સસ્તા અને વધુ કોમ્પેક્ટ હોઈ શકે છે.

સંદર્ભ ઓપ્ટિકલ કમ્પ્રેશન: મોટી ટેક્સ્ચ્યુઅલ સંદર્ભને છબીઓ અથવા દૃષ્ટિની રીતે સંરચિત લેઆઉટ તરીકે એન્કોડ કરવા માટે OCR/VLM નો ઉપયોગ કરો, ટોકન ગણતરીઓને ઘટાડીને સિમેન્ટિક સ્ટ્રક્ચરને સાચવો.

લાંબા-સંદર્ભ વર્કફ્લો: હજારો ટોકન્સને સેંકડો વિઝન ટોકન્સમાં સંકુચિત કરો, આયોજન, સાધન ઉપયોગ અથવા મલ્ટી-ટર્ન તર્ક માટે મોટા વર્કિંગ સેટને સક્ષમ કરો.

તેનો ઉપયોગ ક્યારે કરવો

પુનરાવર્તિત શબ્દસમૂહો અથવા અનુમાનિત માળખું ધરાવતી ચેટ હિસ્ટ્રી

સિસ્ટમ લોગ્સ, ટ્રેસ, બિલ્ડ આઉટપુટ અથવા એનાલિટિક્સ ડમ્પ્સ

દસ્તાવેજીકરણ સ્નેપશોટ, ડેશબોર્ડ્સ અથવા અર્ધ-સંરચિત અહેવાલો

આ ટ્યુટોરીયલમાં તમે શું બનાવશો તમે પાઇપલાઇન અમલમાં મૂકશો:

ચેટ/લોગ ડેટાને સામાન્ય અને સેગમેન્ટ કરો.

કમ્પ્રેશન વ્યૂહરચનાઓ પસંદ કરો (OCR-વિઝ્યુઅલ, ટેક્સ્ચ્યુઅલ સારાંશ અથવા હાઇબ્રિડ).

DeepSeek-OCR દ્વારા કોમ્પેક્ટ વિઝ્યુઅલ રજૂઆતો જનરેટ કરો.

પુનઃપ્રાપ્તિ માટે મેટાડેટા સાથે અનુક્રમણિકા.

હાઇબ્રિડ RAG પ્રોમ્પ્ટ સાથે ક્વેરી કરો જે ટેક્સ્ટ અને છબીઓ બંનેને સ્વીકારે છે.

વિશ્વસનીયતા અને ખર્ચનું મૂલ્યાંકન કરો.

વિભાગ 1 — ડેટા તૈયારી: અવ્યવસ્થિત ઇતિહાસને મોડેલ-ફ્રેન્ડલી બનાવો

ટાઇમસ્ટેમ્પ્સ અને ભૂમિકાઓને સામાન્ય બનાવો: દા.ત., {normalize_timestamps_example}.

વિપક્ષ: VLM સપોર્ટની જરૂર છે; રેન્ડરિંગ અને ઇમેજ I/O ની જરૂર છે.

જ્યારે ઉપયોગ કરો: તમારે લાંબા સંદર્ભની વિશ્વસનીયતા, આકૃતિઓ/કોષ્ટકો અથવા ચોક્કસ શબ્દસમૂહની જાળવણીની જરૂર હોય.

હાઇબ્રિડ (ભલામણ કરેલ)

એન્કરિંગ માટે "હાડપિંજર" ટેક્સ્ટ સારાંશ રાખો + ઊંડાઈ માટે સંકુચિત વિઝ્યુઅલ કાર્ડ્સ જોડો.

આ પુનઃપ્રાપ્તિ ચોકસાઇ (ટેક્સ્ટ) અને યાદ/વિશ્વસનીયતા (વિઝન) ને સંતુલિત કરે છે.

વિભાગ 3 — DeepSeek-OCR સાથે વિઝ્યુઅલ સંદર્ભ કાર્ડ્સ બનાવવું ધ્યેય: OCR/VLM વાંચન માટે ઑપ્ટિમાઇઝ કરેલી 5–20 KB ટેક્સ્ટ સ્પેન્સને 512–1024 px છબીઓમાં રૂપાંતરિત કરો.

ટેમ્પલેટ સૂચનો

શીર્ષક બાર: સત્ર ID, સમય શ્રેણી, વિષય લેબલ.

બે-સ્તંભ લેઆઉટ: મુખ્ય વળાંકો/લોગ માટે ડાબો સ્તંભ; હાઇલાઇટ્સ માટે જમણો સ્તંભ (ભૂલો, નિર્ણયો, આદેશો, મેટ્રિક્સ).

કોડ/લોગ લાઇન માટે મોનોસ્પેસ બ્લોક્સ; સંદર્ભ માટે બુલેટ સારાંશ.

કોન્ટ્રાસ્ટ-ફ્રેન્ડલી થીમ; નાના ફોન્ટ્સ ટાળો (<1x સ્કેલ પર 11–12 pt).

રેન્ડરિંગ ટીપ્સ

સ્વચ્છ, સુસંગત કાર્ડ્સ બનાવવા માટે HTML/CSS નો ઉપયોગ કરો (દા.ત., Puppeteer/Playwright સ્ક્રીનશૉટ્સ).

પ્રોમ્પ્ટ્સમાં ચોક્કસ વસ્તુઓનો સંદર્ભ આપવા માટે સ્થિર એન્કર (લાઇન નંબર્સ, IDs) શામેલ કરો.

દરેક કાર્ડ દીઠ ~200–400 શબ્દો સુધી મર્યાદિત કરો; દરેક સત્ર દીઠ કાર્ડ્સનો સ્ટેક બનાવો.

DeepSeek-OCR પાસ

રાઉન્ડ-ટ્રિપ વિશ્વસનીયતા સુનિશ્ચિત કરવા માટે DeepSeek-OCR ચલાવો: કાર્ડ → OCR ટેક્સ્ટ. આ ડબલ-ચેક કરે છે કે તમારું લેઆઉટ અને ફોન્ટ્સ ચોક્કસ રીતે ડીકોડ થાય છે.

જો OCR ટેક્સ્ટ અલગ પડે છે, તો ફોન્ટ્સ, સ્પેસિંગને સમાયોજિત કરો અથવા ગાઢ કોડને બહુવિધ કાર્ડ્સમાં તોડો.

આ શા માટે કામ કરે છે સમુદાય અને તૃતીય-પક્ષ લેખો વાંચી શકાય તેવી જાળવણી કરતી વખતે ટેક્સ્ચ્યુઅલ સંદર્ભને વિઝન ટોકન્સમાં સંકુચિત કરતી વખતે અર્થપૂર્ણ કાર્યક્ષમતા લાભો તરફ નિર્દેશ કરે છે.

વિભાગ 4 — સારાંશ સ્તરો: હાડપિંજર રાખો, સ્નાયુ સ્ટોર કરો સ્તરવાળી સારાંશ અમલમાં મૂકો જેથી જ્યારે જરૂર હોય ત્યારે તમે ફક્ત રિઝોલ્યુશનને સ્કેલ કરી શકો.

L0: અણુ લાઇન/ટર્ન ટૅગ્સ — ભૂમિકા, ટાઇમસ્ટેમ્પ, પ્રકાર (ભૂલ, નોંધ, કોડ), એમ્બેડિંગ.

L1: દરેક 20–40 વળાંકો અથવા 2–5 મિનિટના લોગ માટે માઇક્રો-સારાંશ (1–2 વાક્યો).

L2: નિર્ણયો, બ્લોકર, પરિણામો અને વિઝ્યુઅલ કાર્ડ્સની લિંક્સ સાથે સત્ર એબ્સ્ટ્રેક્ટ (5–8 બુલેટ્સ).

L3: થ્રેડ-ઓફ-થ્રેડ્સ — સાપ્તાહિક અથવા પ્રોજેક્ટ-સ્તરના રોલઅપ્સ.

વ્યવહારુ હ્યુરિસ્ટિક્સ

હંમેશાં શાબ્દિક એન્કર શામેલ કરો: ભૂલ કોડ્સ, SQL IDs, ટ્રેસ IDs, કમિટ SHAs.

એબ્સ્ટ્રેક્ટિવ પહેલાં એક્સ્ટ્રેક્ટિવ સારાંશનો ઉપયોગ કરો; પછી વાંચનક્ષમતા માટે એબ્સ્ટ્રેક્ટિવ સાથે સુધારો.

ઝડપી કેચ-અપ પ્રોમ્પ્ટિંગને ઝડપી બનાવવા માટે "છેલ્લા સત્ર પછી શું બદલાયું" બુલેટ ઉમેરો.

વિભાગ 5 — હાઇબ્રિડ RAG માટે ઇન્ડેક્સિંગ અને પુનઃપ્રાપ્તિ મેટાડેટા સ્કીમા

doc_id, session_id, time_range, roles, topic labels

importance score, error severity, component/service

links: {links_example}.

ચોકસાઇ અને ઊંડાઈ માટે સ્તરવાળી સારાંશ અને RAG સાથે OCR-આધારિત કમ્પ્રેશનને જોડો.

વિશ્વસનીયતાને ઊંચી અને લેટન્સી ઓછી રાખવા માટે લેઆઉટ, ફોન્ટ્સ અને ઇન્ડેક્સિંગને ઑપ્ટિમાઇઝ કરો.

સંકુચિત કાર્ડ્સને પ્રથમ-વર્ગના પુરાવા તરીકે ગણો અને તેમને પ્રોમ્પ્ટ્સમાં ટાંકો.

આગળનાં પગલાં

એક ચેટ પ્રોજેક્ટ અથવા લોગ ડેટાસેટ પર ન્યૂનતમ પાઇપલાઇનનું પ્રોટોટાઇપ કરો.

10 લાક્ષણિક ક્વેરી માટે ટેક્સ્ટ-ઓન્લી વિરુદ્ધ હાઇબ્રિડ કમ્પ્રેશનનું A/B પરીક્ષણ કરો.

વિશ્વસનીયતા મેટ્રિક્સના આધારે કાર્ડ ડિઝાઇન, રિટ્રીવર મિક્સ અને બજેટ્સને ટ્યુન કરો.

કેશીંગ, ACLs અને મોનિટરિંગ સાથે ટીમ વર્કફ્લોમાં સ્કેલ કરો.

FAQ

Q1: DeepSeek-OCR શું છે અને LLM માટે ચેટ હિસ્ટ્રીને સંકુચિત કરવા માટે તેનો ઉપયોગ શા માટે કરવો? DeepSeek-OCR સંદર્ભ ઓપ્ટિકલ કમ્પ્રેશનને સક્ષમ કરે છે—મોટા ટેક્સ્ટ સ્પેન્સને વિઝ્યુઅલ ટોકન્સ તરીકે એન્કોડ કરે છે જેને VLMs કાર્યક્ષમ રીતે પ્રોસેસ કરી શકે છે. આ ટોકન બજેટને સંકોચી શકે છે અને લાંબા સંદર્ભો માટે ઉચ્ચ વિશ્વસનીયતા જાળવતી વખતે ટેક્સ્ટ-ઓન્લી સારાંશ કરતાં વધુ સારી રીતે સ્ટ્રક્ચરને સાચવી શકે છે.

Q2: વિઝ્યુઅલ ટોકન કમ્પ્રેશન ટેક્સ્ટ સારાંશ સાથે કેવી રીતે સરખાવે છે? વિઝ્યુઅલ ટોકન કમ્પ્રેશન ઘણીવાર લેઆઉટ અને ચોક્કસ શબ્દસમૂહને જાળવી રાખીને ઉચ્ચ અસરકારક કમ્પ્રેશન પ્રાપ્ત કરે છે, જે અવતરણો, કોડ અને ભૂલ સ્ટ્રિંગ્સ સાથે મદદ કરે છે. સારાંશ ઝડપી અને સરળ છે પરંતુ દુર્લભ વિગતોને છોડી શકે છે અથવા અમૂર્ત ભૂલો રજૂ કરી શકે છે.

Q3: શું હું લોગ અને ચેટ્સ માટે DeepSeek-OCR ને RAG સાથે મિક્સ કરી શકું? હા. ઝડપી યાદ માટે ટેક્સ્ટ સારાંશનો ઉપયોગ કરો અને ઊંડાઈ માટે OCR-માન્ય વિઝ્યુઅલ કાર્ડ્સ જોડો. બે-તબક્કાનું રિટ્રીવર પહેલાં એબ્સ્ટ્રેક્ટ્સ મેળવી શકે છે, પછી સૌથી વધુ સંબંધિત કાર્ડ્સ, ચોકસાઇ અને સંદર્ભ કવરેજને સંતુલિત કરે છે.

Q4: OCR-સંકુચિત સંદર્ભ કાર્ડ્સ માટે કયા લેઆઉટ શ્રેષ્ઠ કામ કરે છે? શીર્ષક બાર, બે-સ્તંભ સામગ્રી, કોડ માટે મોનોસ્પેસ બ્લોક્સ અને હાઇલાઇટ્સ માટે સ્પષ્ટ બુલેટ્સ સાથે સ્વચ્છ HTML/CSS નો ઉપયોગ કરો. દરેક કાર્ડ દીઠ 200–400 શબ્દો, 11–12 pt ફોન્ટ્સ અથવા મોટા રાખો અને OCR રાઉન્ડ-ટ્રિપ સાથે વાંચનક્ષમતાને માન્ય કરો.

Q5: શું કમ્પ્રેશન મહત્વપૂર્ણ માહિતી ગુમાવી રહ્યું છે કે કેમ તે હું કેવી રીતે માપું? હકીકતોના ગોલ્ડ સેટ સામે ટ્રેક વિશ્વસનીયતા@K, લાઇન-નંબર ટાંકણો દ્વારા પુરાવા કવરેજ અને લેટન્સી/ખર્ચ મેટ્રિક્સ. ≥95% હકીકત જાળવણીને લક્ષ્ય બનાવો અને ખાતરી કરો કે મોટાભાગના જવાબો કાર્ડ લાઇન અથવા એન્કર ID ટાંકે છે.