What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek‑OCR ട്യൂട്ടോറിയൽ: LLM-കൾക്കായുള്ള ചാറ്റ് ഹിസ്റ്ററികൾ, ലോഗുകൾ & ഡാറ്റ എന്നിവ കംപ്രസ്സ് ചെയ്യുക

ആമുഖം: എന്തുകൊണ്ട് കംപ്രഷൻ ഇപ്പോൾ LLM-കൾക്കുള്ള ഒരു സൂപ്പർ പവർ ആണ് നിങ്ങൾ ഒരു ആഴ്ചത്തെ ചാറ്റ് ലോഗുകൾ, ടെലിമെട്രി അല്ലെങ്കിൽ മൾട്ടി-സിസ്റ്റം ആപ്പ് ട്രെയ്‌സുകൾ ഒരു പ്രോംപ്റ്റിൽ ഉൾപ്പെടുത്താൻ ശ്രമിച്ചിട്ടുണ്ടെങ്കിൽ, കോൺടെക്സ്റ്റ് വിൻഡോകളുടെ പരിധി നിങ്ങൾ മനസ്സിലാക്കിയിട്ടുണ്ടാകും. സംഗ്രഹിക്കുക, വെട്ടിച്ചുരുക്കുക, ഭാഗങ്ങളാക്കുക തുടങ്ങിയ സാധാരണ രീതികൾ ഒരു പരിധി വരെ മാത്രമേ ഫലപ്രദമാകൂ. ഡീപ്‌സീക്ക്-OCR ഒരു പ്രധാന വഴിത്തിരിവ് അവതരിപ്പിക്കുന്നു: അർത്ഥം നഷ്ടപ്പെടുത്താതെ തന്നെ കോൺടെക്സ്റ്റ് ഗണ്യമായി ചുരുക്കുന്നതിന് OCR-VLM പൈപ്പ്‌ലൈൻ ഉപയോഗിച്ച് ടെക്സ്റ്റ് വിഷൻ ടോക്കണുകളിലേക്ക് കംപ്രസ്സ് ചെയ്യുക. റോ ടെക്സ്റ്റ് ടോക്കണുകൾക്ക് പകരം വിഷ്വൽ ടോക്കണുകൾ ഉപയോഗിക്കുന്നതിലൂടെ കമ്മ്യൂണിറ്റി റിപ്പോർട്ടുകൾ വലിയ തോതിലുള്ള കംപ്രഷൻ കാര്യക്ഷമതയെക്കുറിച്ച് പറയുന്നു. ചില വിശകലനങ്ങൾ ഇതിനെ “കോൺടെക്സ്റ്റ് ഒപ്റ്റിക്കൽ കംപ്രഷൻ” എന്നും “ആയിരക്കണക്കിന് ടെക്സ്റ്റ് ടോക്കണുകൾ കുറഞ്ഞ എണ്ണം വിഷൻ ടോക്കണുകളാക്കി മാറ്റുന്നു” എന്നും വിശേഷിപ്പിക്കുന്നു.

ഈ ലളിതമായതും ഘട്ടം ഘട്ടമായുള്ളതുമായ DeepSeek-OCR ട്യൂട്ടോറിയലിൽ, LLM-കൾക്കായി ചാറ്റ് ഹിസ്റ്ററികൾ, ലോഗുകൾ, ഡാറ്റ എന്നിവ എങ്ങനെ കംപ്രസ്സ് ചെയ്യാമെന്നും കൃത്യത നിലനിർത്താമെന്നും നിങ്ങൾ പഠിക്കും. OCR അടിസ്ഥാനമാക്കിയുള്ള കംപ്രഷൻ സംഗ്രഹിക്കൽ, ശ്രേണീകൃതമായ ഭാഗങ്ങളാക്കൽ, RAG എന്നിവയുമായി എങ്ങനെ സംയോജിപ്പിക്കാമെന്നും പഠിക്കാം.

ആർക്കുവേണ്ടിയാണ് ഈ ഗൈഡ്

AI കോപൈലറ്റുകൾ നിർമ്മിക്കുന്നവർക്ക്, അവർക്ക് വലിയ ചാറ്റുകളും പ്രവർത്തന രേഖകളും ഉൾക്കൊള്ളേണ്ടി വരുന്നു.

ഡാറ്റാ എഞ്ചിനീയർമാർ LLM ന്യായവാദത്തിനായി ലോഗുകൾ, ട്രെയ്‌സുകൾ, അളവുകൾ എന്നിവ കൈകാര്യം ചെയ്യുന്നു.

പരിമിതമായ ബഡ്ജറ്റിൽ പ്രവർത്തിക്കുന്ന ഗവേഷകർക്ക്.

ഒരു വാക്യത്തിൽ കൊളുത്തിടുക: നിങ്ങൾക്ക് വലിയ ടെക്സ്റ്റ് കോം‌പാക്റ്റ് വിഷ്വൽ പ്രാതിനിധ്യങ്ങളാക്കി മാറ്റാൻ കഴിഞ്ഞാൽ, LLM-ന് വായിക്കാൻ കഴിയുന്ന രൂപത്തിൽ ന്യായവാദത്തിന്റെ സൂചനകൾ നഷ്ടപ്പെടുത്താതെ നിങ്ങൾക്ക് കോൺടെക്സ്റ്റ് ബഡ്ജറ്റ് തിരികെ നേടാം.

എന്താണ് DeepSeek-OCR കംപ്രഷൻ? പ്രധാന ആശയം

വിഷൻ ടോക്കൺ കംപ്രഷൻ: വലിയ ടെക്സ്റ്റ് ഭാഗങ്ങളെ ഉയർന്ന വിവരങ്ങളുള്ള വിഷ്വൽ എംബെഡിംഗുകളാക്കി മാറ്റുക; വിഷൻ ടോക്കണുകൾ തുല്യമായ ടെക്സ്റ്റ് ടോക്കണുകളേക്കാൾ വിലകുറഞ്ഞതും ഒതുക്കമുള്ളതുമാകാം.

കോൺടെക്സ്റ്റ് ഒപ്റ്റിക്കൽ കംപ്രഷൻ: വലിയ ടെക്സ്റ്റ് കോൺടെക്സ്റ്റ് ചിത്രങ്ങളായോ അല്ലെങ്കിൽ വിഷ്വൽ ലേഔട്ടുകളായോ എൻകോഡ് ചെയ്യാൻ OCR/VLM ഉപയോഗിക്കുക, ടോക്കണുകളുടെ എണ്ണം കുറയ്ക്കുമ്പോൾ തന്നെ സെമാൻ്റിക് ഘടന നിലനിർത്തുക.

നീണ്ട കോൺടെക്സ്റ്റ് വർക്ക്ഫ്ലോകൾ: ആയിരക്കണക്കിന് ടോക്കണുകളെ നൂറുകണക്കിന് വിഷൻ ടോക്കണുകളാക്കി കംപ്രസ്സ് ചെയ്യുക, ഇത് ആസൂത്രണത്തിനും ടൂൾ ഉപയോഗത്തിനും മൾട്ടി-ടേൺ ന്യായവാദത്തിനും വലിയ വർക്കിംഗ് സെറ്റുകൾ പ്രാപ്തമാക്കുന്നു.

എപ്പോൾ ഉപയോഗിക്കാം

ആവർത്തിച്ചുള്ള పదబంధాలు അഥവാ പ്രവചിക്കാവുന്ന ഘടനയുള്ള చాట్ ഹിസ്റ്ററികൾ

സിസ്റ്റം ലോഗുകൾ, ട്രെയ്‌സുകൾ, ബിൽഡ് ഔട്ട്പുട്ടുകൾ അല്ലെങ്കിൽ അനലിറ്റിക്സ് ഡംപുകൾ

ഡോക്യുമെൻ്റേഷൻ സ്നാപ്പ്ഷോട്ടുകൾ, ഡാഷ്ബോർഡുകൾ അല്ലെങ്കിൽ സെമി-സ്ട്രക്ചേർഡ് റിപ്പോർട്ടുകൾ

ഈ ട്യൂട്ടോറിയലിൽ നിങ്ങൾ എന്താണ് നിർമ്മിക്കാൻ പോകുന്നത് ഒരു പൈപ്പ്‌ലൈൻ നിങ്ങൾ നടപ്പിലാക്കും:

ചാറ്റ്/ലോഗ് ഡാറ്റ സാധാരണ നിലയിലാക്കുകയും വിഭജിക്കുകയും ചെയ്യുക.

കംപ്രഷൻ തന്ത്രങ്ങൾ തിരഞ്ഞെടുക്കുക (OCR-വിഷ്വൽ, ടെക്സ്റ്റ് സംഗ്രഹിക്കൽ അല്ലെങ്കിൽ ഹൈബ്രിഡ്).

DeepSeek-OCR വഴി ഒതുക്കമുള്ള വിഷ്വൽ പ്രാതിനിധ്യങ്ങൾ ഉണ്ടാക്കുക.

തിരിച്ചെടുക്കലിനായി മെറ്റാഡാറ്റ ഉപയോഗിച്ച് സൂചികയിലാക്കുക.

ടെക്സ്റ്റും ചിത്രങ്ങളും സ്വീകരിക്കുന്ന ഒരു ഹൈബ്രിഡ് RAG പ്രോംപ്റ്റ് ഉപയോഗിച്ച് ചോദ്യം ചെയ്യുക.

വിശ്വസ്തതയും ചെലവും വിലയിരുത്തുക.

Section 1 — ഡാറ്റാ തയ്യാറാക്കൽ: മോശമായ ഹിസ്റ്ററികളെ മോഡലിന് അനുയോജ്യമാക്കുക

സമയമുദ്രകളും റോളുകളും സാധാരണീകരിക്കുക: ഉദാഹരണത്തിന്, .

Cons: VLM പിന്തുണ ആവശ്യമാണ്; റെൻഡറിംഗും ഇമേജ് I/O യും ആവശ്യമാണ്.

എപ്പോൾ ഉപയോഗിക്കാം: നിങ്ങൾക്ക് വലിയ കോൺടെക്സ്റ്റ് വിശ്വസ്തത, ഡയഗ്രമുകൾ/പട്ടികകൾ അല്ലെങ്കിൽ കൃത്യമായ పదబంధాలు നിലനിർത്തൽ എന്നിവ ആവശ്യമായി വരുമ്പോൾ.

ഹൈബ്രിഡ് (ശുപാർശ ചെയ്യുന്നത്)

ആങ്കറിംഗിനായി “โครงกระดูก” ടെക്സ്റ്റ് സംഗ്രഹം സൂക്ഷിക്കുക + ആഴത്തിനായി കംപ്രസ് ചെയ്ത വിഷ്വൽ കാർഡുകൾ അറ്റാച്ചുചെയ്യുക.

ഇത് കൃത്യതയും (ടെക്സ്റ്റ്) റീക്കോൾ/വിശ്വസ്തതയും (വിഷൻ) തമ്മിൽ സന്തുലിതമാക്കുന്നു.

Section 3 — DeepSeek-OCR ഉപയോഗിച്ച് വിഷ്വൽ കോൺടെക്സ്റ്റ് കാർഡുകൾ നിർമ്മിക്കുക ലക്ഷ്യം: 5–20 KB ടെക്സ്റ്റ് ഭാഗങ്ങളെ OCR/VLM റീഡിംഗിനായി ഒപ്റ്റിമൈസ് ചെയ്ത 512–1024 px ചിത്രങ്ങളാക്കി മാറ്റുക.

Template നിർദ്ദേശങ്ങൾ

Title bar: session ID, സമയ പരിധി, വിഷയ ലേബൽ.

രണ്ട് കോളം ലേഔട്ട്: പ്രധാന திருப்பங்கள்/ലോഗുകൾക്കായി இடது കോളം; முக்கிய அம்சங்களுக்காக வலது കോളം (തെറ്റുകൾ, തീരുമാനങ്ങൾ, കമാൻഡുകൾ, അളവുകൾ).

കോഡ്/ലോഗ് ലൈനുകൾക്കായി മോണോസ്‌പേസ് ബ്ലോക്കുകൾ; കോൺടെക്സ്റ്റിനായുള്ള புல்லட் സംഗ്രഹങ്ങൾ.

വ്യത്യാസമുള്ള തീം; ചെറിയ ഫോണ്ടുകൾ ഒഴിവാക്കുക (<1x സ്കെയിലിൽ 11–12 pt-ൽ കുറഞ്ഞത്).

റെൻഡറിംഗ് ടിപ്പുകൾ

വൃത്തിയുള്ളതും സ്ഥിരതയുള്ളതുമായ കാർഡുകൾ നിർമ്മിക്കാൻ HTML/CSS ഉപയോഗിക്കുക (ഉദാഹരണത്തിന്, Puppeteer/Playwright സ്ക്രീൻഷോട്ടുകൾ).

പ്രോംപ്റ്റുകളിൽ നിർദ്ദിഷ്ട ഇനങ്ങൾ റഫർ ചെയ്യാൻ நிலையான ആങ്കറുകൾ (ലൈൻ നമ്പറുകൾ, ID-കൾ) ഉൾപ്പെടുത്തുക.

ഓരോ കാർഡിലും ഏകദേശം ~200–400 വാക്കുകളായി പരിമിതപ്പെടുത്തുക; ഓരോ സെഷനുമായി ബന്ധപ്പെട്ട് കാർഡുകളുടെ ഒരു അടുക്ക് உருவாக்கவும்.

DeepSeek-OCR പാസ്

റൗണ്ട്-ട്രിപ്പ് വിശ്വസ്തത ഉറപ്പാക്കാൻ DeepSeek-OCR പ്രവർത്തിപ്പിക്കുക: കാർഡ് → OCR ടെക്സ്റ്റ്. നിങ്ങളുടെ ലേഔട്ടും ഫോണ്ടുകളും കൃത്യമായി ഡീകോഡ് ചെയ്യുന്നുണ്ടോയെന്ന് ഇത് വീണ്ടും പരിശോധിക്കുന്നു.

OCR ടെക്സ്റ്റ് വ്യത്യാസപ്പെടുന്നുണ്ടെങ്കിൽ, ഫോണ്ടുകൾ, സ്പേസിംഗ് എന്നിവ ക്രമീകരിക്കുക അല്ലെങ്കിൽ വലിയ കോഡിനെ ഒന്നിലധികം കാർഡുകളായി വിഭജിക്കുക.

ഇതെങ്ങനെ പ്രവർത്തിക്കുന്നു വാചകപരമായ संदर्भத்தை விஷன் டோക്കണுகளாக கம்ப்ரஸ் ചെയ്യുമ്പോൾ വായനാക്ഷമത നിലനിർത്തുന്നതിൽ കാര്യമായ કાર્યക്ഷമത നേട്ടങ്ങൾ ഉള്ളതായി കമ്മ്യൂണിറ്റിയും மூன்றாம் தரപ്പ് எழுத்துக்களும் ചൂണ്ടിക്കാണിക്കുന്നു.

Section 4 — സംഗ്രഹിക്കൽ ലെയറുകൾ: അസ്ഥികൂടം സൂക്ഷിക്കുക, പേശികളെ സംഭരിക്കുക ആവശ്യമുള്ളപ്പോൾ മാത്രം റെസല്യൂഷൻ വർദ്ധിപ്പിക്കാൻ കഴിയുന്ന ലെയേർഡ് സംഗ്രഹങ്ങൾ നടപ്പിലാക്കുക.

L0: ആറ്റോമിക് ലൈൻ/டர்ன் ടാഗുകൾ — റോൾ, സമയമുദ്ര, തരം (തെറ്റ്, കുറിപ്പ്, കോഡ്), എംബെഡിംഗ്.

L1: ஒவ்வொரு 20–40 திருப்பங்களுக்கோ அல்லது 2–5 நிமிட ലോഗുകൾക്കോ മൈക്രോ-സംഗ്രഹം (1–2 വാക്യങ്ങൾ).

L2: തീരുമാനങ്ങൾ, തടസ്സങ്ങൾ, ഫലങ്ങൾ, വിഷ്വൽ കാർഡുകളിലേക്കുള്ള ലിങ്കുകൾ എന്നിവ ഉൾക്കൊള്ളുന്ന സെഷൻ സംഗ്രഹം (5–8 புல்லட்கள்).

L3: ത്രെഡ്-ഓഫ്-ത്രെഡുകൾ — வாராந்திர அல்லது திட்ட நிலை रोलപ്പുകൾ.

പ്രായോഗികമായ ചില വഴികൾ

എല്ലായ്പ്പോഴും കൃത്യമായ ആങ്കറുകൾ ഉൾപ്പെടുത്തുക: பிழை குறியீடுகள், SQL IDs, தடமறியும் IDs, கமிட் SHAs.

സംഗ്രഹരൂപം ഉണ്ടാക്കുന്നതിനു മുൻപ്, எக்ஸ்ட்ராக்டிவ் സംഗ്രഹങ്ങൾ ഉപയോഗിക്കുക; அதன் பின், வாசிப்புத்தன்மைக்காக சுருக்கமான சுருக்கங்களைச் சேர்க்கவும்.

വേഗത്തിൽ പ്രോംപ്റ്റ് ചെയ്യാൻ സഹായിക്കുന്നതിന്, “கடைசி அமர்வுக்குப் பிறகு என்ன மாறியது” என்ற புல்லட்டைச் சேர்க்கவும்.

Section 5 — ഹൈബ്രിഡ് RAG-നുള്ള സൂചികയും மீட்டെടുക്കലും മെറ്റാഡാറ്റ സ്കീമ

doc_id, session_id, time_range, roles, topic labels

முக்கியத்துவ மதிப்பெண், பிழை தீவிரம், கூறு/சேவை

இணைப்புகள்: .

കൃത്യതയ്ക്കും ആഴത്തിനും വേണ്ടി ലேயേർഡ് സംഗ്രഹങ്ങളും RAG-ഉം അടിസ്ഥാനമാക്കിയുള്ള OCR കംപ്രഷൻ സംയോജിപ്പിക്കുക.

உயர் விசுவாசத்தையும் குறைந்த தாமதத்தையும் வைத்திருக்க லேஅவுட்கள், எழுத்துருக்கள் மற்றும் அட்டவணையிடல் ஆகியவற்றை மேம்படுத்தவும்.

கம்ப்ரஸ் செய்யப்பட்ட அட்டைகளை முதல் தர ஆதாரமாகக் கருதி പ്രോம்പ്റ്റുകളിൽ குறிக்கவும்.

അടുത്ത പടികൾ

ஒரு சாட் திட்டம் அல்லது லாக் தரவுத்தளத்தில் குறைந்தபட்ச पाइपलाइन முன்மாதிரி.

10 സാധാരണ கேள்விகளுக்கு உரை மட்டும் எதிராக கலப்பு சுருக்க சோதனையை A/B செய்யுங்கள.

விசுவாச அளவீடுகளின் அடிப்படையில் அட்டை வடிவமைப்பு, மீட்டெடுக்கும் கலவை மற்றும் வரவுசெலவுத் திட்டங்களை சரிசெய்யவும்.

சேமிப்பகம், ACLகள் மற்றும் கண்காணிப்புடன் குழு ஒட்டொழுங்கிற்கு அளவிடவும்.

அடிக்கடி கேட்கப்படும் கேள்விகள்

கே1: LLMகளுக்கான அரட்டை வரலாறுகளைச் சுருக்க DeepSeek-OCR என்றால் என்ன மற்றும் அதை ஏன் பயன்படுத்த வேண்டும்? DeepSeek-OCR சூழல் ஆப்டிகல் சுருக்கத்தை செயல்படுத்துகிறது - பெரிய உரை ஸ்பான்களை VLMகள் திறம்பட செயலாக்கக்கூடிய காட்சி டோக்கன்களாக குறியாக்கம் செய்கிறது. இது டோக்கன் வரவுசெலவுத் திட்டங்களைக் குறைத்து, உரை மட்டும் சுருக்கத்தை விட கட்டமைப்பை சிறப்பாகப் பாதுகாத்து நீண்ட சூழல்களுக்கு அதிக விசுவாசத்தை பராமரிக்க முடியும்.

கே2: காட்சி டோக்கன் சுருக்கம் உரை சுருக்கத்துடன் எவ்வாறு ஒப்பிடுகிறது? காட்சி டோக்கன் சுருக்கம் பெரும்பாலும் அதிக பயனுள்ள சுருக்கத்தை அடைகிறது, அதே நேரத்தில் தளவமைப்பு மற்றும் சரியான சொற்றொடரை தக்க வைத்துக் கொள்கிறது, இது மேற்கோள்கள், குறியீடு மற்றும் பிழை சரங்களுக்கு உதவுகிறது. சுருக்கம் வேகமாகவும் எளிமையாகவும் இருக்கும், ஆனால் அரிய விவரங்களை தவிர்க்கலாம் அல்லது சுருக்க பிழைகளை அறிமுகப்படுத்தலாம்.

கே3: பதிவுகள் மற்றும் சாட்க்காக நான் DeepSeek-OCRஐ RAG உடன் கலக்க முடியுமா? ஆம். வேகமான நினைவுகூரலுக்கு உரை சுருக்கங்களைப் பயன்படுத்தவும் மற்றும் ஆழத்திற்கு OCR-சரிபார்க்கப்பட்ட காட்சி அட்டைகளை இணைக்கவும். இரண்டு நிலை மீட்டெடுப்பவர் முதலில் சுருக்கங்களைப் பெறலாம், பின்னர் மிகவும் பொருத்தமான அட்டைகளை துல்லியம் மற்றும் சூழல் கவரேஜ் சமநிலைப்படுத்தலாம்.

கே4: OCR-சுருக்கப்பட்ட சூழல் அட்டைகளுக்கு எந்த தளவமைப்புகள் சிறந்த முறையில் செயல்படுகின்றன? தலைப்பு பட்டி, இரண்டு நிரல் உள்ளடக்கம், குறியீடுக்கான monospace தொகுதிகள் மற்றும் சிறப்பம்சங்களுக்கான தெளிவான புல்லட்கள் கொண்ட சுத்தமான HTML/CSSஐப் பயன்படுத்தவும். அட்டைக்கு 200-400 வார்த்தைகள், 11-12 pt எழுத்துருக்கள் அல்லது பெரியதாக வைத்து OCR சுற்றுப்பயணத்துடன் வாசிப்புத்திறனைச் சரிபார்க்கவும்.

கே5: சுருக்கம் முக்கியமான தகவல்களை இழக்கிறதா என்பதை நான் எப்படி அளவிடுவது? உண்மை களின் தங்கத் தொகுப்புக்கு எதிராக K@Fidelity, வரி-எண் மேற்கோள்கள் மூலம் சான்றுக் கவரேஜ் மற்றும் தாமதம்/செலவு அளவீடுகளை கண்காணிக்கவும். ≥95% உண்மைத் தக்கவைப்பை இலக்காகக் கொண்டு, பெரும்பாலான பதில்கள் அட்டை வரி அல்லது ஆங்கர் ஐடியைக் குறிப்பிடுவதை உறுதிசெய்யவும்.