ആമുഖം: എന്തുകൊണ്ട് കംപ്രഷൻ ഇപ്പോൾ LLM-കൾക്കുള്ള ഒരു സൂപ്പർ പവർ ആണ്
നിങ്ങൾ ഒരു ആഴ്ചത്തെ ചാറ്റ് ലോഗുകൾ, ടെലിമെട്രി അല്ലെങ്കിൽ മൾട്ടി-സിസ്റ്റം ആപ്പ് ട്രെയ്സുകൾ ഒരു പ്രോംപ്റ്റിൽ ഉൾപ്പെടുത്താൻ ശ്രമിച്ചിട്ടുണ്ടെങ്കിൽ, കോൺടെക്സ്റ്റ് വിൻഡോകളുടെ പരിധി നിങ്ങൾ മനസ്സിലാക്കിയിട്ടുണ്ടാകും. സംഗ്രഹിക്കുക, വെട്ടിച്ചുരുക്കുക, ഭാഗങ്ങളാക്കുക തുടങ്ങിയ സാധാരണ രീതികൾ ഒരു പരിധി വരെ മാത്രമേ ഫലപ്രദമാകൂ. ഡീപ്സീക്ക്-OCR ഒരു പ്രധാന വഴിത്തിരിവ് അവതരിപ്പിക്കുന്നു: അർത്ഥം നഷ്ടപ്പെടുത്താതെ തന്നെ കോൺടെക്സ്റ്റ് ഗണ്യമായി ചുരുക്കുന്നതിന് OCR-VLM പൈപ്പ്ലൈൻ ഉപയോഗിച്ച് ടെക്സ്റ്റ് വിഷൻ ടോക്കണുകളിലേക്ക് കംപ്രസ്സ് ചെയ്യുക. റോ ടെക്സ്റ്റ് ടോക്കണുകൾക്ക് പകരം വിഷ്വൽ ടോക്കണുകൾ ഉപയോഗിക്കുന്നതിലൂടെ കമ്മ്യൂണിറ്റി റിപ്പോർട്ടുകൾ വലിയ തോതിലുള്ള കംപ്രഷൻ കാര്യക്ഷമതയെക്കുറിച്ച് പറയുന്നു. ചില വിശകലനങ്ങൾ ഇതിനെ “കോൺടെക്സ്റ്റ് ഒപ്റ്റിക്കൽ കംപ്രഷൻ” എന്നും “ആയിരക്കണക്കിന് ടെക്സ്റ്റ് ടോക്കണുകൾ കുറഞ്ഞ എണ്ണം വിഷൻ ടോക്കണുകളാക്കി മാറ്റുന്നു” എന്നും വിശേഷിപ്പിക്കുന്നു.
ഈ ലളിതമായതും ഘട്ടം ഘട്ടമായുള്ളതുമായ DeepSeek-OCR ട്യൂട്ടോറിയലിൽ, LLM-കൾക്കായി ചാറ്റ് ഹിസ്റ്ററികൾ, ലോഗുകൾ, ഡാറ്റ എന്നിവ എങ്ങനെ കംപ്രസ്സ് ചെയ്യാമെന്നും കൃത്യത നിലനിർത്താമെന്നും നിങ്ങൾ പഠിക്കും. OCR അടിസ്ഥാനമാക്കിയുള്ള കംപ്രഷൻ സംഗ്രഹിക്കൽ, ശ്രേണീകൃതമായ ഭാഗങ്ങളാക്കൽ, RAG എന്നിവയുമായി എങ്ങനെ സംയോജിപ്പിക്കാമെന്നും പഠിക്കാം.
ആർക്കുവേണ്ടിയാണ് ഈ ഗൈഡ്
- AI കോപൈലറ്റുകൾ നിർമ്മിക്കുന്നവർക്ക്, അവർക്ക് വലിയ ചാറ്റുകളും പ്രവർത്തന രേഖകളും ഉൾക്കൊള്ളേണ്ടി വരുന്നു.
- ഡാറ്റാ എഞ്ചിനീയർമാർ LLM ന്യായവാദത്തിനായി ലോഗുകൾ, ട്രെയ്സുകൾ, അളവുകൾ എന്നിവ കൈകാര്യം ചെയ്യുന്നു.
- പരിമിതമായ ബഡ്ജറ്റിൽ പ്രവർത്തിക്കുന്ന ഗവേഷകർക്ക്.
ഒരു വാക്യത്തിൽ കൊളുത്തിടുക: നിങ്ങൾക്ക് വലിയ ടെക്സ്റ്റ് കോംപാക്റ്റ് വിഷ്വൽ പ്രാതിനിധ്യങ്ങളാക്കി മാറ്റാൻ കഴിഞ്ഞാൽ, LLM-ന് വായിക്കാൻ കഴിയുന്ന രൂപത്തിൽ ന്യായവാദത്തിന്റെ സൂചനകൾ നഷ്ടപ്പെടുത്താതെ നിങ്ങൾക്ക് കോൺടെക്സ്റ്റ് ബഡ്ജറ്റ് തിരികെ നേടാം.
എന്താണ് DeepSeek-OCR കംപ്രഷൻ? പ്രധാന ആശയം
- വിഷൻ ടോക്കൺ കംപ്രഷൻ: വലിയ ടെക്സ്റ്റ് ഭാഗങ്ങളെ ഉയർന്ന വിവരങ്ങളുള്ള വിഷ്വൽ എംബെഡിംഗുകളാക്കി മാറ്റുക; വിഷൻ ടോക്കണുകൾ തുല്യമായ ടെക്സ്റ്റ് ടോക്കണുകളേക്കാൾ വിലകുറഞ്ഞതും ഒതുക്കമുള്ളതുമാകാം.
- കോൺടെക്സ്റ്റ് ഒപ്റ്റിക്കൽ കംപ്രഷൻ: വലിയ ടെക്സ്റ്റ് കോൺടെക്സ്റ്റ് ചിത്രങ്ങളായോ അല്ലെങ്കിൽ വിഷ്വൽ ലേഔട്ടുകളായോ എൻകോഡ് ചെയ്യാൻ OCR/VLM ഉപയോഗിക്കുക, ടോക്കണുകളുടെ എണ്ണം കുറയ്ക്കുമ്പോൾ തന്നെ സെമാൻ്റിക് ഘടന നിലനിർത്തുക.
- നീണ്ട കോൺടെക്സ്റ്റ് വർക്ക്ഫ്ലോകൾ: ആയിരക്കണക്കിന് ടോക്കണുകളെ നൂറുകണക്കിന് വിഷൻ ടോക്കണുകളാക്കി കംപ്രസ്സ് ചെയ്യുക, ഇത് ആസൂത്രണത്തിനും ടൂൾ ഉപയോഗത്തിനും മൾട്ടി-ടേൺ ന്യായവാദത്തിനും വലിയ വർക്കിംഗ് സെറ്റുകൾ പ്രാപ്തമാക്കുന്നു.
എപ്പോൾ ഉപയോഗിക്കാം
- ആവർത്തിച്ചുള്ള పదబంధాలు അഥവാ പ്രവചിക്കാവുന്ന ഘടനയുള്ള చాట్ ഹിസ്റ്ററികൾ
- സിസ്റ്റം ലോഗുകൾ, ട്രെയ്സുകൾ, ബിൽഡ് ഔട്ട്പുട്ടുകൾ അല്ലെങ്കിൽ അനലിറ്റിക്സ് ഡംപുകൾ
- ഡോക്യുമെൻ്റേഷൻ സ്നാപ്പ്ഷോട്ടുകൾ, ഡാഷ്ബോർഡുകൾ അല്ലെങ്കിൽ സെമി-സ്ട്രക്ചേർഡ് റിപ്പോർട്ടുകൾ
ഈ ട്യൂട്ടോറിയലിൽ നിങ്ങൾ എന്താണ് നിർമ്മിക്കാൻ പോകുന്നത്
ഒരു പൈപ്പ്ലൈൻ നിങ്ങൾ നടപ്പിലാക്കും:
- ചാറ്റ്/ലോഗ് ഡാറ്റ സാധാരണ നിലയിലാക്കുകയും വിഭജിക്കുകയും ചെയ്യുക.
- കംപ്രഷൻ തന്ത്രങ്ങൾ തിരഞ്ഞെടുക്കുക (OCR-വിഷ്വൽ, ടെക്സ്റ്റ് സംഗ്രഹിക്കൽ അല്ലെങ്കിൽ ഹൈബ്രിഡ്).
- DeepSeek-OCR വഴി ഒതുക്കമുള്ള വിഷ്വൽ പ്രാതിനിധ്യങ്ങൾ ഉണ്ടാക്കുക.
- തിരിച്ചെടുക്കലിനായി മെറ്റാഡാറ്റ ഉപയോഗിച്ച് സൂചികയിലാക്കുക.
- ടെക്സ്റ്റും ചിത്രങ്ങളും സ്വീകരിക്കുന്ന ഒരു ഹൈബ്രിഡ് RAG പ്രോംപ്റ്റ് ഉപയോഗിച്ച് ചോദ്യം ചെയ്യുക.
- വിശ്വസ്തതയും ചെലവും വിലയിരുത്തുക.
Section 1 — ഡാറ്റാ തയ്യാറാക്കൽ: മോശമായ ഹിസ്റ്ററികളെ മോഡലിന് അനുയോജ്യമാക്കുക
- സമയമുദ്രകളും റോളുകളും സാധാരണീകരിക്കുക: ഉദാഹരണത്തിന്, .
- Cons: VLM പിന്തുണ ആവശ്യമാണ്; റെൻഡറിംഗും ഇമേജ് I/O യും ആവശ്യമാണ്.
- എപ്പോൾ ഉപയോഗിക്കാം: നിങ്ങൾക്ക് വലിയ കോൺടെക്സ്റ്റ് വിശ്വസ്തത, ഡയഗ്രമുകൾ/പട്ടികകൾ അല്ലെങ്കിൽ കൃത്യമായ పదబంధాలు നിലനിർത്തൽ എന്നിവ ആവശ്യമായി വരുമ്പോൾ.
- ഹൈബ്രിഡ് (ശുപാർശ ചെയ്യുന്നത്)
- ആങ്കറിംഗിനായി “โครงกระดูก” ടെക്സ്റ്റ് സംഗ്രഹം സൂക്ഷിക്കുക + ആഴത്തിനായി കംപ്രസ് ചെയ്ത വിഷ്വൽ കാർഡുകൾ അറ്റാച്ചുചെയ്യുക.
- ഇത് കൃത്യതയും (ടെക്സ്റ്റ്) റീക്കോൾ/വിശ്വസ്തതയും (വിഷൻ) തമ്മിൽ സന്തുലിതമാക്കുന്നു.
Section 3 — DeepSeek-OCR ഉപയോഗിച്ച് വിഷ്വൽ കോൺടെക്സ്റ്റ് കാർഡുകൾ നിർമ്മിക്കുക
ലക്ഷ്യം: 5–20 KB ടെക്സ്റ്റ് ഭാഗങ്ങളെ OCR/VLM റീഡിംഗിനായി ഒപ്റ്റിമൈസ് ചെയ്ത 512–1024 px ചിത്രങ്ങളാക്കി മാറ്റുക.
Template നിർദ്ദേശങ്ങൾ
- Title bar: session ID, സമയ പരിധി, വിഷയ ലേബൽ.
- രണ്ട് കോളം ലേഔട്ട്: പ്രധാന திருப்பங்கள்/ലോഗുകൾക്കായി இடது കോളം; முக்கிய அம்சங்களுக்காக வலது കോളം (തെറ്റുകൾ, തീരുമാനങ്ങൾ, കമാൻഡുകൾ, അളവുകൾ).
- കോഡ്/ലോഗ് ലൈനുകൾക്കായി മോണോസ്പേസ് ബ്ലോക്കുകൾ; കോൺടെക്സ്റ്റിനായുള്ള புல்லட் സംഗ്രഹങ്ങൾ.
- വ്യത്യാസമുള്ള തീം; ചെറിയ ഫോണ്ടുകൾ ഒഴിവാക്കുക (<1x സ്കെയിലിൽ 11–12 pt-ൽ കുറഞ്ഞത്).
റെൻഡറിംഗ് ടിപ്പുകൾ
- വൃത്തിയുള്ളതും സ്ഥിരതയുള്ളതുമായ കാർഡുകൾ നിർമ്മിക്കാൻ HTML/CSS ഉപയോഗിക്കുക (ഉദാഹരണത്തിന്, Puppeteer/Playwright സ്ക്രീൻഷോട്ടുകൾ).
- പ്രോംപ്റ്റുകളിൽ നിർദ്ദിഷ്ട ഇനങ്ങൾ റഫർ ചെയ്യാൻ நிலையான ആങ്കറുകൾ (ലൈൻ നമ്പറുകൾ, ID-കൾ) ഉൾപ്പെടുത്തുക.
- ഓരോ കാർഡിലും ഏകദേശം ~200–400 വാക്കുകളായി പരിമിതപ്പെടുത്തുക; ഓരോ സെഷനുമായി ബന്ധപ്പെട്ട് കാർഡുകളുടെ ഒരു അടുക്ക് உருவாக்கவும்.
DeepSeek-OCR പാസ്
- റൗണ്ട്-ട്രിപ്പ് വിശ്വസ്തത ഉറപ്പാക്കാൻ DeepSeek-OCR പ്രവർത്തിപ്പിക്കുക: കാർഡ് → OCR ടെക്സ്റ്റ്. നിങ്ങളുടെ ലേഔട്ടും ഫോണ്ടുകളും കൃത്യമായി ഡീകോഡ് ചെയ്യുന്നുണ്ടോയെന്ന് ഇത് വീണ്ടും പരിശോധിക്കുന്നു.
- OCR ടെക്സ്റ്റ് വ്യത്യാസപ്പെടുന്നുണ്ടെങ്കിൽ, ഫോണ്ടുകൾ, സ്പേസിംഗ് എന്നിവ ക്രമീകരിക്കുക അല്ലെങ്കിൽ വലിയ കോഡിനെ ഒന്നിലധികം കാർഡുകളായി വിഭജിക്കുക.
ഇതെങ്ങനെ പ്രവർത്തിക്കുന്നു
വാചകപരമായ संदर्भத்தை விஷன் டோക്കണுகளாக கம்ப்ரஸ் ചെയ്യുമ്പോൾ വായനാക്ഷമത നിലനിർത്തുന്നതിൽ കാര്യമായ કાર્યക്ഷമത നേട്ടങ്ങൾ ഉള്ളതായി കമ്മ്യൂണിറ്റിയും மூன்றாம் தரപ്പ് எழுத்துக்களும் ചൂണ്ടിക്കാണിക്കുന്നു.
Section 4 — സംഗ്രഹിക്കൽ ലെയറുകൾ: അസ്ഥികൂടം സൂക്ഷിക്കുക, പേശികളെ സംഭരിക്കുക
ആവശ്യമുള്ളപ്പോൾ മാത്രം റെസല്യൂഷൻ വർദ്ധിപ്പിക്കാൻ കഴിയുന്ന ലെയേർഡ് സംഗ്രഹങ്ങൾ നടപ്പിലാക്കുക.
- L0: ആറ്റോമിക് ലൈൻ/டர்ன் ടാഗുകൾ — റോൾ, സമയമുദ്ര, തരം (തെറ്റ്, കുറിപ്പ്, കോഡ്), എംബെഡിംഗ്.
- L1: ஒவ்வொரு 20–40 திருப்பங்களுக்கோ அல்லது 2–5 நிமிட ലോഗുകൾക്കോ മൈക്രോ-സംഗ്രഹം (1–2 വാക്യങ്ങൾ).
- L2: തീരുമാനങ്ങൾ, തടസ്സങ്ങൾ, ഫലങ്ങൾ, വിഷ്വൽ കാർഡുകളിലേക്കുള്ള ലിങ്കുകൾ എന്നിവ ഉൾക്കൊള്ളുന്ന സെഷൻ സംഗ്രഹം (5–8 புல்லட்கள்).
- L3: ത്രെഡ്-ഓഫ്-ത്രെഡുകൾ — வாராந்திர அல்லது திட்ட நிலை रोलപ്പുകൾ.
പ്രായോഗികമായ ചില വഴികൾ
- എല്ലായ്പ്പോഴും കൃത്യമായ ആങ്കറുകൾ ഉൾപ്പെടുത്തുക: பிழை குறியீடுகள், SQL IDs, தடமறியும் IDs, கமிட் SHAs.
- സംഗ്രഹരൂപം ഉണ്ടാക്കുന്നതിനു മുൻപ്, எக்ஸ்ட்ராக்டிவ் സംഗ്രഹങ്ങൾ ഉപയോഗിക്കുക; அதன் பின், வாசிப்புத்தன்மைக்காக சுருக்கமான சுருக்கங்களைச் சேர்க்கவும்.
- വേഗത്തിൽ പ്രോംപ്റ്റ് ചെയ്യാൻ സഹായിക്കുന്നതിന്, “கடைசி அமர்வுக்குப் பிறகு என்ன மாறியது” என்ற புல்லட்டைச் சேர்க்கவும்.
Section 5 — ഹൈബ്രിഡ് RAG-നുള്ള സൂചികയും மீட்டെടുക്കലും
മെറ്റാഡാറ്റ സ്കീമ
- doc_id, session_id, time_range, roles, topic labels
- முக்கியத்துவ மதிப்பெண், பிழை தீவிரம், கூறு/சேவை
- കൃത്യതയ്ക്കും ആഴത്തിനും വേണ്ടി ലேயേർഡ് സംഗ്രഹങ്ങളും RAG-ഉം അടിസ്ഥാനമാക്കിയുള്ള OCR കംപ്രഷൻ സംയോജിപ്പിക്കുക.
- உயர் விசுவாசத்தையும் குறைந்த தாமதத்தையும் வைத்திருக்க லேஅவுட்கள், எழுத்துருக்கள் மற்றும் அட்டவணையிடல் ஆகியவற்றை மேம்படுத்தவும்.
- கம்ப்ரஸ் செய்யப்பட்ட அட்டைகளை முதல் தர ஆதாரமாகக் கருதி പ്രോம்പ്റ്റുകളിൽ குறிக்கவும்.
അടുത്ത പടികൾ
- ஒரு சாட் திட்டம் அல்லது லாக் தரவுத்தளத்தில் குறைந்தபட்ச पाइपलाइन முன்மாதிரி.
- 10 സാധാരണ கேள்விகளுக்கு உரை மட்டும் எதிராக கலப்பு சுருக்க சோதனையை A/B செய்யுங்கள.
- விசுவாச அளவீடுகளின் அடிப்படையில் அட்டை வடிவமைப்பு, மீட்டெடுக்கும் கலவை மற்றும் வரவுசெலவுத் திட்டங்களை சரிசெய்யவும்.
- சேமிப்பகம், ACLகள் மற்றும் கண்காணிப்புடன் குழு ஒட்டொழுங்கிற்கு அளவிடவும்.
அடிக்கடி கேட்கப்படும் கேள்விகள்
கே1: LLMகளுக்கான அரட்டை வரலாறுகளைச் சுருக்க DeepSeek-OCR என்றால் என்ன மற்றும் அதை ஏன் பயன்படுத்த வேண்டும்?
DeepSeek-OCR சூழல் ஆப்டிகல் சுருக்கத்தை செயல்படுத்துகிறது - பெரிய உரை ஸ்பான்களை VLMகள் திறம்பட செயலாக்கக்கூடிய காட்சி டோக்கன்களாக குறியாக்கம் செய்கிறது. இது டோக்கன் வரவுசெலவுத் திட்டங்களைக் குறைத்து, உரை மட்டும் சுருக்கத்தை விட கட்டமைப்பை சிறப்பாகப் பாதுகாத்து நீண்ட சூழல்களுக்கு அதிக விசுவாசத்தை பராமரிக்க முடியும்.
கே2: காட்சி டோக்கன் சுருக்கம் உரை சுருக்கத்துடன் எவ்வாறு ஒப்பிடுகிறது?
காட்சி டோக்கன் சுருக்கம் பெரும்பாலும் அதிக பயனுள்ள சுருக்கத்தை அடைகிறது, அதே நேரத்தில் தளவமைப்பு மற்றும் சரியான சொற்றொடரை தக்க வைத்துக் கொள்கிறது, இது மேற்கோள்கள், குறியீடு மற்றும் பிழை சரங்களுக்கு உதவுகிறது. சுருக்கம் வேகமாகவும் எளிமையாகவும் இருக்கும், ஆனால் அரிய விவரங்களை தவிர்க்கலாம் அல்லது சுருக்க பிழைகளை அறிமுகப்படுத்தலாம்.
கே3: பதிவுகள் மற்றும் சாட்க்காக நான் DeepSeek-OCRஐ RAG உடன் கலக்க முடியுமா?
ஆம். வேகமான நினைவுகூரலுக்கு உரை சுருக்கங்களைப் பயன்படுத்தவும் மற்றும் ஆழத்திற்கு OCR-சரிபார்க்கப்பட்ட காட்சி அட்டைகளை இணைக்கவும். இரண்டு நிலை மீட்டெடுப்பவர் முதலில் சுருக்கங்களைப் பெறலாம், பின்னர் மிகவும் பொருத்தமான அட்டைகளை துல்லியம் மற்றும் சூழல் கவரேஜ் சமநிலைப்படுத்தலாம்.
கே4: OCR-சுருக்கப்பட்ட சூழல் அட்டைகளுக்கு எந்த தளவமைப்புகள் சிறந்த முறையில் செயல்படுகின்றன?
தலைப்பு பட்டி, இரண்டு நிரல் உள்ளடக்கம், குறியீடுக்கான monospace தொகுதிகள் மற்றும் சிறப்பம்சங்களுக்கான தெளிவான புல்லட்கள் கொண்ட சுத்தமான HTML/CSSஐப் பயன்படுத்தவும். அட்டைக்கு 200-400 வார்த்தைகள், 11-12 pt எழுத்துருக்கள் அல்லது பெரியதாக வைத்து OCR சுற்றுப்பயணத்துடன் வாசிப்புத்திறனைச் சரிபார்க்கவும்.
கே5: சுருக்கம் முக்கியமான தகவல்களை இழக்கிறதா என்பதை நான் எப்படி அளவிடுவது?
உண்மை களின் தங்கத் தொகுப்புக்கு எதிராக K@Fidelity, வரி-எண் மேற்கோள்கள் மூலம் சான்றுக் கவரேஜ் மற்றும் தாமதம்/செலவு அளவீடுகளை கண்காணிக்கவும். ≥95% உண்மைத் தக்கவைப்பை இலக்காகக் கொண்டு, பெரும்பாலான பதில்கள் அட்டை வரி அல்லது ஆங்கர் ஐடியைக் குறிப்பிடுவதை உறுதிசெய்யவும்.