அறிமுகம்: LLM-களுக்கு சுருக்குதல் ஏன் ஒரு வல்லமை
ஒரு வாரத்திற்கான சாட் பதிவுகள், டெலிமெட்ரி அல்லது மல்டி-சிஸ்டம் ஆப் ட்ரேஸ்களை ஒரு தூண்டுதலில் திணிக்க முயற்சி செய்திருந்தால், நீங்கள் சூழல் சாளரங்களின் கடினமான வரம்பை சந்தித்திருப்பீர்கள். வழக்கமான விளையாட்டுப் புத்தகம் - சுருக்கவும், வெட்டவும், துண்டாக்கவும் - சமிக்ஞை இழப்பு ஊடுருவும் முன் உங்களை வெகுதூரம் அழைத்துச் செல்கிறது. DeepSeek-OCR ஒரு வேலைநிறுத்த திருப்பத்தை அறிமுகப்படுத்துகிறது: அர்த்தத்தை தூக்கி எறியாமல் சூழலை வியத்தகு முறையில் சுருக்க OCR-VLM குழாய் வழியைப் பயன்படுத்தி உரையை பார்வை டோக்கன்களாக சுருக்கவும். மூல உரை டோக்கன்களுக்கு பதிலாக காட்சி டோக்கன்களைப் பயன்படுத்துவதன் மூலம் ஆர்டர்-ஆஃப்-மாருபடியாக்க சுருக்குதல் திறனை ஆரம்ப சமூக அறிக்கைகள் மேற்கோள் காட்டுகின்றன, சில பகுப்பாய்வுகள் நீண்ட சூழல் பணிப்பாய்வுகளுக்கு “சூழல் ஆப்டிகல் சுருக்கம்” மற்றும் “ஆயிரக்கணக்கான உரை டோக்கன்களை சில நூறு பார்வை டோக்கன்களாக” என்று விவரிக்கின்றன.
இந்த நடைமுறை, படிப்படியான DeepSeek-OCR டுடோரியலில், LLM-களுக்கான சாட் ஹிஸ்டரிகள், பதிவுகள் மற்றும் தரவை மீட்டெடுக்கும் துல்லியத்தை தக்கவைத்துக்கொண்டு சுருக்குவது எப்படி என்பதை நீங்கள் கற்றுக் கொள்வீர்கள் - கூடுதலாக OCR அடிப்படையிலான சுருக்கத்தை சுருக்கம், படிநிலை துண்டாக்குதல் மற்றும் குறைந்த தாமதத்தைத் தூண்டுவதற்கு RAG உடன் இணைப்பது எப்படி.
இந்த வழிகாட்டி யாருக்கானது
- நீண்ட அரட்டைகள் மற்றும் செயல்பாட்டு தடங்களை உட்கொள்ள வேண்டிய AI கோபைலட்டுகளின் உருவாக்குநர்கள்
- LLM பகுத்தறிவிற்கான பதிவுகள், தடயங்கள் மற்றும் அளவீடுகளை கையாளுதல் தரவு பொறியாளர்கள்
- ஒரு பட்ஜெட்டில் அல்ட்ரா-லாங் சூழல் பணிப்பாய்வுகளை முன்மாதிரி செய்யும் ஆராய்ச்சியாளர்கள்
ஒரு வாக்கியத்தில் கொக்கி: LLM-கள் படிக்கக்கூடிய சிறிய காட்சி பிரதிநிதித்துவங்களாக பரந்த உரையை மாற்ற முடிந்தால், பகுத்தறிவின் ரொட்டித் துண்டுகளை தியாகம் செய்யாமல் சூழல் பட்ஜெட்டை நீங்கள் திரும்பப் பெறுவீர்கள்.
DeepSeek-OCR சுருக்கம் என்றால் என்ன? முக்கிய யோசனை
- பார்வை டோக்கன் சுருக்கம்: அடர்த்தியான உரை ஸ்பான்களை அதிக தகவல் காட்சி உட்பொதிவுகளாக மாற்றவும்; சமமான உரை டோக்கன்களை விட பார்வை டோக்கன்கள் மலிவானதாகவும் சிறியதாகவும் இருக்கும்.
- சூழல் ஆப்டிகல் சுருக்கம்: பெரிய உரை சூழலை படங்கள் அல்லது காட்சி அமைப்பு தளவமைப்புகளாக குறியாக்க OCR/VLM ஐப் பயன்படுத்தவும், டோக்கன் எண்ணிக்கையை குறைக்கும்போது சொற்பொருள் கட்டமைப்பைப் பாதுகாக்கவும்.
- நீண்ட சூழல் பணிப்பாய்வுகள்: ஆயிரக்கணக்கான டோக்கன்களை நூற்றுக்கணக்கான பார்வை டோக்கன்களாக சுருக்கவும், திட்டமிடல், கருவி பயன்பாடு அல்லது பல-டர்ன் பகுத்தறிதலுக்கான பெரிய வேலை செய்யும் தொகுப்புகளை இயக்கவும்.
எப்போது பயன்படுத்துவது
- தொடர்ச்சியான சொற்றொடர் அல்லது கணிக்கக்கூடிய அமைப்புடன் கூடிய சாட் வரலாறுகள்
- சிஸ்டம் பதிவுகள், தடயங்கள், பில்ட் வெளியீடுகள் அல்லது பகுப்பாய்வு குப்பைகள்
- ஆவண ஸ்னாப்ஷாட்கள், டாஷ்போர்டுகள் அல்லது அரை-கட்டமைக்கப்பட்ட அறிக்கைகள்
இந்த டுடோரியலில் நீங்கள் என்ன உருவாக்குவீர்கள்
நீங்கள் ஒரு குழாய் வழியை செயல்படுத்துவீர்கள்:
- சாட்/பதிவுத் தரவை இயல்பாக்கி பிரிக்கவும்.
- சுருக்குதல் உத்திகளைத் தேர்வுசெய்க (OCR-காட்சி, உரைச் சுருக்கம் அல்லது கலப்பினம்).
- DeepSeek-OCR மூலம் சிறிய காட்சி பிரதிநிதித்துவங்களை உருவாக்கவும்.
- மீட்டெடுப்பதற்கான மெட்டாடேட்டாவுடன் குறியீடாக்கம்.
- உரை மற்றும் படங்கள் இரண்டையும் ஏற்கும் ஒரு கலப்பின RAG தூண்டுதலுடன் வினவவும்.
- விசுவாசம் மற்றும் செலவை மதிப்பிடுங்கள்.
பிரிவு 1 - தரவு தயாரிப்பு: குழப்பமான வரலாறுகளை மாதிரி-நட்பாக ஆக்குங்கள்
- நேர முத்திரைகள் மற்றும் பாத்திரங்களை இயல்பாக்குங்கள்: எ.கா., {timestamp, role, content} -> {norm_timestamp, norm_role, content}.
- பாதகங்கள்: VLM ஆதரவு தேவை; ரெண்டரிங் மற்றும் பட I/O தேவை.
- எப்போது பயன்படுத்த வேண்டும்: உங்களுக்கு நீண்ட சூழல் விசுவாசம், வரைபடங்கள்/அட்டவணைகள் அல்லது துல்லியமான சொற்றொடர் தக்கவைப்பு தேவைப்படும்போது.
- கலப்பினம் (பரிந்துரைக்கப்படுகிறது)
- நங்கூரமிட “எலும்புக்கூடு” உரை சுருக்கத்தை வைத்திருங்கள் + ஆழத்திற்காக சுருக்கப்பட்ட காட்சி அட்டைகளை இணைக்கவும்.
- இது மீட்டெடுக்கும் துல்லியம் (உரை) மற்றும் நினைவு / விசுவாசம் (பார்வை) ஆகியவற்றை சமப்படுத்துகிறது.
பிரிவு 3 - DeepSeek-OCR உடன் காட்சி சூழல் அட்டைகளை உருவாக்குதல்
குறிக்கோள்: OCR/VLM வாசிப்புக்கு உகந்த 5–20 KB உரை ஸ்பான்களை 512–1024 px படங்களாக மாற்றவும்.
வார்ப்புரு பரிந்துரைகள்
- தலைப்பு பட்டி: அமர்வு ID, நேர வரம்பு, தலைப்பு லேபிள்.
- இரண்டு-பத்தி தளவமைப்பு: முக்கிய திருப்பங்கள்/பதிவுகளுக்கான இடது பத்தி; சிறப்பம்சங்களுக்கான வலது பத்தி (பிழைகள், முடிவுகள், கட்டளைகள், அளவீடுகள்).
- குறியீடு/பதிவு வரிகளுக்கான ஒரு இடைவெளி தொகுதிகள்; சூழலுக்கான புல்லட் சுருக்கங்கள்.
- மாறுபாடு-நட்பு தீம்; சிறிய எழுத்துருக்களைத் தவிர்க்கவும் (<1x அளவில் 11–12 pt).
ரெண்டரிங் உதவிக்குறிப்புகள்
- சுத்தமான, நிலையான அட்டைகளை உருவாக்க HTML/CSS ஐப் பயன்படுத்தவும் (எ.கா., Puppeteer/Playwright ஸ்கிரீன் ஷாட்கள்).
- தூண்டுதல்களில் குறிப்பிட்ட உருப்படிகளைப் பார்க்க நிலையான நங்கூரங்களை (வரி எண்கள், ID கள்) சேர்க்கவும்.
- அட்டைக்கு ~200–400 வார்த்தைகளுக்கு கட்டுப்படுத்துங்கள்; அமர்வு ஒன்றுக்கு அட்டைகளின் அடுக்கை உருவாக்கவும்.
DeepSeek-OCR பாஸ்
- சுற்றுப்பயண விசுவாசத்தை உறுதிப்படுத்த DeepSeek-OCR ஐ இயக்கவும்: அட்டை → OCR உரை. இது உங்கள் தளவமைப்பு மற்றும் எழுத்துருக்கள் துல்லியமாக டிகோட் என்பதை இருமுறை சரிபார்க்கிறது.
- OCR உரை வேறுபட்டால், எழுத்துருக்கள், இடைவெளி ஆகியவற்றை சரிசெய்யவும் அல்லது அடர்த்தியான குறியீட்டை பல அட்டைகளாக உடைக்கவும்.
இது ஏன் வேலை செய்கிறது
உரை சூழலை பார்வை டோக்கன்களாக சுருக்கும்போது சமூக மற்றும் மூன்றாம் தரப்பு எழுதுதல் அர்த்தமுள்ள செயல்திறன் ஆதாயங்களைக் குறிக்கிறது, அதே நேரத்தில் வாசிப்புத்திறனைத் தக்க வைத்துக் கொள்கிறது.
பிரிவு 4 - சுருக்குதல் அடுக்குகள்: எலும்புக்கூட்டை வைத்திருங்கள், தசைகளை சேமிக்கவும்
தேவைப்படும்போது மட்டுமே தெளிவுத்திறனை அதிகரிக்க முடியும் வகையில் அடுக்கப்பட்ட சுருக்கங்களை செயல்படுத்தவும்.
- L0: அணு வரி/டர்ன் குறிச்சொற்கள் - பாத்திரம், நேர முத்திரை, வகை (பிழை, குறிப்பு, குறியீடு), உட்பொதித்தல்.
- L1: ஒவ்வொரு 20–40 திருப்பங்களுக்கும் அல்லது 2–5 நிமிட பதிவுகளுக்கும் மைக்ரோ-சுருக்கம் (1–2 வாக்கியங்கள்).
- L2: அமர்வு சுருக்கம் (5–8 புல்லட்கள்) முடிவுகள், தடுப்பான்கள், விளைவுகள் மற்றும் காட்சி அட்டைகளுக்கான இணைப்புகள்.
- L3: திரெட்-ஆஃப்-திரெட்ஸ் - வாராந்திர அல்லது திட்ட-நிலை ரோல்அப்கள்.
நடைமுறை யூரிஸ்டிக்ஸ்
- எப்போதும் வார்த்தைக்கு வார்த்தை நங்கூரங்களைச் சேர்க்கவும்: பிழை குறியீடுகள், SQL IDகள், டிரேஸ் IDகள், கமிட் SHAகள்.
- சுருக்கத்திற்கு முன் பிரித்தெடுத்த சுருக்கங்களைப் பயன்படுத்தவும்; பின்னர் வாசிப்புத்திறனுக்கான சுருக்கத்துடன் சுத்திகரிக்கவும்.
- விரைவான கேட்ச்-அப் தூண்டுதலுக்கு “கடைசி அமர்விலிருந்து என்ன மாறியது” என்ற புல்லட்டைச் சேர்க்கவும்.
பிரிவு 5 - கலப்பின RAG க்கான குறியீடாக்கம் மற்றும் மீட்டெடுப்பு
மெட்டாடேட்டா திட்டம்
- doc_id, session_id, time_range, roles, topic labels
- முக்கியத்துவ ஸ்கோர், பிழை தீவிரத்தன்மை, கூறு/சேவை
- இணைப்புகள்: {card_ids, thread_ids, related_docs}
- துல்லியம் மற்றும் ஆழத்திற்காக அடுக்கப்பட்ட சுருக்கங்கள் மற்றும் RAG உடன் OCR அடிப்படையிலான சுருக்கத்தை இணைக்கவும்.
- விசுவாசத்தை அதிகமாகவும் தாமதத்தை குறைவாகவும் வைத்திருக்க தளவமைப்புகள், எழுத்துருக்கள் மற்றும் குறியீட்டை மேம்படுத்தவும்.
- சுருக்கப்பட்ட அட்டைகளை முதல்-வகுப்பு சான்றாகக் கருதி அவற்றை தூண்டுதல்களில் மேற்கோள் காட்டுங்கள்.
அடுத்த நடவடிக்கைகள்
- ஒரு சாட் திட்டம் அல்லது பதிவு தரவுத்தொகுப்பில் குறைந்தபட்ச குழாய் வழியை முன்மாதிரி ஆக்குங்கள்.
- 10 வழக்கமான வினவல்களுக்கு உரை-மட்டும் எதிராக கலப்பின சுருக்கத்தை A/B சோதனை செய்யுங்கள்.
- விசுவாச அளவீடுகளின் அடிப்படையில் அட்டை வடிவமைப்பு, மீட்டெடுப்பவர் கலவை மற்றும் பட்ஜெட்களை சரிசெய்யவும்.
- சேமிப்பு, ACLகள் மற்றும் கண்காணிப்புடன் குழு பணிப்பாய்வுகளுக்கு அளவிடவும்.
கேள்விகள்
Q1: DeepSeek-OCR என்றால் என்ன, மேலும் LLM-களுக்கான சாட் ஹிஸ்டரிகளைச் சுருக்க இதைப் பயன்படுத்துவது ஏன்?
DeepSeek-OCR சூழல் ஆப்டிகல் சுருக்கத்தை செயல்படுத்துகிறது - பெரிய உரை ஸ்பான்களை காட்சி டோக்கன்களாக குறியாக்குகிறது, VLM-கள் திறமையாக செயலாக்க முடியும். இது டோக்கன் பட்ஜெட்களை சுருக்கி, உரை-மட்டும் சுருக்கத்தை விட கட்டமைப்பைப் பாதுகாக்கும், அதே நேரத்தில் நீண்ட சூழல்களுக்கு அதிக விசுவாசத்தைப் பராமரிக்கிறது.
Q2: காட்சி டோக்கன் சுருக்கம் உரைச் சுருக்கத்துடன் எவ்வாறு ஒப்பிடுகிறது?
காட்சி டோக்கன் சுருக்கம் பெரும்பாலும் அதிக பயனுள்ள சுருக்கத்தை அடைகிறது, அதே நேரத்தில் தளவமைப்பு மற்றும் துல்லியமான சொற்றொடரைத் தக்க வைத்துக் கொள்கிறது, இது மேற்கோள்கள், குறியீடு மற்றும் பிழை சரங்களுக்கு உதவுகிறது. சுருக்கம் வேகமானதாகவும் எளிமையாகவும் இருக்கும், ஆனால் அரிதான விவரங்களை தவிர்க்கலாம் அல்லது சுருக்க பிழைகளை அறிமுகப்படுத்தலாம்.
Q3: பதிவுகள் மற்றும் அரட்டைகளுக்கு DeepSeek-OCR ஐ RAG உடன் கலக்க முடியுமா?
ஆம். வேகமான நினைவிற்காக உரை சுருக்கங்களைப் பயன்படுத்தவும் மற்றும் ஆழத்திற்கு OCR-சரிபார்க்கப்பட்ட காட்சி அட்டைகளை இணைக்கவும். இரண்டு-நிலை மீட்டெடுப்பவர் முதலில் சுருக்கங்களைப் பெறலாம், பின்னர் மிகவும் பொருத்தமான அட்டைகள், துல்லியம் மற்றும் சூழல் கவரேஜ் ஆகியவற்றை சமநிலைப்படுத்துகிறது.
Q4: OCR-சுருக்கப்பட்ட சூழல் அட்டைகளுக்கு எந்த தளவமைப்புகள் சிறப்பாக செயல்படுகின்றன?
தலைப்பு பட்டி, இரண்டு-பத்தி உள்ளடக்கம், குறியீட்டுக்கான மோனோஸ்பேஸ் தொகுதிகள் மற்றும் சிறப்பம்சங்களுக்கான தெளிவான புல்லட்களுடன் சுத்தமான HTML/CSS ஐப் பயன்படுத்தவும். அட்டைக்கு 200-400 வார்த்தைகள், 11-12 பிடி எழுத்துருக்கள் அல்லது பெரியதாக வைத்திருங்கள், மேலும் OCR சுற்றுப்பயணத்துடன் வாசிப்புத்திறனை சரிபார்க்கவும்.
Q5: சுருக்கம் முக்கியமான தகவல்களை இழக்கிறதா என்பதை நான் எவ்வாறு அளவிடுவது?
ஒரு தங்க உண்மைத் தொகுப்பிற்கு எதிராக விசுவாசம்@K ஐக் கண்காணிக்கவும், வரி-எண் மேற்கோள்கள் வழியாக சான்று கவரேஜ் மற்றும் தாமதம்/செலவு அளவீடுகளைக் கண்காணிக்கவும். ≥95% உண்மை தக்கவைப்பை குறிவைத்து பெரும்பாலான பதில்கள் அட்டை வரி அல்லது நங்கூர ID ஐ மேற்கோள் காட்டுகின்றன என்பதை உறுதிப்படுத்தவும்.