அறிமுகம்: அதிகப்படியான உரையிலுள்ள பிரச்சனை அது நீளமாக இருப்பது இல்லை
பெரிய மொழி மாதிரிகளில் (“long context”) “நீண்ட சூழலைப்” பற்றி எல்லோரும் எல்லாம் முடிந்துவிட்டதுபோல் பாசாங்கு செய்கிறார்கள்—ஆனால் 200 பக்க PDF-ஐ உள்ளீடு செய்து பதிலுக்கு எதைப் பற்றியும் இல்லாத ஹைக்கூ கவிதை கிடைக்கிறது. மாதிரிகள் நீளத்துடன் போராடுவதில்லை; பொருத்தமில்லாத விஷயங்களால் மூச்சுத் திணறுகின்றன. குப்பையை உள்ளே போட்டால், சாத்தியமான குப்பைதான் வெளியே வரும். அர்த்தமுள்ள பதில்களை நீங்கள் விரும்பினால், உங்களுக்கு ஒரு பெரிய மாதிரி தேவையில்லை. உங்களுக்குக் குறைவான குப்பைதான் தேவை.
DeepSeek-OCR-ஐ உபயோகியுங்கள். இது ஒரு OCR எஞ்சின். நல்ல கருவிகள் செய்ய வேண்டியதைச் செய்கிறது: படங்கள் மற்றும் PDF-களை நாடகமில்லாமல் உரையாக மாற்றுகிறது. ஆனால் இங்கு தந்திரம் OCR மட்டுமல்ல. DeepSeek-OCR ஐப் பயன்படுத்தி நீண்ட உரையைச் சுருக்குவது—கட்டமைப்பைப் பிரித்தெடுப்பது, அதிகப்படியான விஷயங்களைக் குறைப்பது, சிக்னலைப் பேணுவது—ஆகியவை கீழ்புற LLM-கள் 1998 ஆம் ஆண்டின் பட விளக்கங்களுக்காக டோக்கன்களை வீணாக்காது.
“சுருக்குதல்” என்பது முக்கிய வார்த்தை. ZIP-கோப்பு சுருக்குதல் அல்ல. செமாண்டிக் சுருக்குதல். மனிதர்கள் தொடர்ந்து இதைச் செய்கிறார்கள். ஒரு பக்கத்தைப் படித்து ஒரு பத்தியை நினைவில் வைத்துக் கொள்ளுங்கள். ஒரு பத்தியைப் படித்து ஒரு வாக்கியத்தைத் தக்க வைத்துக் கொள்ளுங்கள். இதைத்தான் நாம் புரிந்துகொள்ளுதல் என்று அழைக்கிறோம். DeepSeek-OCR லூப்பில் இருந்தால், அந்த முறையை நீங்கள் தோராயமாக்கலாம்: உரையைச் சுத்தமாகப் பெறுங்கள், ஒழுங்காகப் பிரிக்கவும், மாதிரி உண்மையில் வேலை செய்யக்கூடிய அடுக்குச் சுருக்கங்களை உருவாக்கவும். குறைந்த வீரதீரச் செயல்கள், அதிகமான முடிவுகள்.
இது ஒரு எப்படி செய்வது என்பதற்கான வழிகாட்டி. ஆனால் PDF-களை ஒரு சாட் பாக்ஸில் திணித்துவிட்டுப் பிரார்த்தனை செய்வது ஒரு பணிப்பாய்வு என்று நினைப்பவர்களுக்கு இது ஒரு சிறிய தலையீடு. அதை ஒரு அமைப்பாக மாற்றுவோம்.
“LLM-களுக்கான நீண்ட உரையைச் சுருக்க DeepSeek-OCR ஐ எவ்வாறு பயன்படுத்துவது” என்பதன் உண்மையான அர்த்தம்
கருவிகள் சுருக்காது; முடிவுகளே சுருக்கும். “LLM-களுக்கான நீண்ட உரையைச் சுருக்க DeepSeek-OCR ஐ எவ்வாறு பயன்படுத்துவது” என்று மக்கள் சொல்லும்போது, அவர்கள் உண்மையில் விரும்புவது என்னவென்றால், ஒழுங்கற்ற, காட்சி ஆவணங்களிலிருந்து சுருக்கமான, கட்டமைக்கப்பட்ட உரைப் பகுதிகளுக்குச் செல்வதற்கான மறுஉருவாக்கம் செய்யக்கூடிய வழி, ஒரு மொழி மாதிரி அடிக்குறிப்புகளைக் கற்பனை செய்யாமல் சிந்திக்க முடியும். இந்த செயல்முறை நான்கு வேலைகளாக உடைகிறது:
- துல்லியமான பிரித்தெடுத்தல்: பக்கத்திலிருந்து வார்த்தைகளைச் சரியாகப் பெறுங்கள்.
- கட்டமைப்பு மீட்பு: தலைப்புகள், பட்டியல்கள், அட்டவணைகள் மற்றும் வாசிப்பு வரிசையைப் பாதுகாக்கவும்.
- சொற்பொருள் சுருக்கம்: அர்த்தத்தை வைத்திருக்கும்போது அதிகப்படியான விஷயங்களைக் குறைக்கவும்.
- திரும்பப் பெறும் ஒழுக்கம்: தேவைப்படும்போது மாதிரிக்குத் தேவையானதை மட்டும் கொடுங்கள்.
DeepSeek-OCR முதல் இரண்டைக் கையாளுகிறது. நீங்கள் (மற்றும் உங்கள் LLM) பிந்தைய இரண்டைக் கையாளுகிறீர்கள். இதன் விளைவாக வரும் குழாய் “LLM-களுக்கான நீண்ட உரையைச் சுருக்குகிறது” அதாவது: குறைவான டோக்கன்கள், அதே பதில்கள், குறைவான முட்டாள்தனம்.
படி 1: DeepSeek-OCR-ஐ சரியாகப் பயன்படுத்துங்கள் (பிரித்தெடுக்கும் அடுக்கு)
மோசமான OCR எல்லாவற்றையும் விஷமாக்குகிறது. எழுத்துப் பிழைகள், உடைந்த நெடுவரிசைகள் மற்றும் வாக்கியங்களாக நடிக்கிற துண்டிக்கப்பட்ட அடிக்குறிப்புகள் இருந்தால், உங்கள் “சுருக்கம்” தவறுகளை அங்கீகரிக்கும். DeepSeek-OCR-ன் வேலை உங்களுக்கு சுத்தமான உரையை வழங்குவது, தளவமைப்பு குறிப்புகளுடன்.
- முதலில் PDF உரை பிரித்தெடுப்பதை விரும்புங்கள். PDF டிஜிட்டல்-நேட்டிவ் (தேர்ந்தெடுக்கக்கூடிய உரை) என்றால், உரையை நேரடியாகப் பிரித்தெடுத்து, உட்பொதிக்கப்பட்ட படங்கள் அல்லது ஸ்கேன் செய்யப்பட்ட பக்கங்களுக்கு மட்டும் OCR-க்குத் திரும்பவும். ஏற்கனவே உள்ள உரையை OCR செய்ய வேண்டாம்—பிழைகளைச் சரிசெய்ய பிழைகளை அறிமுகப்படுத்துவது புத்திசாலித்தனம் அல்ல.
- ஸ்கேன் செய்யப்பட்ட PDF-களுக்கு, DeepSeek-OCR பக்க-நிலை மற்றும் பிளாக்-நிலை தளவமைப்பு கண்டறிதலுடன் பயன்படுத்தவும். உங்களுக்குத் தலைப்புகள், பத்திகள், அட்டவணைகள் மற்றும் பட விளக்கங்கள் பிரிக்கப்பட வேண்டும். மாதிரி உங்களுக்குப் பின்னர் நன்றி சொல்லும்.
- படிக்கக்கூடிய வரி அகலத்தை அமைக்கவும். இரண்டு நெடுவரிசை PDF-களிலிருந்து நீண்ட தொடர்ச்சியான வரிகள் அடி வாங்கிய கவிதையைப் போல் இருக்கும்.
- அட்டவணைகளை CSV அல்லது Markdown ஆகப் பிரித்தெடுக்கவும். அட்டவணைகள் அர்த்தம் நிறைந்தவை. அவை அப்படியே பிரித்தெடுக்கப்பட்டால், உங்கள் சுருக்கம் புத்திசாலித்தனமாகிறது, முட்டாள்தனமாக இல்லை.
விளைவு: இன்னும் நீளமாக இருக்கும் ஒரு கார்பஸ், ஆனால் குழப்பமாக இல்லை—உரை, தலைப்புகள், பட்டியல்கள், அட்டவணைகள், ஆல்ட் போன்ற தலைப்புகளுடன் கூடிய படங்கள். கட்டமைப்பு என்பது முதல் சுருக்கம்.
படி 2: பக்க எண்களை வைத்து பிரிக்காமல், அர்த்தமுள்ளபடி பிரிக்கவும்.
பொதுவான தவறு: பக்கங்கள் அல்லது டோக்கன் எண்ணிக்கையின்படி வெட்டிவிட்டு அன்றைய வேலையை முடித்துவிட்டேன் என்று சொல்வது. பக்க எண்கள் அச்சுப்பொறிகளுக்கானவை; அர்த்தம் ஃபோலியோக்களைப் பற்றி கவலைப்படுவதில்லை. பிரிவுகள் மற்றும் துணைத் தலைப்புகளின் அடிப்படையில் பிரிக்க DeepSeek-OCR-ன் தளவமைப்பு குறிப்புகளைப் பயன்படுத்தவும்.
- ஒவ்வொரு மேல்-நிலை தலைப்புக்கும் (H1/H2) ஒரு பகுதி, H3/H4-க்கான துணைப் பகுதிகளுடன். ஒவ்வொரு பகுதியையும் உங்கள் இலக்கு மாதிரியின் வசதியான சூழல் சாளரத்தின் கீழ் வைத்திருங்கள்—800-1,200 டோக்கன்கள் என்று வைத்துக்கொள்வோம்.
- அட்டவணைகளையும் அவற்றின் விளக்கப் பத்திகளையும் ஒன்றாக வைத்திருங்கள். அவற்றைப் பிரிப்பது மாதிரி இடைவெளியை நிரப்ப தரவை கண்டுபிடிப்பதற்கான ஒரு சிறந்த வழியாகும்.
- இணைப்புப் பொருளை முக்கிய உரையுடன் கலக்க வேண்டாம். இது விருப்பமான வாசிப்பு; அதை அந்த மாதிரி நடத்துங்கள்.
சுருக்கம் உங்கள் துண்டாக்கும் உத்தியில் நடக்கத் தொடங்குகிறது: இறுக்கமான, ஒத்திசைவான அலகுகளை LLM பாதி வழியில் தொடக்கத்தை மறக்காமல் ஜீரணிக்க முடியும்.
படி 3: செமாண்டிக் சுருக்குதல்: அடுக்கப்பட்ட சுருக்கங்கள்
இப்போது “LLM-களுக்கான நீண்ட உரையைச் சுருக்குங்கள்” பகுதி. முழு ஆவணத்தையும் ஒரு நிர்வாகச் சுருக்கமாகக் குறைப்பதற்குப் பதிலாக (நிர்வாகிகள் விரும்புவது மற்றும் மாதிரிகள் வெறுப்பது), ஒவ்வொரு பகுதிக்கும் அடுக்கப்பட்ட சுருக்கங்களை உருவாக்கவும்:
- புல்லட் சுருக்கம் (5-10 புல்லட்கள்): முக்கிய புள்ளிகள், கூற்றுகள், வரையறைகள், எண்கள்.
- ஒரு பத்தி சாரம்: ஐந்து நிமிடங்களுக்குப் பிறகு கவனமாகப் படிப்பவர் எதைத் தக்கவைப்பார்.
- சொற்களஞ்சிய பிரித்தெடுத்தல்: கலைச் சொற்கள் மற்றும் அவற்றின் ஒரு வரி வரையறைகள்.
- மேற்கோள்கள் மற்றும் நங்கூரங்கள்: பிரிவு தலைப்பு, பக்க எண், அட்டவணை ஐடிகள்.
இது குறிப்பு ஒருமைப்பாட்டுடன் கூடிய சுருக்கம். புல்லட்கள் உங்கள் இழப்பற்ற அட்டவணை; பத்தி உங்கள் இழப்பு கோடெக். இரண்டையும் வைத்திருங்கள். பின்னர் நீங்கள் மாதிரியிடம் ஒரு கேள்வியைக் கேட்கும்போது, முழுப் பகுதியையும் அல்லாமல், புல்லட்களையும் தொடர்புடைய பத்தியையும் மீட்டெடுக்கவும். நீங்கள் குறைவான டோக்கன்களை உள்ளீடு செய்து சிறந்த பதில்களைப் பெறுவீர்கள். மந்திர தந்திரம்: இது வெறும் எடிட்டிங் தான்.
படி 4: மனித ஆய்வாளர் போல அட்டவணைகளைச் சுருக்கவும்
நீண்ட ஆவணங்கள் அவற்றின் உண்மையான அர்த்தத்தை அட்டவணைகளில்தான் மறைத்து வைக்கின்றன. தகவல்களை இழப்பதை நீங்கள் விரும்பவில்லை என்றால் அவற்றை உரையாக மாற்ற வேண்டாம்.
- மூலத்திற்காக மூல அட்டவணையை (CSV/Markdown) வைத்திருங்கள்.
- ஒரு “அட்டவணை மெமோவை” சேர்க்கவும்: அட்டவணை எதைக் காட்டுகிறது என்பதைப் பற்றி 3-5 புல்லட்கள், அது எதைக் குறிக்கிறது என்பதைப் பற்றி ஒரு வாக்கியம் மற்றும் ஏதேனும் விசித்திரங்கள் (விடுபட்ட வரிசைகள், சிவப்பு கொடிகள், வாள் கொண்ட அடிக்குறிப்புகள்).
- அலகுகள், நேர வரம்புகள் மற்றும் குழு வரையறைகளைப் பாதுகாக்கவும். “விற்பனை 10% உயர்வு” என்பது “QoQ, ex-FX, APAC மட்டும்” இல்லாமல் அற்பமான விஷயம்.
ஒரு வினவல் எண்களை உட்படுத்தும் போது மெமோ மற்றும் அட்டவணையை LLM-க்கு கொடுக்கவும். அது நீக்குதல் மூலம் சுருக்குதல் அல்ல, தெளிவு மூலம் சுருக்குதல்.
படி 5: உருவாக்கும் முன் மீட்டெடுப்பு (RAG, buzzword இல்லாமல்)
RAG செய்ய நீங்கள் “RAG” என்று சொல்லத் தேவையில்லை. மாதிரியிடம் பதில் கேட்கும் முன் நீங்கள் சரியான பகுதிகளைத் தேர்ந்தெடுக்க வேண்டும்.
- வெக்டர் தேடல் (ஒத்த சொற்கள், சொற்றொடர்கள்) மற்றும் முக்கிய வார்த்தை தேடல் (சரியான பொருத்தங்கள்) மூலம் தலைப்புகளைக் கொண்டு அடுக்கப்பட்ட சுருக்கங்களை அட்டவணைப்படுத்தவும். இரண்டு தேடல்கள், குறுகிய பட்டியல்கள், அவற்றை வெட்டுங்கள்.
- மீட்டெடு: புல்லட்கள் + சாரம் + தொடர்புடைய அட்டவணை மெமோக்கள். மூலப் பகுதியிலிருந்து முதல் சில வாக்கியங்களை நுணுக்கத்திற்காக மூல உரையாக விருப்பமாகச் சேர்க்கவும்.
- சான்றுகளுடன் பதிலளிக்கவும்: மாதிரி பகுதியை அல்லது பக்கத்தை குறிப்பிட அறிவுறுத்தவும்.
இதுதான் உங்கள் உள்ளீடுகளைச் சிதைக்காமல் LLM-களுக்கான நீண்ட உரையை நீங்கள் சுருக்குவது எப்படி. நூலகர் என்று சிந்தியுங்கள், கலவை இயந்திரம் என்று நினைக்காதீர்கள்.
குறைந்தபட்ச, சலிப்பூட்டும் வகையில் பயனுள்ள தூண்டுதல் முறை
ஒவ்வொரு பகுதிக்கும், ஒரு நிலையான சுருக்கத் தூண்டுதலை இயக்கவும். பாதி போர் நிலைத்தன்மையே.
தூண்டுதல் எலும்புக்கூடு:
“நீங்கள் ஒரு கவனமான தொழில்நுட்ப ஆசிரியர். புல்லட் புள்ளிகள் (உண்மைகள் மட்டும்), ஒரு பத்தி சாரம், சொற்களின் சொற்களஞ்சியம் மற்றும் மேற்கோள்கள் (பிரிவு தலைப்பு மற்றும் பக்கம்) ஆகியவற்றைக் கொண்டு பின்வரும் பகுதியைச் சுருக்கமாகக் கூறுங்கள். அலகுகள், தேதிகள் மற்றும் தகுதிகளைப் பாதுகாக்கவும். உரையில் ஒரு கூற்றுக்கு ஆதாரம் இல்லையென்றால், அதை [மேற்கோள் காட்டப்படாதது] என்று குறிக்கவும். அட்டவணைகளை மீண்டும் எழுதுவதைத் தவிர்க்கவும்; ID மூலம் அவற்றைக் குறிப்பிடவும். உள்ளீடு --- க்குப் பிறகு தொடங்குகிறது.”
பின்னர் பகுதியை உள்ளிடவும். பகுதி ஐடியுடன் வெளியீட்டை சேமிக்கவும். இப்போது நீங்கள் ஒரு நல்ல பத்திரிகையாளர் மேற்கோள்களிலிருந்து குறிப்புகளை வைத்திருப்பது போல உங்கள் சொந்த சுருக்க அடுக்கை நீங்களே உருவாக்கியுள்ளீர்கள்.
குறிப்பாக ஏன் DeepSeek-OCR?
ஏராளமான OCR கருவிகள் உள்ளன. சில வேகமாகவும் தவறாகவும் உள்ளன; சில மெதுவாகவும் தவறாகவும் உள்ளன. DeepSeek-OCR வேகமானது மற்றும் தளவமைப்பை மதிக்கிறது. அதன் பல-நெடுவரிசை கையாளுதல் மற்றும் பட விளக்கம் பிரிப்பு ஆகியவை உங்களுக்கு பல மணிநேர பிந்தைய செயலாக்கத்தை மிச்சப்படுத்துகின்றன. கேள்வி “அது சரியானதா?” என்பது அல்ல—அவை எதுவும் சரியில்லை. தோல்வி முறைகள் கணிக்க முடியுமா என்பதுதான் கேள்வி. DeepSeek-OCR உடன், அவை பெரும்பாலும்: தந்திரமான இணைப்புகள், உடல் உரையில் இரத்தம் கசியும் தலைப்புகள் மற்றும் எப்போதாவது கணிதம். நீங்கள் அதற்குத் திட்டமிடலாம். திட்டமிடல் என்பது சுருக்கத்தில் பாதி.
சொல்ல வேண்டியது மதிப்புக்குரியது: டோக்கன்-திறனுள்ள உரையை வழங்கும் OCR முக்கியமானது. உங்கள் OCR பேய் இடைவெளியை, உடைந்த ஹைபனேஷன் அல்லது நகல் வரிகளைச் சேர்த்தால், ஒவ்வொரு கீழ்நிலை அழைப்பிலும் அந்த டோக்கன்களுக்கு நீங்கள் பணம் செலுத்துகிறீர்கள். DeepSeek-OCR அதைச் சுத்தமாக வைத்திருக்க முனைகிறது. குறைந்த மரத்தூள், குறைவான பிளவுகள்.
நடைமுறை பணிப்பாய்வு: பஞ்சு இல்லாமல் PDF-லிருந்து பதில்கள் வரை
DeepSeek-OCR ஐ எவ்வாறு பயன்படுத்துவது என்பதற்கான ஒரு நடைமுறை “LLM-களுக்கான நீண்ட உரையைச் சுருக்குவது” பணிப்பாய்வு:
- டிஜிட்டல் உரையை ஸ்கேன் செய்யப்பட்ட பக்கங்களுக்கு எதிராக கண்டறியவும்; தேவைப்பட்டால் கலப்பு முறைகள்.
- தளவமைப்பு பிரித்தெடுத்தல் மற்றும் அட்டவணை கண்டறிதல் இயக்கப்பட்ட DeepSeek-OCR ஐ இயக்கவும்.
- ஏற்றுமதி: உரைக்கு Markdown (தலைப்புகள், பட்டியல்கள்), அட்டவணைகளுக்கு CSV/Markdown, புள்ளிவிவரங்களுக்கான PNG குறிப்புகள் (விரும்பினால்).
- ஹைபனேஷனை சரிசெய்யவும்: அடுத்த வரி சிறிய எழுத்தில் தொடங்கினால், வரி முறிவுகளில் மட்டும் ஹைபன் நீக்கவும்.
- உடைந்த பத்திகளை இணைக்கவும்; பிரிவுகளுக்கு இடையே வெற்று வரிகளை வைக்கவும்.
- ஸ்மார்ட் மேற்கோள்களை மாற்றவும், யூனிகோடை சாதாரணமாக்கவும் (NFC). மாதிரிகள் டோக்கன்கள் செய்வதால் கவலைப்படுகின்றன.
- H2/H3 எல்லைகளால் பிரிக்கவும்; அருகிலுள்ள குறிப்பு பத்தியுடன் அட்டவணைகளை இணைக்கவும்.
- அளவு வரம்புகளை (பகுதி இலக்குக்கு 1k டோக்கன்கள்) செயல்படுத்தவும். விவாதத்தின் நடுவில் பிரிக்க வேண்டாம்.
- பகுதிக்கு நிலையான சுருக்கத் தூண்டுதலை இயக்கவும்.
- அட்டவணைக்கு ஒரு தனி அட்டவணை குறிப்பைச் சேர்க்கவும்.
- புல்லட் புள்ளிகள் மற்றும் சாரம் உரை மீது ஒரு வெக்டர் குறியீட்டை உருவாக்கவும்.
- தலைப்புகள், சொற்களஞ்சியம் மற்றும் அட்டவணை ஐடிகள் மீது ஒரு முக்கிய வார்த்தை குறியீட்டை உருவாக்கவும்.
- வெக்டர் + முக்கிய வார்த்தை வெட்டு மூலம் முதல் 3-6 பகுதிகளை மீட்டெடுக்கவும்.
- சூழலை உருவாக்கவும்: புல்லட்கள் + சாரம் + ஏதேனும் அட்டவணை குறிப்புகள் + மூலத்திலிருந்து 2-3 மேற்கோள் காட்டப்பட்ட வாக்கியங்கள்.
- மேற்கோள்களுடன் ஒரு பதிலைக் கேளுங்கள்; ஊகத்தைத் தடை செய்யுங்கள்.
- பதில்க்குப் பிந்தைய அறிவுத்திறன் சோதனை
- ஒரு பதில் [மேற்கோள் காட்டப்படாத] கூற்றுகளைக் குறிப்பிட்டால், தானாகவே பெற்றோர் பகுதியை மீண்டும் மீட்டெடுக்கவும்.
- அலகுகள் இல்லாமல் எண்கள் தோன்றினால், அலகுக் கட்டுப்பாட்டுடன் நிராகரித்து மீண்டும் கேட்கவும்.
வாழ்த்துகள், நீங்கள் அதை ஓட்மீலாக மாற்றாமல் LLM-களுக்கான நீண்ட உரையைச் சுருக்கிவிட்டீர்கள்.
சுருக்கம் என்பது சுருக்குதல் அல்ல; அது ட்ரைஏஜ்
சுருக்குதல் குறைவாகச் சொல்ல முயற்சிக்கிறது. சுருக்கம் குறைவான டோக்கன்களில் அதே அர்த்தத்தை வைத்திருக்க முயற்சிக்கிறது. வெவ்வேறு இலக்குகள். DeepSeek-OCR மூலம், ஒவ்வொரு கட்டமும் உங்களுக்குத் தேவையில்லாத ஒன்றை தூக்கி எறியும் ஒரு தகவல் குழாயை உருவாக்குகிறீர்கள்:
- OCR பிக்சல்களைத் தூக்கி எறிந்துவிட்டு உரையை வைத்திருக்கிறது.
- பகுதியாக்குதல் பக்க எல்லைகளைத் தூக்கி எறிந்துவிட்டு வாதங்களை வைத்திருக்கிறது.
- அடுக்குச் சுருக்கங்கள் மீண்டும் மீண்டும் வருவதை தூக்கி எறிந்துவிட்டு கூற்றுகளை வைத்திருக்கின்றன.
- மீட்டெடுப்பு பெரும்பாலான கூற்றுகளைத் தூக்கி எறிந்துவிட்டு கேள்விக்குப் பதிலளிக்கும் சிலவற்றை வைத்திருக்கிறது.
அந்த கடைசி கட்டத்தில் பெரும்பாலான “நீண்ட சூழல்” கனவுகள் இறக்கின்றன. மாதிரிக்கு எந்த 2k டோக்கன்கள் முக்கியம் என்று தெரியாவிட்டால், 200k-டோக்கன் சூழல் சாளரம் ஒரு அறை தந்திரம். நீங்கள் எப்படி முடிவு செய்கிறீர்கள் என்பது சுருக்கம்.
பிழைகள், சார்பு மற்றும் “மாதிரி அப்படி சொன்னது” பற்றி
நீங்கள் தவறான விஷயங்களைச் சுருக்கினால், ஆவணத்திலிருந்து உண்மையைச் சுருக்குகிறீர்கள். பின்னர் மாதிரி மகிழ்ச்சியுடன் மீதமுள்ளவற்றில் நியாயப்படுத்துகிறது மற்றும் அதைச் செய்ய அதிகாரப்பூர்வமாகத் தோன்றுகிறது. பாதுகாப்பு வழிகாட்டிகள்:
- மேற்கோள்களை அப்படியே பாதுகாக்கவும்; சொற்றொடர்களை தெளிவாகக் குறிக்கவும்.
- பகுதி மற்றும் வாக்கிய அளவில் நிரூபணத்தை நடைமுறைக்கு வரும்போது வைத்திருங்கள்.
- வரையறைகள், சமன்பாடுகள் மற்றும் சுருக்கமாகக் கூறப்படக்கூடாத ஒழுங்குமுறை மொழிக்கு ஒரு சிறிய “சரியான கேச்” ஐப் பராமரிக்கவும்.
- எல்லாவற்றையும் பதிப்பு செய்யவும். ஆதாரம் மாறினால், சுருக்கங்களை செல்லாததாக்கவும். வாரம் பழைய சுஷியை வழங்க வேண்டாம்.
DeepSeek-OCR எப்போதாவது ஒரு தலைப்பையும் பத்தியையும் இணைக்கலாம் அல்லது ஒரு இணைப்பைத் தவறாகப் படிக்கலாம். சரி. அதனால்தான் உங்கள் சுருக்கங்கள் பிரிவுகள் மற்றும் பக்கங்களைக் குறிப்பிடுகின்றன. சந்தேகம் இருந்தால், ரசீதுகளைக் காட்டுங்கள்.
டோக்கன் கணிதம், சலிப்பானது ஆனால் உண்மையானது
“LLM-களுக்கான நீண்ட உரையைச் சுருக்க DeepSeek-OCR ஐ எவ்வாறு பயன்படுத்துவது” என்பதன் பொருளாதாரம் டோக்கன்களுக்கு வருகிறது. OCR உரை மலிவானது; LLM சூழல் அப்படி இல்லை.
- ஒவ்வொரு பகுதியும் ~1,000 டோக்கன்கள் மற்றும் உங்கள் அடுக்குச் சுருக்கங்கள் ~200 டோக்கன்கள் என்றால், நீங்கள் ஏற்கனவே 5× சுருக்கத்தை அடைந்துவிட்டீர்கள்.
- வினவல் நேரத்தில், 5 சுருக்கங்களை மீட்டெடுப்பது 5,000+ மூலத்திற்கு பதிலாக ~1,000 டோக்கன்களைப் பயன்படுத்துகிறது. அது நீங்கள் பதிலைச் சேர்ப்பதற்கு முன்.
- அட்டவணைகளைத் தேர்ந்தெடுத்துச் சேர்க்கவும். 200-வரி அட்டவணை ஆயிரம் செல்களால் இறப்பு; 5-புல்லட் மெமோ மற்றும் 10-வரி வடிகட்டப்பட்ட பிரித்தெடுப்பு வாழ்க்கை.
சேமிப்புகளைக் காண உங்களுக்கு விரிதாள் தேவையில்லை. நீங்கள் முழு ஆவணங்களையும் நள்ளிரவு புர்ரிட்டோ போல தூண்டுதல்களில் திணிப்பதை நிறுத்த வேண்டும்.
Sider.AI பொருந்துமிடம் (இதை நீங்கள் உண்மையில் வேலை செய்ய விரும்பினால்)
இங்குதான் எல்லோரும் சந்தைப்படுத்தல் பஞ்சு கிடைக்கும் என்று எதிர்பார்க்கிறார்கள். அதற்கு பதிலாக: Sider.AI உண்மையில் வேலை செய்கிறது—குறைந்தது இதற்கு. பிடிவாதமான PDF-ஐ பதிவேற்றவும், OCR இயக்க அனுமதிக்கவும், உங்களுக்கு சுத்தமான, செல்லக்கூடிய உரையை நீங்கள் குழந்தை பார்க்காமல் துண்டுகளாக வெட்டலாம். சாட் அடுக்கு மந்திரம் அல்ல; நீங்கள் தயாரித்த சுருக்கப்பட்ட சுருக்கங்கள் மீதான ஒழுக்கமான மீட்டெடுப்பு. PDF ரீடர் என்று ஒரு PhD உடன் பாசாங்கு செய்யவில்லை என்பதுதான் நல்ல ஆச்சரியம். இது ஒரு கூர்மையான கத்தியுடன் திறமையான உதவியாளர், மேலும் LLM-களுக்கான நீண்ட உரையை அர்த்தம் சிதைக்காமல் சுருக்குவது இலக்காக இருக்கும்போது உங்களுக்கு இதுதான் தேவை. பிரித்தெடுப்பதற்காக DeepSeek-OCR ஐயும், மீட்டெடுப்பு மற்றும் தூண்டுதல் சுகாதாரத்திற்காக Sider.AI ஐயும் நீங்கள் கொண்டு வந்தால், நீங்கள் டோக்கன்கள், நேரம் மற்றும் உங்கள் அறிவுத்திறன் ஆகியவற்றை மதிக்கும் ஒரு குழாயில் முடிவடையும். அடிக்குறிப்பு மார்க்கரின் அளவிலான எச்சரிக்கைகள்
- சிக்கலான கணிதம்: OCR மற்றும் சுருக்குதல் நீங்கள் அவற்றை தட்டையாக்கினால் குறியீட்டு வெளிப்பாடுகளை வெட்டவும். சமன்பாடுகளுக்கு LaTeX அல்லது படங்களை வைத்திருங்கள்; சொற்களில் சுருக்கமாகக் கூறுங்கள், குறியீடுகளில் அல்ல.
- வரைபடங்கள்: பெயரிடப்படாத வரைபடத்தை “ஊகிக்க” மாதிரியிடம் ஒருபோதும் கேட்க வேண்டாம். அது டேரோ, பகுப்பாய்வு அல்ல. தலைப்பைப் OCR செய்யவும், குறிப்புக்காக படத்தை வைத்திருக்கவும் மற்றும் குறிவைக்கப்பட்ட கேள்விகளைக் கேட்கவும்.
- சட்டம் மற்றும் இணக்கம்: சில உரை அப்படியே பாதுகாக்கப்பட வேண்டும். அதைக் குறிக்கவும். ஒரு விதியைக் கசக்கிவிட்டு அந்த விதி இருக்கிறதா என்று மாதிரியிடம் கேட்க வேண்டாம். விதிகள்—அல்லது வழக்கறிஞர்கள்—அப்படி வேலை செய்ய மாட்டார்கள்.
அறிவுத்திறன் சரிபார்க்கப்பட்ட எடுத்துக்காட்டு முறை
உங்களிடம் 120-பக்க வருடாந்திர அறிக்கை இருப்பதாக வைத்துக்கொள்வோம்.
- DeepSeek-OCR உடன் OCR -> Markdown உரை + CSV அட்டவணைகளைப் பெறுங்கள்.
- பிரிவுகளின் அடிப்படையில் பிரிக்கவும்: “மேலாண்மை விவாதம்,” “ஆபத்து காரணிகள்” போன்றவை.
- பகுதிக்கு சுருக்கங்கள்: 8 புல்லட்கள், 1 சாரம் பத்தி, சொற்களஞ்சியம், மேற்கோள்கள்.
- வருவாய், செலவுகள், பணியாளர்கள் மற்றும் பிரிவுகளுக்கான அட்டவணை மெமோக்கள்.
- இரட்டை குறியீட்டை உருவாக்கவும்: புல்லட்களின் மீது வெக்டர்கள்; தலைப்புகள் மற்றும் சொற்களஞ்சியத்தின் மீது முக்கிய வார்த்தைகள்.
- வினவல்: “மொத்த விளிம்பு ஆண்டுக்கு ஆண்டு எப்படி மாறியது, ஏன்?” செலவு வர்ணனையுடன் கூடிய இரண்டு பகுதிகளையும் வருவாய் அட்டவணை மெமோவையும் மீட்டெடுக்கவும். மேற்கோள்கள் மற்றும் 1-2 மேற்கோள் காட்டப்பட்ட வாக்கியங்களுடன் பதிலளிக்கவும்.
நீங்கள் 120 பக்கங்களைப் படிக்கவில்லை. மாதிரியும் செய்ததாக நீங்கள் பாசாங்கு செய்யவில்லை. நீங்கள் LLM-க்கான நீண்ட உரையைச் சுருக்கி, வெளிச்சத்திற்கு வரும் ஒரு பதிலைப் பெற்றீர்கள்.
இது பக்கவாட்டாகச் செல்லும் கணிக்கக்கூடிய வழிகளைத் சரிசெய்தல்
- மாதிரி கூற்றை ஆதரிக்காத ஒரு பிரிவை மேற்கோள் காட்டுகிறது. சரி: மீட்டெடுப்பை இறுக்குங்கள்—பிரிவு தலைப்புகளுக்கான முக்கிய வார்த்தை வெற்றிகளை அதிகரிக்கவும், பொதுவான வெக்டர் பொருத்தங்களைக் குறைக்கவும்.
- சுருக்கங்கள் மூலத்திற்கு முரணாக உள்ளன. சரி: முக்கியமான பிரிவுகளுக்கு “சொற்றொடர் இல்லை” பயன்முறையைச் சேர்க்கவும்; சூழலில் 2-3 சரியான வாக்கியங்களைச் சேர்க்கவும்.
- OCR பிழைகள் தலைப்புகள் அல்லது அடிக்குறிப்புகளில் குவிந்துள்ளன. சரி: சுருக்குவதற்கு முன் திரும்பத் திரும்ப வரும் கொதிகலனை அகற்ற உங்கள் முன்செயலாக்கியை கற்பிக்கவும்; அது சத்தம்.
- அட்டவணைகள் டோக்கன் பட்ஜெட்டை பலூனாக்குகின்றன. சரி: தொடர்பு மூலம் முதல் N வரிசைகளுக்கு வரம்பு மற்றும் குறிப்பை வைத்திருங்கள்; நீங்கள் ஆழமாக தோண்ட வேண்டியிருந்தால் முழு CSV க்கான இணைப்பைச் சேர்க்கவும்.
“LLM-களுக்கான நீண்ட உரையைச் சுருக்குவதற்கான” முட்டாள் மற்றும் புத்திசாலித்தனமான வழி
முட்டாள்: “இந்த 300-பக்க PDF ஐ சுருக்கமாகக் கூறுங்கள்.”
புத்திசாலி: “இந்த 10 பிரிவு சுருக்கங்கள் மற்றும் 3 அட்டவணை மெமோக்களிலிருந்து, மூலத்தைக் குறிப்பிட்டு இந்த குறுகிய கேள்விக்குப் பதிலளிக்கவும்.”
முன்னது மாதிரியைத் தட்டுகிறது மற்றும் உங்கள் பணத்தை வீணாக்குகிறது. பிந்தையது உங்கள் பயனர்களைத் தட்டுகிறது மற்றும் யதார்த்தத்தை மதிக்கிறது. DeepSeek-OCR உங்களுக்கு சுத்தமான உரையைப் பெறுகிறது; உங்கள் குழாய் அதை நேர்மையாக வைத்திருக்கிறது.
முடிவு: மரியாதையாக சுருக்குதல்
வாசகரை மதிக்கவும். டோக்கன்களை மதிக்கவும். உண்மையை மதிக்கவும். DeepSeek-OCR ஐப் பயன்படுத்தி LLM-களுக்கான நீண்ட உரையை எவ்வாறு சுருக்குவது என்பதற்கான மூலம் அதுதான். OCR படி என்பது மேஜை பங்கு; மீதமுள்ளவை ஒரு பணிப்பாய்வாக அணிந்திருக்கும் தலையங்க தீர்ப்பு—கருத்துகளின்படி துண்டாக்குதல், நுணுக்கத்தை மணல் அள்ளாமல் சுருக்குதல், முக்கியமானதை மீட்டெடுப்பது மற்றும் ரசீதுகளுடன் பதிலளிக்க மாதிரியை அனுமதிப்பது.
நீண்ட சூழல் சாளரங்கள் நன்றாக உள்ளன. தெளிவான சூழல் சிறந்தது. மாதிரிகள் கவனமாகப் படிப்பவர்களைப் போல நடந்துகொள்ள வேண்டுமென்றால், கவனமாகப் படிப்பவர்கள் எதை வைத்திருக்கிறார்கள் என்பதை அவர்களுக்கு உணவளிக்கவும். மற்றவையெல்லாம் வெறும் பக்க எண்ணிக்கை.
FAQ
Q1: அர்த்தத்தை இழக்காமல் LLM-களுக்கான நீண்ட உரையைச் சுருக்க DeepSeek-OCR ஐ எவ்வாறு பயன்படுத்துவது?
தளவமைப்பைப் பாதுகாத்து சுத்தமான உரையைப் பிரித்தெடுக்கவும், தலைப்புகளால் (பக்கங்கள் அல்ல) பிரிக்கவும் மற்றும் அடுக்கப்பட்ட சுருக்கங்களை உருவாக்கவும்—புல்லட்கள், ஒரு பத்தி சாரம், ஒரு சொற்களஞ்சியம் மற்றும் மேற்கோள்கள். வினவல் நேரத்தில் அந்த சுருக்கங்கள் மற்றும் தொடர்புடைய அட்டவணை மெமோக்களை மட்டும் மீட்டெடுக்கவும். அது சிக்னலை வைத்திருக்கும்போது LLM-களுக்கான நீண்ட உரையைச் சுருக்குகிறது.
Q2: நான் LLM-களுக்கான நீண்ட உரையைச் சுருக்கும்போது சிறந்த பகுதி அளவு என்ன?
சமமான பைட் எண்ணிக்கைகளுக்கு பதிலாக பிரிவுகள் அல்லது துணைத் தலைப்புகளுடன் சீரமைக்கப்பட்ட ஒரு பகுதிக்கு 800-1,200 டோக்கன்களை இலக்காகக் கொள்ளுங்கள். நீங்கள் தர்க்கத்தை பாதியாக வெட்டாமல் LLM-களுக்கான நீண்ட உரையைச் சுருக்குவது அப்படித்தான்.
Q3: உரை தேர்ந்தெடுக்க முடிந்தாலும், ஒவ்வொரு PDF பக்கத்தையும் DeepSeek-OCR மூலம் OCR செய்ய வேண்டுமா?
இல்லை. உரை டிஜிட்டல்-நேட்டிவ் என்றால், அதை நேரடியாகப் பிரித்தெடுத்து ஸ்கேன் செய்யப்பட்ட பக்கங்கள் அல்லது படங்களுக்கு மட்டும் DeepSeek-OCR ஐ பயன்படுத்தவும். சுத்தமான உரையை மீண்டும் OCR செய்வது பிழைகளைச் சேர்க்கிறது—அது LLM-களுக்கான நீண்ட உரையைச் சுருக்குவதற்கு எதிரானது.
Q4: LLMகளுக்காக நீண்ட உரையைச் சுருக்கும்போது அட்டவணைகளை நான் எப்படி கையாள்வது?
அட்டவணைகளை CSV/Markdown ஆக வைத்து, அது எதைக் காட்டுகிறது, என்ன உணர்த்துகிறது, மற்றும் ஏதேனும் நிபந்தனைகள் இருந்தால் ஒரு சிறிய நினைவுக் குறிப்பைச் சேர்க்கவும். பொருத்தமானதாக இருக்கும்போது நினைவுக் குறிப்புடன் வடிகட்டப்பட்ட பகுதியையும் மீட்டெடுக்கவும்; 200 வரி கட்டத்தை தூண்டுதலில் கொட்டுவதை விட இது சிறந்தது.
Q5: DeepSeek‑OCR உடன் இந்த பணிப்பாய்வில் Sider.AI எங்கே பொருந்துகிறது?
துல்லியமான பிரித்தெடுத்தலுக்கு DeepSeek‑OCR ஐயும், ஒழுக்கமான மீட்டெடுப்பு மற்றும் சுருக்க சுகாதாரத்திற்கு Sider.AI ஐயும் பயன்படுத்தவும். இவை இரண்டும் சேர்ந்து LLMகளுக்காக நீண்ட உரையைச் சுருக்குகின்றன: குறைவான டோக்கன் விரயம், தெளிவான பதில்கள் மற்றும் விமர்சனத்தை தாக்குப் பிடிக்கும் மேற்கோள்கள்.