“நீண்ட சூழல் AI” பற்றி ஒரு விஷயம் என்னவென்றால், எல்லோரும் அதை வைத்திருப்பதாக சத்தியம் செய்கிறார்கள்—ஆனால் பக்கம் 47 பற்றி ஒரு விவரமான கேள்வியை நீங்கள் கேட்கும் வரை. பின்னர், திடீரென்று, அது தலை காயம் ஏற்பட்ட தங்கமீனின் நினைவகத்தைக் கொண்டுள்ளது. DeepSeek-OCR ஒரு எளிய-ஆனால்-உண்மையான கூற்றுடன் இந்த குழப்பத்தின் நடுவில் சரியாக இறங்குகிறது: முக்கிய விஷயத்தை சுருக்கவும், கட்டமைப்பை வைத்திருங்கள், மேலும் 2023 ஆம் ஆண்டு போல் டோக்கன்களை எரிக்காதீர்கள். வாக்குறுதி “OCR ஆனால் சிறந்தது” என்பது அல்ல. இது தளவமைப்பை மதிக்கும் OCR மற்றும் உங்கள் சூழல் சாளரத்தை இரைச்சலுடன் வீங்கவிட மறுக்கிறது.
ஆமாம், பெரும்பாலான நீண்ட சூழல் குழாய்த்திட்டங்கள் சரியாக செய்வதில்லை. அவர்கள் மூல உரையை மாதிரியில் கொட்டிவிட்டு அதை ஒரு நாள் என்று அழைக்கிறார்கள். அந்த நாள் விரைவாக பிரமைகளில் முடிவடைகிறது.
DeepSeek-OCR ஐ ஒரு உண்மையான நீண்ட சூழல் குழாய்த்திட்டத்தில் எவ்வாறு ஒருங்கிணைப்பது என்பதை ஆராய்வோம்—உண்மையில் அளவிடும் ஒன்று, கண்ணீர் இல்லாமல் கம்ப்யூட் பில்லை செலுத்துகிறது, மேலும் PDF-களில் அட்டவணைகள், அடிக்குறிப்புகள் அல்லது கடவுள் உங்களுக்கு உதவட்டும், சட்டக் காட்சிகளைக் கொண்டிருக்கும்போது உடைந்து போகாது.
DeepSeek-OCR ஏன் வித்தியாசமானது (மற்றும் பயனுள்ளது)
- தளவமைப்பு என்பது தரவு: நீண்ட ஆவணங்கள் வெறும் உரை அல்ல; அவை இடஞ்சார்ந்த வாதங்கள். தலைப்புகள், நெடுவரிசைகள், அட்டவணைகள், உருவ விளக்கங்கள்—இவை அனைத்தும் பொருள். DeepSeek-OCR அந்த கட்டமைப்பை ஒரு முதல்-நிலை குடிமகனாக பாதுகாக்க முயல்கிறது, இது நூற்றுக்கணக்கான பக்கங்களில் கதையை இழக்காமல் நியாயப்படுத்த நீண்ட சூழல் மாதிரிகள் தேவை.
- லோபோடோமி இல்லாமல் சுருக்கம்: எல்லாவற்றையும் 8K சாளரத்தில் திணிப்பது நோக்கமல்ல. சமிக்ஞையை—அடர்த்தியான, கட்டமைக்கப்பட்ட, செல்லக்கூடிய—வைத்திருப்பது மற்றும் மீதமுள்ளவற்றை மலிவாக்குவது.
- இது கீழ்நிலை படிகளுடன் நன்றாக விளையாடுகிறது: RAG, சுருக்கம், நீண்ட சூழல் டிரான்ஸ்பார்மர்கள், முகவர்கள் கூட. உங்கள் OCR அடுக்கு எவ்வளவு சிறந்ததோ, அவ்வளவு குறைவாகவே உங்கள் மீட்டெடுப்பு மற்றும் காரண அடுக்குகள் அதற்காக மன்னிப்பு கேட்க வேண்டும்.
நீங்கள் என்ன உருவாக்குகிறீர்கள்: முதுகெலும்புடன் கூடிய நீண்ட-சூழல் குழாய்த்திட்ட்டம்
குழாய்த்திட்டத்தை ஐந்து பகுதிகளாக நினைத்துப் பாருங்கள், ஒவ்வொன்றும் ஒரு வேலையைச் சிறப்பாகச் செய்கின்றன:
- உட்கொள்ளல் மற்றும் இயல்பாக்கு
- உள்ளீட்டு வகைகள்: PDFகள் (பிறப்பு-டிஜிட்டல் மற்றும் ஸ்கேன் செய்யப்பட்டவை), படங்கள், ஸ்கேனர்களிலிருந்து TIFFகள், ஒழுங்கற்ற அலுவலக ஏற்றுமதிகள்.
- முன் செயலாக்கம்: தேவைப்பட்டால், சாய்வு நீக்கு, இரைச்சல் நீக்கு, இருமைப்படுத்து, மேலும் பக்கங்களை சீராக பிரிக்கவும். பக்கம்-வாரியான மெட்டாடேட்டாவை வைத்திருங்கள்—பக்க எண்கள், மூல கோப்பு, பிரிவு நங்கூரங்கள்.
- வெளியீட்டு இலக்கு: நிலையான DPI உடன் கணிக்கக்கூடிய வடிவத்தில் (PNG அல்லது JPEG) படங்கள் அல்லது பக்க கேன்வாஸ்கள்.
- ஒவ்வொரு பக்கத்திலும் DeepSeek-OCR ஐ இயக்கவும்:
- வரையறுக்கும் பெட்டிகளுடன் உரை இடைவெளிகள் (x, y, அகலம், உயரம்)
- தொகுதி வகைகள்: தலைப்புகள், பத்திகள், பட்டியல்கள், அட்டவணைகள், புள்ளிவிவரங்கள், அடிக்குறிப்புகள்
- படிக்கும் வரிசை மற்றும் படிநிலை அமைப்பு (ஆவண மரம்)
- மூல உரை மற்றும் தளவமைப்பு அம்சங்கள் இரண்டையும் வைத்திருங்கள். இது டோக்கன்-நிலை வரைபடத்தை ஏற்றுமதி செய்ய முடிந்தால், அதை வைத்திருங்கள். அட்டவணைகள் கட்டமைக்கப்பட்டதாக (CSV/HTML) இருக்க வேண்டும், மேலும் அவற்றின் ஆயத்தொலைவுகளுக்கு மீண்டும் இணைக்கப்பட வேண்டும்.
- தளவமைப்பு-அறிந்த சுருக்கம்
- தந்திரம்: டோக்கன் துண்டிப்பால் அல்ல, தொகுதி முக்கியத்துவத்தால் சுருக்கவும்.
- உண்மையில் வேலை செய்யும் ஹியூரிஸ்டிக்ஸ்:
- தலைப்புகள் மற்றும் பிரிவு சுருக்கங்கள்: அப்படியே வைத்திருங்கள்.
- பத்திகள்: ஒரு இலகுரக தரவரிசைப்படுத்துதலைப் பயன்படுத்தி வாக்கிய-நிலை தேர்வு (BM25/ColBERT-style அல்லது ஒரு சிறிய உள்ளூர் என்கோடர்).
- அட்டவணைகள்: தலைப்புகளைப் பாதுகாக்கவும், மேலும் சிறந்த-k புள்ளிவிவர மாறுபாடு வரிசைகளை பாதுகாக்கவும்; எண் நெடுவரிசைகளை அப்படியே வைத்திருங்கள்; முழு அட்டவணையை அவுட்-ஆஃப்-பேண்டில் வைக்கவும்.
- தலைப்புகள் மற்றும் அடிக்குறிப்புகள்: வைத்திருங்கள்; குறைந்த டோக்கன்கள், அதிக அர்த்தம்.
- இரண்டு கலைப்பொருட்களை உருவாக்கவும்:
- ஒரு சிறிய, தளவமைப்பு-அறிந்த கதை சூழல்: அசல் டோக்கன்களில் 10–20%, ஒத்திசைவானது, செல்லக்கூடியது.
- ஒரு சைட்கார் அட்டவணை: சுருக்கப்பட்ட இடைவெளிகளில் இருந்து முழு-நம்பகத்தன்மை தொகுதிகளுக்கான சுட்டிகள்.
- மீட்டெடுப்பு மற்றும் ரூட்டிங் (RAG ஒரு வயது வந்தவர் போல செய்யப்பட்டது)
- வாக்கியங்கள்/பத்திகளில் சொற்பொருள் தேடலுக்கான அடர்த்தியான திசையன்கள்.
- துல்லியமான தேடலுக்கான ஸ்பார்ஸ் (BM25) - குறியீடுகள், மேற்கோள்கள், அடையாளங்காட்டிகள்.
- அட்டவணை-அறிந்த அட்டவணை: எண் வினவல்களுக்கான வரிசை மற்றும் செல் உட்பொதிப்புகள்.
- முக்கிய வார்த்தை-கனமான கேள்விகள் → முதலில் ஸ்பார்ஸ், அடர்த்தியுடன் மீண்டும் தரவரிசை.
- பகுப்பாய்வு அல்லது “ஏன்” கேள்விகள் → முதலில் அடர்த்தி, ஸ்பார்ஸ் நங்கூரங்களுடன் மீண்டும் தரவரிசை.
- அட்டவணை/கணித வினவல்கள் → அட்டவணை அட்டவணை நேரடியாக, வரிசை/நெடுவரிசை வம்சாவளியுடன்.
- உங்கள் சுத்தியலைத் தேர்வுசெய்க:
- முழுமையான தூண்டுதல்களுக்கான நீண்ட சூழல் LLM (கொள்கை ஆவணங்கள், RFPs, ஆராய்ச்சி கட்டுரைகள்).
- பல-ஹாப் பணிகளுக்கான படிப்படியான, கருவி-அழைக்கும் முகவர்: மீட்டெடு → பகுப்பாய்வு → சரிபார்க்க → மேற்கோள் காட்டு.
- முழுமையான சிறிய விவரிப்பையும் மாதிரியில் வெடிக்காதீர்கள். சரியான நேரத்தில் சூழலை மட்டும் ஒன்று சேருங்கள்: நோக்கத்தின் அடிப்படையில் சிறந்த பிரிவுகள், தொடர்புடைய அட்டவணைகள் மற்றும் அருகிலுள்ள பத்திகள். ரொட்டித்துண்டுகளுடன் தைக்கவும் (பிரிவு பெயர்கள், பக்க குறிப்புகள், உருவ அடையாளங்காட்டிகள்).
என்ன வருகிறது: ரசீதுகளுடன் பதில்கள். ஒவ்வொரு கூற்றும் ஒரு தொகுதி ID, பக்க எண் மற்றும் அசல் PDF-ல் நீங்கள் முன்னிலைப்படுத்தக்கூடிய ஒருங்கிணைப்பு வரம்பிற்கு மீண்டும் இணைக்கிறது. இப்படித்தான் நீங்கள் நம்பிக்கையைப் பெறுவீர்கள்.
நடைமுறை வரைபடம்: மூல PDF-களில் இருந்து நீண்ட-சூழல் பதில்கள் வரை
படி 1: ஆவண உட்கொள்ளல்
- கோப்பைச் சரிபார்க்கவும்: கடவுச்சொல் மூலம் பாதுகாக்கப்பட்டிருந்தால் அல்லது சிதைந்திருந்தால், வேகமாக தோல்வியடையும்.
- நிலையான DPI இல் பக்க படங்களுக்கு ரெண்டர் செய்யவும் (300 நல்லது; வேகத்திற்கு 200).
- பக்க-நிலை ஹாஷ்களை வைத்திருங்கள், இதன் மூலம் நீங்கள் OCR ஐ சேமிக்க முடியும்.
படி 2: DeepSeek-OCR பாஸ்
- GPU செயல்திறனுக்கான தொகுதி பக்கங்கள்.
- தொகுதிகள் மற்றும் படிக்கும் வரிசையை பிரித்தெடுக்கவும். ஆயத்தொலைவுகளை ஒரு நிலையான பக்க இடத்திற்கு இயல்பாக்கவும்.
- JSON: வகை, உரை, bbox, பக்கத்துடன் கூடிய தொகுதி பட்டியல்.
- CSV/HTML ஆக அட்டவணைகள் மற்றும் ஒவ்வொரு செல்லுக்கும் bbox வரைபடம்.
- தளவமைப்பு குறிப்புகளுடன் கூடிய ஒரு விருப்பமான தைக்கப்பட்ட மார்க் டவுன் (தலைப்புகளுக்கு ##, அட்டவணைகளுக்கு :::table போன்றவை).
படி 3: போஸ்ட்-OCR சுத்தம்
- கோடு இடைவெளிகளில் ஹைபனேட்டட் வார்த்தைகளை இணைக்கவும்.
- நெடுவரிசைகளைத் தீர்க்கவும்: ஒரு பக்கத்தில் இரண்டு நெடுவரிசைகள் இருந்தால், படிக்கும் வரிசை நெடுவரிசைகளை மதிக்கிறது என்பதை உறுதிப்படுத்தவும்.
- வழங்கப்படாவிட்டால் எழுத்துரு/அளவு ஹியூரிஸ்டிக்ஸ் வழியாக தலைப்புகளைக் கண்டறியவும்; TOC மரத்தை உருவாக்கவும்.
- ஸ்கேன் செய்யப்பட்ட ஒப்பந்தங்களில் பொதுவான, மீண்டும் மீண்டும் வரும் தலைப்புகள்/அடிக்குறிப்புகளை நகலெடுக்கவும்.
படி 4: கட்டமைப்புடன் சுருக்கம்
- வாக்கிய-பிளவு பத்திகள். உங்கள் டொமைனில் பயிற்சி பெற்ற ஒரு மலிவான தரவரிசைப்படுத்துதலுடன் வாக்கியங்களுக்கு மதிப்பெண் கொடுங்கள்.
- உயர்-மதிப்பெண் வாக்கியங்களை வைத்திருங்கள்; ஒவ்வொரு தலைப்பின் கீழும் முதல் வாக்கியத்தை எப்போதும் வைத்திருங்கள்.
- அட்டவணைகளுக்கு: மாறுபாடு/முக்கியத்துவம் மற்றும் முழு அட்டவணைக்கான குறிப்பு மூலம் தலைப்பு வரிசை + சிறந்த-k வரிசைகளை வைத்திருங்கள்.
- ஒப்பந்தமான விவரிப்பு மற்றும் ஒவ்வொரு வைக்கப்பட்ட வாக்கியத்தையும் அதன் அசல் இணைக்கும் அட்டவணை சைட்காரை உருவாக்கவும்.
படி 5: குறியீடாக்கம்
- வாக்கியங்களுக்கான அடர்த்தியான உட்பொதிப்புகள் (தேவைப்பட்டால் ஒரு வலுவான பல மொழி மாதிரியைப் பயன்படுத்தவும்).
- முழு கார்பஸின் மீது ஸ்பார்ஸ் அட்டவணை (தலைப்பு, தலைப்புகள், குறியீடுகள், மேற்கோள்கள், அடையாளங்காட்டிகள், அலகுகள்).
- வரிசை மற்றும் செல் மட்டத்தில் அட்டவணை உட்பொதிப்புகள்; வேகமான வடிகட்டிகளுக்கான எண் புள்ளிவிவரங்களை (குறைந்தபட்சம், அதிகபட்சம், சராசரி) வைத்திருங்கள்.
- வம்சாவளியைச் சேமிக்கவும்: doc_id, பக்கம், bbox, block_id.
படி 6: வினவல் ரூட்டிங் மற்றும் மீட்டெடுப்பு
- வினவல் நோக்கத்தை வகைப்படுத்தவும்: தேடல் எதிராக பகுப்பாய்வு எதிராக அட்டவணை கணிதம் எதிராக ஒப்பிடு.
- பொருத்தமான மீட்டெடுப்பு ரெசிபியை இயக்கவும்:
- தேடல்: ஸ்பார்ஸ் → அடர்த்தியான மறு தரவரிசை.
- பகுப்பாய்வு: அடர்த்தியான → பிரிவு அண்டை நாடுகள்.
- அட்டவணை கணிதம்: அட்டவணை அட்டவணை + வரிசை வடிகட்டிகள்; சூழலுக்கான அருகிலுள்ள உரையை இணைக்கவும்.
- ஒரு ப்ராம்ப்ட் பேக்கை தொகுக்கவும்:
- 3–6 மீட்டெடுக்கப்பட்ட பத்திகள் (தலைப்புகள் மற்றும் பக்க குறிப்புகளுடன்)
- தேவைப்பட்டால், 1–2 சிறிய அட்டவணைகள் அல்லது கணக்கிடப்பட்ட புள்ளிவிவரங்கள்
- மாதிரி-குறிப்பிட்ட இனிமையான இடங்களில் தூண்டுதல்களை வைத்திருங்கள். நீண்ட சூழல் என்பது முடிவற்ற சூழல் அல்ல.
படி 7: மேற்கோள்களுடன் பதில் ஒருங்கிணைப்பு
- [Doc §2.3, p. 47, tbl A] போன்ற பிரிவு பதிலுக்கும் வரிசை மேற்கோள்களுக்கும் கட்டமைக்கப்பட்ட வெளியீட்டைக் கேளுங்கள்.
- தந்திரமான கூற்றுக்களுக்கு, சரிபார்ப்பு பாஸைத் தூண்டவும்: துல்லியமான இடைவெளிகளை மீண்டும் மீட்டெடுக்கவும், ஒரு இலக்கு கேள்வியை மீண்டும் கேட்கவும், முரண்பாடுகளைச் சமரசம் செய்யவும்.
- பயனர்கள் கிளிக் செய்யக்கூடிய வம்சாவளி பாதையுடன் பதிலை அனுப்பவும்.
உண்மையான பணத்தை சேமிக்கும் செயல்திறன் குறிப்புகள்
- GPU ஐ YOLO செய்யாதீர்கள்: OCR என்பது I/O பவுண்ட் மற்றும் GPU-பவுண்ட் ஆகும். பக்க எண்ணிக்கையால் தொகுதி மற்றும் கர்னல் மறுபயன்பாட்டை அதிகரிக்க பட அளவுகளை இயல்பாக்குங்கள்.
- ஆக்ரோஷமாக சேமிக்கவும்: மூல ஆவணம் மாறவில்லை என்றால், மீண்டும்-OCR செய்ய வேண்டாம். உள்ளடக்கத்தில் பக்க பிட்மேப்பை ஹேஷ் செய்யவும், கோப்பை அல்ல.
- அட்டவணைகள் கண்ணிவெடிகள்: அவை டோக்கன் எண்ணிக்கையை அதிகரித்து தரத்தை குறைக்கின்றன. அவற்றை சுத்தமாக பிரித்தெடுத்து, கேள்விக்குத் தேவைப்படாவிட்டால் அவற்றை உங்கள் பொது சூழலில் இருந்து விலக்கி வைக்கவும்.
- சங்கிங் ஒரு மதம் அல்ல: டோக்கன் நீளத்தால் அல்ல, தளவமைப்பால் (தலைப்புகள், பத்திகள்) சங்க் செய்யவும். டோக்கன்-நீளம் சங்கிங் என்பது வாத கட்டமைப்பை நீங்கள் இழக்கும் விதம்.
- சுருக்குவதற்கு முன் சரிபார்க்கவும்: மீட்டெடுப்பு சூழலைக் குறைக்கும் வரை தெளிவற்ற பகுதிகளை சுருக்க வேண்டாம்; நீங்கள் தவறான விஷயங்களை சுருக்குவீர்கள்.
பிழை கையாளுதல்: கவர்ச்சியற்ற பகுதிகள் முக்கியத்துவம்
- உடைந்த PDFகள்: ராஸ்டரைசேஷன் ஃபால்பேக்கை முயற்சிக்கவும். இன்னும் உடைந்திருந்தால், ஒரு கண்டறியும் கலைப்பொருளைத் திரும்பவும். அமைதியான தோல்வி பதில் இல்லாததை விட மோசமானது.
- குப்பை ஸ்கேன்கள் (தொலைநகல் தரம்): ஒரு இரைச்சல்/மாறுபாடு புடைப்பை முயற்சிக்கவும்; நம்பிக்கை வரம்புக்கு கீழே குறைந்தால், மனித மதிப்பாய்வுக்காக கொடியிடவும். உங்களுக்குத் தெரியாததை ஒப்புக்கொள்ளுங்கள்.
- லத்தீன் அல்லாத ஸ்கிரிப்டுகள்: OCR மாதிரி உங்கள் ஸ்கிரிப்ட் தொகுப்பை ஆதரிக்கிறதா என்பதை உறுதிப்படுத்தவும்; இல்லையெனில் ஒரு சிறப்பு OCR மாறுபாட்டிற்கு அனுப்பவும்.
- கலையைப் போல் தோற்றமளிக்கும் அட்டவணைகள்: அட்டவணை கண்டறிதல் தோல்வியுற்றால், பாசாங்கு செய்யாதீர்கள். ஒரு தலைப்புடன் ஒரு படமாக கருதி, “கைமுறை பிரித்தெடுத்தல் தேவை” அறிவிப்பைத் திரும்பவும்.
தரவு மாதிரி: பிரதேசத்துடன் வரைபடத்தை வைத்திருங்கள்
- வகை: தலைப்பு/பத்தி/பட்டியல்/அட்டவணை/உருவம்/அடிக்குறிப்பு
- உரை (விருப்பமானது), bbox, வரிசை, பாணி குறிப்புகள்
- இணைப்புகள்: குழந்தைகள், பெற்றோர்
- வரிசைகள், நெடுவரிசைகள், செல் உரைகள், செல் பாக்ஸ்கள், தலைப்பு கொடிகள்
- doc_id, பக்கம், block_id, ஆஃப்செட்கள், bbox
பாதுகாப்பு மற்றும் இணக்கம்
- உங்கள் கொள்கை உங்களை அனுமதிக்காவிட்டால், முக்கியமான PDFகளை மூன்றாம் தரப்பு APIகளுக்கு பதிவேற்ற வேண்டாம். நீங்கள் கட்டாயப்படுத்தினால், போக்குவரத்து மற்றும் ஓய்வில் குறியாக்கம் செய்யவும்.
- முடிந்தால் OCR கட்டத்தில் PIIஐத் திருத்தவும்—பிணைக்கும்-பெட்டி திருத்தம் போஸ்ட்-ஹாக் ஸ்ட்ரிங் மாஸ்கிங்கை விட வலிமையானது.
- உள்ளடக்கம் தடைசெய்யப்பட்ட இடங்களில் உள்ளடக்கத்தை பதிவு செய்யாமல் மீட்டெடுப்பு மற்றும் பதில் தலைமுறையை பதிவு செய்யுங்கள். மூல உரை அல்ல, ஹாஷ்கள் மற்றும் ஐடிகளை வைத்திருங்கள்.
நீண்ட-சூழல் மாதிரி தேர்வுகள் (ஹைப் இல்லாமல்)
- உங்கள் கேள்விகள் பெரும்பாலும் “எங்கே X என்று சொல்கிறது” என்றால், தூய சூழல் நீளத்தை விட மீட்டெடுப்பு மற்றும் மேற்கோளுக்கு முன்னுரிமை கொடுங்கள். ஒரு குறுகிய, துல்லியமான சூழல் 1M-டோக்கன் பிரமையைத் தோற்கடிக்கும்.
- உங்கள் ஆவணங்கள் விவரிப்பு என்றால் (ஆராய்ச்சி, அறிக்கைகள்), நீண்ட-சூழல் மாதிரிகள் உதவும், ஆனால் பிரிவு கட்டமைப்பால் வழிநடத்தப்படும்போது மட்டுமே.
- அட்டவணை-கனமான பணிப்பாய்வுகளுக்கு ஒரு பிளவு மூளை தேவை: உரைக்கான மொழி மாதிரி, எண்கணிதம் மற்றும் வடிகட்டுதலுக்கான ஒரு இலகுரக நிரல்.
பதிப்பு மற்றும் டிரிஃப்ட்
- OCR சிறப்பாகிறது; ஆவணங்கள் மாறுகின்றன; உட்பொதிப்புகள் நகர்கின்றன. எல்லாவற்றையும் பதிப்பு:
- OCR இயந்திர பதிப்பு மற்றும் கட்டமைப்பு
- உட்பொதிப்பு மாதிரி பதிப்பு
- குறியீட்டு ஸ்கீமா பதிப்பு
- எந்த பதிப்பு மாற்றினாலும், மீண்டும்-குறியீட்டு படிப்படியாக. சமத்துவத்தை நிரூபிக்கும் வரை பழைய மற்றும் புதிய இரண்டையும் வைத்திருங்கள்.
டெவலப்பர் ஒருங்கிணைப்பு ஸ்கெட்ச்
- பணியாளர் 1: உட்கொள்ளல் → பக்கங்களை ரெண்டர் செய்தல் → வரிசையில் சேர்ப்பது.
- பணியாளர் 2 (GPU): DeepSeek-OCR ஒரு பக்கத்திற்கு → கட்டமைக்கப்பட்ட JSON → அட்டவணைகள்.
- பணியாளர் 3: சுத்தம் + தளவமைப்பு மரம் → சுருக்கம்.
- பணியாளர் 4: அட்டவணை கட்டமைப்பை (அடர்த்தியானது + ஸ்பார்ஸ் + அட்டவணைகள்) உருவாக்குதல் → வெளியிடுதல்.
- சேவை: வினவல் ரூட்டர் → மீட்டெடுப்பு → ப்ராம்ப்ட் அசெம்பிளி → LLM → சரிபார்க்க → பதிலளி.
- சேமிப்பு: பக்க படங்கள் மற்றும் சைட்கார்களுக்கான பொருள் கடை; தொகுதிகள் மற்றும் வம்சாவளிக்கான DB; திசையன் மற்றும் ஸ்பார்ஸ் அட்டவணைகள்.
ஒரு குழப்பத்தை ஏற்படுத்தாத கருவிகள் பற்றிய வார்த்தை
குறைந்த கவர்ச்சியான துண்டு பெரும்பாலும் குழாய்த்திட்டத்தை உருவாக்குகிறது. தளவமைப்பை மதிக்கும் இறுக்கமான OCR, “எனக்குத் தெரியாது” என்று சொல்லக்கூடிய ஒரு அட்டவணை மற்றும் அதிக திணிப்பை மறுக்கும் ஒரு ப்ராம்ப்ட் பில்டர். அதுதான் வேலை. இந்த ஒரு நடைமுறை பணிப்பாய்வில் திருக விரும்பினால்—ஒப்பந்தங்களைச் சுருக்குதல், 300-பக்க RFIs மூலம் சீப்புதல் அல்லது SOP கையேடுகளை தணிக்கை செய்தல்—Sider.AI உண்மையில் OCR, மீட்டெடுப்பு மற்றும் நீண்ட சூழல் தூண்டுதலுக்கு இடையிலான பசை அடுக்காக வேலை செய்கிறது, குறிப்பாக நீங்கள் ஒரு மந்திரவாதியாக இருப்பதை விட ஒரு ஒழுக்கமான ஃபோர்மனாக கருதும் போது. அதை ஒருங்கிணைக்கப் பயன்படுத்தவும்: பணிகளை உட்கொள்ளுதல், சங்கிங் கொள்கைகள், மாதிரி தேர்வு மற்றும் “நீங்கள் நம்புவதற்கு முன்பு சரிபார்க்கவும்” வளையம். நீங்கள் இந்த வேலைகளை அணிகள் முழுவதும் அளவிடவும் முடிவுகளை மீண்டும் உருவாக்கவும் வேண்டியிருக்கும் போது அது அதன் உழைப்பைப் பெறுகிறது. வெள்ளிக்கிழமை நீங்கள் தாக்கும் “கோச்சாக்கள்”
- அதிகப்படியான சுருக்கம்: நீங்கள் அதிகமாக வெட்டி பதில்கள் நுணுக்கத்தை இழக்கின்றன. பதில்-நீளம்/கவரேஜ் அளவீடுகளைப் பாருங்கள்; நம்பிக்கை குறைந்தால் முழு தொகுதியையும் பெற ஒரு ஃபால்பேக்கைச் சேர்க்கவும்.
- அதிகப்படியான மீட்டெடுப்பு: நீங்கள் 60 துண்டுகளை ப்ராம்ப்ட்டில் இழுத்து சூழலைக் கடந்து செல்கிறீர்கள். அதை மூடி, அருகாமைக்கு சார்பு (அண்டை பிரிவுகள் தங்கம்).
- அட்டவணை மாயைகள்: மாதிரி ஒரு எண்ணை உறுதியாக மேற்கோள் காட்டுகிறது—ஆனால் தவறான வரிசையிலிருந்து. எப்போதும் அட்டவணை துணுக்குகளை ப்ராம்ப்ட்டில் வரிசை விசையுடன் இணைக்கவும்.
- நகல் பக்கங்கள்: ஸ்கேனிங் பணிப்பாய்வுகளுக்கு மீண்டும் செய்ய பிடிக்கும். பக்கங்களை ஹாஷ் செய்யவும்; OCR க்கு பணம் செலுத்துவதற்கு முன் பக்க மட்டத்தில் டெடுப் செய்யவும்.
- குறுக்கு-குறிப்புகள் மற்றும் அடிக்குறிப்புகள்: அவர்கள் சட்டப்பூர்வமாக அர்த்தமுள்ள எச்சரிக்கைகளைக் கொண்டு செல்கிறார்கள். கொள்கை/சட்ட ஆவணங்களில் அடிக்குறிப்புகளை ஒருபோதும் கைவிடாதீர்கள்; அவற்றை குறைந்த டோக்கன் பாதையில் வைத்திருங்கள்.
பொய் சொல்லாத தர அளவீடுகள்
- உயர்-k மேற்கோள் துல்லியம்: மேற்கோள் காட்டப்பட்ட தொகுதி உண்மையில் கூற்றை ஆதரிக்கிறதா?
- அட்டவணை செல் துல்லியம்: எண் பதில்களில் சரியான செல் குறிப்புகளின் வீதம்.
- சுருக்க நம்பகத்தன்மை: சுருக்கப்பட்ட விவரிப்பு மற்றும் அசல் ஒரு பிரிவுக்கு ROUGE/LFQA-பாணி ஒன்றுடன் ஒன்று.
- சுமையின் கீழ் வினவல் தாமதம்: P95 எண்ட்-டு-எண்ட், LLM நேரம் மட்டுமல்ல.
- மனித நம்பிக்கை மதிப்பெண்: பயனர்கள் முதல் பார்வையில் பதில்களை ஏற்றுக்கொள்கிறார்களா அல்லது நிராகரிக்கிறார்களா? இது தத்தெடுப்பை முன்னறிவிக்கும் ஒரே அளவீடு.
ஒரு குறைந்தபட்ச வேலை செய்யும் எடுத்துக்காட்டு (கருத்தியல்)
- உள்ளீடு: இணைப்புகள் மற்றும் ஐந்து க்னார்லி அட்டவணைகளுடன் 180-பக்க கொள்முதல் விவரக்குறிப்பு.
- நீங்கள் DeepSeek-OCR ஐ இயக்குகிறீர்கள்; இது பெட்டிகள் மற்றும் ஒரு விசுவாசமான TOC உடன் கட்டமைக்கப்பட்ட தொகுதிகளை வெளியிடுகிறது.
- சுருக்கம் அனைத்து தலைப்புகள், முதல் வாக்கியங்கள் மற்றும் அட்டவணைகளில் இருந்து அத்தியாவசிய வரிசைகளை வைத்திருக்கிறது. சைட்கார் எல்லாவற்றிற்கும் மீண்டும் சுட்டிக்காட்டுகிறது.
- பயனர் கேட்கிறார்: “எந்த பிரிவு மின் கூறுகளுக்கான உத்தரவாத காலத்தை அமைக்கிறது?”
- ரூட்டர் ஸ்பார்ஸ் → அடர்த்தியைத் தேர்வு செய்கிறது.
- மீட்டெடுப்பு இரண்டு பிரிவுகளையும் ஒரு இணைப்பையும் திரும்ப அளிக்கிறது.
- ப்ராம்ப்ட் தலைப்பு+பத்திகளை வரிசை மேற்கோள்களுடன் ஊட்டுகிறது.
- மாதிரி பதில்கள்: “பிரிவு 4.2.1, ப. 67: ‘மின் கூறுகள் குறைந்தபட்சம் 36-மாத உத்தரவாதத்தை எடுத்துச் செல்கின்றன…’” இது துல்லியமான இடைவெளியை முன்னிலைப்படுத்தும் ஒரு இணைப்புடன்.
- பயனர் கேட்கிறார்: “ரேக்குகளில் மொத்த மின் சக்தி எவ்வளவு?”
- ரூட்டர் அட்டவணை அட்டவணையைத் தேர்ந்தெடுக்கிறது. இது சரியான வரிசைகளை பிரித்தெடுக்கிறது, ஒரு எளிய கருவியுடன் இரண்டு நெடுவரிசைகளை கூட்டுகிறது மற்றும் வரிசை விசைகளுடன் அட்டவணை B-3 ஐ மேற்கோள் காட்டுகிறது. மாய கணிதம் இல்லை.
மற்றவர்கள் செய்யாதபோது இது ஏன் வேலை செய்கிறது
ஏனெனில் இது OCR, மீட்டெடுப்பு மற்றும் காரணத்தை அவற்றுக்கிடையேயான ஒப்பந்தத்துடன் கூடிய தனி வேலைகளாகக் கருதுகிறது. DeepSeek-OCR உங்களுக்கு கட்டமைப்பைக் கொடுக்கிறது; சுருக்கம் அர்த்தத்தைப் பாதுகாக்கிறது; மீட்டெடுப்பு சரியான ஆதாரத்தை எடுக்கிறது; நீண்ட-சூழல் மாதிரி அதை நிரப்பு இல்லாமல் ஒன்றாக இணைக்கிறது. எல்லாவற்றையும் ஒரு பெரிய சாளரத்தில் அடைத்து பிரார்த்தனை செய்வது தொழில்துறையின் இயல்புநிலை. பிரார்த்தனை என்பது ஒரு தந்திரோபாயம் அல்ல.
நீங்கள் மூலைகளை வெட்டப் போகிறீர்கள் என்றால், கடைசியாக இவற்றைக் குறைக்கவும்
- அட்டவணை பிரித்தெடுத்தல்: நீங்கள் இங்கே குறைத்தால், ஒவ்வொரு கீழ்நிலை படிநிலையும் குழப்பத்தை மரபுரிமையாகப் பெறுகிறது.
- வம்சாவளி குழாய்: பயனர்கள் மெதுவான தன்மையையும் எப்போதாவது தவறான பதில்களையும் மன்னிக்கிறார்கள்; அவர்கள் சரிபார்க்க முடியாத பதில்களை மன்னிக்க மாட்டார்கள்.
- சேமிப்பு மற்றும் ஹாஷிங்: நீங்கள் இதைச் சரியாகச் செய்தால் உங்கள் கிளவுட் பில் உங்களை மன்னிக்கும்.
வரையறுக்கப்பட்ட பிட்: உங்களுக்கு நீண்ட சூழல் தேவையா?
ஒரு காரமான எண்ணம்: சில நேரங்களில் நீண்ட சூழல் மோசமான மீட்டெடுப்புக்கு ஒரு ஊன்றுகோல். உங்கள் கேள்விகள் குறுகியதாகவும் துல்லியமாகவும் இருந்தால், சிறந்த குறியீட்டு மற்றும் சிறிய சூழல்களில் முதலீடு செய்யுங்கள். பிரிவுகளைத் தொகுக்க கேள்வி கேட்கும்போது நீண்ட சூழல் பிரகாசிக்கிறது—கொள்கை விதிவிலக்குகள், குறுக்கு-குறிப்பிட்ட உட்பிரிவுகள், இலக்கிய மதிப்புரைகள். இல்லையெனில், உங்களுக்குத் தேவையில்லாத கவனத்திற்கு நீங்கள் பணம் செலுத்துகிறீர்கள்.
உங்களுக்கு உண்மையிலேயே “முழு விஷயத்தையும் படிக்க” புரிதல் தேவைப்பட்டால் என்ன செய்வது? மாதிரியை எல்லாவற்றையும் வேலை செய்யும் நினைவகத்தில் வைத்திருக்க கட்டாயப்படுத்தாதீர்கள். அதை நிலைநிறுத்துங்கள்: கோடிட்டுக்காட்டு → மீட்டெடுக்கவும் → நியாயப்படுத்தவும். மனிதர்கள் கூட அதைத்தான் செய்கிறார்கள்.
ரேப்-அப்: ரசீதுகளைக் கொண்டு வாருங்கள் அல்லது கவலைப்பட வேண்டாம்
DeepSeek-OCR ஐ ஒரு நீண்ட-சூழல் குழாய்த்திட்டத்தில் ஒருங்கிணைப்பது பெரிய சாளரங்களின் பலிபீடத்தில் வணங்குவது அல்ல. ஆவணங்களை இடஞ்சார்ந்த வாதங்களாக மதிப்பது, சுவையுடன் சுருக்குவது, நோக்கத்துடன் மீட்டெடுப்பது மற்றும் ரசீதுகளுடன் பதிலளிப்பது பற்றி இது. அதைச் செய்யுங்கள், உங்கள் குழாய்த்திட்ட்டம் 47 ஆம் பக்கத்தை நினைவில் வைத்திருப்பதாக நடிப்பதில்லை—மேலும் அதை நிரூபிக்கத் தொடங்குகிறது.
சாதாரணமாகப் பயன்படுத்தப்படும் Sider.AI, இதை நடைமுறைக்குக் கொண்டுவருகிறது: நிலைகளை ஒருங்கிணைக்கவும், ப்ராம்ப்ட்டுகளை நேர்மையாக வைத்திருக்கவும், மேலும் நீண்ட சூழல் வேலை உண்மையில் தேவைப்படும் ஒழுக்கத்தை செயல்படுத்தவும். அது கவர்ச்சியற்றதாகத் தோன்றினால், நல்லது. நீங்கள் நம்பக்கூடிய பதில்கள் கவர்ச்சியான பகுதி. FAQ
Q1:ஒரு நீண்ட-சூழல் குழாய்த்திட்டத்தில் DeepSeek-OCR ஐ ஒருங்கிணைப்பதற்கான விரைவான வழி என்ன?
OCR ஐ கடுமையான சேமிப்புடன் கூடிய GPU தொகுதி சேவையாகக் கருதுங்கள், பின்னர் மீட்டெடுப்பதற்கு முன்பு தளவமைப்பால் (தலைப்புகள், பத்திகள், அட்டவணைகள்) சுருக்கவும். ஒரு கலப்பின அட்டவணையைச் சேர்க்கவும் (அடர்த்தியானது + ஸ்பார்ஸ் + அட்டவணை) மற்றும் முழு ஆவணத்தையும் கொட்டுவதை விட சரியான நேரத்தில் தூண்டுதல்களை ஒன்று சேர்க்கவும்.
Q2:நான் DeepSeek-OCR ஐப் பயன்படுத்துகிறேனென்றால், எனக்கு நீண்ட-சூழல் மாதிரிகள் உண்மையில் தேவையா?
எப்போதும் இல்லை. உங்கள் கேள்விகள் துல்லியமாக இருந்தால், சிறந்த மீட்டெடுப்பு மற்றும் மேற்கோள்கள் கொடூரமான படைச் சூழலைத் தோற்கடிக்கும். 67 ஆம் பக்கத்தில் ஒரு உட்பிரிவை நீங்கள் தேடும்போது அல்ல, பிரிவுகளில் ஒருங்கிணைப்பு தேவைப்படும்போது நீண்ட சூழல் செலுத்துகிறது.
Q3:டோக்கன் எண்ணிக்கைகளை வெடிக்காமல் நான் அட்டவணைகளை எவ்வாறு கையாள்வது?
அட்டவணைகளை கட்டமைக்கப்பட்ட முறையில் பிரித்தெடுக்கவும், தலைப்புகள் மற்றும் சில உயர்-சிக்னல் வரிசைகளை வைத்து, முழு அட்டவணையை அவுட்-ஆஃப்-பேண்டில் சேமிக்கவும். அட்டவணை கேள்விகளை ஒரு அட்டவணை அட்டவணைக்கு அனுப்பவும், மேலும் தூண்டுதலில் தேவையான செல்களை மட்டும் சேர்க்கவும்.
Q4:குழாய்த்திட்ட்டம் உண்மையில் வேலை செய்கிறது என்பதை நிரூபிக்கும் அளவீடுகள் என்ன?
மேற்கோள் துல்லியம், அட்டவணை செல் துல்லியம், ஒரு பிரிவுக்கு சுருக்க நம்பகத்தன்மை மற்றும் P95 எண்ட்-டு-எண்ட் தாமதத்தைக் கண்காணிக்கவும். மிகவும் வெளிப்படுத்துவது ஒரு மனித நம்பிக்கை மதிப்பெண்—ஆதாரத்திற்காக தோண்டாமல் பயனர்கள் பதிலை ஏற்றுக்கொள்கிறார்களா?
Q5:Sider.AI இந்த அமைப்பில் எங்கே பொருந்துகிறது?
ஒருங்கிணைப்பு அடுக்கு என: இது OCR ஐ திட்டமிடுகிறது, சங்கிங் மற்றும் மீட்டெடுப்பு கொள்கைகளை அமல்படுத்துகிறது மற்றும் தூண்டுதல்களை ஒழுக்கமாக வைத்திருக்கிறது. போர்மேன் என்று நினைத்துப்பாருங்கள், மந்திரவாதி அல்ல—மற்ற அனைத்து துண்டுகளையும் சரியான நேரத்தில் மற்றும் ரசீதுகளுடன் காட்டச் செய்யும் விஷயம்.