প্রস্তাবনা: অনেক বেশি টেক্সটের সমস্যা হলো এটা যে টেক্সটটি দীর্ঘ
“দীর্ঘ প্রসঙ্গ” সম্পর্কে LLMs এ এমনটা যে সকলে pretends করছে যে এটা একটি সমাধানকৃত সমস্যা—যখন আপনি তাদের একটি 200-পৃষ্ঠার PDF প্রদান করেন এবং কিছুই বুঝে না নিয়ে ফিরে পান একটি হাইকু। মডেলগুলি দৈর্ঘ্যের সাথে লড়াই করে না; তারা অপ্রাসঙ্গিকতায় choke করে। যে কোনও নারকেল ভিতরে, প্লausible নারকেল বাহিরে। আপনি যদি সঠিক এবং অর্থবোধক উত্তর চান, তাহলে আপনাকে বৃহত্তর মডেলের প্রয়োজন নেই। আপনাকে কম জঞ্জাল বাছতে হবে।
এখানে আসছে DeepSeek-OCR। এটি একটি OCR ইঞ্জিন যা সঠিক সরঞ্জামগুলি করতে পারে: এটি ছবি এবং PDF কে নাটক ছাড়াই টেক্সটে রূপান্তর করে। কিন্তু এখানে যে কৌশলটি রয়েছে তা কেবল OCR নয়। এটি দীর্ঘ টেক্সটকে সংকুচিত করতে DeepSeek-OCR ব্যবহার করা—গঠন বের করা, পুনরাবৃত্তি হ্রাস করা, সংকেত রাখা— যাতে পরে LLMs 1998 সালের চিত্র ক্যাপশনের জন্য টোকেন নষ্ট না করে।
“সংকুচিত করা” হল মূল শব্দ। ZIP-ফাইল কম্প্রেস নয়। সেমান্টিক সংকুচিত করা। মানুষ এটি ক্রমাগত করে। একটি পৃষ্ঠা পড়ুন, একটি অনুচ্ছেদ মনে রাখুন। একটি অনুচ্ছেদ পড়ুন, একটি বাক্য ধরে রাখুন। আমরা একে বোঝা বলি। DeepSeek-OCR প্রক্রিয়াটির মধ্যে থাকলে, আপনি এই পাইপলাইনটি আনুমানিক করতে পারেন: টেক্সটটি পরিষ্কারভাবে বের করুন, এটি সচেতনভাবে বিভাগ করুন, এবং স্তরযুক্ত সারসংক্ষেপ তৈরি করুন যা মডেল সত্যিই কাজ করতে পারে। কম নায়কত্ব, আরও ফলাফল।
এটি একটি নির্দেশিকা। তবে এটি একটিমাত্র হালকা হস্তক্ষেপও, যিনি ভাবেন যে কাঁচা PDFs কেবল একটি চ্যাট বক্সে ঢুকিয়ে প্রার্থনা করা একটি কর্মপ্রবাহ। আসুন এটিকে একটি সিস্টেমে পরিণত করি।
“How to Use DeepSeek-OCR to Compress Long Text for LLMs” আসলে কি বোঝায়
সরঞ্জামগুলি সংকুচিত করে না; সিদ্ধান্তগুলি করে। যখন মানুষ বলে “How to use DeepSeek-OCR to compress long text for LLMs,” তাদের আসলে যা প্রয়োজন তা হলো একটি পুনরাবৃত্তিযোগ্য উপায় থেকে বিশৃঙ্খল, ভিজ্যুয়াল ডকুমেন্টগুলি থেকে সংক্ষেপ, গঠনমূলক টেক্সট টুকরোগুলিতে ল্যাঙ্গুয়েজ মডেল তর্ক করতে পারে যা ফুটনোট নিয়ে কাল্পনিক নয়। প্রক্রিয়াটি চারটি কর্মে বিভক্ত:
- সঠিক অনুসরণ: পৃষ্ঠার শব্দগুলি প্রাপ্ত করা—সঠিকভাবে।
- গঠনগত পুনরুদ্ধার: শিরোনাম, তালিকা, টেবিল, এবং পড়ার ক্রম সংরক্ষণ করুন।
- সেমান্টিক সংকোচন: অর্থ ধরে রেখেই পুনরাবৃত্তি সংকুচিত করুন।
- অনুসন্ধান শৃঙ্খলা: মডেলকে কেবলমাত্র এটি প্রয়োজন যখন এটি প্রয়োজন।
DeepSeek-OCR প্রথম দুটি পরিচালনা করে। আপনি (এবং আপনার LLM) পরে দুটি পরিচালনা করবেন। ফলস্বরূপ পাইপলাইন “LLMs এর জন্য দীর্ঘ পাঠ সংকুচিত করে” একমাত্র অর্থের দিক থেকে যা গুরুত্বপূর্ণ: কম টোকেন, একই উত্তর, কম অযৌক্তিকতা।
ধাপ 1: DeepSeek-OCR সঠিকভাবে ব্যবহার করুন (এক্সট্রাকশন লেয়ার)
খারাপ OCR নিচের সবকিছুকে বিষাক্ত করে। আপনি যদি বানান ভুল, ভাঙা কলাম, এবং সংলাপ হিসেবে আবির্ভূত হওয়া বিচ্ছিন্ন ফুটর্নোট নিয়ে শুরু করেন, তবে আপনার “সংকোচন” কেবল ভুলগুলোকে স্বীকৃতি দেবে। DeepSeek-OCR এর কাজ আপনাকে পরিষ্কার টেক্সট দেওয়া, বিন্যাসের সূচনা সহ।
- প্রথমে PDF টেক্সট অনুসরণ করা tercih করুন। যদি PDFটি ডিজিটাল-নেটিভ (নির্বাচনযোগ্য টেক্সট) হয়, তবে সরাসরি টেক্সট বের করুন এবং কেবলমাত্র এম্বেড করা ছবিগুলি বা স্ক্যান পৃষ্ঠাগুলির জন্য OCR-এ ফিরে যান। ইতিমধ্যে টেক্সট থাকা জিনিসের জন্য OCR করবেন না—প্রতিকারের জন্য ত্রুটি বৃদ্ধি করা তেমন বুদ্ধিমান নয়।
- স্ক্যান PDF-এর জন্য, DeepSeek-OCR ব্যবহার করুন পৃষ্ঠা স্তর এবং ব্লক স্তর বিন্যাস শনাক্তকরণের সাথে। আপনি শিরোনাম, অনুচ্ছেদ, টেবিল এবং চিত্রের ক্যাপশনগুলো আলাদা চান। মডেল পরে আপনাকে ধন্যবাদ জানাবে।
- একটি পাঠযোগ্য লাইনের প্রস্থ ঠিক করুন। দুই কলামের PDF থেকে দীর্ঘ অংকিত লাইনের জন্য আপনাকে একাধিক নির্দেশিকা পাবেন যা বিট কবিতা হিসেবে দেখায়।
- যত সম্ভব টেবিলগুলি CSV বা Markdown হিসাবে বের করুন। টেবিলগুলি অর্থবান। যখন সেগুলি পুরোপুরি অনুসরণ করে, আপনার সংকোচন আরও স্মার্টভাবে চলতে পারে, গাধামি নয়।
ফলাফল: একটি সংগ্রহ যা এখনও দীর্ঘ, তবে বিশৃঙ্খল নয়—টেক্সট, শিরোনাম, তালিকা, টেবিল, ছবি সহ alt-জাতীয় ক্যাপশন। গঠন হল প্রথম সংকোচন।
ধাপ 2: অর্থ অনুযায়ী টুকরা টুকরা করুন, পৃষ্ঠা সংখ্যার মধ্যে নয়
একটি সাধারণ ভুল: পৃষ্ঠা বা টোকেন পরিমাণ দ্বারা টুকরা করুন এবং এটিকে একটি দিন বলে। পৃষ্ঠা সংখ্যা মুদ্রকের জন্য; অর্থ ফোলিও নিয়ে দায়িত্ব নেয় না। DeepSeek-OCR এর বিন্যাসের সূচনার মাধ্যমে বিভাগ এবং উপশিরোনাম দ্বারা টুকরা করুন।
- একটি টপ-লেভেল শিরোনাম (H1/H2) জন্য একটি টুকরা, H3/H4 এর জন্য উপ-টুকরা। আপনার লক্ষ্য মডেলের সক্ষম প্রসঙ্গ উইন্ডোকে ৮০০–১,২০০ টোকেনের নিচে রাখতে রাখুন।
- টেবিল এবং তাদের ব্যাখ্যামূলক অনুচ্ছেদগুলো একসাথে রাখুন। সেগুলি বিভক্ত করা একটি দুর্দান্ত উপায় মডেলকে তথ্য চিন্তা করতে দিতে।
- মূল টেক্সটের সাথে সংযুক্তিত্ত উপাদান মেশাবেন না। এটি ঐচ্ছিক পড়া; এটিকে সেইভাবে বিবেচনা করুন।
সংকোচন আপনার টুকরো পদক্ষেপের মধ্যে শুরু হয়: দৃঢ়, সংহত ইউনিট মডেল যে ধারণা রাখতে পারে এবং শেষের অর্ধেক পথে ভুলে যেতে পারে না।
ধাপ 3: সেমান্টিক সংকোচন-পাস: স্তরিত সারসংক্ষেপ
এখন “LLMs এর জন্য দীর্ঘ পাঠ সংকুচিত করা” অংশ। পুরো নথিটি একটি একক নির্বাহী সারসংক্ষেপে রূপান্তর করার পরিবর্তে (যা নির্বাহী ও মডেলদের পছন্দ), প্রতিটি টুকরার জন্য স্তরযুক্ত সারসংক্ষেপ তৈরি করুন:
- বুলেট সারসংক্ষেপ (৫–১০ বুলেট): প্রধান পয়েন্ট, দাবি, সংজ্ঞা, সংখ্যা।
- একটি এক-প্যারাগ্রাফ মূলসার: যে একজন সতর্ক পাঠক পাঁচ মিনিট পরে ধারণা রাখবেন।
- গ্লসারি নিষ্কাশন: প্রযুক্তিগত শব্দ এবং তাদের একলাইন সংজ্ঞা।
- উত্য প্রমাণ: অংশ শিরোনাম, পৃষ্ঠা সংখ্যা, টেবিল আইডি।
এটি হলো গবেষণালব্ধ সমন্বয় সহ সংকোচন। বুলেটগুলো আপনার অপ্রতিরোধ্য সূচক; প্যারাগ্রাফ আপনার ক্ষয়কারী কোডেক। উভয়কে রাখুন। পরে আপনি যখন মডেলের কাছে একটি প্রশ্ন করবেন, তখন বুলেট এবং প্রাসঙ্গিক প্যারাগ্রাফ বের করুন, সম্পূর্ণ টুকরো নয়। আপনি কম টোকেন সরবরাহ করবেন এবং আরও ভাল উত্তর পাবেন। জাদুর ট্রিক: এটা কেবল সম্পাদনা।
ধাপ 4: টেবিলগুলোকে একজন মানব বিশ্লেষকের মতো সারসংক্ষেপ করুন
টেবিলগুলো হলো দীর্ঘ ডকুমেন্টগুলি যেখানে সত্যিকারের পয়েন্ট লুকিয়ে থাকে। তাদের পাঠ্যে সমতল করবেন না যদি আপনি তথ্য হারাতে উপভোগ করেন।
- মূল টেবিল (CSV/Markdown) প্রমাণ হিসাবে রাখুন।
- একটি “টেবিল ডিজাইন”: ৩–৫ বুলেট যা টেবিলটি দেখায়, একটি বাক্য তা কী বোঝায়, এবং কোনো অদ্ভুত বিষয় (নিখোঁজা সারি, রেড ফ্ল্যাগ, খণ্ডকদের সঙ্গে পাদটীকা)।
- একক, সময়ের পরিসীমা, এবং অভিজ্ঞান সংজ্ঞাগুলি সংরক্ষণ করুন। “বিক্রয় ১০% বৃদ্ধি” ত্রিভুজের মতো “QoQ, ex-FX, APAC শুধু।”
সংখ্যা সম্পর্কিত প্রশ্ন থাকলে, লএলএমকে মেমো ও টেবিলটি সরবরাহ করুন। ওজন দ্বারা সংকোচন, মুছে ফেলার দ্বারা নয়।
ধাপ 5: উৎপাদনের আগে অনুসন্ধান (RAG, বাজওয়ার্ড মাইনাস)
আপনাকে “RAG” বলতে হবে না RAG করতে। আপনাকে কেবল যথাযথ টুকরা নির্বাচন করতে হবে যখন আপনি মডেল থেকে উত্তর জানতে চান।
- স্তরিত সারসংক্ষেপকে ভেক্টর সার্চের মাধ্যমে (সমার্থক, প্যারাফ্রেজ) এবং শিরোনামকে কীওয়ার্ড সার্চের মাধ্যমে (সঠিক ম্যাচ) সূচক করুন। দুটি অনুসন্ধান, সংক্ষিপ্ত তালিকা, তাদের ইন্টারসেক্ট করুন।
- আনুমান করুন: বুলেট + মূলসার + প্রাসঙ্গিক টেবিল মেমো। সম্ভাব্য সূত্র শব্দের কিছু প্রথম বাক্যকে কাঁচা টেক্সট হিসাবে অন্তর্ভুক্ত করুন।
- প্রমাণসহ উত্তর দিন: মডেলকে টুকরা ID বা পৃষ্ঠা উল্লেখ করতে নির্দেশ করুন।
এটাই হলো আপনি কিভাবে LLMs এর জন্য দীর্ঘ পাঠ সংকুচিত করেন এবং আপনার ইনপুটগুলিকে নির্বোধিত করেন না। লাইব্রেরিয়ান হিসাবে ভাবুন, ব্লেন্ডার নয়।
একটি ন্যূনতম, বিরক্তিকর কার্যকর প্রম্পটিং প্যাটার্ন
প্রত্যেক টুকরার জন্য, একটি ধারাবাহিক সারসংক্ষিপ্ত প্রম্পট চালান। ধারাবাহিকতা অর্ধেক যুদ্ধ।
প্রম্পট কাঠামো:
“আপনি একজন সতর্ক প্রযুক্তিগত সম্পাদক। নিম্নোক্ত টুকরাটি বুলেট পয়েন্ট (শুধুমাত্র তথ্য) সহ, এক-প্যারাগ্রাফ মূলসার, শব্দকোষের সংজ্ঞা, এবং উত্স (পর্ব শিরোনাম এবং পৃষ্ঠা) সহ। একক, তারিখ এবং কোয়ালিফায়ার সংরক্ষণ করুন। যদি একটি দাবি পাঠ্যে প্রমাণ না থাকে তবে এটি [অনুচিত] চিহ্নিত করুন। টেবিল লিখনের সম্মুখভাগ এড়ান; ID অনুযায়ী তাদের উল্লেখ করুন। ইনপুট --- এর পরে শুরু হয়।”
এরপর টুকরাটি সরবরাহ করুন। আউটপুটটিকে টুকরার আইডি সহ সংরক্ষণ করুন। আপনি এখন নিজের সংকোচন স্তর প্রস্তুত করেছেন, যেটির সাথে একজন ভাল সাংবাদিক নোটসমূহকে উদ্ধৃতিগুল থেকে আলাদা রাখার মতো।
বিশেষভাবে কেন DeepSeek-OCR?
বহু OCR সরঞ্জাম বিদ্যমান। কিছু দ্রুত ও ভুল; কিছু ধীর এবং ভুল। DeepSeek-OCR দ্রুত এবং, অধিকাংশ ক্ষেত্রে, বিন্যাসে সম্মান করে। এর বহুমুখী কলাম পরিচালনা এবং চিত্র ক্যাপশন পৃথকীকরণের ফলে আপনি পোস্ট-প্রসেসিংয়ে ঘণ্টা রক্ষা করেছেন। প্রশ্নটি নয় “এটি কি নিখুঁত?”—তারা কোনোই সঠিক নয়। প্রশ্নটি হল এই বচনগুলির অগ্রাধিকারপত্রগুলো কি পূর্বাভাসযোগ্য কি। DeepSeek-OCR এর সাথে তা বেশিরভাগই: জটিল লাগ্যচার, শিরোনাম শরীরের টেক্সটে প্রবাহিত হয়, এবং মাঝে মাঝে গণিত। আপনি তার জন্য পরিকল্পনা করতে পারেন। পরিকল্পনা হচ্ছে সংকোচনের অর্ধেক।
এছাড়াও বলার জন্য মূল্যবান: টোকেন-দক্ষ টেক্সট ফিরিয়ে আনা আপনার জন্য গুরুত্বপূর্ণ। যদি আপনার OCR কল্পনাপ্রসূত হোয়াইটস্পেস, ভাঙা হাইফেনেশন বা পুনরাবৃত্ত লাইন সংযোজন করে, আপনি প্রতিটি ডাউনস্ট্রিম কলের জন্য সেই সকল টোকেনের জন্য মূল্য দিচ্ছেন। DeepSeek-OCR সাধারণত পরিষ্কার রাখে। কম কাঠকাঠি, কম স্প্লিন্টার।
প্রায়োগিক কর্মপ্রবাহ: PDF থেকে উত্তরগুলিতে ফ্লফ ছাড়াই
DeepSeek-OCR কে ব্যবহার করে সংকুচিত দীর্ঘ পাঠের জন্য একটি বাস্তবিক কর্মপ্রবাহ:
- ডিজিটাল টেক্সট বনাম স্ক্যান করা পৃষ্ঠাগুলি সনাক্ত করুন; প্রয়োজনে মিক্স মোড করুন।
- লেআউট অনুসরণ এবং টেবিল শনাক্তকরণ সক্ষম করে DeepSeek-OCR চালান।
- এক্সপোর্ট: টেক্সটের জন্য Markdown (শিরোনাম, তালিকা), CSV/Markdown টেবিলের জন্য, চিত্রের জন্য PNG রেফারেন্স (ঐচ্ছিক)।
- হাইফেনেশন ঠিক করুন: কেবল লাইন ব্রেকের যথাযথ প্রয়োজন হলে, পরবর্তী লাইন ছোট অক্ষরে শুরু হলে ডি-হাইফেন করুন।
- ভাঙা অনুচ্ছেদগুলি মিশিয়ে রাখুন; বিভাগের মধ্যে খালি লাইন রাখুন।
- স্মার্ট উদ্ধৃতি কনভার্ট করুন, ইউনিকোডকে স্বাভাবিক করুন (NFC)। মডেলগুলোর জন্য যত্নের সাথে ইউনিকোড গুরুত্বপূর্ণ, কারণ টোকেনের জন্য।
- H2/H3 সীমানা দ্বারা বিভাজন করুন; টেবিলগুলিকে সবচেয়ে নিকটবর্তী পরিচয় সংযুক্ত অনুচ্ছেদের সাথে যুক্ত করুন।
- আকারের সীমা কার্যকর করতে (1k টোকেন প্রতি টুকরার লক্ষ্য)। মধ্য-আর্গুমেন্টে বিভক্ত করবেন না।
- প্রতি টুকরায় ধারাবাহিক সারসংক্ষিপ্ত প্রম্পট চালান।
- প্রতিটি টেবিলের জন্য একটি পৃথক টেবিল মেমো যোগ করুন।
- বুলেট পয়েন্ট এবং মূল বক্তব্যের উপর ভেক্টর সূচক নির্মাণ করুন।
- শিরোনাম, শব্দকোষের শর্ত এবং টেবিল আইডির উপর কীওয়ার্ড সূচক নির্মাণ করুন।
- ভেক্টর + কীওয়ার্ড ইন্টারসেক্ট দ্বারা শীর্ষ 3–6 টুকরা উদ্ধার করুন।
- সৃষ্টিকর্তার শ্রেণী: বুলেট + মূল বক্তব্য + যে কোনও টেবিল মেমো + উৎস থেকে 2-3 উদ্ধৃত বাক্য।
- উত্তর চাওয়া বাণীর সাথে; অনুমান নিষিদ্ধ।
- উত্তরের পরে মানসিক পরীক্ষা
- যদি একটি উত্তর [অনুচিত] দাবির উদ্ধৃতি দেয়, তবে স্বয়ংক্রিয়ভাবে পিতামূলক টুকরা পুনরুদ্ধার করুন।
- যদি সংখ্যাগুলি এককবিহীন থাকে, তবে প্রত্যাখ্যান করুন এবং একক বাধাগুলি সহ পুনরায় প্রশ্ন করুন।
অভিনন্দন, আপনি LLMs জন্য দীর্ঘ পাঠ সংকুচিত করেছেন কোনটিই ওটমিল এ পরিণত না করে।
সংকোচন সারসংক্ষেপ নয়; এটি triage
সারসংক্ষেপ বলার চেষ্টা করে কম। সংকোচন একই অর্থকে কম টোকেনে রাখতে চেষ্টা করে। ভিন্ন লক্ষ্য। DeepSeek-OCR এর সাথে, আপনি একটি তথ্য পাইপলাইন তৈরি করছেন যেখানে প্রতিটি স্তর এমন কিছু ফেলে দেয় যা আপনার প্রয়োজন নেই:
- OCR পিক্সেল ফেলে দেয় এবং টেক্সট রাখে।
- টুকরাকরণ পৃষ্ঠা কোনো সীমাবদ্ধতা ফেলে দেয় এবং যুক্তিগুলি রাখে।
- স্তরিত সারসংক্ষিপ্ততা পুনরাবৃত্তি ফেলে দেয় এবং দাবিগুলি রাখে।
- অনুসন্ধান বেশিরভাগ দাবিগুলি ফেলে দেয় এবং প্রশ্নের উত্তর দেয় এমন কয়েকগুলোভাবে রাখে।
শেষ পদক্ষেপটি হলো অধিকাংশ “দীর্ঘ প্রসঙ্গ” কল্পনাগুলির মারা যায়। একটি 200k-টোকেন প্রসঙ্গ উইন্ডো একটি কর্মকাণ্ড, যদি মডেল না জানে কোনটি 2k টোকেন গুরুত্বপূর্ণ। সংকোচন হলো কিভাবে আপনি এই নির্ধারণ করেন।
ভূল, পক্ষপাত ও “মডেল বলেছিল”
যদি আপনি ভুল বিষয়গুলি সংকুচিত করেন, আপনি নথি থেকে সত্য সংকুচিত করেন। তারপর মডেলটি খুশি হয়ে যেটুকু অবশিষ্ট থাকে সেটি টেক্সট হিসাবে যুক্তি তৈরি করে এবং কর্তৃত্ব নিয়ে বলে। গার্ডরেইল:
- উদ্ধৃতি ঠিক রাখুন; প্যারাফ্রেজগুলো পরিষ্কারভাবে চিহ্নিত করুন।
- যতোটা সম্ভব টুকরো এবং বাক্যের স্তরের উপর উত্স রাখুন।
- বিভিন্ন কিছু সত্তার জন্য “শুদ্ধ কিছু রাখার” ছোট একটি “সঠিক কাচ” বজায় রাখুন।
- প্রতিটি সংস্করণ করুন। যদি উত্স পরিবর্তিত হয়, সারসংক্ষেপগুলি অকার্যকর করুন। সপ্তাহ আটকের সুশি সেবা করবেন না।
DeepSeek-OCR মাঝে মাঝে একটি শিরোনাম এবং একটি অনুচ্ছেদ যুক্ত করবে অথবা একটি লাগ্যচার ভুল পড়বে। জরিমানা। এজন্য আপনার সারসংক্ষেপগুলি অধ্যায় ও পৃষ্ঠাগুলি উল্লেখ করে। সন্দেহে থাকলে, রসিদ দেখান।
টোকেন ম্যাথ, বিরক্তিকর কিন্তু বাস্তবিক
“LLMs এর জন্য দীর্ঘ পাঠ সংকুচিত করার জন্য DeepSeek-OCR ব্যবহার” এর অর্থ টোকেনের উপর আসছে। OCR টেক্সট সস্তা; LLM প্রসঙ্গ নয়।
- যদি প্রতিটি টুকরা ~1,000 টোকেন খাঁটি হয় এবং আপনার স্তরিত সারসংক্ষেপ ~200 টোকেন হয়, তাহলে আপনি ইতিমধ্যেই 5× সংকোচন অর্জন করেছেন।
- কোয়ারি সময়ে, 5টি সারসংক্ষেপ উদ্ধার করে ~1,000 টোকেন সঙ্কট ব্যবহৃত হয়, সমস্তটি ~5,000+ খাঁটি নয়। সেটি উত্তর যুক্ত করার আগে।
- নির্বাচনীভাবে টেবিলগুলি যোগ করুন। 200-সারি টেবিল হচ্ছে হাজার সেল দ্বারা মৃত্যুর; একটি 5-বুলেট মেমো এবং একটি 10-পঙক্তির ফিল্টার করা বের করা জীবন।
আপনাকে সেভিংস দেখতে একটি স্প্রেডশীটের প্রয়োজন নেই। আপনাকে কেবল প্রয়োজন পুরো নথিগুলি প্রম্পটের মধ্যে ঢুকিয়ে দেওয়া বন্ধ করতে হবে যেমনটি রাতে বুরিটোর মতো।
যেখানে Sider.AI ফিট করে (আপনি যদি এটির কাজটি করতে চান)
এখানেই সবাই মার্কেটিং ফ্লাফের প্রত্যাশা রাখে। পরিবর্তে: Sider.AI সত্যিই কাজ করে—কমপক্ষে এর জন্য। একটি স্থায়ী PDF আপলোড করুন, এটি OCR চালু করতে দিন এবং আপনি একটি পরিষ্কার, নেভিগেটেবল টেক্সট পাবেন যার বিভাগীয় আঙ্গুলগুলি আপনি টুকরায় শাসন করতে পারেন বিরক্তি না হওয়া। চ্যাট লেয়ার কোন জাদু নয়; এটি সেই সংকুচিত সারসংক্ষেপগুলির উপর নিয়মিত অনুসন্ধান। সুন্দর আশ্চর্য হলো এটি pdf পাঠক হতে ভান করে না যার একটি PhD আছে। এটি একটি দক্ষ সহায়ক একটি তীক্ষ্ণ ছুরি নিয়ে, যা আপনি চাইবেন যখন লক্ষ্য হলো LLMs এর জন্য দীর্ঘ টেক্সট সংকুচিত করা অর্থ রাখতে। আপনি যদি Extraction এর জন্য DeepSeek-OCR নিয়ে আসেন এবং রিট্রিভাল এবং প্রম্পটিং শুচ্ছতা জন্য Sider.AI ব্যবহার করেন, আপনি এমন একটি পাইপলাইন পাবেন যা টোকেন, সময় এবং আপনার স্বাস্থ্যের প্রতি সম্মান জানায়। ফুটনোট চিহ্নকগুলো এত বড় সমস্যা
- জটিল গণনা: OCR এর সাথে একত্রিত হলে সমন্বিত সারসংক্ষেপ নিবন্ধন হবে যদি আপনি সেগুলো সমতল করেন। আপনার জন্য ল্যাটক্স বা চিত্র রাখতে হয়; শব্দে নির্দেশ করুন, প্রতীক নয়।
- ডায়াগ্রাম: কখনই মডেলকে “অলাবদ্ধ” একটি নামহীন ডায়াগ্রাম জানাতে বলবেন না। এটি ট্যারোট নয়, বিশ্লেষণ। ক্যাপশন OCR করুন, রেফারেন্সের জন্য চিত্রটি রাখুন এবং লক্ষ্যবস্তু প্রশ্ন জিজ্ঞাসা করুন।
- আইন ও সম্মতি: কিছু টেক্সট শুদ্ধ রাখার প্রয়োজন। চিহ্নিত করুন। কোনও ধারা সংকুচিত করবেন না এবং পরে মডেলকে জিজ্ঞেস করবেন যে ধারা বিদ্যমান কি। এটি ধারা—বা আইনজীবীদের—কাজ নয়।
একটি মানসিক পরীক্ষা-প্রজন্মিত উদাহরণ প্যাটার্ন
ধরি আপনার হাতে একটি 120-পৃষ্ঠার বার্ষিক রিপোর্ট আছে।
- DeepSeek-OCR দিয়ে OCR -> Markdown টেক্সট + CSV টেবিল গ্রহণ করুন।
- বিভাগ অনুযায়ী টুকরা করুন: “ ব্যবস্থাপনা আলোচনা,” “ঝুঁকির গুণাবলী,” ইত্যাদি।
- প্রতি টুকরা সারসংক্ষেপ: ৮ বুলেট, ১ মূলসার প্যারাগ্রাফ, গ্লসারি, উত্স।
- রাজস্ব, খরচ, কর্মী সংখ্যা এবং সেগমেন্টের টেবিলের মেমো।
- যুগ্ম সূচক নির্মাণ: বুলেটের ওপর ভেক্টর; শিরোনাম এবং গ্লসারি উপস্থাপনের উপর কীওয়ার্ড।
- প্রশ্ন: “গড় মার্জিন বছরের ভিত্তিতে কীভাবে পরিবর্তিত হয়েছে এবং কেন?” খরচ মন্তব্যগুলি সহ দুটি টুকরা উদ্ধার করুন + রাজস্ব টেবিলের মেমো। উদ্ধৃতি এবং 1–2 উদ্ধৃত বাক্যের সাথে উত্তর দিন।
আপনি 120 পৃষ্ঠা পড়েননি। আপনি মডেলটিকে এটির দ্বারা অবহেলা করেননি। আপনি LLM এর জন্য দীর্ঘ পাঠ সংকুচিত করেছেন এবং একটি উত্তর পেয়েছেন যা দিনের আলোর উপযোগী।
সমস্যা সমাধান এইভাবে পক্ষপাতী তথ্যগুলি পড়ে
- মডেল এমন এক অভিজ্ঞান চিহ্নিত করে যা দাবি সমর্থন করে না। সমাধান: উদ্ধারের সংক্ষিপ্ত করা—শিরোনামের জন্য কীওয়ার্ড হিট বাড়ান, সাধারণ ভেক্টরের মেলগুলোকে সমর্থন করুন।
- সারসংক্ষেপগুলো উত্সকে বিপরীত করে। সমাধান: সংবেদনশীল অংশগুলির জন্য একটি “কোন প্যারাফ্রেজ” মোড যোগ করুন; প্রসঙ্গে ২–৩ শব্দের চিত্র যুক্ত করুন।
- OCR এর ত্রুটি শিরোনাম বা ফুটারের মধ্যে ক্লাস্টার হয়। সমাধান: আপনার প্রাক-প্রসেসরকে যতটা সম্ভব পুনরাবৃত্তি ষ্টাইল বের করে ফেলে শিক্ষা দিন; এটি শব্দ।
- টেবিলগুলি টোকেন বাজেট ফুলিয়ে দেয়। সমাধান: প্রাসঙ্গিকতার প্রাথমিক N সারিতে সীমাবদ্ধ করুন এবং মেমো রাখুন; যদি আপনাকে গভীরে যেতে হয় তবে পুরো CSV এর সাথে একটি লিঙ্ক অন্তর্ভুক্ত করুন।
মূর্খ এবং স্মার্ট হিসেবে “LLMs এর জন্য দীর্ঘ পাঠ সংকুচিতিকরণ” করার উপায়
মূর্খ: “এই 300-পৃষ্ঠার PDF এর সারসংক্ষেপ করুন।”
স্মার্ট: “এই 10টি বিভাগীয় সারসংক্ষেপ এবং 3টি টেবিল মেমো থেকে, এই সংকীর্ণ প্রশ্নের উত্তর দিন, সূত্র উল্লেখ করুন।”
প্রাক্তন মডেলটিকে সমীহ জানান এবং আপনার টাকা নষ্ট করে। পরবর্তীতে আপনার ব্যবহারকারীদের প্রশংসা করুন এবং বাস্তবতার সম্মান করুন। DeepSeek-OCR আপনাকে পরিষ্কার টেক্সট দেয়; আপনার পাইপলাইন এটি সৎ রাখে।
সারসংক্ষেপ: সংকোচন হিসেবে সম্মান
পাঠককে সম্মান করুন। টোকেনগুলোকে সম্মান করুন। সত্যকে সম্মান করুন। তাই DeepSeek-OCR কিভাবে দীর্ঘ পাঠ সংকুচিত করার জন্য ব্যবহৃত হয় একটি পথ থেকে গেছে, যেখানে OCR পদক্ষেপটি টেবিল স্টেকস; বাকি হলো সম্পাদকীয় বিচারের একটি কার্যপ্রণালি—ধারণা দ্বারা টুকরা টুকরা, নুয়েজ ছাড়া সারসংক্ষেপ, যা গুরুত্বপূর্ণ তা অনুসন্ধান এবং মডেলকে রসিদ দেখানোর প্রাথমিক পাঠ।
দীর্ঘ প্রসঙ্গ উইন্ডো ভালো। পরিষ্কার প্রসঙ্গ এখনও ভালো। আপনি যদি মডেল চান যা সতর্ক পাঠকের মতো আচরণ করে, তাদের এমন কিছু দিন যা সতর্ক পাঠকেরা রাখে। সবকিছু অন্য একটি পৃষ্ঠার সংখ্যা।
প্রশ্ন আজগুলির
Q1: আমি কীভাবে DeepSeek-OCR ব্যবহার করে LLMs এর জন্য দীর্ঘ পাঠ সংকুচিতবোঝাতে না হারিয়ে?
নিষ্কাশিত পরিষ্কার টেক্সট পাঠ্য, শিরোনামের ভিত্তিতে টুকরো করুন (পৃষ্ঠা নয়), এবং স্তরিত সারসংক্ষেপ তৈরি করুন—বুলেট, একটি এক-প্যারাগ্রাফ মূলসার, শব্দকোষ, এবং উদ্ধৃতি। অনুসন্ধানের সময় কেবল সেই সারসংক্ষেপগুলো এবং প্রাসঙ্গিক টেবিল মেমো পুনরুদ্ধার করুন। এভাবে আপনি সংকুচিত দীর্ঘ পাঠকে LLMs এর জন্য সংকুচিত করুন যেহেতু সিগন্যাল রাখেন।
Q2: আমি LLMs এর জন্য দীর্ঘ পাঠ সংকুচিত করার সময় সারাংশের সেরা আকার কী?
প্রত্যেকে ৮০০–১,২০০ টোকেনের দিক থেকে চ wêze করুন, বিভাগ বা উপশিরোনাম থেকে তৈরি করাবে না শব্দাবলী বিচ্ছিন্ন করুন। লক্ষ্যটা যুক্তির একইভাবে, বিদ্যাসক্তির সমাহার নয়; এভাবে আপনি LLMs এর জন্য দীর্ঘ পাঠ সংকুচিত করতে পারেন, যুক্তি মাঝপথে কাটা ছাড়া।
Q3: কোনো PDF পৃষ্ঠায় DeepSeek-OCR ব্যবহার করা উচিত কি না যদিও টেক্সট নির্বাচনযোগ্য?
না। যদি টেক্সট ডিজিটাল-নেটিভ হয়, সরাসরি বের করুন এবং স্ক্যানকৃত পৃষ্ঠা বা চিত্রের জন্য DeepSeek-OCR প্রয়োগ করুন। পরিষ্কার টেক্সট উন্নত করা প্রয়োজন—এটি LLMs এর জন্য দীর্ঘ পাঠ সংকুচিত করা।
Q4: এলএলএম-এর জন্য দীর্ঘ টেক্সট কম্প্রেস করার সময় আমি কিভাবে টেবিলগুলি পরিচালনা করব?
টেবিলগুলিকে CSV/Markdown হিসাবে রাখুন এবং একটি সংক্ষিপ্ত মেমো যোগ করুন: এটি কী দেখায়, এর দ্বারা কী বোঝানো হয় এবং কোনো সতর্কতা। প্রাসঙ্গিক হলে মেমো এবং একটি ফিল্টার করা অংশ পুনরুদ্ধার করুন; 200-সারি গ্রিড প্রম্পটে ডাম্প করার চেয়ে এটি অনেক বেশি বুদ্ধিমানের কাজ।
Q5: DeepSeek-OCR-এর সাথে এই ওয়ার্কফ্লোতে Sider.AI কোথায় ফিট করে?
সঠিক এক্সট্রাকশনের জন্য DeepSeek-OCR ব্যবহার করুন এবং নিয়মানুবর্তিতা সঙ্গে পুনরুদ্ধার এবং সংক্ষিপ্তকরণের জন্য Sider.AI ব্যবহার করুন। একসাথে তারা LLM-এর জন্য দীর্ঘ টেক্সটকে বাস্তবে কম্প্রেস করে: টোকেন অপচয় কম, উত্তরগুলো আরও স্পষ্ট এবং উদ্ধৃতিগুলো ভালোভাবে টিকে থাকে।