দুঃসাহসী দাবি: অর্থ না হারিয়েই ২০ গুণ কম টোকেন
যদি দীর্ঘ রসিদ, চালান বা স্ক্যান করা PDF-এর কারণে আপনার LLM বিল বেড়ে যায়, তাহলে ২০ গুণ টোকেন কমানোর প্রতিশ্রুতি প্রায় অবিশ্বাস্য মনে হতে পারে। তবুও, সাম্প্রতিক DeepSeek-OCR পাইপলাইনগুলি চাক্ষুষ টেক্সটকে একটি ভাষা মডেলে পাঠানোর আগে সেগুলিকে সংক্ষিপ্ত, শব্দার্থিক উপস্থাপনায় রূপান্তরিত করে ঠিক এটাই অর্জন করছে। কম টোকেন ব্যবহার করে দ্রুত প্রতিক্রিয়া পাওয়া যায়, খরচ নাটকীয়ভাবে কমে যায় এবং প্রায়শই ডাউনস্ট্রিম টাস্কে আরও ভাল নির্ভুলতা পাওয়া যায়।
এই ব্যাখ্যায়, আমরা আলোচনা করব কীভাবে DeepSeek-OCR এই পরিমাণ সাশ্রয় করে, কোথায় এটি সবচেয়ে ভালো কাজ করে (এবং কোথায় করে না), এবং কীভাবে আপনার ডেটাকে নষ্ট না করে ডকুমেন্ট QA, RAG এবং ফর্ম বোঝার মতো বাস্তব ওয়ার্কফ্লোতে এটি ব্যবহার করা যায়।
—
সংক্ষিপ্ত ভূমিকা: DeepSeek-OCR আসলে কী?
DeepSeek-OCR-কে LLM যুগের কাজের জন্য অপ্টিমাইজ করা একটি OCR-প্রথম ভিশন-ভাষা পাইপলাইন হিসাবে মনে করুন। কোনো সাধারণ মডেল-এ সরাসরি টেক্সট বা ছবি না দিয়ে, DeepSeek-OCR:
- শক্তিশালী লেআউট সচেতনতার সাথে ছবি/PDF থেকে টেক্সট সনাক্ত এবং চিনতে পারে।
- সেই টেক্সটকে স্বাভাবিক করে এবং संरचित উপস্থাপনায় সংকুচিত করে।
- ডাউনস্ট্রিম প্রম্পটগুলির সাথে সামঞ্জস্য রেখে টোকেন-সাশ্রয়ী আউটপুট তৈরি করে।
ফলাফল? আপনার LLM-এর জন্য সংকেত-থেকে-নয়েজের অনুপাত উন্নত করার সাথে সাথে আপনি প্রতি পৃষ্ঠায় অনেক কম টোকেন ব্যবহার করেন।
—
কী কারণে ডকুমেন্টে টোকেন দ্রুত বাড়তে থাকে
অধিকাংশ দল একটি সরল পদ্ধতি দিয়ে শুরু করে: PDF-কে টেক্সটে রূপান্তর করে এবং সবকিছু প্রম্পটে ঢুকিয়ে দেয়। সেখানেই খরচ বেড়ে যায়। এর কারণ এখানে দেওয়া হল:
- লেআউটের আধিক্য: হেডার, ফুটার, পৃষ্ঠা নম্বর, ওয়াটারমার্ক এবং নকল কন্টেন্ট টোকেন নষ্ট করে।
- পুনরাবৃত্ত শব্দার্থ: একই বিক্রেতার নাম প্রতিটি পৃষ্ঠায় প্রদর্শিত হয়; লাইন আইটেমগুলি লেবেল পুনরাবৃত্তি করে।
- নিম্ন-মানের টেক্সট: আইনি বয়লারপ্লেট, টেবিলের বর্ডার বা OCR-এর ত্রুটি।
- অপ্রাসঙ্গিক অঞ্চল: লোগো, স্ট্যাম্প, স্বাক্ষর যা আপনার প্রশ্নের উত্তর দেয় না।
DeepSeek-OCR এই প্রতিটি স্তরে লক্ষ্যযুক্ত কম্প্রেশন ব্যবহার করে।
—
২০ গুণ টোকেন কমানোর পেছনের পাঁচটি লিভার
একটি একক কৌশল ব্যবহার না করে, DeepSeek-OCR একাধিক কৌশল একত্রিত করে। সঠিক স্ট্যাক বাস্তবায়নের ওপর নির্ভর করে পরিবর্তিত হয়, তবে এইগুলি হল মূল লিভার যা ফলাফল পরিবর্তন করে।
১) অঞ্চল-সচেতন নিষ্কাশন: যা ব্যবহার করবেন না তা পড়বেন না
- ভিজ্যুয়াল সেগমেন্টেশন টেক্সট ব্লক, টেবিল এবং কী-ভ্যালু জোনগুলিকে আলাদা করে।
- অপ্রাসঙ্গিক অঞ্চলগুলি (লোগো, декоративные হেডার) ফিল্টার করা হয়।
- ডাউনস্ট্রিম প্রম্পটগুলি শুধুমাত্র নির্বাচিত অঞ্চলগুলির জন্য অনুরোধ করতে পারে, যেমন "আইটেম টেবিল", "বিলিং ঠিকানা", "মোট"।
ফলাফল: উত্তর নয় এমন অঞ্চলগুলি বাদ দিয়ে ২-৫ গুণ সাশ্রয়।
২) গঠন-প্রথম স্বাভাবিকীকরণ: লেআউটকে অর্থে সংকুচিত করুন
- কাঁচা মাল্টি-লাইন টেক্সটের পরিবর্তে, DeepSeek-OCR संरचित JSON বা সংক্ষিপ্ত স্কিমা আউটপুট করে।
- উদাহরণ: কী-ভ্যালু ম্যাপ, অ্যারে হিসাবে টেবিলের সারি, আইডি সহ শ্রেণিবদ্ধ বিভাগ।
- ঐচ্ছিক ক্যানোনিকালাইজেশন (তারিখ বিন্যাস, মুদ্রার কোড) টোকেন-ভারী পরিবর্তনগুলি সরিয়ে দেয়।
ফলাফল: সংক্ষিপ্তভাবে লেআউট উপস্থাপন করে ৩-৮ গুণ সাশ্রয়।
৩) ডিডুপ্লিকেশন এবং ক্যানোনিকাল সত্তা: একটি আইডি, অনেক উল্লেখ
- পুনরাবৃত্ত সত্তাগুলি (কোম্পানির নাম, ঠিকানা, পলিসি শনাক্তকারী) একটি একক ক্যানোনিকাল এন্ট্রিতে ম্যাপ করে।
- রেফারেন্সগুলি দীর্ঘ স্ট্রিংয়ের পরিবর্তে ছোট আইডি হয়ে যায়।
ফলাফল: পুনরাবৃত্তিমূলক ডকুমেন্টগুলিতে ১.৫-৩ গুণ সাশ্রয়।
৪) কন্টেন্ট-সচেতন সংক্ষিপ্তকরণ: তথ্য রাখুন, অপ্রয়োজনীয় জিনিস বাদ দিন
- ক্ষেত্র-স্তরের সংক্ষিপ্তকারীরা বিস্তারিত অনুচ্ছেদগুলিকে তথ্যপূর্ণ বিবৃতিতে সংকুচিত করে।
- ডোমেইন-টিউনড প্যাটার্ন (যেমন, বীমা, логистика, ফিনান্স) সম্মতি-সমালোচনামূলক বিবরণ সংরক্ষণ করে।
ফলাফল: শব্দবহুলতার উপর নির্ভর করে ২-৬ গুণ সাশ্রয়।
৫) টোকেন-অপ্টিমাল সিরিয়ালাইজেশন: LLM যে ফরম্যাটগুলি সহজে পার্স করে তা বেছে নিন
- ছোট কী সহ সংক্ষিপ্ত JSON, অথবা স্কিমা-নির্দেশিত টাপল।
- ভার্বোস YAML, অতিরিক্ত হোয়াইটস্পেস এবং দীর্ঘ নেস্টেড লেবেলগুলি এড়িয়ে চলুন।
- স্ট্যাবল ফিল্ড অর্ডার ব্যাচগুলিতে প্রম্পট ওভারহেড কমায়।
ফলাফল: শুধুমাত্র ফরম্যাটিংয়ের কারণে ১.২-২ গুণ সাশ্রয়।
একসাথে যুক্ত হয়ে, এই লিভারগুলি নিয়মিতভাবে খারাপ PDF-এ ১০ গুণের বেশি সাশ্রয় করে এবং মাল্টি-পেজ ফর্ম, চালান এবং ঘন রিপোর্টগুলিতে ২০ গুণ পর্যন্ত সাশ্রয় করতে পারে, বিশেষ করে যখন টেবিলগুলি প্রধান হয়।
—
বাস্তবে পাইপলাইনটি কেমন দেখায়?
আসুন একটি ব্যবহারিক, সমাধান-ভিত্তিক প্রবাহ দেখি। আপনি আপনার ইনফ্রাস্ট্রাকচারে এটি ব্যবহার করতে পারেন, আপনি DeepSeek-OCR অন-প্রিম বা API-এর মাধ্যমে চালাচ্ছেন কিনা।
- ইনপুট: স্ক্যান করা PDF, ছবি বা হাইব্রিড PDF।
- পদক্ষেপ: পৃষ্ঠা সনাক্তকরণ → অঞ্চল প্রস্তাব → টেক্সট ব্লক এবং টেবিল সনাক্তকরণ → নয়েজ ফিল্টারিং।
- আউটপুট: স্থানাঙ্ক এবং প্রকার (হেডার/বডি/ফুটার, অনুচ্ছেদ/টেবিল, লোগো/স্বাক্ষর) সহ একটি অঞ্চল ম্যাপ।
- বানান ত্রুটি সংশোধন করার জন্য ভাষা মডেল সহ উচ্চ-নির্ভুল OCR।
- লাইন মার্জিং, কলাম সারিবদ্ধকরণ এবং টেবিল সেল অ্যাসোসিয়েশন।
- আউটপুট: স্থানাঙ্কে নোঙ্গর করা টেক্সট নোড + টেবিল স্ট্রাকচার।
- স্কিমার মধ্যে স্বাভাবিক করুন
- ডকুমেন্ট ক্লাস অনুযায়ী একটি স্কিমা নির্বাচন করুন: চালান, রসিদ, বিল অফ লেডিং, মেডিকেল নোট।
- রেজেক্স + ক্লাসিফায়ার + প্রান্তিক ক্ষেত্রগুলির জন্য LLM ফলব্যাক দিয়ে ক্ষেত্রগুলি নিষ্কাশন করুন।
- আউটপুট: সংক্ষিপ্ত, স্থিতিশীল কী সহ কম্প্যাক্ট JSON (যেমন, inv_id, issue_dt, due_dt, vendor_id, items[])।
- ডিডুপ্লিকেট এবং ক্যানোনিকালাইজ করুন
- ক্যানোনিকাল আইডিগুলিতে বিক্রেতার নাম/ঠিকানা ম্যাপ করুন।
- মুদ্রা, তারিখ, ইউনিট স্বাভাবিক করুন; বয়লারপ্লেট বিভাগগুলি সরান।
- সংকুচিত এবং সিরিয়ালাইজ করুন
- ঐচ্ছিক: দীর্ঘ নোটের জন্য কন্টেন্ট-সচেতন সংক্ষিপ্তকরণ।
- টোকেন-সাশ্রয়ী সিরিয়ালাইজেশন প্রয়োগ করুন (টাইট JSON, অর্ডার করা কী)।
- একটি সংক্ষিপ্ত, প্রশ্ন-সারিবদ্ধ প্রসঙ্গ উইন্ডো সরবরাহ করুন।
- একটি ফাংশন/টুল স্কিমার মাধ্যমে প্রম্পটের সাথে প্রাসঙ্গিক ক্ষেত্রগুলি পুনরুদ্ধার করুন।
এটি সেই মুহূর্ত যখন টোকেন সাশ্রয় বৃদ্ধি পায়, কারণ আপনি মডেলটিকে পুরো ডকুমেন্টটি আবার ব্যাখ্যা করার জন্য অর্থ প্রদান করছেন না — আপনি কেবল এটির প্রয়োজনীয় জিনিসগুলি সরবরাহ করছেন, সেটিও সম্ভাব্য সবচেয়ে সস্তা আকারে।
—
উদাহরণ: একটি ৫-পৃষ্ঠার চালানকে ২০ গুণ কম টোকেনে রূপান্তর করা
বেসলাইন (সরল)
- OCR করা টেক্সটের ৫ পৃষ্ঠা → হেডার, ফুটার, টেবিল, আইনি নোট সহ ~৯,০০০-১২,০০০ টোকেন।
- প্রম্পট জিজ্ঞাসা করে: "মোট কত টাকা দিতে হবে, এখতিয়ার অনুসারে ট্যাক্স এবং কোনো বিলম্ব ফি আছে কিনা?"
- মডেলটি অপ্রাসঙ্গিক অনুচ্ছেদে প্রসঙ্গ নষ্ট করে।
DeepSeek-OCR কম্প্রেশন সহ
- অঞ্চল ফিল্টারিং হেডার/ফুটার ওয়াটারমার্ক, বয়লারপ্লেট শর্তাবলী এবং নকল বিক্রেতার বিবরণ সরিয়ে দেয়।
- টেবিল নিষ্কাশন items[] কে ৫০ সারি × ৬ কলাম → ৩০০ কম্প্যাক্ট সেল হিসাবে আউটপুট করে, ১,৫০০+ শব্দ নয়।
- ক্যানোনিকালাইজেশন সত্তা স্ট্রিংগুলিকে সঙ্কুচিত করে; ডিডুপড ঠিকানা একবার উল্লেখ করা হয়েছে।
- চূড়ান্ত প্রসঙ্গ: ~৪৫০-৬০০ টোকেন।
ফলাফল
- দ্রুত লেটেন্সি, কম খরচ এবং লক্ষ্যযুক্ত প্রশ্নে উচ্চতর নির্ভুলতা পাওয়া যায়, কারণ নয়েজ সরানো হয়েছে।
—
DeepSeek-OCR কোথায় ভালো কাজ করে (এবং কোথায় করে না)
শক্তি
- संरचित ব্যবসায়িক ডকুমেন্ট: চালান, রসিদ, PO, শিপিং লেবেল, ব্যাঙ্কের স্টেটমেন্ট।
- মাল্টি-পেজ সামঞ্জস্য: পুনরাবৃত্ত বিভাগগুলি ভালোভাবে সংকুচিত হয়।
- টেবিল-ভারী কন্টেন্ট: গদ্যের চেয়ে অ্যারেতে সবচেয়ে বেশি টোকেন সাশ্রয় হয়।
- RAG পাইপলাইন: প্রি-নর্মালাইজড চ্যাঙ্কগুলি পুনরুদ্ধারের নির্ভুলতা বাড়ায়।
সীমাবদ্ধতা
- হাতে লেখা, अत्यधिक стилизованный টেক্সট: সনাক্তকরণের গুণমান সবকিছু চালায়।
- আইনি মতামত/মেডিকেল নেরেটিভ: ভারী সংক্ষিপ্তকরণে बारीकियों হারিয়ে যাওয়ার ঝুঁকি থাকে; উচ্চ-নির্ভুল মোড বিবেচনা করুন।
- সারি-স্প্যান/কলাম-স্প্যান সহ জটিল টেবিল: সাবধানে সেল ম্যাপিং এবং QA প্রয়োজন।
প্রশমন
- আত্মবিশ্বাসের থ্রেশহোল্ড ব্যবহার করুন এবং অনিশ্চিত হলে ইমেজ ক্রপে ফিরে যান।
- ডুয়েল মোড রাখুন: একটি কম্প্যাক্ট শব্দার্থিক ভিউ এবং একটি অন-ডিমান্ড উচ্চ-নির্ভুল ভিউ।
- ট্র্যাসেবিলিটির জন্য স্কিমা ক্ষেত্র এবং ভিজ্যুয়াল স্থানাঙ্কের মধ্যে সারিবদ্ধতা লগ করুন।
—
কীভাবে আপনার LLM স্ট্যাকের সাথে DeepSeek-OCR একত্রিত করবেন
একটি প্রশ্ন-ভিত্তিক গাইড যা আপনি আজ অনুসরণ করতে পারেন।
ব্যবহারকারী কী জিজ্ঞাসা করছেন?
- আগে থেকে টাস্ক ক্লাস সংজ্ঞায়িত করুন: মোট নিষ্কাশন, লাইন-আইটেম QA, সত্তা ম্যাচিং।
- প্রতিটি টাস্ককে সংক্ষিপ্ত প্রসঙ্গের সাথে ম্যাপ করুন: যে কয়েকটি ক্ষেত্র প্রশ্নের উত্তর দেয়।
আমরা OCR আউটপুট কীভাবে সংরক্ষণ করব?
- উভয়ই সংরক্ষণ করুন: (১) একটি কম্প্যাক্ট শব্দার্থিক JSON এবং (২) যাচাইকরণের জন্য ঐচ্ছিক কাঁচা টেক্সট বা পৃষ্ঠা ক্রপ।
- প্রতিটি কলে টোকেন কমানোর জন্য ছোট কী এবং স্থিতিশীল অর্ডারিং ব্যবহার করুন।
আমরা কীভাবে শুধুমাত্র প্রয়োজনীয় জিনিস পুনরুদ্ধার করব?
- একটি টুল/ফাংশন স্কিমার মধ্যে আপনার LLM কলটি র্যাপ করুন যাতে মডেল শুধুমাত্র প্রাসঙ্গিক ক্ষেত্রগুলি পায়।
- উদাহরণ টুল আর্গুমেন্ট: মোট, taxes_by_region[], outstanding_balance, due_date, items[sku, qty, unit_price]।
আমরা কীভাবে উচ্চ গুণমান বজায় রাখব?
- প্রতিটি ক্ষেত্রের জন্য আত্মবিশ্বাসের স্কোর যোগ করুন; মানুষের পর্যালোচনার জন্য থ্রেশহোল্ড সেট করুন।
- অডিটযোগ্যতার জন্য পৃষ্ঠা স্থানাঙ্কে লিঙ্কগুলি রাখুন।
- ডিফারেনশিয়াল পরীক্ষা চালান: দুটি স্বাধীন নিষ্কাশনকারীর থেকে আসা মোট তুলনা করুন।
—
20× পরিমাপ: কী ট্র্যাক করতে হবে
- প্রতি পৃষ্ঠায় টোকেন (আগে এবং পরে): আপনার মূল KPI।
- প্রতি запросу লেটেন্সি: টোকেনের সাথে সাশ্রয় লিনিয়ার হওয়া উচিত, প্রায়শই কম পার্সিংয়ের কারণে আরও ভালো হয়।
- লক্ষ্য প্রশ্নের নির্ভুলতা: সঠিকতা ত্যাগ করবেন না।
- মানুষের হস্তক্ষেপের হার: আত্মবিশ্বাস বাড়ার সাথে সাথে সময়ের সাথে সাথে কমানোর লক্ষ্য রাখুন।
টিপ: আপনার শীর্ষ তিনটি টেমপ্লেটের মধ্যে 100-ডকুমেন্টের একটি বেঞ্চমার্ক চালান। প্রতিটি ওয়ার্কফ্লোর জন্য একটি বাজেট স্থাপন করুন (যেমন, প্রতি ডকুমেন্ট ক্যোয়ারিতে <$0.01) এবং যতক্ষণ না আপনি এটিতে পৌঁছান ততক্ষণ পুনরাবৃত্তি করুন।
—
খরচ মডেলিং: финансов সাইন-অফের জন্য মোটামুটি হিসাব
- বেসলাইন: $X/1M টোকেনে প্রতি ডকুমেন্টে 10,000 টোকেন → প্রতি 1,000 টোকেনে $0.01 → প্রতি ডকে $0.10।
- কম্প্রেশনের পরে: 500 টোকেন → প্রতি ডকে $0.005।
- প্রতি মাসে 100k ডক্স/মাসে: $10,000 থেকে $500 — 95% সাশ্রয়, লেটেন্সি সাশ্রয় এবং কম রিট্রাইয়ের আগে।
সংখ্যা প্রদানকারীর উপর নির্ভর করে পরিবর্তিত হবে, তবে দিকটি একই থাকে: প্রথমে সংকুচিত করুন, পরে জিজ্ঞাসা করুন।
—
সাধারণ ভুল (এবং দ্রুত সমাধান)
- অতিরিক্ত সংক্ষিপ্তকরণ: নিয়ন্ত্রক শর্তাবলী হারানো। সমাধান: অবশ্যই রাখতে হবে এমন শব্দ এবং বিভাগগুলিকে whitelist করুন।
- স্কিমা ড্রিফট: সময়ের সাথে সাথে কী পরিবর্তন হয়। সমাধান: আপনার স্কিমার সংস্করণ তৈরি করুন; অজানা ক্ষেত্রগুলি প্রত্যাখ্যান করুন।
- টেবিল মিসলাইনমেন্ট: এক সেল দ্বারা ত্রুটি। সমাধান: ভিজ্যুয়াল ক্রস-চেক এবং মোট-পুনরায় গণনা ভ্যালিডেটর।
- প্রম্পট ব্লোট: ভার্বোস সিস্টেম প্রম্পট আপনার সাশ্রয়কে অফসেট করে। সমাধান: টেমপ্লেট মিনিমালিজম এবং টুল স্কিমা।
—
বাস্তব-বিশ্বের পরিস্থিতি যা আপনি এই সপ্তাহে প্রয়োগ করতে পারেন
- ফিনান্স অপস: 20× কম টোকেন সহ চালানের মোট এবং ট্যাক্স স্বয়ংক্রিয়ভাবে যাচাই করুন; পর্যালোচনার জন্য অসঙ্গতিগুলি ফ্ল্যাগ করুন।
- লজিস্টিকস: কন্টেইনার আইডি, পোর্ট এবং বিল অফ লেডিং থেকে তারিখ নিষ্কাশন করুন; ERP-এর বিরুদ্ধে মেলান।
- স্বাস্থ্যসেবা প্রশাসন: দাবি বিচার করার জন্য EOB-কে স্ট্যান্ডার্ডাইজড ফিল্ডে সংকুচিত করুন।
- রিটেইল: আনুগত্য এবং রিটার্ন ওয়ার্কফ্লোর জন্য রসিদ থেকে লাইন আইটেম নিষ্কাশন করুন।
—
উল্লেখ করার মতো: পাইপলাইন পরিচালনা করতে Sider.AI ব্যবহার করা
আপনি যদি OCR, স্বাভাবিকীকরণ এবং LLM কল একসাথে যুক্ত করেন, তাহলে অর্কেস্ট্রেশন এবং পুনরাবৃত্তি গতি গুরুত্বপূর্ণ। वैसे, Sider.AI দলগুলিকে এটিকে একটি পুনরাবৃত্তিযোগ্য ওয়ার্কফ্লোতে পরিণত করতে সাহায্য করতে পারে: আপনি বিভিন্ন OCR সেটিংসে টোকেন ব্যবহার তুলনা করতে পারেন, সিরিয়ালাইজেশন ফর্ম্যাটে A/B পরীক্ষা চালাতে পারেন এবং গ্লু কোড না লিখে মডেল খরচ বেঞ্চমার্ক করতে পারেন। এর ফলে 20× টোকেন কমানোর লক্ষ্যে দ্রুত পৌঁছানো যায়। —
মূল বিষয়
- DeepSeek-OCR-এর 20× টোকেন সাশ্রয় অঞ্চল ফিল্টারিং, গঠন-প্রথম স্বাভাবিকীকরণ, ডিডুপ্লিকেশন, স্মার্ট সংক্ষিপ্তকরণ এবং টোকেন-оптимальный সিরিয়ালাইজেশন থেকে আসে।
- টেবিল-ভারী, মাল্টি-পেজ ব্যবসার ডকুমেন্টে সবচেয়ে বেশি সাশ্রয় হয়।
- ডুয়েল ভিউ রাখুন: সস্তা LLM কলের জন্য একটি কম্প্যাক্ট শব্দার্থিক স্তর এবং অডিটের জন্য একটি উচ্চ-নির্ভুল ফলব্যাক।
- অবিরাম পরিমাপ করুন: প্রতি পৃষ্ঠায় টোকেন, নির্ভুলতা এবং লেটেন্সি — এবং আপনার স্কিমা পুনরাবৃত্তি করুন।
- স্কেলের জন্য পরিচালনা করুন: পুনরুদ্ধার-সারিবদ্ধ প্রম্পট এবং টুল স্কিমা সাশ্রয়কে ধরে রাখে।
—
পরবর্তী পদক্ষেপ: একটি সংক্ষিপ্ত বাস্তবায়ন পরিকল্পনা
- আপনার শীর্ষ তিনটি ডকুমেন্ট প্রকার চিহ্নিত করুন এবং কম্প্যাক্ট স্কিমা সংজ্ঞায়িত করুন।
- অঞ্চল সেগমেন্টেশন এবং টেবিল নিষ্কাশন সহ DeepSeek-OCR সেট আপ করুন।
- ক্যানোনিকালাইজেশন এবং ডিডুপ্লিকেশন যোগ করুন; প্রতিটি ক্ষেত্রের জন্য আত্মবিশ্বাস লগ করুন।
- ছোট কী সহ টাইট JSON-এ সিরিয়ালাইজ করুন; স্থিতিশীল অর্ডারিং প্রয়োগ করুন।
- ফাংশন/টুল স্কিমাতে আপনার LLM প্রম্পট র্যাপ করুন যা শুধুমাত্র প্রয়োজনীয় ক্ষেত্র ব্যবহার করে।
- টোকেন ব্যবহার এবং নির্ভুলতা বেঞ্চমার্ক করুন; 10-20× না হওয়া পর্যন্ত পুনরাবৃত্তি করুন।
FAQ
Q1: DeepSeek-OCR বাস্তবে কীভাবে 20× টোকেন সাশ্রয় অর্জন করে?
অঞ্চল ফিল্টারিং, স্কিমা-ভিত্তিক স্বাভাবিকীকরণ, ডিডুপ্লিকেশন, কন্টেন্ট-সচেতন সংক্ষিপ্তকরণ এবং কম্প্যাক্ট সিরিয়ালাইজেশন একত্রিত করে। এই পদক্ষেপগুলি অপ্রাসঙ্গিক এবং冗冗 টেক্সট সরিয়ে দেয় যাতে LLM শুধুমাত্র টোকেন-সাশ্রয়ী, টাস্ক-সারিবদ্ধ ডেটা দেখতে পায়।
Q2: DeepSeek-OCR-এর সাথে টোকেন কমালে চালান বা রসিদের নির্ভুলতা কি ক্ষতিগ্রস্ত হবে?
যদি আপনি সমালোচনামূলক ক্ষেত্র অক্ষত রাখেন এবং আত্মবিশ্বাসের থ্রেশহোল্ড ব্যবহার করেন তবে নয়। অনেক ক্ষেত্রে, নির্ভুলতা উন্নত হয় কারণ নয়েজ সরানো হয় এবং মডেল संरचित, প্রাসঙ্গিক ক্ষেত্রগুলিতে ফোকাস করে।
Q3: কোন ধরনের ডকুমেন্ট DeepSeek-OCR টোকেন কম্প্রেশন থেকে সবচেয়ে বেশি উপকৃত হয়?
টেবিল-ভারী, মাল্টি-পেজ ব্যবসার ডকুমেন্ট যেমন চালান, ক্রয় আদেশ, শিপিং ডকুমেন্ট এবং ব্যাঙ্কের স্টেটমেন্ট। অপ্রয়োজনীয় হেডার এবং পুনরাবৃত্ত সত্তা বিশেষভাবে ভালো সংকুচিত হয়।
Q4: প্রম্পট না বাড়িয়ে আমি কীভাবে আমার LLM-এর সাথে DeepSeek-OCR একত্রিত করব?
একটি কম্প্যাক্ট শব্দার্থিক JSON সংরক্ষণ করুন এবং টুল/ফাংশন কল ব্যবহার করে প্রতি প্রশ্নের জন্য প্রয়োজনীয় ক্ষেত্রগুলি পুনরুদ্ধার করুন। টোকেন কমানোর জন্য ছোট কী এবং স্থিতিশীল অর্ডারিং সহ টাইট JSON রাখুন।
Q5: আমি কি খরচ অপ্টিমাইজেশনের জন্য DeepSeek-OCR-এর সাথে Sider.AI ব্যবহার করতে পারি?
হ্যাঁ। Sider.AI OCR সেটিংস এবং সিরিয়ালাইজেশন ফর্ম্যাটে পরীক্ষা পরিচালনা করতে, টোকেন ব্যবহার এবং নির্ভুলতা বেঞ্চমার্ক করতে এবং আপনাকে উৎপাদনে ধারাবাহিক 10-20× সাশ্রয় অর্জনে সহায়তা করতে পারে।