"لانگ کانٹیکسٹ اے آئی" کے بارے میں یہ بات ہے کہ ہر کوئی قسم کھاتا ہے کہ ان کے پاس یہ موجود ہے—جب تک کہ آپ صفحہ 47 کے بارے میں تفصیلی سوال نہ پوچھ لیں۔ تب، اچانک، اس کی یادداشت سر پر چوٹ لگے ہوئے سنہری مچھلی جیسی ہو جاتی ہے۔ DeepSeek‑OCR اس گڑبڑ کے عین درمیان میں ایک سادہ سے دعوے کے ساتھ آتا ہے: جو چیز اہم ہے اسے کمپریس کریں، ساخت کو برقرار رکھیں، اور ٹوکن کو اس طرح نہ جلائیں جیسے یہ 2023 ہو۔ وعدہ یہ نہیں ہے کہ "OCR لیکن بہتر۔" یہ OCR ہے جو لے آؤٹ کا احترام کرتا ہے اور شور کے ساتھ آپ کی کانٹیکسٹ ونڈو کو بڑھانے سے انکار کرتا ہے۔
اور ہاں، یہ بالکل وہی ہے جو زیادہ تر نام نہاد لانگ کانٹیکسٹ پائپ لائنیں غلط کرتی ہیں۔ وہ خام متن کو ماڈل میں ڈالتے ہیں اور اسے دن کہتے ہیں۔ دن فوری طور پر ہذیان میں ختم ہوتا ہے۔
آئیے اس بات کی کھوج لگائیں کہ DeepSeek‑OCR کو حقیقی لانگ کانٹیکسٹ پائپ لائن میں کیسے ضم کیا جائے—ایک ایسی جو اصل میں اسکیل کرتی ہے، بغیر آنسو بہائے کمپیوٹ بل ادا کرتی ہے، اور اس وقت نہیں گرتی جب پی ڈی ایف میں ٹیبلز، فٹ نوٹ، یا خدا آپ کی مدد کرے، قانونی نمائشیں ہوں۔
ڈیپ سیک-او سی آر مختلف (اور مفید) کیوں ہے
- لے آؤٹ ڈیٹا ہے: طویل دستاویزات صرف متن نہیں ہیں؛ یہ مکانی دلائل ہیں۔ سرخیاں، کالم، ٹیبلز، تصویر کے عنوانات—یہ سب معنی ہیں۔ DeepSeek‑OCR کا مقصد اس ساخت کو فرسٹ کلاس شہری کے طور پر محفوظ کرنا ہے، جو کہ بالکل وہی ہے جو لانگ کانٹیکسٹ ماڈلز کو سینکڑوں صفحات پر بغیر پلاٹ کھوئے استدلال کرنے کے لیے درکار ہے۔
- لوبوٹومی کے بغیر کمپریشن: نقطہ یہ نہیں ہے کہ ہر چیز کو 8K ونڈو میں نچوڑ لیا جائے۔ یہ سگنل کو برقرار رکھنا ہے—گھنا، منظم، قابل نیویگیٹ—اور باقی کو سستا کرنا ہے۔
- یہ ڈاون اسٹریم مراحل کے ساتھ اچھا کھیلتا ہے: RAG، سمریائزیشن، لانگ کانٹیکسٹ ٹرانسفارمرز، یہاں تک کہ ایجنٹس۔ آپ کی OCR پرت جتنی بہتر ہوگی، آپ کی بازیافت اور استدلال کی تہوں کو اس کے لیے اتنی ہی کم معافی مانگنی پڑے گی۔
آپ کیا بنا رہے ہیں: ریڑھ کی ہڈی کے ساتھ ایک لمبی کانٹیکسٹ پائپ لائن
پائپ لائن کو پانچ حصوں کے طور پر سوچیں، ہر ایک ایک کام اچھی طرح سے کر رہا ہے:
- ان پٹ کی اقسام: PDFs (پیدائشی طور پر ڈیجیٹل اور اسکین شدہ)، تصاویر، اسکینرز سے TIFFs، گندے آفس ایکسپورٹس۔
- پری پروسیسنگ: اگر ضروری ہو تو ڈی-اسکیو، ڈینائز، بائنرائز، اور صفحات کو مستقل طور پر تقسیم کریں۔ فی صفحہ میٹا ڈیٹا رکھیں—صفحہ نمبر، سورس فائل، سیکشن اینکرز۔
- آؤٹ پٹ ٹارگٹ: مستحکم DPI کے ساتھ ایک متوقع فارمیٹ (PNG یا JPEG) میں تصاویر یا صفحہ کینوس۔
- استخراج کرنے کے لیے ہر صفحہ پر DeepSeek‑OCR چلائیں:
- بائونڈنگ باکسز (x, y, چوڑائی، اونچائی) کے ساتھ ٹیکسٹ اسپینس
- بلاک کی اقسام: سرخیاں، پیراگراف، فہرستیں، ٹیبلز، اعداد و شمار، فٹ نوٹ
- پڑھنے کا آرڈر اور درجہ بندی کی ساخت (دستاویز کا درخت)
- خام متن اور لے آؤٹ دونوں خصوصیات رکھیں۔ اگر یہ ٹوکن لیول کا نقشہ ایکسپورٹ کر سکتا ہے، تو اسے رکھیں۔ ٹیبلز کو منظم (CSV/HTML) کیا جانا چاہیے اور ان کے کوآرڈینیٹس سے بھی منسلک ہونا چاہیے۔
- چال: наиو ٹوکن ٹرنکیشن کے بجائے بلاک کی اہمیت سے کمپریس کریں۔
- ہیورسٹکس جو اصل میں کام کرتے ہیں:
- سرخیاں اور سیکشن سمریز: لفظ بہ لفظ رکھیں۔
- پیراگراف: ایک ہلکے وزن والے رینکر کا استعمال کرتے ہوئے جملے کی سطح کا انتخاب (BM25/ColBERT طرز یا ایک چھوٹا مقامی انکوڈر)۔
- ٹیبلز: ہیڈر اور ٹاپ-کے اعداد و شمار کے لحاظ سے مختلف قطاروں کو محفوظ رکھیں؛ عددی کالموں کو مکمل طور پر برقرار رکھیں؛ پوری ٹیبل کو آؤٹ آف بینڈ اسٹیش کریں۔
- کیپشن اور فٹ نوٹ: رکھیں؛ کم ٹوکن، اعلی معنی۔
- ایک کمپیکٹ، لے آؤٹ سے باخبر بیانیہ کانٹیکسٹ: اصل ٹوکن کا 10-20%، مربوط، قابل نیویگیٹ۔
- ایک سائڈکار انڈیکس: کمپریسڈ اسپینس سے لے کر مکمل وفاداری والے بلاکس تک پوائنٹرز۔
- بازیافت اور روٹنگ (بالغوں کی طرح کیا گیا RAG)
- جملوں/پیراگراف پر سیمینٹک تلاش کے لیے گھنے ویکٹر۔
- عین مطابق تلاش کے لیے اسپارس (BM25) — کوڈز، حوالہ جات، شناخت کنندگان۔
- ٹیبل سے باخبر انڈیکس: عددی سوالات کے لیے فی قطار اور فی سیل ایمبیڈنگ۔
- کلیدی لفظوں سے بھرے سوالات → پہلے اسپارس، گھنے کے ساتھ دوبارہ درجہ بندی کریں۔
- تجزیاتی یا "کیوں" سوالات → پہلے گھنے، اسپارس اینکرز کے ساتھ دوبارہ درجہ بندی کریں۔
- ٹیبل/ریاضی کے سوالات → براہ راست ٹیبل انڈیکس، قطار/کالم کے ماخذ کے ساتھ۔
- کلیاتی پرامپٹس کے لیے لانگ کانٹیکسٹ LLM (پالیسی دستاویزات، RFPs، تحقیقی مقالے)۔
- ملٹی ہاپ ٹاسکس کے لیے مرحلہ وار، ٹول کالنگ ایجنٹ: بازیافت → تجزیہ → تصدیق → حوالہ۔
- پورے کمپیکٹ بیانیے کو ماڈل میں کبھی نہ پھینکیں۔ صرف وقت پر کانٹیکسٹ جمع کریں: ارادے کے لحاظ سے اوپر والے حصے، متعلقہ ٹیبلز، اور قریبی پیراگراف۔ بریڈ کرمبس (سیکشن کے نام، صفحہ حوالہ جات، تصویر IDs) کے ساتھ سلائی کریں۔
کیا نکلتا ہے: رسیدوں کے ساتھ جوابات۔ ہر دعوی ایک بلاک ID، صفحہ نمبر، اور کوآرڈینیٹ رینج سے منسلک ہوتا ہے جسے آپ اصل PDF میں اجاگر کر سکتے ہیں۔ اس طرح آپ کو اعتماد ملتا ہے۔
عملی بلیو پرنٹ: خام PDFs سے لانگ کانٹیکسٹ جوابات تک
مرحلہ 1: دستاویز کی آمد
- فائل کی توثیق کریں: اگر پاس ورڈ سے محفوظ ہے یا خراب ہے تو تیزی سے ناکام ہو جائیں۔
- صفحہ کی تصاویر کو ایک مقررہ DPI پر رینڈر کریں (300 ٹھیک ہے؛ رفتار کے لیے 200)۔
- صفحہ کی سطح کے ہیشز رکھیں تاکہ آپ OCR کو کیش کر سکیں۔
مرحلہ 2: ڈیپ سیک-او سی آر پاس
- GPU تھرو پٹ کے لیے بیچ صفحات۔
- بلاک اور پڑھنے کا آرڈر نکالیں۔ کوآرڈینیٹس کو مستقل صفحہ کی جگہ پر نارملائز کریں۔
- JSON: قسم، متن، bbox، صفحہ کے ساتھ بلاک لسٹ۔
- CSV/HTML کے طور پر ٹیبلز کے علاوہ ہر سیل کے لیے bbox کا نقشہ۔
- لے آؤٹ اشارے کے ساتھ ایک اختیاری سلائی شدہ مارک ڈاؤن (سرخیوں کے لیے ##، ٹیبلز کے لیے :::table وغیرہ)۔
مرحلہ 3: پوسٹ-او سی آر صفائی
- لائن بریک کے درمیان ہائفنیٹڈ الفاظ کو ضم کریں۔
- کالم حل کریں: اگر کسی صفحہ میں دو کالم ہیں، تو یقینی بنائیں کہ پڑھنے کا آرڈر کالموں کا احترام کرتا ہے۔
- اگر فراہم نہیں کیا گیا تو فونٹ/سائز ہیورسٹکس کے ذریعے سرخیاں تلاش کریں؛ TOC کا درخت بنائیں۔
- اسکین شدہ معاہدوں میں عام طور پر دہرائی جانے والی ہیڈر/فوٹر کو ڈیڈپلیکیٹ کریں۔
مرحلہ 4: ساخت کے ساتھ کمپریشن
- جملے کو تقسیم کرنے والے پیراگراف۔ اپنے ڈومین پر تربیت یافتہ ایک سستے رینکر کے ساتھ جملوں کو اسکور کریں۔
- اعلی سکور والے جملے رکھیں؛ ہمیشہ ہر سرخی کے تحت پہلا جملہ رکھیں۔
- ٹیبلز کے لیے: ہیڈر قطار + ٹاپ-کے قطاریں رکھیں جو فرق/اہمیت کے لحاظ سے ہوں اور پوری ٹیبل کا حوالہ دیں۔
- کمپیکٹ بیانیہ تیار کریں اور انڈیکس سائڈکار ہر رکھے ہوئے جملے کو اس کے اصل سے جوڑتا ہے۔
مرحلہ 5: انڈیکسنگ
- جملوں کے لیے گھنے ایمبیڈنگز (اگر ضرورت ہو تو ایک مضبوط ملٹی لینگول ماڈل استعمال کریں)۔
- پورے کارپس پر اسپارس انڈیکس (عنوان، سرخیاں، کوڈز، حوالہ جات، شناخت کنندگان، یونٹس)۔
- قطار اور سیل کی سطح پر ٹیبل ایمبیڈنگز؛ تیز فلٹرز کے لیے عددی اعداد و شمار (کم سے کم، زیادہ سے زیادہ، اوسط) رکھیں۔
- ماخذ کو ذخیرہ کریں: doc_id, page, bbox, block_id۔
مرحلہ 6: سوال روٹنگ اور بازیافت
- سوال کے ارادے کی درجہ بندی کریں: تلاش بمقابلہ تجزیہ بمقابلہ ٹیبل ریاضی بمقابلہ موازنہ۔
- مناسب بازیافت کی ترکیب چلائیں:
- تلاش: اسپارس → گھنے ریرینک۔
- تجزیہ: گھنے → سیکشن ہمسائے۔
- ٹیبل ریاضی: ٹیبل انڈیکس + قطار فلٹرز؛ کانٹیکسٹ کے لیے قریبی متن منسلک کریں۔
- ایک پرامپٹ پیک مرتب کریں:
- 3–6 بازیافت شدہ اقتباسات (سرخیوں اور صفحہ حوالہ جات کے ساتھ)
- اگر ضرورت ہو تو، 1–2 چھوٹے ٹیبلز یا کمپیوٹڈ اعداد و شمار
- ماڈل سے متعلقہ میٹھے مقامات کے تحت پرامپٹس رکھیں۔ لمبا کانٹیکسٹ لامحدود کانٹیکسٹ نہیں ہے۔
مرحلہ 7: حوالہ جات کے ساتھ جواب کی ترکیب
- منظم آؤٹ پٹ کے لیے پوچھیں: سیکشنڈ جواب اور ان لائن حوالہ جات جیسے [Doc §2.3, p. 47, tbl A]۔
- مشکل دعووں کے لیے، توثیق کا پاس ٹرگر کریں: عین مطابق اسپینس کو دوبارہ بازیافت کریں، ایک ہدف سوال دوبارہ پوچھیں، تنازعات کو حل کریں۔
- ایک ایسا جواب واپس کریں جس میں ماخذ کا ایک ٹریل ہو جس پر صارف کلک کر سکیں۔
کارکردگی کے نوٹس جو حقیقی رقم بچاتے ہیں
- GPU کو YOLO نہ کریں: OCR I/O باؤنڈ ہے اور عجیب و غریب ردوبدل میں GPU باؤنڈ ہے۔ صفحہ کی تعداد کے لحاظ سے بیچ کریں اور کرنل کے دوبارہ استعمال کو زیادہ سے زیادہ کرنے کے لیے تصویر کے سائز کو نارملائز کریں۔
- جارحانہ طور پر کیش کریں: اگر سورس ڈاک نہیں بدلی ہے تو دوبارہ OCR نہ کریں۔ صفحہ بٹ میپ کو مواد ہیش کریں، فائل کو نہیں۔
- ٹیبلز بارودی سرنگیں ہیں: وہ ٹوکن کی گنتی کو بڑھاتی ہیں اور معیار کو کم کرتی ہیں۔ انہیں صاف طور پر نکالیں اور انہیں اپنے عام کانٹیکسٹ سے باہر رکھیں جب تک کہ سوال کو ان کی ضرورت نہ ہو۔
- چنکنگ مذہب نہیں ہے: ٹوکن کی لمبائی کے لحاظ سے نہیں، بلکہ لے آؤٹ (سرخیاں، پیراگراف) کے لحاظ سے چنک کریں۔ ٹوکن کی لمبائی کے لحاظ سے چنکنگ آپ کو بحث کی ساخت کو کیسے کھونا پڑتا ہے۔
- خلاصہ کرنے سے پہلے تصدیق کریں: مبہم اقتباسات کا خلاصہ اس وقت تک نہ کریں جب تک کہ بازیافت کانٹیکسٹ کو تنگ نہ کر دے؛ آپ غلط چیزوں کو کمپریس کر دیں گے۔
غلطی سے نمٹنا: غیر دلکش حصے جو اہمیت رکھتے ہیں
- ٹوٹی ہوئی PDFs: راسٹرائزیشن فال بیک کی کوشش کریں۔ اگر اب بھی ٹوٹی ہوئی ہے تو تشخیصی نمونہ واپس کریں۔ خاموش ناکامی کسی جواب سے بدتر ہے۔
- ردی اسکین (فیکس گریڈ): ڈینائز/کنٹراسٹ بمپ آزمائیں؛ اگر اعتماد حد سے نیچے گر جاتا ہے، تو انسانی جائزے کے لیے نشان زد کریں۔ اس بات کا اعتراف کریں کہ آپ کیا نہیں جانتے ہیں۔
- غیر لاطینی اسکرپٹس: یقینی بنائیں کہ OCR ماڈل آپ کے اسکرپٹ سیٹ کی حمایت کرتا ہے۔ بصورت دیگر ایک خاص OCR ویرینٹ پر روٹ کریں۔
- ٹیبلز جو آرٹ کی طرح نظر آتے ہیں: اگر ٹیبل کا پتہ لگانے میں ناکام ہو جاتا ہے، تو بہانا نہ کریں۔ اسے ایک عنوان کے ساتھ ایک تصویر کے طور پر ٹریٹ کریں اور "دستی نکالنے کی ضرورت ہے" نوٹس واپس کریں۔
ڈیٹا ماڈل: نقشے کو علاقے کے ساتھ رکھیں
- قسم: سرخی/پیراگراف/فہرست/ٹیبل/شکل/فٹ نوٹ
- متن (اختیاری)، bbox، آرڈر، اسٹائل اشارے
- قطاریں، کالم، سیل ٹیکسٹس، سیل bboxes، ہیڈر کے جھنڈے
- doc_id, page, block_id, offsets, bbox
سیکورٹی اور تعمیل
- تھرڈ پارٹی APIs پر حساس PDFs اپ لوڈ نہ کریں جب تک کہ آپ کی پالیسی آپ کو ایسا کرنے کی اجازت نہ دے۔ اگر آپ کو ایسا کرنا چاہیے تو، ٹرانزٹ اور آرام میں انکرپٹ کریں۔
- اگر ممکن ہو تو OCR مرحلے پر PII کو ریڈیکٹ کریں—باؤنڈنگ باکس ریڈیکشن پوسٹ-ہاک اسٹرنگ ماسکنگ سے زیادہ مضبوط ہے۔
- جہاں ممنوع ہو مواد کو لاگ کیے بغیر بازیافت اور جواب کی نسل کو لاگ کریں۔ خام متن نہیں، بلکہ ہیشز اور IDs رکھیں۔
لانگ کانٹیکسٹ ماڈل کے انتخاب (بغیر کسی ہائپ کے)
- اگر آپ کے سوالات زیادہ تر "یہ کہاں لکھا ہے X" ہیں، تو محض کانٹیکسٹ کی لمبائی پر بازیافت اور حوالہ کو ترجیح دیں۔ ایک مختصر، درست کانٹیکسٹ 1M-ٹوکن ہذیان کو شکست دیتا ہے۔
- اگر آپ کی دستاویزات بیانیہ ہیں (تحقیق، رپورٹیں)، تو لمبے کانٹیکسٹ ماڈل مدد کرتے ہیں، لیکن صرف اس وقت جب سیکشن کی ساخت کے ذریعے رہنمائی کی جائے۔
- ٹیبل سے بھرے ہوئے ورک فلوز ایک سپلٹ دماغ چاہتے ہیں: نثر کے لیے لینگویج ماڈل، ریاضی اور فلٹرنگ کے لیے ایک ہلکا پھلکا پروگرام۔
ورژننگ اور ڈرفٹ
- OCR بہتر ہوتا ہے؛ دستاویزات بدلتی ہیں؛ ایمبیڈنگز ڈرفٹ ہوتی ہیں۔ ہر چیز کا ورژن بنائیں:
- جب کوئی بھی ورژن تبدیل ہوتا ہے، تو انکریمنٹلی دوبارہ انڈیکس کریں۔ مساوات ثابت ہونے تک پرانے اور نئے دونوں کو رکھیں۔
ڈویلپر انٹیگریشن اسکیچ
- ورکر 1: انجسٹ → صفحات رینڈر کریں → قطار میں لگائیں۔
- ورکر 2 (GPU): ڈیپ سیک-او سی آر فی صفحہ → منظم JSON → ٹیبلز۔
- ورکر 3: صفائی + لے آؤٹ ٹری → کمپریشن۔
- ورکر 4: انڈیکس بنائیں (گھنا + اسپارس + ٹیبلز) → شائع کریں۔
- سروس: سوال راوٹر → بازیافت → پرامپٹ اسمبلی → LLM → تصدیق → جواب دیں۔
- اسٹوریج: صفحہ کی تصاویر اور سائڈکارز کے لیے آبجیکٹ اسٹور؛ بلاکس اور ماخذ کے لیے DB؛ ویکٹر اور اسپارس انڈیکس۔
ایسے ٹولز پر ایک لفظ جو گندگی نہیں کرتے ہیں۔
کم سے کم فلیشی ٹکڑا اکثر پائپ لائن بناتا ہے۔ سخت OCR جو لے آؤٹ کا احترام کرتا ہے، ایک انڈیکس جو کہہ سکتا ہے "مجھے نہیں معلوم،" اور ایک پرامپٹ بنانے والا جو زیادہ بھرنے سے انکار کرتا ہے۔ یہ کام ہے۔ اگر آپ اسے ایک عملی ورک فلو میں بولٹ کرنا چاہتے ہیں—مثال کے طور پر، معاہدوں کا خلاصہ کرنا، 300 صفحات کے RFIs کو کنگھی کرنا، یا SOP مینولز کی آڈٹ کرنا—Sider.AI اصل میں OCR، بازیافت، اور لانگ کانٹیکسٹ پرامپٹنگ کے درمیان گلو پرت کے طور پر کام کرتا ہے، خاص طور پر جب آپ اس کے ساتھ ایک نظم و ضبط والے فورمین کی طرح سلوک کرتے ہیں بجائے اس کے کہ ایک وزرڈ کی طرح۔ اسے آرکیسٹریٹ کرنے کے لیے استعمال کریں: انجسٹ ٹاسکس، چنکنگ پالیسیز، ماڈل سلیکشن، اور "اعتماد کرنے سے پہلے تصدیق کریں" لوپ۔ یہ اپنی کمائی اس وقت کرتا ہے جب آپ کو ان کاموں کو ٹیموں میں اسکیل کرنے اور نتائج کو دوبارہ قابل حصول رکھنے کی ضرورت ہوتی ہے۔ "گوٹچاس" جن سے آپ جمعہ تک ٹکرائیں گے۔
- اوور کمپریشن: آپ بہت زیادہ کاٹتے ہیں اور جوابات نزاکت کھو دیتے ہیں۔ جواب کی لمبائی/کوریج میٹرکس دیکھیں؛ جب اعتماد کم ہو جائے تو پورے بلاک کو دوبارہ حاصل کرنے کے لیے فال بیک شامل کریں۔
- اوور بازیافت: آپ 60 چنکس کو پرامپٹ میں گھسیٹتے ہیں اور کانٹیکسٹ کو اڑا دیتے ہیں۔ اسے کیپ کریں اور قربت کی طرف تعصب کریں (ہمسایہ سیکشنز سونا ہیں)۔
- ٹیبل وہم: ماڈل قائل کرنے والے انداز میں ایک نمبر بتاتا ہے—لیکن غلط قطار سے۔ پرامپٹ میں ہمیشہ قطار کی کلید کے ساتھ ٹیبل اسنیپٹس جوڑیں۔
- ڈپلیکیٹ صفحات: اسکیننگ ورک فلو کو دہرانا پسند ہے۔ صفحات کو ہیش کریں؛ OCR کے لیے ادائیگی کرنے سے پہلے صفحہ کی سطح پر ڈیڈپلیکیٹ کریں۔
- کراس-ریفس اور فٹ نوٹ: وہ قانونی طور پر بامعنی انتباہات رکھتے ہیں۔ پالیسی/قانونی دستاویزات میں کبھی بھی فٹ نوٹ نہ گرائیں؛ انہیں کم ٹوکن لین میں رکھیں۔
کوالٹی میٹرکس جو جھوٹ نہیں بولتے
- ٹاپ-کے حوالہ کی درستگی: کیا حوالہ شدہ بلاک اصل میں دعوے کی حمایت کرتا ہے؟
- ٹیبل سیل کی درستگی: عددی جوابات میں درست سیل حوالہ جات کی شرح۔
- کمپریشن فیڈیلٹی: کمپریسڈ بیانیہ اور اصل فی سیکشن کے درمیان ROUGE/LFQA-اسٹائل اوورلیپ۔
- لوڈ کے تحت سوال کی لیٹنسی: P95 اینڈ-ٹو-اینڈ، نہ کہ صرف LLM کا وقت۔
- انسانی اعتماد کا سکور: کیا صارفین پہلی نظر میں جوابات کو قبول کرتے ہیں یا مسترد کرتے ہیں؟ یہ واحد میٹرک ہے جو اپنانے کی پیش گوئی کرتا ہے۔
ایک کم سے کم کام کرنے والی مثال (تصوراتی)
- ان پٹ: 180 صفحات کی خریداری کی تفصیلات جس میں ضمیمہ جات اور پانچ مشکل ٹیبلز ہیں۔
- آپ DeepSeek‑OCR چلاتے ہیں؛ یہ باکسز اور ایک وفادار TOC کے ساتھ منظم بلاکس خارج کرتا ہے۔
- کمپریشن تمام سرخیاں، پہلے جملے، اور ٹیبلز سے ضروری قطاروں کو رکھتا ہے۔ سائڈکار ہر چیز کی طرف اشارہ کرتا ہے۔
- صارف پوچھتا ہے: "کون سا سیکشن برقی اجزاء کے لیے وارنٹی کی مدت مقرر کرتا ہے؟"
- راوٹر اسپارس → گھنے کا انتخاب کرتا ہے۔
- بازیافت دو سیکشنز اور ایک ضمیمہ واپس کرتی ہے۔
- پرامپٹ ان لائن حوالہ جات کے ساتھ سرخی+پیراگراف کو فیڈ کرتا ہے۔
- ماڈل جواب دیتا ہے: "سیکشن 4.2.1، صفحہ 67: 'برقی اجزاء کم از کم 36 ماہ کی وارنٹی رکھتے ہیں...'" ایک لنک کے ساتھ جو عین اسپن کو نمایاں کرتا ہے۔
- صارف پوچھتا ہے: "ریکس میں کل پاور بجٹ کیا ہے؟"
- راوٹر ٹیبل انڈیکس کا انتخاب کرتا ہے۔ یہ صحیح قطاروں کو نکالتا ہے، ایک سادہ ٹول کے ساتھ دو کالموں کا مجموعہ کرتا ہے، اور قطار کیز کے ساتھ ٹیبل B-3 کا حوالہ دیتا ہے۔ کوئی ہیلوسینیٹڈ ریاضی نہیں۔
یہ کیوں کام کرتا ہے جب دوسرے نہیں کرتے ہیں۔
کیونکہ یہ OCR، بازیافت، اور استدلال کو ان کے درمیان ایک معاہدے کے ساتھ الگ الگ کاموں کے طور پر ٹریٹ کرتا ہے۔ DeepSeek‑OCR آپ کو ساخت دیتا ہے۔ کمپریشن معنی کو محفوظ رکھتا ہے۔ بازیافت صحیح ثبوت حاصل کرتی ہے۔ لمبا کانٹیکسٹ ماڈل اسے فلر میں ڈوبے بغیر ایک ساتھ جوڑتا ہے۔ انڈسٹری کا ڈیفالٹ یہ ہے کہ ہر چیز کو ایک بڑی ونڈو میں جام کریں اور دعا کریں۔ دعا ایک حکمت عملی نہیں ہے۔
اگر آپ کونے کاٹنے جا رہے ہیں، تو ان کو آخری میں کاٹیں۔
- ٹیبل نکالنا: اگر آپ یہاں کمزور پڑتے ہیں، تو ہر ڈاون اسٹریم مرحلہ گندگی کا وارث ہوتا ہے۔
- ماخذ کی پلمبنگ: صارفین سستی اور یہاں تک کہ کبھی کبھار غلط جوابات کو معاف کر دیتے ہیں۔ وہ ایسے جوابات کو معاف نہیں کرتے جن کی وہ تصدیق نہیں کر سکتے۔
- کیش اور ہیشنگ: اگر آپ اسے صحیح کرتے ہیں تو آپ کا کلاؤڈ بل آپ کو معاف کر دے گا۔
ڈائیالکٹیکل بٹ: کیا آپ کو لمبے کانٹیکسٹ کی ضرورت بھی ہے؟
ایک مسالہ دار خیال: کبھی کبھی لمبا کانٹیکسٹ خراب بازیافت کے لیے ایک بیساکھی ہے۔ اگر آپ کے سوالات تنگ اور درست ہیں، تو بہتر انڈیکسنگ اور چھوٹے کانٹیکسٹ میں سرمایہ کاری کریں۔ لمبا کانٹیکسٹ اس وقت چمکتا ہے جب سوال آپ کو سیکشنز میں ترکیب کرنے کے لیے کہتا ہے—پالیسی استثناءات، کراس حوالہ شدہ شقیں، لٹریچر ریویوز۔ بصورت دیگر، آپ اس توجہ کے لیے ادائیگی کر رہے ہیں جس کی آپ کو ضرورت نہیں ہے۔
اور اگر آپ کو واقعی "پوری چیز کو پڑھنے" کی سمجھ کی ضرورت ہے؟ ماڈل کو ہر چیز کو کام کرنے والی میموری میں رکھنے پر مجبور نہ کریں۔ اسے مرحلہ وار کریں: خاکہ → بازیافت → جواز پیش کریں۔ یہاں تک کہ انسان بھی ایسا کرتے ہیں۔
ریپ-اپ: رسیدیں لائیں یا زحمت نہ کریں۔
DeepSeek‑OCR کو لانگ کانٹیکسٹ پائپ لائن میں ضم کرنا بڑی ونڈوز کی قربان گاہ پر پوجا کرنے کے بارے میں نہیں ہے۔ یہ دستاویزات کو مکانی دلائل کے طور پر احترام کرنے، ذائقے کے ساتھ کمپریس کرنے، ارادے کے ساتھ بازیافت کرنے، اور رسیدوں کے ساتھ جواب دینے کے بارے میں ہے۔ ایسا کریں، اور آپ کی پائپ لائن صفحہ 47 کو یاد رکھنے کا بہانہ کرنا چھوڑ دیتی ہے—اور اسے ثابت کرنا شروع کر دیتی ہے۔
Sider.AI، سمجھداری سے استعمال کیا جائے، اسے عملی بناتا ہے: مراحل کو آرکیسٹریٹ کریں، پرامپٹس کو ایماندار رکھیں، اور اس نظم و ضبط کو نافذ کریں جس کی لانگ کانٹیکسٹ کام کو اصل میں ضرورت ہوتی ہے۔ اگر یہ غیر دلکش لگتا ہے، تو اچھا ہے۔ دلکش حصہ وہ جوابات ہیں جن پر آپ اعتماد کر سکتے ہیں۔ اکثر پوچھے جانے والے سوالات
Q1:DeepSeek‑OCR کو لانگ کانٹیکسٹ پائپ لائن میں ضم کرنے کا تیز ترین طریقہ کیا ہے؟
OCR کو سخت کیشنگ کے ساتھ ایک GPU بیچ سروس کے طور پر ٹریٹ کریں، پھر بازیافت سے پہلے لے آؤٹ (سرخیاں، پیراگراف، ٹیبلز) کے لحاظ سے کمپریس کریں۔ ایک ہائبرڈ انڈیکس (گھنا + اسپارس + ٹیبل) شامل کریں اور پوری دستاویز کو ڈمپ کرنے کے بجائے صرف وقت پر پرامپٹس جمع کریں۔
Q2:اگر میں DeepSeek‑OCR استعمال کر رہا ہوں تو کیا مجھے واقعی لمبے کانٹیکسٹ ماڈلز کی ضرورت ہے؟
ہمیشہ نہیں۔ اگر آپ کے سوالات درست ہیں، تو بہتر بازیافت اور حوالہ جات بے رحمانہ طاقت والے کانٹیکسٹ کو شکست دیتے ہیں۔ لمبا کانٹیکسٹ اس وقت کارآمد ہوتا ہے جب آپ کو سیکشنز میں ترکیب کرنے کی ضرورت ہوتی ہے، نہ کہ جب آپ صفحہ 67 پر ایک شق تلاش کر رہے ہوں۔
Q3:میں ٹوکن کی گنتی کو پھٹنے کے بغیر ٹیبلز کو کیسے ہینڈل کروں؟
ٹیبلز کو ساختی طور پر نکالیں، ہیڈرز اور چند اعلی سگنل قطاروں کو رکھیں، اور پوری ٹیبل کو آؤٹ آف بینڈ اسٹور کریں۔ ٹیبل کے سوالات کو ٹیبل انڈیکس پر روٹ کریں اور صرف ضروری سیلز کو پرامپٹ میں شامل کریں۔
Q4:کون سے میٹرکس ثابت کرتے ہیں کہ پائپ لائن اصل میں کام کرتی ہے؟
حوالہ کی درستگی، ٹیبل سیل کی درستگی، فی سیکشن کمپریشن فیڈیلٹی، اور P95 اینڈ-ٹو-اینڈ لیٹنسی کو ٹریک کریں۔ سب سے زیادہ بتانے والا انسانی اعتماد کا سکور ہے—کیا صارفین ثبوت کے لیے کھدائی کیے بغیر جواب کو قبول کرتے ہیں؟
Q5:Sider.AI اس سیٹ اپ میں کہاں فٹ بیٹھتا ہے؟
آرکیسٹریشن پرت کے طور پر: یہ OCR کو شیڈول کرتا ہے، چنکنگ اور بازیافت کی پالیسیوں کو نافذ کرتا ہے، اور پرامپٹس کو نظم و ضبط رکھتا ہے۔ فورمین کے طور پر سوچیں، وزرڈ کے طور پر نہیں—وہ چیز جو باقی تمام ٹکڑوں کو وقت پر اور رسیدوں کے ساتھ ظاہر کرتی ہے۔