What is DeepSeek‑OCR’s “text as image” approach in simple terms?

Instead of converting pages to long strings with OCR, DeepSeek‑OCR keeps content as images and uses a vision‑language model to reason over layout. This reduces input tokens and often cuts costs by up to 10×.

How does “text as image” reduce token costs compared to OCR?

Visual tokens (patches) summarize large regions of text and layout, replacing thousands of subword tokens. Region‑level retrieval and constrained decoding further slash both input and output tokens.

Is DeepSeek‑OCR more accurate than traditional OCR?

For layout understanding and targeted extraction, it often performs better because it reasons over structure. For exact, character‑perfect text, pairing it with selective OCR can yield the highest accuracy.

When should I prefer classic OCR over the “text as image” pipeline?

Use classic OCR if you need full, copyable text for search or accessibility. For cost‑efficient extraction, summaries, and QA on complex PDFs, the "text as image" approach is typically superior.

How can I pilot DeepSeek‑OCR to verify up to 10× savings?

Benchmark your current OCR + LLM pipeline on representative documents, then swap in a vision‑language model with region gating and schema‑constrained outputs. Compare token counts, latency, and task accuracy side‑by‑side.

چرا رویکرد "متن به عنوان تصویر" در DeepSeek-OCR هزینه‌های توکن را تا 10 برابر کاهش می‌دهد

انقلاب خاموش: تبدیل متن به پیکسل‌ها برای صرفه‌جویی در توکن‌ها

این یک حقیقت خلاف شهود است: رندر کردن متن به عنوان تصویر می‌تواند مدل‌های زبانی را ارزان‌تر و سریع‌تر کند. DeepSeek‑OCR یک خط لوله «متن به عنوان تصویر» را رواج داد که ادعا می‌کند تا 10 برابر کاهش هزینه توکن در مقایسه با تنظیمات مرسوم OCR + LLM دارد. اگر این موضوع برعکس به نظر می‌رسد—چرا بینایی کامپیوتر را به یک مسئله زبانی اضافه کنیم؟—شما دقیقاً در ابتدای این توضیح هستید.

در این بررسی عمیق، ما بررسی می‌کنیم که رویکرد "متن به عنوان تصویر" چگونه کار می‌کند، چرا تعداد توکن‌ها را کاهش می‌دهد و چه زمانی OCR کلاسیک را شکست می‌دهد. ما همچنین به موارد حاشیه‌ای، مصالحه‌های دقت و راه‌های عملی برای استقرار آن در تولید نگاه خواهیم کرد.

مقدمه کوتاه: رویکرد "متن به عنوان تصویر" چیست؟

خط لوله سنتی: OCR (استخراج متن) → تقسیم به تکه‌ها (chunk) به توکن‌ها → ارسال به LLM → پرداخت به ازای هر توکن.

رویکرد DeepSeek‑OCR: حفظ محتوا به عنوان یک تصویر (یا طرح‌بندی مناسب برای بینایی) → استفاده از یک رمزگذار بینایی + LLM → پرداخت به ازای هر تکه/ویژگی بصری → رمزگشایی انتخابی.

به جای گسترش یک صفحه به هزاران توکن فرعی، مدل یک شبکه فشرده از تکه‌های بصری را مصرف می‌کند. هر تکه اطلاعات بسیار بیشتری نسبت به یک توکن فرعی رمزگذاری می‌کند—به ویژه برای طرح‌بندی‌های متراکم (جداول، رسیدها، فرم‌ها، PDFها). این راندمان رمزگذاری دلیل اصلی این است که رویکرد "متن به عنوان تصویر" در DeepSeek‑OCR هزینه‌های توکن را تا 10 برابر کاهش می‌دهد.

چرا هزینه‌های توکن در گردش کارهای OCR + LLM افزایش می‌یابد

فضای خالی و بویلرپلیت اضافی: OCR هر کاراکتر را استخراج می‌کند. تقسیم کردن این کاراکترها به توکن های فرعی، باعث افزایش تعداد توکن ها می شود.

هزینه سربار طرح‌بندی: سرصفحه‌ها، پاصفحه‌ها، شماره صفحات و متن قانونی مکرر، همگی تعداد توکن‌ها را افزایش می‌دهند.

از دست دادن قالب‌بندی: جداول به دنباله‌های طولانی تبدیل می‌شوند. یک جدول 10×10 ساختاریافته می‌تواند به هزاران توکن منفجر شود.

پنجره‌های context: اسناد طولانی نیاز به پنجره‌های کشویی یا خطوط لوله بازیابی دارند، و context را به طور مکرر دوباره ارسال می‌کنند.

در مقابل، رمزگذارهای بصری یک صفحه را به عنوان مجموعه‌ای ثابت از تکه‌ها پردازش می‌کنند (به عنوان مثال، 768–2048 توکن در هر صفحه) که مستقل از تعداد کاراکترهای خام است. این برد اساسی در راندمان پشت طراحی DeepSeek‑OCR است.

چگونه DeepSeek‑OCR به 10 برابر صرفه‌جویی دست می‌یابد

پشته "متن به عنوان تصویر" را به عنوان چهار لایه در نظر بگیرید:

توکن‌سازی بصری به جای توکن‌سازی فرعی

یک صفحه PDF به N تکه بصری تبدیل می‌شود (به عنوان مثال، 14×14 = 196 تکه در هر منطقه؛ یا صفحات کاشی‌کاری شده با 1 تا 2 هزار توکن).

هر تکه نشانه‌های معنایی (شکل‌های گلیف، روابط فضایی، نشانه‌های فونت) را حمل می‌کند که یک مدل زبان بینایی می‌تواند بر اساس آن استدلال کند.

استدلال آگاه از طرح‌بندی

مدل ساختار سند—جداول، سرفصل‌ها، فراخوان‌ها—را بدون ایجاد مجدد آن‌ها به عنوان توصیف‌های متنی طولانی "می‌بیند".

برای بازیابی، می‌تواند مناطق مرتبط را به جای پخش کل صفحات انتخاب کند.

رمزگشایی پراکنده (کمتر تولید کنید)

به جای خروجی دادن کل متن سند، مدل می‌تواند فقط آنچه را که مورد نیاز است استخراج کند: یک فیلد، یک جدول، یک خلاصه.

تولید کمتر = توکن‌های خروجی کمتر.

فشرده‌سازی از طریق استفاده مجدد از تکه‌ها

عناصر تکراری (لوگوها، سرصفحه‌ها) به عنوان توکن‌های بصری مشابه صفحه به صفحه ظاهر می‌شوند، که توجه و ذخیره‌سازی کارآمدتر را امکان‌پذیر می‌کند.

در مجموع، این انتخاب‌ها توضیح می‌دهند که چرا رویکرد "متن به عنوان تصویر" در DeepSeek‑OCR هزینه‌های توکن را تا 10 برابر در فرم‌ها، فاکتورها، PDFهای علمی و قراردادهای طولانی کاهش می‌دهد.

ریاضیات را به من نشان دهید: یک مقایسه هزینه تقریبی

سناریو: قرارداد 20 صفحه‌ای، حدود 7500 کلمه (حدود 10000-12000 توکن فرعی پس از OCR + قالب‌بندی).

OCR کلاسیک + LLM

توکن‌های ورودی در هر دسته‌: 8000+ (نیاز به تقسیم، context مکرر)

توکن‌های خروجی (خلاصه‌ها، استخراج‌ها): 500-1000

هزینه کل: بالا، به علاوه تأخیر ناشی از تقسیم و پرس و جوهای مجدد

DeepSeek‑OCR "متن به عنوان تصویر"

توکن‌های بصری در هر صفحه: حدود 1000-2000 (اغلب کمتر با کاشی‌کاری/کاهش اندازه)

پرس و جوهای منطقه هدفمند: 10-30٪ از سند در یک زمان

خروجی: 200-500 توکن در هر کار (رمزگشایی متمرکز)

هزینه کل: اغلب کسری از موارد فوق، با ارسال مجدد کمتر

هنگامی که در صدها سند مقیاس می‌شود، صرفه‌جویی تجمعی به عنوان "تا 10 برابر" در هزینه و تأخیر نزدیک می‌شود—به ویژه برای محتوای تکراری و سنگین از نظر طرح‌بندی.

کجا "متن به عنوان تصویر" در مقابل OCR کلاسیک می‌درخشد

طرح‌بندی‌های متراکم: جداول، رسیدها، فاکتورها، برچسب‌های حمل و نقل، فرم‌های پزشکی

اسکریپت‌های چند زبانه یا ترکیبی: نمادهای چینی + انگلیسی + ریاضی، جایی که تقسیم‌بندی OCR تعداد توکن‌ها را افزایش می‌دهد

اسکن‌های نویزی: مهرها، واترمارک‌ها، صفحات مورب—مدل‌های بینایی بهتر از خطوط لوله شکننده OCR بر روی نویز استدلال می‌کنند

استخراج ساختاریافته: کشیدن فیلدهای خاص، موارد خطی یا سلول‌های جدول

پرسش و پاسخ متنی: "کدام بند فسخ را پوشش می‌دهد؟" در صفحات بدون ارسال مجدد همه متن

چه زمانی OCR کلاسیک همچنان برنده است

خروجی‌های تمام متن با دقت کامل: شما به متن تمیز و قابل کپی برای جستجو/فهرست نیاز دارید.

دستگاه‌های با منابع بسیار کم: اگر نمی‌توانید یک رمزگذار بینایی یا VLM بزرگ را اجرا کنید، OCR ساده ممکن است از نظر محلی ارزان‌تر باشد.

گردش کارهای دسترس‌پذیری: صفحه‌خوان‌ها نیاز به خروجی متن معنایی دارند. جریان‌های فقط تصویر کافی نخواهند بود، مگر اینکه یک مرحله خروجی متن اضافه کنید.

نکته حرفه‌ای: ترکیبی کنید. از "متن به عنوان تصویر" برای استدلال و استخراج فیلد استفاده کنید. برای آرشیوهای قابل جستجو نهایی یا لایه‌های دسترس‌پذیری به OCR برگردید.

الگوی معماری: یک طرح اولیه عملی

از این الگوی مدولار برای اتخاذ اصول DeepSeek‑OCR بدون بازسازی پشته خود استفاده کنید:

دریافت

دریافت PDFها، TIFFها، اسکن‌ها؛ نرمال‌سازی وضوح (به عنوان مثال، 144-192 DPI)

کاشی‌کاری صفحات طولانی برای محدود نگه داشتن تعداد تکه‌ها

تعبیه بصری

اجرای یک رمزگذار بینایی برای ایجاد تعبیه‌های متراکم در هر کاشی/صفحه

ذخیره تعبیه‌ها برای پرس و جوهای مکرر (کاهش هزینه)

بازیابی منطقه

استفاده از تشخیص طرح‌بندی برای انتخاب مناطق کاندید (عنوان، جداول، بلوک‌های امضا)

اعمال جستجوی برداری بر روی تعبیه‌های بصری یا آشکارسازهای سبک

استدلال VLM

درخواست از VLM فقط با مناطق انتخاب شده + یک درخواست کار

استفاده از رمزگشایی محدود (طرحواره JSON) برای خروجی‌های ساختاریافته

پس از پردازش

نرمال‌سازی فیلدها (تاریخ‌ها، مقادیر، ارزها)

عبور OCR اختیاری برای رشته‌های متنی دقیق در صورت نیاز

این خط لوله توکن‌های بصری را پایین نگه می‌دارد، تمرکز مدل را محدود می‌کند و طول تولید را کاهش می‌دهد—سه اهرم که برای صرفه‌جویی‌های عمده ترکیب می‌شوند.

دقت، قابلیت اطمینان و موارد حاشیه‌ای

متن ظریف در DPI پایین: فونت‌های ریز ممکن است اشتباه خوانده شوند. از کاشی‌کاری تطبیقی یا DPI بالاتر برای مناطق مشکوک به متن کوچک استفاده کنید.

دست‌خط: مدل‌های بینایی کمک می‌کنند، اما تنظیم دقیق خاص فیلد یا تشخیص‌دهنده‌های دست‌خط تخصصی ممکن است همچنان مورد نیاز باشند.

بلوک‌های ریاضی و کد: context بصری به حفظ ساختار کمک می‌کند، اما OCR انتخابی را برای دقت نحوی دقیق در نظر بگیرید.

جداول با سلول‌های ادغام شده: توجه به طرح‌بندی معمولاً کمک می‌کند، اما قوانین پس از آن می‌توانند قابلیت اطمینان را افزایش دهند (به عنوان مثال، استنتاج سرصفحه، بررسی‌های جداکننده).

نکته محک‌زنی: در سطح کار (F1 سطح فیلد، دقت جدول، تطابق دقیق پرسش و پاسخ) به جای نرخ خطای کاراکتر خام ارزیابی کنید.

اهرم‌های هزینه‌ای که شما کنترل می‌کنید

کاهش نمونه‌برداری: DPI پایین‌تر توکن‌های بصری را کاهش می‌دهد. آستانه‌های آزمایشی که دقت را دست نخورده نگه می‌دارند.

دروازه‌بانی منطقه: اگر فقط به یک بند یا یک جدول نیاز دارید، هرگز صفحات کامل را ارسال نکنید.

محدودیت‌های خروجی: طرحواره JSON یا الگوهای regex تولیدات پرمخاطب را کاهش می‌دهند.

ذخیره‌سازی: استفاده مجدد از تعبیه‌های بصری برای یک سند در چندین سوال.

دقت مختلط/کوانتیزاسیون: اگر خودتان میزبانی می‌کنید، FP16/INT8 می‌تواند محاسبات و تأخیر را کاهش دهد.

مثال‌های پیاده‌سازی (سناریوها)

استخراج مورد خطی فاکتور

فقط بلوک موارد خطی و جعبه فروشنده را به عنوان تصویر ارسال کنید

محدود کردن خروجی به یک طرحواره JSON (تاریخ، فروشنده، ارز، موارد[])

بازگشت OCR اختیاری برای شناسه فاکتور برای تضمین تطابق دقیق رشته

پرسش و پاسخ بند قرارداد

هر صفحه را یک بار به صورت بصری تعبیه کنید؛ در یک DB برداری ذخیره کنید

بازیابی 1-3 منطقه مرتبط با پرس و جو ("فسخ،" "تخصیص،" "قانون حاکم")

از VLM بخواهید که شاخص منطقه را ذکر کند و بند را در ≤120 توکن خلاصه کند

خلاصه‌سازی PDF علمی

تمرکز بر عنوان، چکیده، شکل‌ها و مناطق نتیجه‌گیری

تولید یک خلاصه ساده و یک لیست چک روش‌ها؛ از ارسال بخش مراجع خودداری کنید

این الگوها توکن‌های ورودی و خروجی را به حداقل می‌رسانند و در عین حال دقت را در جایی که مهم است حفظ می‌کنند.

چرا تا 10 برابر و نه همیشه 10 برابر؟

صرفه‌جویی توکن به موارد زیر بستگی دارد:

تراکم سند: طرح‌بندی‌های سنگین‌تر سود بیشتری می‌برند

دامنه کار: استخراج هدفمند، تولید مجدد تمام متن را شکست می‌دهد

قیمت‌گذاری مدل: قیمت‌گذاری ورودی بینایی در مقابل قیمت‌گذاری ورودی متن توسط ارائه‌دهنده متفاوت است

پیش/پس از پردازش: انتخاب منطقه خوب و رمزگشایی محدود، سود را تقویت می‌کنند

انتظار 2-4 برابر به طور کلی + افزایش به حدود 10 برابر در گردش کارهای پیچیده، چند صفحه‌ای و سنگین از نظر طرح‌بندی.

تصورات غلط رایج

"تصاویر سنگین‌تر از متن هستند، بنابراین این باید هزینه بیشتری داشته باشد."

در صورتحساب LLM، هزینه توکن‌های مدل را ردیابی می‌کند، نه اندازه فایل خام. تکه‌های بصری اغلب جایگزین هزاران توکن فرعی می‌شوند.

"OCR حل شده است، پس چرا آن را پیچیده کنیم؟"

OCR با معناشناسی طرح‌بندی، جداول، مهرها و نویز چند زبانه دست و پنجه نرم می‌کند. مدل‌های زبان بینایی مستقیماً بر روی ساختار استدلال می‌کنند.

"شما نمی‌توانید متن دقیق را از تصاویر دریافت کنید."

درست است برای رشته‌های عالی پیکسلی. به همین دلیل است که بسیاری از تیم‌ها این رویکرد را فقط در جایی که دقت مورد نیاز است با OCR انتخابی جفت می‌کنند.

یادداشت‌های ابزار و یکپارچه‌سازی

لایه بازیابی: از آشکارسازهای طرح‌بندی (به سبک DocLayNet) استفاده کنید، یا یک مدل پیشنهاد منطقه سبک وزن برای فرم‌ها/جداول آموزش دهید.

رمزگشایی محدود به طرحواره: محدودیت‌های JSON Schema یا Pydantic-style پرحرفی و خطاها را کاهش می‌دهند.

هارنس ارزیابی: زمان پاسخگویی، هزینه در هر سند و دقت سطح فیلد را اندازه‌گیری کنید—نه فقط تعداد توکن‌ها.

حریم خصوصی: برای اسناد حساس، VLMهای on-prem را در نظر بگیرید و از ذخیره‌سازی رمزگذاری شده تعبیه‌های بصری اطمینان حاصل کنید.

شایان ذکر است: اگر در حال بررسی گردش کارهای چندوجهی هستید، Sider.AI می‌تواند آزمایش را ساده‌تر کند. شما می‌توانید درخواست‌ها را برای ورودی‌های متنی و تصویری تکرار کنید، هزینه/تأخیر را در مدل‌ها در کنار هم مقایسه کنید و دسته‌های ارزیابی را به طور خودکار ایجاد کنید. این امر تأیید این موضوع را آسان‌تر می‌کند که آیا رویکرد "متن به عنوان تصویر" در DeepSeek‑OCR واقعاً هزینه‌های توکن شما را تا 10 برابر در داده‌های خودتان کاهش می‌دهد یا خیر، قبل از اینکه به یک مهاجرت متعهد شوید.

برنامه اقدام: پایلوت در یک هفته

روز 1-2: خط لوله OCR + LLM فعلی خود را ابزار دقیق کنید. توکن‌های ورودی/خروجی، تأخیر و دقت را در هر کار ثبت کنید.

روز 3: یک مرحله تعبیه بصری و بازیابی منطقه اضافه کنید. تعبیه‌های هر صفحه را ذخیره کنید.

روز 4: تماس LLM خود را با یک VLM برای مناطق هدفمند تعویض کنید. خروجی را محدود کنید.

روز 5: مقایسه‌های A/B را روی 100-500 سند اجرا کنید. تفاوت‌های هزینه، دقت و حالت‌های خطا را پیگیری کنید.

روز 6-7: DPI، کاشی‌کاری و دروازه‌بانی منطقه را تنظیم کنید؛ بازگشت‌های OCR انتخابی را اضافه کنید.

اگر اعداد با انتظارات مطابقت دارند، به یک عرضه کامل گسترش دهید؛ اگر نه، روی انتخاب منطقه بهتر و رمزگشایی سخت‌تر برای تحقق صرفه‌جویی تمرکز کنید.

نکات کلیدی

رویکرد "متن به عنوان تصویر" در DeepSeek‑OCR با جایگزینی توکن‌های متنی پرمخاطب با تکه‌های بصری فشرده، استفاده از بازیابی سطح منطقه و به حداقل رساندن تولید، هزینه‌های توکن را تا 10 برابر کاهش می‌دهد.

در اسناد متراکم، درهم و برهم یا چند زبانه و کارهای استخراج ساختاریافته عالی است.

استراتژی‌های ترکیبی—بینایی برای استدلال، OCR انتخابی برای رشته‌های دقیق—اغلب بهترین نسبت دقت به هزینه را ارائه می‌دهند.

اندازه‌گیری دقیق و محدودیت‌های خروجی سخت، سریع‌ترین مسیر به صرفه‌جویی در دنیای واقعی هستند.

نگاهی به آینده: یک پیش‌بینی کوتاه

با بلوغ LLMهای چندوجهی، انتظار داشته باشید که درک سند به استدلال ابتدا بینایی با بازیابی متن بر اساس تقاضا همگرا شود. ما پیش‌آموزش آگاه از طرح‌بندی، توکن‌های بصری ارزان‌تر و خروجی‌های استاندارد محدود به JSON بیشتری خواهیم دید. برای تیم‌هایی که امروزه با هزینه‌های LLM مبارزه می‌کنند، تغییر به "متن به عنوان تصویر" می‌تواند تنها اهرم با بیشترین تأثیر باشد—به ویژه در مقیاس بزرگ.

سوالات متداول

Q1: رویکرد "متن به عنوان تصویر" در DeepSeek‑OCR به زبان ساده چیست؟ به جای تبدیل صفحات به رشته‌های طولانی با OCR، DeepSeek‑OCR محتوا را به عنوان تصاویر نگه می‌دارد و از یک مدل زبان بینایی برای استدلال بر روی طرح‌بندی استفاده می‌کند. این کار توکن‌های ورودی را کاهش می‌دهد و اغلب هزینه‌ها را تا 10 برابر کاهش می‌دهد.

Q2: چگونه "متن به عنوان تصویر" هزینه‌های توکن را در مقایسه با OCR کاهش می‌دهد؟ توکن‌های بصری (تکه‌ها) مناطق بزرگ متن و طرح‌بندی را خلاصه می‌کنند و جایگزین هزاران توکن فرعی می‌شوند. بازیابی سطح منطقه و رمزگشایی محدود، هر دو توکن ورودی و خروجی را کاهش می‌دهد.

Q3: آیا DeepSeek‑OCR دقیق‌تر از OCR سنتی است؟ برای درک طرح‌بندی و استخراج هدفمند، اغلب عملکرد بهتری دارد زیرا بر روی ساختار استدلال می‌کند. برای متن دقیق و عالی از نظر کاراکتر، جفت کردن آن با OCR انتخابی می‌تواند بالاترین دقت را به همراه داشته باشد.

Q4: چه زمانی باید OCR کلاسیک را به خط لوله "متن به عنوان تصویر" ترجیح دهم؟ اگر به متن کامل و قابل کپی برای جستجو یا دسترس‌پذیری نیاز دارید، از OCR کلاسیک استفاده کنید. برای استخراج مقرون به صرفه، خلاصه‌ها و پرسش و پاسخ در PDFهای پیچیده، رویکرد "متن به عنوان تصویر" معمولاً برتر است.

Q5: چگونه می‌توانم DeepSeek‑OCR را برای تأیید صرفه‌جویی تا 10 برابری به صورت پایلوت آزمایش کنم؟ خط لوله OCR + LLM فعلی خود را روی اسناد نماینده محک بزنید، سپس یک مدل زبان بینایی را با دروازه‌بانی منطقه و خروجی‌های محدود به طرحواره جایگزین کنید. تعداد توکن‌ها، تأخیر و دقت کار را در کنار هم مقایسه کنید.