How do I translate a scanned PDF with Sider AI?

First run OCR to extract text page-by-page, then feed the cleaned text into Sider’s PDF Translator for a side-by-side translation. This two-step OCR translation approach improves accuracy on scanned files.

Can Sider AI handle images or screenshots for OCR translation?

Yes, you can upload an image or screenshot to Sider’s OCR tool to extract text, then translate it. This works well for photos of documents, menus, or receipts.

What’s the best prompt for OCR translation of scanned files?

Use a two-phase prompt: Phase 1 for structured OCR extraction (preserve headings, tables, formulas), Phase 2 for translation with glossary and QA checks. Include formatting rules and ambiguity flags.

How do I keep tables and formulas accurate during OCR translation?

Ask Sider to rebuild tables as pipe-delimited text and wrap equations in [FORMULA] blocks. In translation, keep variables as-is while translating surrounding text.

Does Sider AI translate PDFs while showing the original alongside?

Yes. Sider’s AI PDF Translator provides a side-by-side view of the original and translated text, making it easy to review and correct.

تسلط بر ترجمه OCR: اعلان هوش مصنوعی Sider برای فایل‌های اسکن‌شده

مقدمه: تبدیل اسکن‌های غیرقابل ترجمه به اسناد تمیز و دوزبانه آیا تا به حال سعی کرده‌اید یک PDF اسکن شده یا یک عکس تار از یک قرارداد را ترجمه کنید، اما متوجه شده‌اید که این فقط یک تصویر است؟ هیچ متن قابل انتخابی وجود ندارد، امکان کپی-پیست وجود ندارد و مترجم معمولی شما شانه بالا می‌اندازد. اینجاست که ترجمه OCR وارد می‌شود - حرکت ترکیبی که ابتدا متن را استخراج می‌کند (تشخیص نوری کاراکتر)، سپس آن را به طور دقیق ترجمه می‌کند. با ابزارهای OCR و ترجمه PDF هوش مصنوعی ، می‌توانید از "گیر افتادن با یک اسکن" به "ترجمه تمام شده"، همه در یک جریان کاری، حرکت کنید. بیایید بر درخواست (prompt)، فرآیند و مشکلات احتمالی تسلط پیدا کنیم تا فایل‌های اسکن شده شما به طور تمیز، پیوسته و سریع ترجمه شوند.

با برای فایل‌های اسکن شده چه کاری می‌توانید انجام دهید

استخراج متن از تصاویر/اسکرین شات ها: از OCR برای بیرون کشیدن متن - حتی فرمول های ریاضی - از عکس ها، اسکن ها یا اسکرین شات ها استفاده کنید.

ترجمه PDF ها به صورت side-by-side: مترجم PDF به شما امکان می دهد یک سند را آپلود کرده و متن اصلی را در مقابل متن ترجمه شده در یک رابط واحد مقایسه کنید.

ایجاد یک گردش کار ترکیبی: برای PDF های اسکن شده، ابتدا OCR را اجرا کنید (در صورت نیاز)، سپس متن تمیز را برای دقت بالاتر به مترجم بدهید.

چرا ترجمه OCR متفاوت است (و دشوار) فایل‌های اسکن شده تصویر هستند، نه متن. این یعنی:

حساسیت OCR: کنتراست پایین، صفحات کج یا فونت‌های عجیب و غریب، تشخیص را مختل می‌کنند.

پیچیدگی طرح‌بندی: جداول، پانویس‌ها و طرح‌بندی‌های چند ستونی می‌توانند جریان متن را گیج کنند.

تشخیص زبان و خط: زبان‌های مختلط یا خطوط غیر لاتین نیاز به راهنمایی صریح دارند.

دقت ترجمه: پس از استخراج متن، لحن و اصطلاحات همچنان نیاز به درخواست (prompting) دقیق دارند.

درخواست (Prompt) ترجمه OCR (کپی، سفارشی سازی، استفاده) هنگام کار بر روی فایل‌های اسکن شده‌ای که نیاز به استخراج و ترجمه دقیق دارند، از این درخواست اصلی با استفاده کنید. آن را با مراحل صحیح (در زیر) برای بهترین نتیجه جفت کنید.

درخواست (Prompt): الگوی اصلی OCR + ترجمه هدف: استخراج متن دقیق از یک فایل اسکن شده یا تصویر، سپس ترجمه آن با قالب بندی واضح و کنترل واژگان.

فاز 1 - استخراج OCR "شما یک دستیار OCR هستید. تصویر آپلود شده یا صفحه PDF اسکن شده را صفحه به صفحه تجزیه و تحلیل کنید. متن تمیز و قابل انتخاب را با قوانین زیر خروجی دهید:

حفظ ترتیب خواندن و عناوین بخش.

بازسازی لیست ها، جداول (به صورت متن ساده با جداکننده های واضح) و شکست های پاراگراف.

حفظ کاراکترهای ویژه (°, ±, µ, →) و فرمول های ریاضی. برای فرمول ها، داخل قرار دهید.

برای PDF های اسکن شده با طرح بندی های پیچیده: استخراج OCR صفحه به صفحه را برای حفظ ترتیب در نظر بگیرید. متن استخراج شده (EXTRACTED TEXT) هر صفحه را ذخیره کنید.

پاکسازی خروجی OCR

رفع خطاهای واضح کاراکتر (I در مقابل l، 0 در مقابل O).

بازسازی جداول به صورت متن ساده با جداکننده.

علامت گذاری قسمت های ناخوانا با

اگر قالب بندی side-by-side ضروری نیست، متن استخراج شده (EXTRACTED TEXT) خود را در چت قرار دهید و درخواست (prompt) ترجمه فاز 2 را اجرا کنید.

اعمال یک واژه نامه برای سازگاری

یک واژه نامه کوتاه برای نام های تجاری، اصطلاحات محصول، عبارات حقوقی یا اصطلاحات پزشکی تهیه کنید.

آن را به درخواست (prompt) اضافه کنید تا ترجمه های سازگار را اعمال کند.

انجام یک QA pass

از بخواهید اعداد، تاریخ ها، واحدها و نام ها را بررسی کند. تأیید کنید که ساختار آینه منبع است.

برای اسکن های چند زبانه، تأیید کنید که هر بخش زبان به درستی ترجمه شده و برچسب گذاری شده است.

خروجی و پولیش

ترجمه را خروجی بگیرید و یک پاس انسانی سریع به آن بدهید، به خصوص برای اسناد سنگین حقوقی، پزشکی یا انطباقی.

موارد استفاده واقعی و کتابچه های راهنمای کوچک

قراردادها و اسکن های قانونی

درخواست OCR: بر شماره گذاری پاراگراف و مراجع بند تأکید کنید.

سبک ترجمه: لحن رسمی و محافظه کارانه. یک واژه نامه برای اصطلاحات تعریف شده وارد کنید.

تمرکز QA: شماره بندها، اصطلاحات تعریف شده، تاریخ ها.

مقالات و پایان نامه های دانشگاهی

درخواست OCR: حفظ عناوین، استنادها، پانویس ها؛ معادلات را در قرار دهید.

مترجم PDF هوش مصنوعی: side-by-side اصلی در مقابل ترجمه برای بررسی و اصلاحات آسان تر.

شایان ذکر است: اگر با PDF های اسکن شده دست و پنجه نرم می کنید که زبان ها، جداول و تصاویر را با هم ترکیب می کنند، ترکیب OCR به همراه مترجم PDF side-by-side ، اعتبارسنجی را سرعت می بخشد. شما می توانید ساختار را ببینید، اصطلاحات را ردیابی کنید و خطاها را به صورت درون خطی رفع کنید - بدون دستکاری ابزارهای متعدد.

یک مثال کامل: از اسکن تا ترجمه نهایی سناریو: یک دفترچه راهنمای فنی اسکن شده 12 صفحه ای به زبان آلمانی با جداول و فرمول ها. هدف انگلیسی است.

OCR PDF صفحه به صفحه

درخواست فاز 1، با ,,

مراحل بعدی

OCR را روی یک تصویر اسکن شده امتحان کنید و خروجی متن استخراج شده (EXTRACTED TEXT) را بررسی کنید.

PDF اسکن شده بعدی خود را در مترجم PDF آپلود کنید و نتایج side-by-side را مقایسه کنید.

درخواست اصلی بالا را به عنوان یک الگو قابل استفاده مجدد برای تمام ترجمه های فایل اسکن شده آینده ذخیره کنید.

سوالات متداول

سوال 1: چگونه یک PDF اسکن شده را با ترجمه کنم؟ ابتدا OCR را برای استخراج متن صفحه به صفحه اجرا کنید، سپس متن تمیز شده را برای یک ترجمه side-by-side به مترجم PDF وارد کنید. این رویکرد ترجمه OCR دو مرحله ای، دقت را در فایل های اسکن شده بهبود می بخشد.

سوال 2: آیا می تواند تصاویر یا اسکرین شات ها را برای ترجمه OCR مدیریت کند؟ بله، می توانید یک تصویر یا اسکرین شات را در ابزار OCR آپلود کنید تا متن را استخراج کرده و سپس آن را ترجمه کنید. این برای عکس های اسناد، منوها یا رسیدها به خوبی کار می کند.

سوال 3: بهترین درخواست (prompt) برای ترجمه OCR فایل های اسکن شده چیست؟ از یک درخواست دو فازی استفاده کنید: فاز 1 برای استخراج OCR ساختاریافته (حفظ عناوین، جداول، فرمول ها)، فاز 2 برای ترجمه با واژه نامه و بررسی QA. قوانین قالب بندی و پرچم های ابهام را وارد کنید.

سوال 4: چگونه جداول و فرمول ها را در طول ترجمه OCR دقیق نگه دارم؟ از بخواهید جداول را به عنوان متن جدا شده با pipe بازسازی کند و معادلات را در بلوک های [FORMULA] قرار دهد. در ترجمه، متغیرها را همانطور که هستند نگه دارید در حالی که متن اطراف را ترجمه می کنید.

سوال 5: آیا PDF ها را در حالی که نسخه اصلی را در کنار آن نشان می دهد ترجمه می کند؟ بله. مترجم PDF هوش مصنوعی یک نمای side-by-side از متن اصلی و ترجمه شده ارائه می دهد و بررسی و تصحیح آن را آسان می کند.