What is DeepSeek‑OCR’s “text as image” approach in simple terms?

Instead of converting pages to long strings with OCR, DeepSeek‑OCR keeps content as images and uses a vision‑language model to reason over layout. This reduces input tokens and often cuts costs by up to 10×.

How does “text as image” reduce token costs compared to OCR?

Visual tokens (patches) summarize large regions of text and layout, replacing thousands of subword tokens. Region‑level retrieval and constrained decoding further slash both input and output tokens.

Is DeepSeek‑OCR more accurate than traditional OCR?

For layout understanding and targeted extraction, it often performs better because it reasons over structure. For exact, character‑perfect text, pairing it with selective OCR can yield the highest accuracy.

When should I prefer classic OCR over the “text as image” pipeline?

Use classic OCR if you need full, copyable text for search or accessibility. For cost‑efficient extraction, summaries, and QA on complex PDFs, the "text as image" approach is typically superior.

How can I pilot DeepSeek‑OCR to verify up to 10× savings?

Benchmark your current OCR + LLM pipeline on representative documents, then swap in a vision‑language model with region gating and schema‑constrained outputs. Compare token counts, latency, and task accuracy side‑by‑side.

DeepSeek-OCRನ “Text as Image” ವಿಧಾನವು ಟೋಕನ್ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಹೇಗೆ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ

ಮೌನ ಕ್ರಾಂತಿ: ಟೋಕನ್‌ಗಳನ್ನು ಉಳಿಸಲು ಪಠ್ಯವನ್ನು ಪಿಕ್ಸೆಲ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸುವುದು

ಇಲ್ಲಿ ಒಂದು ವಿರೋಧಾಭಾಸದ ಸತ್ಯವಿದೆ: ಪಠ್ಯವನ್ನು ಚಿತ್ರಗಳಾಗಿ ರೆಂಡರ್ ಮಾಡುವುದರಿಂದ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಅಗ್ಗವಾಗಿಸಬಹುದು ಮತ್ತು ವೇಗವಾಗಿ ಮಾಡಬಹುದು. DeepSeek-OCR ಒಂದು "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಜನಪ್ರಿಯಗೊಳಿಸಿದೆ, ಇದು ಸಾಂಪ್ರದಾಯಿಕ OCR + LLM ಸೆಟಪ್‌ಗಳಿಗೆ ಹೋಲಿಸಿದರೆ 10 ಪಟ್ಟು ಟೋಕನ್ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಎಂದು ಹೇಳುತ್ತದೆ. ಇದು ತಲೆಕೆಳಗಾದಂತೆ ಧ್ವನಿಸಿದರೆ - ಭಾಷಾ ಸಮಸ್ಯೆಗೆ ಕಂಪ್ಯೂಟರ್ ದೃಷ್ಟಿಯನ್ನು ಏಕೆ ಸೇರಿಸಬೇಕು? - ಈ ವಿವರಣೆಯು ಇಲ್ಲಿಂದಲೇ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.

ಈ ಆಳವಾದ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ, "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಅದು ಟೋಕನ್ ಎಣಿಕೆಗಳನ್ನು ಏಕೆ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಅದು ಕ್ಲಾಸಿಕ್ OCR ಅನ್ನು ಯಾವಾಗ ಸೋಲಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ನಾವು ಬಿಡಿಸಿಡುತ್ತೇವೆ. ನಾವು ಅಂಚಿನ ಪ್ರಕರಣಗಳು, ನಿಖರತೆಯ ವಹಿವಾಟುಗಳು ಮತ್ತು ಉತ್ಪಾದನೆಯಲ್ಲಿ ಅದನ್ನು ನಿಯೋಜಿಸಲು ಪ್ರಾಯೋಗಿಕ ಮಾರ್ಗಗಳನ್ನು ಸಹ ನೋಡುತ್ತೇವೆ.

ತ್ವರಿತ ಪ್ರೈಮರ್: "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನ ಎಂದರೇನು?

ಸಾಂಪ್ರದಾಯಿಕ ಪೈಪ್‌ಲೈನ್: OCR (ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯಿರಿ) → ಟೋಕನ್‌ಗಳಾಗಿ ವಿಭಾಗಿಸಿ → LLM ಗೆ ಕಳುಹಿಸಿ → ಪ್ರತಿ ಟೋಕನ್‌ಗೆ ಪಾವತಿಸಿ.

DeepSeek-OCR ನ ವಿಧಾನ: ವಿಷಯವನ್ನು ಚಿತ್ರವಾಗಿ ಇರಿಸಿ (ಅಥವಾ ದೃಷ್ಟಿಗೆ ಅನುಕೂಲಕರವಾದ ಲೇಔಟ್) → ವಿಷನ್ ಎನ್‌ಕೋಡರ್ + LLM ಬಳಸಿ → ದೃಶ್ಯ ಪ್ಯಾಚ್ / ಫೀಚರ್ ಟೋಕನ್‌ಗೆ ಪಾವತಿಸಿ → ಆಯ್ದವಾಗಿ ಡಿಕೋಡ್ ಮಾಡಿ.

ಒಂದು ಪುಟವನ್ನು ಸಾವಿರಾರು ಸಬ್‌ವರ್ಡ್ ಟೋಕನ್‌ಗಳಾಗಿ ವಿಸ್ತರಿಸುವ ಬದಲು, ಮಾದರಿಯು ದೃಶ್ಯ ಪ್ಯಾಚ್‌ಗಳ ಕಾಂಪ್ಯಾಕ್ಟ್ ಗ್ರಿಡ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. ಪ್ರತಿ ಪ್ಯಾಚ್ ಒಂದು ಸಬ್‌ವರ್ಡ್ ಟೋಕನ್‌ಗಿಂತ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಯನ್ನು ಎನ್‌ಕೋಡ್ ಮಾಡುತ್ತದೆ - ವಿಶೇಷವಾಗಿ ದಟ್ಟವಾದ ಲೇಔಟ್‌ಗಳಿಗೆ (ಟೇಬಲ್‌ಗಳು, ರಸೀದಿಗಳು, ಫಾರ್ಮ್‌ಗಳು, PDF ಗಳು). DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನವು ಟೋಕನ್ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡಲು ಆ ಎನ್‌ಕೋಡಿಂಗ್ ದಕ್ಷತೆಯೇ ಮುಖ್ಯ ಕಾರಣ.

OCR + LLM ವರ್ಕ್‌ಫ್ಲೋಗಳಲ್ಲಿ ಟೋಕನ್ ವೆಚ್ಚಗಳು ಏಕೆ ಹೆಚ್ಚಾಗುತ್ತವೆ

ಹೆಚ್ಚುವರಿ ವೈಟ್‌ಸ್ಪೇಸ್ ಮತ್ತು ಬಾಯ್ಲರ್‌ಪ್ಲೇಟ್: OCR ಪ್ರತಿ ಅಕ್ಷರವನ್ನು ಹೊರತೆಗೆಯುತ್ತದೆ. ಚಂಕಿಂಗ್ ಇದನ್ನು ಅನೇಕ ಸಬ್‌ವರ್ಡ್ ಟೋಕನ್‌ಗಳಾಗಿ ವಿಸ್ತರಿಸುತ್ತದೆ.

ಲೇಔಟ್ ಓವರ್‌ಹೆಡ್: ಹೆಡರ್‌ಗಳು, ಫೂಟರ್‌ಗಳು, ಪುಟ ಸಂಖ್ಯೆಗಳು ಮತ್ತು ಪುನರಾವರ್ತಿತ ಕಾನೂನು ಪಠ್ಯವು ಟೋಕನ್ ಎಣಿಕೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.

ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ನಷ್ಟ: ಟೇಬಲ್‌ಗಳು ವಾಕ್ಚಾತುರ್ಯದ ಅನುಕ್ರಮಗಳಾಗುತ್ತವೆ. ರಚನಾತ್ಮಕ 10×10 ಟೇಬಲ್ ಸಾವಿರಾರು ಟೋಕನ್‌ಗಳಾಗಿ ಸ್ಫೋಟಗೊಳ್ಳಬಹುದು.

ಸಂದರ್ಭ ವಿಂಡೋಗಳು: ದೀರ್ಘ ದಾಖಲೆಗಳಿಗೆ ಸ್ಲೈಡಿಂಗ್ ವಿಂಡೋಗಳು ಅಥವಾ ರಿಟ್ರೈವಲ್ ಪೈಪ್‌ಲೈನ್‌ಗಳು ಬೇಕಾಗುತ್ತವೆ, ಸಂದರ್ಭವನ್ನು ಪದೇ ಪದೇ ಮರು-ಕಳುಹಿಸಬೇಕಾಗುತ್ತದೆ.

ಇದಕ್ಕೆ ವ್ಯತಿರಿಕ್ತವಾಗಿ, ದೃಶ್ಯ ಎನ್‌ಕೋಡರ್‌ಗಳು ಕಚ್ಚಾ ಅಕ್ಷರ ಎಣಿಕೆಯನ್ನು ಲೆಕ್ಕಿಸದೆ ಒಂದು ಪುಟವನ್ನು ಸ್ಥಿರವಾದ ಪ್ಯಾಚ್‌ಗಳಾಗಿ (ಉದಾಹರಣೆಗೆ, ಪ್ರತಿ ಪುಟಕ್ಕೆ 768–2,048 ಟೋಕನ್‌ಗಳು) ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತವೆ. ಅದು DeepSeek-OCR ನ ವಿನ್ಯಾಸದ ಹಿಂದಿನ ಮೂಲಭೂತ ದಕ್ಷತೆಯಾಗಿದೆ.

DeepSeek-OCR 10 ಪಟ್ಟು ಉಳಿತಾಯವನ್ನು ಹೇಗೆ ಸಾಧಿಸುತ್ತದೆ

"ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ಸ್ಟಾಕ್ ಅನ್ನು ನಾಲ್ಕು ಲೇಯರ್‌ಗಳಾಗಿ ಯೋಚಿಸಿ:

ಸಬ್‌ವರ್ಡ್ ಟೋಕನೈಸೇಶನ್ ಬದಲಿಗೆ ದೃಶ್ಯ ಟೋಕನೈಸೇಶನ್

ಒಂದು PDF ಪುಟವು N ದೃಶ್ಯ ಪ್ಯಾಚ್‌ಗಳಾಗುತ್ತದೆ (ಉದಾಹರಣೆಗೆ, 14×14 = ಪ್ರತಿ ಪ್ರದೇಶಕ್ಕೆ 196 ಪ್ಯಾಚ್‌ಗಳು; ಅಥವಾ ~1–2k ಟೋಕನ್‌ಗಳಲ್ಲಿ ಟೈಲ್ಡ್ ಪುಟಗಳು).

ಪ್ರತಿ ಪ್ಯಾಚ್ ಸೆಮ್ಯಾಂಟಿಕ್ ಸುಳಿವುಗಳನ್ನು (ಗ್ಲಿಫ್ ಆಕಾರಗಳು, ಪ್ರಾದೇಶಿಕ ಸಂಬಂಧಗಳು, ಫಾಂಟ್ ಸೂಚನೆಗಳು) ಹೊಂದಿರುತ್ತದೆ, ಅದರ ಮೇಲೆ ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಯು ತರ್ಕಿಸಬಲ್ಲದು.

ಲೇಔಟ್-ಅರಿವಿನ ತಾರ್ಕಿಕತೆ

ಮಾದರಿಯು ಡಾಕ್ಯುಮೆಂಟ್ ರಚನೆಯನ್ನು "ನೋಡುತ್ತದೆ" - ಟೇಬಲ್‌ಗಳು, ಹೆಡ್ಡಿಂಗ್‌ಗಳು, ಕಾಲ್‌ಔಟ್‌ಗಳು - ಅವುಗಳನ್ನು ದೀರ್ಘ ಪಠ್ಯ ವಿವರಣೆಗಳಾಗಿ ಮರುಸೃಷ್ಟಿಸದೆ.

ರಿಟ್ರೈವಲ್‌ಗಾಗಿ, ಅದು ಸಂಪೂರ್ಣ ಪುಟಗಳನ್ನು ಸ್ಟ್ರೀಮ್ ಮಾಡುವ ಬದಲು ಸಂಬಂಧಿತ ಪ್ರದೇಶಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಬಹುದು.

ವಿರಳ ಡಿಕೋಡಿಂಗ್ (ಕಡಿಮೆ ಉತ್ಪಾದಿಸಿ)

ಸಂಪೂರ್ಣ ಡಾಕ್ಯುಮೆಂಟ್ ಪಠ್ಯವನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡುವ ಬದಲು, ಮಾದರಿಯು ಬೇಕಾದುದನ್ನು ಮಾತ್ರ ಹೊರತೆಗೆಯಬಹುದು: ಒಂದು ಕ್ಷೇತ್ರ, ಒಂದು ಟೇಬಲ್, ಒಂದು ಸಾರಾಂಶ.

ಕಡಿಮೆ ಉತ್ಪಾದನೆ = ಕಡಿಮೆ ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳು.

ಪ್ಯಾಚ್ ಮರುಬಳಕೆಯ ಮೂಲಕ ಸಂಕೋಚನ

ಪುನರಾವರ್ತಿತ ಅಂಶಗಳು (ಲೋಗೊಗಳು, ಹೆಡರ್‌ಗಳು) ಒಂದೇ ರೀತಿಯ ದೃಶ್ಯ ಟೋಕನ್‌ಗಳಾಗಿ ಪುಟದಿಂದ ಪುಟಕ್ಕೆ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ, ಇದು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿ ಗಮನ ಮತ್ತು ಸಂಗ್ರಹಣೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ.

ಒಟ್ಟಾರೆಯಾಗಿ, DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನವು ಫಾರ್ಮ್‌ಗಳು, ಇನ್‌ವಾಯ್ಸ್‌ಗಳು, ವೈಜ್ಞಾನಿಕ PDF ಗಳು ಮತ್ತು ದೀರ್ಘ ಒಪ್ಪಂದಗಳಲ್ಲಿ ಟೋಕನ್ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡಲು ಈ ಆಯ್ಕೆಗಳು ಏಕೆ ಸಹಾಯ ಮಾಡುತ್ತವೆ ಎಂಬುದನ್ನು ವಿವರಿಸುತ್ತದೆ.

ಗಣಿತವನ್ನು ತೋರಿಸಿ: ಅಂದಾಜು ವೆಚ್ಚ ಹೋಲಿಕೆ

ಸನ್ನಿವೇಶ: 20 ಪುಟಗಳ ಒಪ್ಪಂದ, ~7,500 ಪದಗಳು (~10,000–12,000 ಸಬ್‌ವರ್ಡ್ ಟೋಕನ್‌ಗಳು OCR + ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ನಂತರ).

ಕ್ಲಾಸಿಕ್ OCR + LLM

ಪ್ರತಿ ಬ್ಯಾಚ್‌ಗೆ ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳು: 8,000+ (ವಿಭಜನೆ, ಪುನರಾವರ್ತಿತ ಸಂದರ್ಭದ ಅಗತ್ಯವಿದೆ)

ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳು (ಸಾರಾಂಶಗಳು, ಹೊರತೆಗೆಯುವಿಕೆಗಳು): 500–1,000

ಒಟ್ಟು ವೆಚ್ಚ: ಹೆಚ್ಚು, ಜೊತೆಗೆ ಚಂಕಿಂಗ್ ಮತ್ತು ಮರು-ಪ್ರಶ್ನೆಗಳಿಂದ ಸುಪ್ತತೆ

DeepSeek-OCR "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ"

ಪ್ರತಿ ಪುಟಕ್ಕೆ ದೃಶ್ಯ ಟೋಕನ್‌ಗಳು: ~1,000–2,000 (ಟೈಲಿಂಗ್/ಡೌನ್‌ಸೈಜಿಂಗ್‌ನೊಂದಿಗೆ ಸಾಮಾನ್ಯವಾಗಿ ಕಡಿಮೆ)

ಗುರಿಯಾಗಿಸಿದ ಪ್ರದೇಶ ಪ್ರಶ್ನೆಗಳು: ಒಂದು ಸಮಯದಲ್ಲಿ ಡಾಕ್ಯುಮೆಂಟ್‌ನ 10–30%

ಔಟ್‌ಪುಟ್: ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ 200–500 ಟೋಕನ್‌ಗಳು (ಕೇಂದ್ರೀಕೃತ ಡಿಕೋಡಿಂಗ್)

ಒಟ್ಟು ವೆಚ್ಚ: ಹೆಚ್ಚಾಗಿ ಮೇಲಿನದರ ಒಂದು ಭಾಗ, ಕಡಿಮೆ ಮರು-ಕಳುಹಿಸುವಿಕೆಗಳೊಂದಿಗೆ

ನೂರಾರು ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಲ್ಲಿ ಅಳೆಯಿದಾಗ, ಸಂಚಿತ ಉಳಿತಾಯವು ಮುಖ್ಯಾಂಶವನ್ನು ಸಮೀಪಿಸುತ್ತದೆ, ವೆಚ್ಚ ಮತ್ತು ಸುಪ್ತತೆಯಲ್ಲಿ "10 ಪಟ್ಟು" ವರೆಗೆ - ವಿಶೇಷವಾಗಿ ಪುನರಾವರ್ತಿತ, ಲೇಔಟ್-ಭಾರೀ ವಿಷಯಕ್ಕಾಗಿ.

"ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ವಿಧಾನವು ಕ್ಲಾಸಿಕ್ OCR ಗೆ ಹೋಲಿಸಿದರೆ ಎಲ್ಲಿ ಪ್ರಕಾಶಿಸುತ್ತದೆ

ದಟ್ಟವಾದ ಲೇಔಟ್‌ಗಳು: ಟೇಬಲ್‌ಗಳು, ರಸೀದಿಗಳು, ಇನ್‌ವಾಯ್ಸ್‌ಗಳು, ಶಿಪ್ಪಿಂಗ್ ಲೇಬಲ್‌ಗಳು, ವೈದ್ಯಕೀಯ ಫಾರ್ಮ್‌ಗಳು

ಬಹುಭಾಷಾ ಅಥವಾ ಮಿಶ್ರ ಲಿಪಿಗಳು: ಚೈನೀಸ್ + ಇಂಗ್ಲಿಷ್ + ಗಣಿತದ ಸಂಕೇತಗಳು, ಅಲ್ಲಿ OCR ವಿಘಟನೆ ಟೋಕನ್‌ಗಳನ್ನು ಉಬ್ಬಿಸುತ್ತದೆ

ಗದ್ದಲದ ಸ್ಕ್ಯಾನ್‌ಗಳು: ಸ್ಟಾಂಪ್‌ಗಳು, ವಾಟರ್‌ಮಾರ್ಕ್‌ಗಳು, ಓರೆ ಮಾಡಿದ ಪುಟಗಳು - ವಿಷನ್ ಮಾದರಿಗಳು ದುರ್ಬಲ OCR ಪೈಪ್‌ಲೈನ್‌ಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಶಬ್ದದ ಬಗ್ಗೆ ತರ್ಕಿಸುತ್ತವೆ

ರಚನಾತ್ಮಕ ಹೊರತೆಗೆಯುವಿಕೆ: ನಿರ್ದಿಷ್ಟ ಕ್ಷೇತ್ರಗಳು, ಲೈನ್-ಐಟಂಗಳು ಅಥವಾ ಟೇಬಲ್ ಕೋಶಗಳನ್ನು ಎಳೆಯುವುದು

ಸಂದರ್ಭೋಚಿತ QA: ಎಲ್ಲಾ ಪಠ್ಯವನ್ನು ಮರು-ಕಳುಹಿಸದೆ ಪುಟಗಳಾದ್ಯಂತ "ಯಾವ ಷರತ್ತು ಮುಕ್ತಾಯವನ್ನು ಒಳಗೊಂಡಿದೆ?"

ಕ್ಲಾಸಿಕ್ OCR ಯಾವಾಗ ಗೆಲ್ಲುತ್ತದೆ

ಪರಿಪೂರ್ಣ ನಿಷ್ಠೆಯೊಂದಿಗೆ ಪೂರ್ಣ-ಪಠ್ಯ ರಫ್ತುಗಳು: ಹುಡುಕಾಟ / ಸೂಚ್ಯಂಕಕ್ಕಾಗಿ ನಿಮಗೆ ಸ್ವಚ್ಛ, ನಕಲಿಸಬಹುದಾದ ಪಠ್ಯ ಬೇಕು.

ವಿಪರೀತ ಕಡಿಮೆ-ಸಂಪನ್ಮೂಲ ಸಾಧನಗಳು: ನೀವು ವಿಷನ್ ಎನ್‌ಕೋಡರ್ ಅಥವಾ ದೊಡ್ಡ VLM ಅನ್ನು ಚಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗದಿದ್ದರೆ, ಸರಳ OCR ಸ್ಥಳೀಯವಾಗಿ ಅಗ್ಗವಾಗಬಹುದು.

ಪ್ರವೇಶಿಸುವಿಕೆ ವರ್ಕ್‌ಫ್ಲೋಗಳು: ಸ್ಕ್ರೀನ್ ರೀಡರ್‌ಗಳಿಗೆ ಸೆಮ್ಯಾಂಟಿಕ್ ಪಠ್ಯ ಔಟ್‌ಪುಟ್ ಅಗತ್ಯವಿದೆ; ಪಠ್ಯ ರಫ್ತು ಹಂತವನ್ನು ಸೇರಿಸದ ಹೊರತು ಚಿತ್ರ-ಮಾತ್ರ ಹರಿವುಗಳು ಸಾಕಾಗುವುದಿಲ್ಲ.

ಪರ ಸಲಹೆ: ಹೈಬ್ರಿಡೈಸ್ ಮಾಡಿ. ತಾರ್ಕಿಕತೆ ಮತ್ತು ಕ್ಷೇತ್ರ ಹೊರತೆಗೆಯುವಿಕೆಗಾಗಿ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಬಳಸಿ. ಅಂತಿಮ ಹುಡುಕಬಹುದಾದ ಆರ್ಕೈವ್‌ಗಳು ಅಥವಾ ಪ್ರವೇಶಿಸುವಿಕೆ ಲೇಯರ್‌ಗಳಿಗಾಗಿ OCR ಗೆ ಹಿಂತಿರುಗಿ.

ಆರ್ಕಿಟೆಕ್ಚರ್ ಮಾದರಿ: ಪ್ರಾಯೋಗಿಕ ನೀಲನಕ್ಷೆ

ನಿಮ್ಮ ಸ್ಟಾಕ್ ಅನ್ನು ಮರುನಿರ್ಮಾಣ ಮಾಡದೆಯೇ DeepSeek-OCR ತತ್ವಗಳನ್ನು ಅಳವಡಿಸಲು ಈ ಮಾಡ್ಯುಲರ್ ಮಾದರಿಯನ್ನು ಬಳಸಿ:

ಸ್ವೀಕರಿಸುವಿಕೆ

PDF ಗಳು, TIFF ಗಳು, ಸ್ಕ್ಯಾನ್‌ಗಳನ್ನು ಸ್ವೀಕರಿಸಿ; ರೆಸಲ್ಯೂಶನ್ ಅನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಿ (ಉದಾಹರಣೆಗೆ, 144–192 DPI)

ಪ್ಯಾಚ್ ಎಣಿಕೆಗಳನ್ನು ಸೀಮಿತವಾಗಿಡಲು ದೀರ್ಘ ಪುಟಗಳನ್ನು ಟೈಲ್ ಮಾಡಿ

ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್

ಪ್ರತಿ ಟೈಲ್ / ಪುಟಕ್ಕೆ ದಟ್ಟವಾದ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ರಚಿಸಲು ವಿಷನ್ ಎನ್‌ಕೋಡರ್ ಅನ್ನು ಚಲಾಯಿಸಿ

ಪುನರಾವರ್ತಿತ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ (ವೆಚ್ಚವನ್ನು ಸರಿದೂಗಿಸುತ್ತದೆ)

ಪ್ರದೇಶ ಹಿಂಪಡೆಯುವಿಕೆ

ಸಂಭಾವ್ಯ ಪ್ರದೇಶಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಲೇಔಟ್ ಪತ್ತೆ ಬಳಸಿ (ಶೀರ್ಷಿಕೆ, ಟೇಬಲ್‌ಗಳು, ಸಹಿ ಬ್ಲಾಕ್‌ಗಳು)

ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್‌ಗಳು ಅಥವಾ ಹಗುರವಾದ ಡಿಟೆಕ್ಟರ್‌ಗಳ ಮೇಲೆ ವೆಕ್ಟರ್ ಹುಡುಕಾಟವನ್ನು ಅನ್ವಯಿಸಿ

VLM ತಾರ್ಕಿಕತೆ

ಆಯ್ದ ಪ್ರದೇಶಗಳು + ಕಾರ್ಯ ಪ್ರಾಂಪ್ಟ್‌ನೊಂದಿಗೆ ಮಾತ್ರ VLM ಅನ್ನು ಪ್ರಾಂಪ್ಟ್ ಮಾಡಿ

ರಚನಾತ್ಮಕ ಔಟ್‌ಪುಟ್‌ಗಳಿಗಾಗಿ ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್ (JSON ಸ್ಕೀಮಾ) ಬಳಸಿ

ನಂತರದ-ಸಂಸ್ಕರಣೆ

ಕ್ಷೇತ್ರಗಳನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಿ (ದಿನಾಂಕಗಳು, ಮೊತ್ತಗಳು, ಕರೆನ್ಸಿಗಳು)

ಅಗತ್ಯವಿದ್ದಾಗ ನಿಖರವಾದ ಪಠ್ಯ ಸ್ಟ್ರಿಂಗ್‌ಗಳಿಗಾಗಿ ಐಚ್ಛಿಕ OCR ಪಾಸ್

ಈ ಪೈಪ್‌ಲೈನ್ ದೃಶ್ಯ ಟೋಕನ್‌ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ, ಮಾದರಿಯ ಗಮನವನ್ನು ಕಿರಿದಾಗಿಸುತ್ತದೆ ಮತ್ತು ಉತ್ಪಾದನೆಯ ಉದ್ದವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ - ಪ್ರಮುಖ ಉಳಿತಾಯಕ್ಕಾಗಿ ಸಂಯೋಜಿಸುವ ಮೂರು ಲಿವರ್‌ಗಳು.

ನಿಖರತೆ, ವಿಶ್ವಾಸಾರ್ಹತೆ ಮತ್ತು ಅಂಚಿನ ಪ್ರಕರಣಗಳು

ಕಡಿಮೆ DPI ನಲ್ಲಿ ಉತ್ತಮ ಪಠ್ಯ: ಸಣ್ಣ ಫಾಂಟ್‌ಗಳನ್ನು ತಪ್ಪಾಗಿ ಓದಬಹುದು. ಶಂಕಿತ ಸಣ್ಣ ಪಠ್ಯ ಪ್ರದೇಶಗಳಿಗೆ ಹೊಂದಾಣಿಕೆಯ ಟೈಲಿಂಗ್ ಅಥವಾ ಹೆಚ್ಚಿನ DPI ಬಳಸಿ.

ಕೈಬರಹ: ವಿಷನ್ ಮಾದರಿಗಳು ಸಹಾಯ ಮಾಡುತ್ತವೆ, ಆದರೆ ಕ್ಷೇತ್ರ-ನಿರ್ದಿಷ್ಟ ಉತ್ತಮ-ಶ್ರುತಿ ಅಥವಾ ವಿಶೇಷ ಕೈಬರಹ ಗುರುತಿಸುವಿಕೆಗಳು ಇನ್ನೂ ಅಗತ್ಯವಾಗಬಹುದು.

ಗಣಿತ ಮತ್ತು ಕೋಡ್ ಬ್ಲಾಕ್‌ಗಳು: ದೃಶ್ಯ ಸಂದರ್ಭವು ರಚನೆಯನ್ನು ಸಂರಕ್ಷಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ನಿಖರವಾದ ಸಿಂಟ್ಯಾಕ್ಸ್ ನಿಷ್ಠೆಗಾಗಿ ಆಯ್ದ OCR ಅನ್ನು ಪರಿಗಣಿಸಿ.

ವಿಲೀನಗೊಂಡ ಕೋಶಗಳೊಂದಿಗೆ ಟೇಬಲ್‌ಗಳು: ಲೇಔಟ್ ಗಮನ ಸಾಮಾನ್ಯವಾಗಿ ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ನಂತರದ-ನಿಯಮಗಳು ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಹೆಚ್ಚಿಸಬಹುದು (ಉದಾಹರಣೆಗೆ, ಹೆಡರ್ ತೀರ್ಮಾನ, ಡಿಲಿಮಿಟರ್ ಪರಿಶೀಲನೆಗಳು).

ಬೆಂಚ್‌ಮಾರ್ಕಿಂಗ್ ಸಲಹೆ: ಕಚ್ಚಾ ಅಕ್ಷರ ದೋಷ ದರಕ್ಕಿಂತ ಕಾರ್ಯ ಮಟ್ಟದಲ್ಲಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಿ (ಕ್ಷೇತ್ರ-ಮಟ್ಟದ F1, ಟೇಬಲ್ ನಿಖರತೆ, QA ನಿಖರ ಹೊಂದಾಣಿಕೆ).

ನೀವು ನಿಯಂತ್ರಿಸುವ ವೆಚ್ಚದ ಲಿವರ್‌ಗಳು

ಡೌನ್‌ಸ್ಯಾಂಪ್ಲಿಂಗ್: ಕಡಿಮೆ DPI ದೃಶ್ಯ ಟೋಕನ್‌ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ; ನಿಖರತೆಯನ್ನು ಹಾಗೇ ಇರಿಸುವ ಮಿತಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ.

ಪ್ರದೇಶ ಗೇಟಿಂಗ್: ನಿಮಗೆ ಒಂದು ಷರತ್ತು ಅಥವಾ ಟೇಬಲ್ ಮಾತ್ರ ಬೇಕಾದಲ್ಲಿ ಪೂರ್ಣ ಪುಟಗಳನ್ನು ಎಂದಿಗೂ ಕಳುಹಿಸಬೇಡಿ.

ಔಟ್‌ಪುಟ್ ನಿರ್ಬಂಧಗಳು: JSON ಸ್ಕೀಮಾ ಅಥವಾ ರೆಜೆಕ್ಸ್ ಮಾದರಿಗಳು ವಾಕ್ಚಾತುರ್ಯದ ಉತ್ಪಾದನೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತವೆ.

ಕ್ಯಾಶಿಂಗ್: ಬಹು ಪ್ರಶ್ನೆಗಳಲ್ಲಿ ಒಂದೇ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಾಗಿ ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ಮರುಬಳಕೆ ಮಾಡಿ.

ಮಿಶ್ರ ನಿಖರತೆ / ಕ್ವಾಂಟೈಸೇಶನ್: ನೀವು ಸ್ವಯಂ-ಹೋಸ್ಟ್ ಮಾಡಿದರೆ, FP16 / INT8 ಕಂಪ್ಯೂಟ್ ಮತ್ತು ಸುಪ್ತತೆಯನ್ನು ಕಡಿಮೆ ಮಾಡಬಹುದು.

ಅನುಷ್ಠಾನ ಉದಾಹರಣೆಗಳು (ಸನ್ನಿವೇಶಗಳು)

ಇನ್‌ವಾಯ್ಸ್ ಲೈನ್-ಐಟಂ ಹೊರತೆಗೆಯುವಿಕೆ

ಲೈನ್-ಐಟಂ ಬ್ಲಾಕ್ ಮತ್ತು ಮಾರಾಟಗಾರರ ಬಾಕ್ಸ್ ಅನ್ನು ಮಾತ್ರ ಚಿತ್ರಗಳಾಗಿ ಕಳುಹಿಸಿ

ಔಟ್‌ಪುಟ್ ಅನ್ನು JSON ಸ್ಕೀಮಾಗೆ ನಿರ್ಬಂಧಿಸಿ (ದಿನಾಂಕ, ಮಾರಾಟಗಾರ, ಕರೆನ್ಸಿ, ಐಟಂಗಳು[])

ನಿಖರವಾದ ಸ್ಟ್ರಿಂಗ್ ಹೊಂದಾಣಿಕೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಇನ್‌ವಾಯ್ಸ್ ID ಗಾಗಿ ಐಚ್ಛಿಕ OCR ಫಾಲ್‌ಬ್ಯಾಕ್

ಒಪ್ಪಂದದ ಷರತ್ತು QA

ಪ್ರತಿ ಪುಟವನ್ನು ದೃಷ್ಟಿಗೋಚರವಾಗಿ ಎಂಬೆಡ್ ಮಾಡಿ; ವೆಕ್ಟರ್ DB ಯಲ್ಲಿ ಸಂಗ್ರಹಿಸಿ

ಪ್ರಶ್ನೆಗೆ ಸಂಬಂಧಿಸಿದ 1–3 ಪ್ರದೇಶಗಳನ್ನು ಹಿಂಪಡೆಯಿರಿ ("ಮುಕ್ತಾಯ," "ನಿಯೋಜನೆ," "ಆಡಳಿತ ಕಾನೂನು")

ಪ್ರದೇಶ ಸೂಚ್ಯಂಕವನ್ನು ಉಲ್ಲೇಖಿಸಲು ಮತ್ತು ≤120 ಟೋಕನ್‌ಗಳಲ್ಲಿ ಷರತ್ತನ್ನು ಸಾರಾಂಶ ಮಾಡಲು VLM ಅನ್ನು ಕೇಳಿ

ವೈಜ್ಞಾನಿಕ PDF ಸಾರಾಂಶ

ಶೀರ್ಷಿಕೆ, ಅಮೂರ್ತ, ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ತೀರ್ಮಾನ ಪ್ರದೇಶಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿ

ಒಂದು ಲೇ ಸಾರಾಂಶ ಮತ್ತು ವಿಧಾನಗಳ ಪರಿಶೀಲನಾಪಟ್ಟಿಯನ್ನು ಉತ್ಪಾದಿಸಿ; ಉಲ್ಲೇಖಗಳ ವಿಭಾಗವನ್ನು ಕಳುಹಿಸುವುದನ್ನು ತಪ್ಪಿಸಿ

ಈ ಮಾದರಿಗಳು ಇನ್‌ಪುಟ್ ಮತ್ತು ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತವೆ, ಆದರೆ ಅದು ಮುಖ್ಯವಾಗಿರುವಲ್ಲಿ ನಿಖರತೆಯನ್ನು ಕಾಪಾಡುತ್ತವೆ.

ಏಕೆ 10 ಪಟ್ಟು ವರೆಗೆ ಮತ್ತು ಯಾವಾಗಲೂ 10 ಪಟ್ಟು ಅಲ್ಲ?

ಟೋಕನ್ ಉಳಿತಾಯವು ಇದರ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ:

ಡಾಕ್ಯುಮೆಂಟ್ ಸಾಂದ್ರತೆ: ಭಾರೀ ಲೇಔಟ್‌ಗಳು ಹೆಚ್ಚು ಪ್ರಯೋಜನ ಪಡೆಯುತ್ತವೆ

ಕಾರ್ಯದ ವ್ಯಾಪ್ತಿ: ಗುರಿಯಾಗಿಸಿದ ಹೊರತೆಗೆಯುವಿಕೆ ಪೂರ್ಣ-ಪಠ್ಯ ಮರುಉತ್ಪಾದನೆಯನ್ನು ಸೋಲಿಸುತ್ತದೆ

ಮಾದರಿ ಬೆಲೆ: ಪೂರೈಕೆದಾರರ ಪ್ರಕಾರ ವಿಷನ್ ಇನ್‌ಪುಟ್ ಬೆಲೆ vs ಪಠ್ಯ ಇನ್‌ಪುಟ್ ಬೆಲೆ ಬದಲಾಗುತ್ತದೆ

ಪೂರ್ವ-/ನಂತರದ-ಸಂಸ್ಕರಣೆ: ಉತ್ತಮ ಪ್ರದೇಶ ಆಯ್ಕೆ ಮತ್ತು ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್ ಲಾಭಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ

ಸಾಮಾನ್ಯವಾಗಿ 2–4 ಪಟ್ಟು ನಿರೀಕ್ಷಿಸಿ + ಸಂಕೀರ್ಣ, ಬಹು-ಪುಟ, ಲೇಔಟ್-ಭಾರೀ ವರ್ಕ್‌ಫ್ಲೋಗಳಲ್ಲಿ ~10 ಪಟ್ಟು ಹೆಚ್ಚಳ.

ಸಾಮಾನ್ಯ ತಪ್ಪುಗ್ರಹಿಕೆಗಳು

"ಚಿತ್ರಗಳು ಪಠ್ಯಕ್ಕಿಂತ ಭಾರವಾಗಿರುತ್ತದೆ, ಆದ್ದರಿಂದ ಇದು ಹೆಚ್ಚು ವೆಚ್ಚವಾಗುತ್ತದೆ."

LLM ಬಿಲ್ಲಿಂಗ್‌ನಲ್ಲಿ, ವೆಚ್ಚವು ಮಾದರಿ ಟೋಕನ್‌ಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತದೆ, ಕಚ್ಚಾ ಫೈಲ್ ಗಾತ್ರವನ್ನಲ್ಲ. ದೃಶ್ಯ ಪ್ಯಾಚ್‌ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಸಾವಿರಾರು ಸಬ್‌ವರ್ಡ್ ಟೋಕನ್‌ಗಳನ್ನು ಬದಲಾಯಿಸುತ್ತವೆ.

"OCR ಪರಿಹಾರವಾಗಿದೆ, ಆದ್ದರಿಂದ ಅದನ್ನು ಏಕೆ ಸಂಕೀರ್ಣಗೊಳಿಸಬೇಕು?"

OCR ಲೇಔಟ್ ಸೆಮ್ಯಾಂಟಿಕ್ಸ್, ಟೇಬಲ್‌ಗಳು, ಸ್ಟಾಂಪ್‌ಗಳು ಮತ್ತು ಬಹುಭಾಷಾ ಶಬ್ದದೊಂದಿಗೆ ಹೋರಾಡುತ್ತದೆ. ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಗಳು ರಚನೆಯ ಮೇಲೆ ನೇರವಾಗಿ ತರ್ಕಿಸುತ್ತವೆ.

"ಚಿತ್ರಗಳಿಂದ ನಿಮಗೆ ನಿಖರವಾದ ಪಠ್ಯವನ್ನು ಪಡೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ."

ಪಿಕ್ಸೆಲ್-ಪರಿಪೂರ್ಣ ಸ್ಟ್ರಿಂಗ್‌ಗಳಿಗೆ ಸತ್ಯ. ಅದಕ್ಕಾಗಿಯೇ ಅನೇಕ ತಂಡಗಳು ಈ ವಿಧಾನವನ್ನು ಆಯ್ದ OCR ನೊಂದಿಗೆ ಮಾತ್ರ ಜೋಡಿಸುತ್ತವೆ, ಅಲ್ಲಿ ನಿಖರತೆ ಅಗತ್ಯವಿರುತ್ತದೆ.

ಟೂಲಿಂಗ್ ಮತ್ತು ಇಂಟಿಗ್ರೇಷನ್ ಟಿಪ್ಪಣಿಗಳು

ಹಿಂಪಡೆಯುವಿಕೆ ಲೇಯರ್: ಲೇಔಟ್ ಡಿಟೆಕ್ಟರ್‌ಗಳನ್ನು ಬಳಸಿ (DocLayNet-ಶೈಲಿ), ಅಥವಾ ಫಾರ್ಮ್‌ಗಳು / ಟೇಬಲ್‌ಗಳಿಗಾಗಿ ಹಗುರವಾದ ಪ್ರದೇಶ ಪ್ರಸ್ತಾಪ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡಿ.

ಸ್ಕೀಮಾ-ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್: JSON ಸ್ಕೀಮಾ ಅಥವಾ Pydantic-ಶೈಲಿಯ ನಿರ್ಬಂಧಗಳು ವಾಕ್ಚಾತುರ್ಯ ಮತ್ತು ದೋಷಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತವೆ.

ಮೌಲ್ಯಮಾಪನ ಸರಂಜಾಮು: ಡಾಕ್ಯುಮೆಂಟ್‌ಗೆ ಉತ್ತರಿಸಲು ತೆಗೆದುಕೊಳ್ಳುವ ಸಮಯ, ವೆಚ್ಚ ಮತ್ತು ಕ್ಷೇತ್ರ-ಮಟ್ಟದ ನಿಖರತೆಯನ್ನು ಅಳೆಯಿರಿ - ಟೋಕನ್ ಎಣಿಕೆಗಳನ್ನು ಮಾತ್ರವಲ್ಲ.

ಗೌಪ್ಯತೆ: ಸೂಕ್ಷ್ಮ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಿಗಾಗಿ, ಆನ್-ಪ್ರೆಮ್ VLMs ಅನ್ನು ಪರಿಗಣಿಸಿ ಮತ್ತು ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್‌ಗಳ ಎನ್‌ಕ್ರಿಪ್ಟ್ ಮಾಡಿದ ಸಂಗ್ರಹಣೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ.

ಗಮನಿಸಬೇಕಾದ ಅಂಶ: ನೀವು ಮಲ್ಟಿ-ಮೋಡಲ್ ವರ್ಕ್‌ಫ್ಲೋಗಳನ್ನು ಅನ್ವೇಷಿಸುತ್ತಿದ್ದರೆ, Sider.AI ಪ್ರಯೋಗವನ್ನು ಸುಗಮಗೊಳಿಸುತ್ತದೆ. ಪಠ್ಯ ಮತ್ತು ಚಿತ್ರ ಇನ್‌ಪುಟ್‌ಗಳೆರಡಕ್ಕೂ ನೀವು ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಪುನರಾವರ್ತಿಸಬಹುದು, ಮಾದರಿಗಳಾದ್ಯಂತ ವೆಚ್ಚ/ಸುಪ್ತತೆಯನ್ನು ಅಕ್ಕಪಕ್ಕದಲ್ಲಿ ಹೋಲಿಸಬಹುದು ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಬ್ಯಾಚ್‌ಗಳನ್ನು ಸ್ವಯಂ-ಉತ್ಪಾದಿಸಬಹುದು. DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನವು ನಿಮ್ಮ ಸ್ವಂತ ಡೇಟಾದಲ್ಲಿ 10 ಪಟ್ಟು ನಿಮ್ಮ ಟೋಕನ್ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆಯೇ ಎಂದು ಮೈಗ್ರೇಶನ್‌ಗೆ ಬದ್ಧರಾಗುವ ಮೊದಲು ಮೌಲ್ಯೀಕರಿಸಲು ಅದು ಸುಲಭಗೊಳಿಸುತ್ತದೆ.

ಕ್ರಿಯಾ ಯೋಜನೆ: ಒಂದು ವಾರದಲ್ಲಿ ಪೈಲಟ್ ಮಾಡಿ

ದಿನ 1–2: ನಿಮ್ಮ ಪ್ರಸ್ತುತ OCR + LLM ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಪರಿಕರವಾಗಿ ಬಳಸಿ. ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಇನ್‌ಪುಟ್ / ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳು, ಸುಪ್ತತೆ ಮತ್ತು ನಿಖರತೆಯನ್ನು ಲಾಗ್ ಮಾಡಿ.

ದಿನ 3: ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್ ಹಂತ ಮತ್ತು ಪ್ರದೇಶ ಹಿಂಪಡೆಯುವಿಕೆಯನ್ನು ಸೇರಿಸಿ. ಪ್ರತಿ-ಪುಟ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ.

ದಿನ 4: ಗುರಿಯಾಗಿಸಿದ ಪ್ರದೇಶಗಳಿಗಾಗಿ ನಿಮ್ಮ LLM ಕರೆಯನ್ನು VLM ಗೆ ಬದಲಾಯಿಸಿ. ಔಟ್‌ಪುಟ್ ಅನ್ನು ನಿರ್ಬಂಧಿಸಿ.

ದಿನ 5: 100–500 ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಲ್ಲಿ A/B ಹೋಲಿಕೆಗಳನ್ನು ಚಲಾಯಿಸಿ. ವೆಚ್ಚ ಡೆಲ್ಟಾಗಳು, ನಿಖರತೆ ಮತ್ತು ದೋಷ ವಿಧಾನಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.

ದಿನ 6–7: DPI, ಟೈಲಿಂಗ್ ಮತ್ತು ಪ್ರದೇಶ ಗೇಟಿಂಗ್ ಅನ್ನು ಟ್ಯೂನ್ ಮಾಡಿ; ಆಯ್ದ OCR ಫಾಲ್‌ಬ್ಯಾಕ್‌ಗಳನ್ನು ಸೇರಿಸಿ.

ಸಂಖ್ಯೆಗಳು ನಿರೀಕ್ಷೆಗಳಿಗೆ ಹೊಂದಿಕೆಯಾದರೆ, ಸಂಪೂರ್ಣ ರೋಲ್‌ಔಟ್‌ಗೆ ವಿಸ್ತರಿಸಿ; ಇಲ್ಲದಿದ್ದರೆ, ಉಳಿತಾಯವನ್ನು ಅರಿತುಕೊಳ್ಳಲು ಉತ್ತಮ ಪ್ರದೇಶ ಆಯ್ಕೆ ಮತ್ತು ಕಟ್ಟುನಿಟ್ಟಾದ ಡಿಕೋಡಿಂಗ್ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿ.

ಪ್ರಮುಖ ಅಂಶಗಳು

DeepSeek-OCR ನ “ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ” ಮಾಡುವ ವಿಧಾನವು ವಾಕ್ಚಾತುರ್ಯದ ಪಠ್ಯ ಟೋಕನ್‌ಗಳನ್ನು ಕಾಂಪ್ಯಾಕ್ಟ್ ದೃಶ್ಯ ಪ್ಯಾಚ್‌ಗಳೊಂದಿಗೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ, ಪ್ರದೇಶ-ಮಟ್ಟದ ಹಿಂಪಡೆಯುವಿಕೆಯನ್ನು ಬಳಸುವ ಮೂಲಕ ಮತ್ತು ಉತ್ಪಾದನೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುವ ಮೂಲಕ ಟೋಕನ್ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

ಇದು ದಟ್ಟವಾದ, ಗೊಂದಲಮಯ ಅಥವಾ ಬಹುಭಾಷಾ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು ಮತ್ತು ರಚನಾತ್ಮಕ ಹೊರತೆಗೆಯುವ ಕಾರ್ಯಗಳಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ.

ಹೈಬ್ರಿಡ್ ತಂತ್ರಗಳು - ತಾರ್ಕಿಕತೆಗಾಗಿ ದೃಷ್ಟಿ, ನಿಖರವಾದ ಸ್ಟ್ರಿಂಗ್‌ಗಳಿಗಾಗಿ ಆಯ್ದ OCR - ಸಾಮಾನ್ಯವಾಗಿ ಅತ್ಯುತ್ತಮ ನಿಖರತೆ-ವೆಚ್ಚ ಅನುಪಾತವನ್ನು ನೀಡುತ್ತವೆ.

ಕಟ್ಟುನಿಟ್ಟಾದ ಮಾಪನ ಮತ್ತು ಬಿಗಿಯಾದ ಔಟ್‌ಪುಟ್ ನಿರ್ಬಂಧಗಳು ನೈಜ-ಪ್ರಪಂಚದ ಉಳಿತಾಯಕ್ಕೆ ವೇಗವಾದ ಮಾರ್ಗವಾಗಿದೆ.

ಮುಂದೆ ನೋಡೋಣ: ಸಂಕ್ಷಿಪ್ತ ಭವಿಷ್ಯದ ಮುನ್ನೋಟ

ಮಲ್ಟಿಮೋಡಲ್ LLM ಗಳು ಪ್ರಬುದ್ಧವಾಗುತ್ತಿದ್ದಂತೆ, ಡಾಕ್ಯುಮೆಂಟ್ ತಿಳುವಳಿಕೆಯು ಬೇಡಿಕೆಯ ಮೇರೆಗೆ ಪಠ್ಯ ಮರುಪಡೆಯುವಿಕೆಯೊಂದಿಗೆ ದೃಷ್ಟಿ-ಮೊದಲ ತಾರ್ಕಿಕತೆಯ ಮೇಲೆ ಒಮ್ಮುಖವಾಗುವ ನಿರೀಕ್ಷೆಯಿದೆ. ನಾವು ಹೆಚ್ಚು ಲೇಔಟ್-ಅರಿವಿನ ಪೂರ್ವ ತರಬೇತಿ, ಅಗ್ಗದ ದೃಶ್ಯ ಟೋಕನ್‌ಗಳು ಮತ್ತು ಪ್ರಮಾಣಿತ JSON-ನಿರ್ಬಂಧಿತ ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ನೋಡುತ್ತೇವೆ. ಇಂದು LLM ವೆಚ್ಚಗಳೊಂದಿಗೆ ಹೋರಾಡುತ್ತಿರುವ ತಂಡಗಳಿಗೆ, "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಬದಲಾಯಿಸುವುದು ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ ಲಿವರ್ ಆಗಿರಬಹುದು - ವಿಶೇಷವಾಗಿ ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ.

FAQ

Q1:DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನ ಸರಳ ಪದಗಳಲ್ಲಿ ಯಾವುದು? ಪುಟಗಳನ್ನು OCR ನೊಂದಿಗೆ ದೀರ್ಘ ಸ್ಟ್ರಿಂಗ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸುವ ಬದಲು, DeepSeek-OCR ವಿಷಯವನ್ನು ಚಿತ್ರಗಳಾಗಿ ಇರಿಸುತ್ತದೆ ಮತ್ತು ಲೇಔಟ್‌ನ ಮೇಲೆ ತರ್ಕಿಸಲು ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತದೆ. ಇದು ಇನ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಆಗಾಗ್ಗೆ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

Q2:OCR ಗೆ ಹೋಲಿಸಿದರೆ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಟೋಕನ್ ವೆಚ್ಚವನ್ನು ಹೇಗೆ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ? ದೃಶ್ಯ ಟೋಕನ್‌ಗಳು (ಪ್ಯಾಚ್‌ಗಳು) ಪಠ್ಯ ಮತ್ತು ಲೇಔಟ್‌ನ ದೊಡ್ಡ ಪ್ರದೇಶಗಳನ್ನು ಸಾರಾಂಶಿಸುತ್ತವೆ, ಸಾವಿರಾರು ಸಬ್‌ವರ್ಡ್ ಟೋಕನ್‌ಗಳನ್ನು ಬದಲಾಯಿಸುತ್ತವೆ. ಪ್ರದೇಶ-ಮಟ್ಟದ ಹಿಂಪಡೆಯುವಿಕೆ ಮತ್ತು ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್ ಎರಡೂ ಇನ್‌ಪುಟ್ ಮತ್ತು ಔಟ್‌ಪುಟ್ ಟೋಕನ್‌ಗಳನ್ನು ಮತ್ತಷ್ಟು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.

Q3:ಸಾಂಪ್ರದಾಯಿಕ OCR ಗಿಂತ DeepSeek-OCR ಹೆಚ್ಚು ನಿಖರವಾಗಿದೆಯೇ? ಲೇಔಟ್ ತಿಳುವಳಿಕೆ ಮತ್ತು ಗುರಿಯಾಗಿಸಿದ ಹೊರತೆಗೆಯುವಿಕೆಗಾಗಿ, ಇದು ರಚನೆಯ ಮೇಲೆ ತರ್ಕಿಸುವುದರಿಂದ ಇದು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ನಿಖರವಾದ, ಅಕ್ಷರ-ಪರಿಪೂರ್ಣ ಪಠ್ಯಕ್ಕಾಗಿ, ಅದನ್ನು ಆಯ್ದ OCR ನೊಂದಿಗೆ ಜೋಡಿಸುವುದರಿಂದ ಹೆಚ್ಚಿನ ನಿಖರತೆಯನ್ನು ನೀಡಬಹುದು.

Q4:ನಾನು ಯಾವಾಗ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಪೈಪ್‌ಲೈನ್ ಬದಲಿಗೆ ಕ್ಲಾಸಿಕ್ OCR ಅನ್ನು ಆದ್ಯತೆ ನೀಡಬೇಕು? ಹುಡುಕಾಟ ಅಥವಾ ಪ್ರವೇಶಿಸುವಿಕೆಗಾಗಿ ನಿಮಗೆ ಪೂರ್ಣ, ನಕಲಿಸಬಹುದಾದ ಪಠ್ಯ ಅಗತ್ಯವಿದ್ದರೆ ಕ್ಲಾಸಿಕ್ OCR ಅನ್ನು ಬಳಸಿ. ವೆಚ್ಚ-ಪರಿಣಾಮಕಾರಿ ಹೊರತೆಗೆಯುವಿಕೆ, ಸಾರಾಂಶಗಳು ಮತ್ತು ಸಂಕೀರ್ಣ PDF ಗಳಲ್ಲಿ QA ಗಾಗಿ, "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ವಿಧಾನವು ಸಾಮಾನ್ಯವಾಗಿ ಉತ್ತಮವಾಗಿರುತ್ತದೆ.

Q5:10 ಪಟ್ಟು ಉಳಿತಾಯವನ್ನು ಪರಿಶೀಲಿಸಲು ನಾನು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಪೈಲಟ್ ಮಾಡಬಹುದು? ನಿಮ್ಮ ಪ್ರಸ್ತುತ OCR + LLM ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಪ್ರತಿನಿಧಿ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಲ್ಲಿ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮಾಡಿ, ನಂತರ ಪ್ರದೇಶ ಗೇಟಿಂಗ್ ಮತ್ತು ಸ್ಕೀಮಾ-ನಿರ್ಬಂಧಿತ ಔಟ್‌ಪುಟ್‌ಗಳೊಂದಿಗೆ ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಯೊಂದಿಗೆ ಬದಲಾಯಿಸಿ. ಟೋಕನ್ ಎಣಿಕೆಗಳು, ಸುಪ್ತತೆ ಮತ್ತು ಕಾರ್ಯ ನಿಖರತೆಯನ್ನು ಅಕ್ಕಪಕ್ಕದಲ್ಲಿ ಹೋಲಿಕೆ ಮಾಡಿ.