ಮೌನ ಕ್ರಾಂತಿ: ಟೋಕನ್ಗಳನ್ನು ಉಳಿಸಲು ಪಠ್ಯವನ್ನು ಪಿಕ್ಸೆಲ್ಗಳಾಗಿ ಪರಿವರ್ತಿಸುವುದು
ಇಲ್ಲಿ ಒಂದು ವಿರೋಧಾಭಾಸದ ಸತ್ಯವಿದೆ: ಪಠ್ಯವನ್ನು ಚಿತ್ರಗಳಾಗಿ ರೆಂಡರ್ ಮಾಡುವುದರಿಂದ ಭಾಷಾ ಮಾದರಿಗಳನ್ನು ಅಗ್ಗವಾಗಿಸಬಹುದು ಮತ್ತು ವೇಗವಾಗಿ ಮಾಡಬಹುದು. DeepSeek-OCR ಒಂದು "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ಪೈಪ್ಲೈನ್ ಅನ್ನು ಜನಪ್ರಿಯಗೊಳಿಸಿದೆ, ಇದು ಸಾಂಪ್ರದಾಯಿಕ OCR + LLM ಸೆಟಪ್ಗಳಿಗೆ ಹೋಲಿಸಿದರೆ 10 ಪಟ್ಟು ಟೋಕನ್ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಎಂದು ಹೇಳುತ್ತದೆ. ಇದು ತಲೆಕೆಳಗಾದಂತೆ ಧ್ವನಿಸಿದರೆ - ಭಾಷಾ ಸಮಸ್ಯೆಗೆ ಕಂಪ್ಯೂಟರ್ ದೃಷ್ಟಿಯನ್ನು ಏಕೆ ಸೇರಿಸಬೇಕು? - ಈ ವಿವರಣೆಯು ಇಲ್ಲಿಂದಲೇ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ.
ಈ ಆಳವಾದ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ, "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ, ಅದು ಟೋಕನ್ ಎಣಿಕೆಗಳನ್ನು ಏಕೆ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಅದು ಕ್ಲಾಸಿಕ್ OCR ಅನ್ನು ಯಾವಾಗ ಸೋಲಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ನಾವು ಬಿಡಿಸಿಡುತ್ತೇವೆ. ನಾವು ಅಂಚಿನ ಪ್ರಕರಣಗಳು, ನಿಖರತೆಯ ವಹಿವಾಟುಗಳು ಮತ್ತು ಉತ್ಪಾದನೆಯಲ್ಲಿ ಅದನ್ನು ನಿಯೋಜಿಸಲು ಪ್ರಾಯೋಗಿಕ ಮಾರ್ಗಗಳನ್ನು ಸಹ ನೋಡುತ್ತೇವೆ.
ತ್ವರಿತ ಪ್ರೈಮರ್: "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನ ಎಂದರೇನು?
- ಸಾಂಪ್ರದಾಯಿಕ ಪೈಪ್ಲೈನ್: OCR (ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯಿರಿ) → ಟೋಕನ್ಗಳಾಗಿ ವಿಭಾಗಿಸಿ → LLM ಗೆ ಕಳುಹಿಸಿ → ಪ್ರತಿ ಟೋಕನ್ಗೆ ಪಾವತಿಸಿ.
- DeepSeek-OCR ನ ವಿಧಾನ: ವಿಷಯವನ್ನು ಚಿತ್ರವಾಗಿ ಇರಿಸಿ (ಅಥವಾ ದೃಷ್ಟಿಗೆ ಅನುಕೂಲಕರವಾದ ಲೇಔಟ್) → ವಿಷನ್ ಎನ್ಕೋಡರ್ + LLM ಬಳಸಿ → ದೃಶ್ಯ ಪ್ಯಾಚ್ / ಫೀಚರ್ ಟೋಕನ್ಗೆ ಪಾವತಿಸಿ → ಆಯ್ದವಾಗಿ ಡಿಕೋಡ್ ಮಾಡಿ.
ಒಂದು ಪುಟವನ್ನು ಸಾವಿರಾರು ಸಬ್ವರ್ಡ್ ಟೋಕನ್ಗಳಾಗಿ ವಿಸ್ತರಿಸುವ ಬದಲು, ಮಾದರಿಯು ದೃಶ್ಯ ಪ್ಯಾಚ್ಗಳ ಕಾಂಪ್ಯಾಕ್ಟ್ ಗ್ರಿಡ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. ಪ್ರತಿ ಪ್ಯಾಚ್ ಒಂದು ಸಬ್ವರ್ಡ್ ಟೋಕನ್ಗಿಂತ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಯನ್ನು ಎನ್ಕೋಡ್ ಮಾಡುತ್ತದೆ - ವಿಶೇಷವಾಗಿ ದಟ್ಟವಾದ ಲೇಔಟ್ಗಳಿಗೆ (ಟೇಬಲ್ಗಳು, ರಸೀದಿಗಳು, ಫಾರ್ಮ್ಗಳು, PDF ಗಳು). DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನವು ಟೋಕನ್ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡಲು ಆ ಎನ್ಕೋಡಿಂಗ್ ದಕ್ಷತೆಯೇ ಮುಖ್ಯ ಕಾರಣ.
OCR + LLM ವರ್ಕ್ಫ್ಲೋಗಳಲ್ಲಿ ಟೋಕನ್ ವೆಚ್ಚಗಳು ಏಕೆ ಹೆಚ್ಚಾಗುತ್ತವೆ
- ಹೆಚ್ಚುವರಿ ವೈಟ್ಸ್ಪೇಸ್ ಮತ್ತು ಬಾಯ್ಲರ್ಪ್ಲೇಟ್: OCR ಪ್ರತಿ ಅಕ್ಷರವನ್ನು ಹೊರತೆಗೆಯುತ್ತದೆ. ಚಂಕಿಂಗ್ ಇದನ್ನು ಅನೇಕ ಸಬ್ವರ್ಡ್ ಟೋಕನ್ಗಳಾಗಿ ವಿಸ್ತರಿಸುತ್ತದೆ.
- ಲೇಔಟ್ ಓವರ್ಹೆಡ್: ಹೆಡರ್ಗಳು, ಫೂಟರ್ಗಳು, ಪುಟ ಸಂಖ್ಯೆಗಳು ಮತ್ತು ಪುನರಾವರ್ತಿತ ಕಾನೂನು ಪಠ್ಯವು ಟೋಕನ್ ಎಣಿಕೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ.
- ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ನಷ್ಟ: ಟೇಬಲ್ಗಳು ವಾಕ್ಚಾತುರ್ಯದ ಅನುಕ್ರಮಗಳಾಗುತ್ತವೆ. ರಚನಾತ್ಮಕ 10×10 ಟೇಬಲ್ ಸಾವಿರಾರು ಟೋಕನ್ಗಳಾಗಿ ಸ್ಫೋಟಗೊಳ್ಳಬಹುದು.
- ಸಂದರ್ಭ ವಿಂಡೋಗಳು: ದೀರ್ಘ ದಾಖಲೆಗಳಿಗೆ ಸ್ಲೈಡಿಂಗ್ ವಿಂಡೋಗಳು ಅಥವಾ ರಿಟ್ರೈವಲ್ ಪೈಪ್ಲೈನ್ಗಳು ಬೇಕಾಗುತ್ತವೆ, ಸಂದರ್ಭವನ್ನು ಪದೇ ಪದೇ ಮರು-ಕಳುಹಿಸಬೇಕಾಗುತ್ತದೆ.
ಇದಕ್ಕೆ ವ್ಯತಿರಿಕ್ತವಾಗಿ, ದೃಶ್ಯ ಎನ್ಕೋಡರ್ಗಳು ಕಚ್ಚಾ ಅಕ್ಷರ ಎಣಿಕೆಯನ್ನು ಲೆಕ್ಕಿಸದೆ ಒಂದು ಪುಟವನ್ನು ಸ್ಥಿರವಾದ ಪ್ಯಾಚ್ಗಳಾಗಿ (ಉದಾಹರಣೆಗೆ, ಪ್ರತಿ ಪುಟಕ್ಕೆ 768–2,048 ಟೋಕನ್ಗಳು) ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತವೆ. ಅದು DeepSeek-OCR ನ ವಿನ್ಯಾಸದ ಹಿಂದಿನ ಮೂಲಭೂತ ದಕ್ಷತೆಯಾಗಿದೆ.
DeepSeek-OCR 10 ಪಟ್ಟು ಉಳಿತಾಯವನ್ನು ಹೇಗೆ ಸಾಧಿಸುತ್ತದೆ
"ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ಸ್ಟಾಕ್ ಅನ್ನು ನಾಲ್ಕು ಲೇಯರ್ಗಳಾಗಿ ಯೋಚಿಸಿ:
- ಸಬ್ವರ್ಡ್ ಟೋಕನೈಸೇಶನ್ ಬದಲಿಗೆ ದೃಶ್ಯ ಟೋಕನೈಸೇಶನ್
- ಒಂದು PDF ಪುಟವು N ದೃಶ್ಯ ಪ್ಯಾಚ್ಗಳಾಗುತ್ತದೆ (ಉದಾಹರಣೆಗೆ, 14×14 = ಪ್ರತಿ ಪ್ರದೇಶಕ್ಕೆ 196 ಪ್ಯಾಚ್ಗಳು; ಅಥವಾ ~1–2k ಟೋಕನ್ಗಳಲ್ಲಿ ಟೈಲ್ಡ್ ಪುಟಗಳು).
- ಪ್ರತಿ ಪ್ಯಾಚ್ ಸೆಮ್ಯಾಂಟಿಕ್ ಸುಳಿವುಗಳನ್ನು (ಗ್ಲಿಫ್ ಆಕಾರಗಳು, ಪ್ರಾದೇಶಿಕ ಸಂಬಂಧಗಳು, ಫಾಂಟ್ ಸೂಚನೆಗಳು) ಹೊಂದಿರುತ್ತದೆ, ಅದರ ಮೇಲೆ ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಯು ತರ್ಕಿಸಬಲ್ಲದು.
- ಮಾದರಿಯು ಡಾಕ್ಯುಮೆಂಟ್ ರಚನೆಯನ್ನು "ನೋಡುತ್ತದೆ" - ಟೇಬಲ್ಗಳು, ಹೆಡ್ಡಿಂಗ್ಗಳು, ಕಾಲ್ಔಟ್ಗಳು - ಅವುಗಳನ್ನು ದೀರ್ಘ ಪಠ್ಯ ವಿವರಣೆಗಳಾಗಿ ಮರುಸೃಷ್ಟಿಸದೆ.
- ರಿಟ್ರೈವಲ್ಗಾಗಿ, ಅದು ಸಂಪೂರ್ಣ ಪುಟಗಳನ್ನು ಸ್ಟ್ರೀಮ್ ಮಾಡುವ ಬದಲು ಸಂಬಂಧಿತ ಪ್ರದೇಶಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಬಹುದು.
- ವಿರಳ ಡಿಕೋಡಿಂಗ್ (ಕಡಿಮೆ ಉತ್ಪಾದಿಸಿ)
- ಸಂಪೂರ್ಣ ಡಾಕ್ಯುಮೆಂಟ್ ಪಠ್ಯವನ್ನು ಔಟ್ಪುಟ್ ಮಾಡುವ ಬದಲು, ಮಾದರಿಯು ಬೇಕಾದುದನ್ನು ಮಾತ್ರ ಹೊರತೆಗೆಯಬಹುದು: ಒಂದು ಕ್ಷೇತ್ರ, ಒಂದು ಟೇಬಲ್, ಒಂದು ಸಾರಾಂಶ.
- ಕಡಿಮೆ ಉತ್ಪಾದನೆ = ಕಡಿಮೆ ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳು.
- ಪ್ಯಾಚ್ ಮರುಬಳಕೆಯ ಮೂಲಕ ಸಂಕೋಚನ
- ಪುನರಾವರ್ತಿತ ಅಂಶಗಳು (ಲೋಗೊಗಳು, ಹೆಡರ್ಗಳು) ಒಂದೇ ರೀತಿಯ ದೃಶ್ಯ ಟೋಕನ್ಗಳಾಗಿ ಪುಟದಿಂದ ಪುಟಕ್ಕೆ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತವೆ, ಇದು ಹೆಚ್ಚು ಪರಿಣಾಮಕಾರಿ ಗಮನ ಮತ್ತು ಸಂಗ್ರಹಣೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸುತ್ತದೆ.
ಒಟ್ಟಾರೆಯಾಗಿ, DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನವು ಫಾರ್ಮ್ಗಳು, ಇನ್ವಾಯ್ಸ್ಗಳು, ವೈಜ್ಞಾನಿಕ PDF ಗಳು ಮತ್ತು ದೀರ್ಘ ಒಪ್ಪಂದಗಳಲ್ಲಿ ಟೋಕನ್ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡಲು ಈ ಆಯ್ಕೆಗಳು ಏಕೆ ಸಹಾಯ ಮಾಡುತ್ತವೆ ಎಂಬುದನ್ನು ವಿವರಿಸುತ್ತದೆ.
ಗಣಿತವನ್ನು ತೋರಿಸಿ: ಅಂದಾಜು ವೆಚ್ಚ ಹೋಲಿಕೆ
ಸನ್ನಿವೇಶ: 20 ಪುಟಗಳ ಒಪ್ಪಂದ, ~7,500 ಪದಗಳು (~10,000–12,000 ಸಬ್ವರ್ಡ್ ಟೋಕನ್ಗಳು OCR + ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ನಂತರ).
- ಪ್ರತಿ ಬ್ಯಾಚ್ಗೆ ಇನ್ಪುಟ್ ಟೋಕನ್ಗಳು: 8,000+ (ವಿಭಜನೆ, ಪುನರಾವರ್ತಿತ ಸಂದರ್ಭದ ಅಗತ್ಯವಿದೆ)
- ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳು (ಸಾರಾಂಶಗಳು, ಹೊರತೆಗೆಯುವಿಕೆಗಳು): 500–1,000
- ಒಟ್ಟು ವೆಚ್ಚ: ಹೆಚ್ಚು, ಜೊತೆಗೆ ಚಂಕಿಂಗ್ ಮತ್ತು ಮರು-ಪ್ರಶ್ನೆಗಳಿಂದ ಸುಪ್ತತೆ
- DeepSeek-OCR "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ"
- ಪ್ರತಿ ಪುಟಕ್ಕೆ ದೃಶ್ಯ ಟೋಕನ್ಗಳು: ~1,000–2,000 (ಟೈಲಿಂಗ್/ಡೌನ್ಸೈಜಿಂಗ್ನೊಂದಿಗೆ ಸಾಮಾನ್ಯವಾಗಿ ಕಡಿಮೆ)
- ಗುರಿಯಾಗಿಸಿದ ಪ್ರದೇಶ ಪ್ರಶ್ನೆಗಳು: ಒಂದು ಸಮಯದಲ್ಲಿ ಡಾಕ್ಯುಮೆಂಟ್ನ 10–30%
- ಔಟ್ಪುಟ್: ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ 200–500 ಟೋಕನ್ಗಳು (ಕೇಂದ್ರೀಕೃತ ಡಿಕೋಡಿಂಗ್)
- ಒಟ್ಟು ವೆಚ್ಚ: ಹೆಚ್ಚಾಗಿ ಮೇಲಿನದರ ಒಂದು ಭಾಗ, ಕಡಿಮೆ ಮರು-ಕಳುಹಿಸುವಿಕೆಗಳೊಂದಿಗೆ
ನೂರಾರು ಡಾಕ್ಯುಮೆಂಟ್ಗಳಲ್ಲಿ ಅಳೆಯಿದಾಗ, ಸಂಚಿತ ಉಳಿತಾಯವು ಮುಖ್ಯಾಂಶವನ್ನು ಸಮೀಪಿಸುತ್ತದೆ, ವೆಚ್ಚ ಮತ್ತು ಸುಪ್ತತೆಯಲ್ಲಿ "10 ಪಟ್ಟು" ವರೆಗೆ - ವಿಶೇಷವಾಗಿ ಪುನರಾವರ್ತಿತ, ಲೇಔಟ್-ಭಾರೀ ವಿಷಯಕ್ಕಾಗಿ.
"ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ವಿಧಾನವು ಕ್ಲಾಸಿಕ್ OCR ಗೆ ಹೋಲಿಸಿದರೆ ಎಲ್ಲಿ ಪ್ರಕಾಶಿಸುತ್ತದೆ
- ದಟ್ಟವಾದ ಲೇಔಟ್ಗಳು: ಟೇಬಲ್ಗಳು, ರಸೀದಿಗಳು, ಇನ್ವಾಯ್ಸ್ಗಳು, ಶಿಪ್ಪಿಂಗ್ ಲೇಬಲ್ಗಳು, ವೈದ್ಯಕೀಯ ಫಾರ್ಮ್ಗಳು
- ಬಹುಭಾಷಾ ಅಥವಾ ಮಿಶ್ರ ಲಿಪಿಗಳು: ಚೈನೀಸ್ + ಇಂಗ್ಲಿಷ್ + ಗಣಿತದ ಸಂಕೇತಗಳು, ಅಲ್ಲಿ OCR ವಿಘಟನೆ ಟೋಕನ್ಗಳನ್ನು ಉಬ್ಬಿಸುತ್ತದೆ
- ಗದ್ದಲದ ಸ್ಕ್ಯಾನ್ಗಳು: ಸ್ಟಾಂಪ್ಗಳು, ವಾಟರ್ಮಾರ್ಕ್ಗಳು, ಓರೆ ಮಾಡಿದ ಪುಟಗಳು - ವಿಷನ್ ಮಾದರಿಗಳು ದುರ್ಬಲ OCR ಪೈಪ್ಲೈನ್ಗಳಿಗಿಂತ ಉತ್ತಮವಾಗಿ ಶಬ್ದದ ಬಗ್ಗೆ ತರ್ಕಿಸುತ್ತವೆ
- ರಚನಾತ್ಮಕ ಹೊರತೆಗೆಯುವಿಕೆ: ನಿರ್ದಿಷ್ಟ ಕ್ಷೇತ್ರಗಳು, ಲೈನ್-ಐಟಂಗಳು ಅಥವಾ ಟೇಬಲ್ ಕೋಶಗಳನ್ನು ಎಳೆಯುವುದು
- ಸಂದರ್ಭೋಚಿತ QA: ಎಲ್ಲಾ ಪಠ್ಯವನ್ನು ಮರು-ಕಳುಹಿಸದೆ ಪುಟಗಳಾದ್ಯಂತ "ಯಾವ ಷರತ್ತು ಮುಕ್ತಾಯವನ್ನು ಒಳಗೊಂಡಿದೆ?"
ಕ್ಲಾಸಿಕ್ OCR ಯಾವಾಗ ಗೆಲ್ಲುತ್ತದೆ
- ಪರಿಪೂರ್ಣ ನಿಷ್ಠೆಯೊಂದಿಗೆ ಪೂರ್ಣ-ಪಠ್ಯ ರಫ್ತುಗಳು: ಹುಡುಕಾಟ / ಸೂಚ್ಯಂಕಕ್ಕಾಗಿ ನಿಮಗೆ ಸ್ವಚ್ಛ, ನಕಲಿಸಬಹುದಾದ ಪಠ್ಯ ಬೇಕು.
- ವಿಪರೀತ ಕಡಿಮೆ-ಸಂಪನ್ಮೂಲ ಸಾಧನಗಳು: ನೀವು ವಿಷನ್ ಎನ್ಕೋಡರ್ ಅಥವಾ ದೊಡ್ಡ VLM ಅನ್ನು ಚಲಾಯಿಸಲು ಸಾಧ್ಯವಾಗದಿದ್ದರೆ, ಸರಳ OCR ಸ್ಥಳೀಯವಾಗಿ ಅಗ್ಗವಾಗಬಹುದು.
- ಪ್ರವೇಶಿಸುವಿಕೆ ವರ್ಕ್ಫ್ಲೋಗಳು: ಸ್ಕ್ರೀನ್ ರೀಡರ್ಗಳಿಗೆ ಸೆಮ್ಯಾಂಟಿಕ್ ಪಠ್ಯ ಔಟ್ಪುಟ್ ಅಗತ್ಯವಿದೆ; ಪಠ್ಯ ರಫ್ತು ಹಂತವನ್ನು ಸೇರಿಸದ ಹೊರತು ಚಿತ್ರ-ಮಾತ್ರ ಹರಿವುಗಳು ಸಾಕಾಗುವುದಿಲ್ಲ.
ಪರ ಸಲಹೆ: ಹೈಬ್ರಿಡೈಸ್ ಮಾಡಿ. ತಾರ್ಕಿಕತೆ ಮತ್ತು ಕ್ಷೇತ್ರ ಹೊರತೆಗೆಯುವಿಕೆಗಾಗಿ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಬಳಸಿ. ಅಂತಿಮ ಹುಡುಕಬಹುದಾದ ಆರ್ಕೈವ್ಗಳು ಅಥವಾ ಪ್ರವೇಶಿಸುವಿಕೆ ಲೇಯರ್ಗಳಿಗಾಗಿ OCR ಗೆ ಹಿಂತಿರುಗಿ.
ಆರ್ಕಿಟೆಕ್ಚರ್ ಮಾದರಿ: ಪ್ರಾಯೋಗಿಕ ನೀಲನಕ್ಷೆ
ನಿಮ್ಮ ಸ್ಟಾಕ್ ಅನ್ನು ಮರುನಿರ್ಮಾಣ ಮಾಡದೆಯೇ DeepSeek-OCR ತತ್ವಗಳನ್ನು ಅಳವಡಿಸಲು ಈ ಮಾಡ್ಯುಲರ್ ಮಾದರಿಯನ್ನು ಬಳಸಿ:
- PDF ಗಳು, TIFF ಗಳು, ಸ್ಕ್ಯಾನ್ಗಳನ್ನು ಸ್ವೀಕರಿಸಿ; ರೆಸಲ್ಯೂಶನ್ ಅನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಿ (ಉದಾಹರಣೆಗೆ, 144–192 DPI)
- ಪ್ಯಾಚ್ ಎಣಿಕೆಗಳನ್ನು ಸೀಮಿತವಾಗಿಡಲು ದೀರ್ಘ ಪುಟಗಳನ್ನು ಟೈಲ್ ಮಾಡಿ
- ಪ್ರತಿ ಟೈಲ್ / ಪುಟಕ್ಕೆ ದಟ್ಟವಾದ ಎಂಬೆಡಿಂಗ್ಗಳನ್ನು ರಚಿಸಲು ವಿಷನ್ ಎನ್ಕೋಡರ್ ಅನ್ನು ಚಲಾಯಿಸಿ
- ಪುನರಾವರ್ತಿತ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ ಎಂಬೆಡಿಂಗ್ಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ (ವೆಚ್ಚವನ್ನು ಸರಿದೂಗಿಸುತ್ತದೆ)
- ಸಂಭಾವ್ಯ ಪ್ರದೇಶಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು ಲೇಔಟ್ ಪತ್ತೆ ಬಳಸಿ (ಶೀರ್ಷಿಕೆ, ಟೇಬಲ್ಗಳು, ಸಹಿ ಬ್ಲಾಕ್ಗಳು)
- ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್ಗಳು ಅಥವಾ ಹಗುರವಾದ ಡಿಟೆಕ್ಟರ್ಗಳ ಮೇಲೆ ವೆಕ್ಟರ್ ಹುಡುಕಾಟವನ್ನು ಅನ್ವಯಿಸಿ
- ಆಯ್ದ ಪ್ರದೇಶಗಳು + ಕಾರ್ಯ ಪ್ರಾಂಪ್ಟ್ನೊಂದಿಗೆ ಮಾತ್ರ VLM ಅನ್ನು ಪ್ರಾಂಪ್ಟ್ ಮಾಡಿ
- ರಚನಾತ್ಮಕ ಔಟ್ಪುಟ್ಗಳಿಗಾಗಿ ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್ (JSON ಸ್ಕೀಮಾ) ಬಳಸಿ
- ಕ್ಷೇತ್ರಗಳನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಿ (ದಿನಾಂಕಗಳು, ಮೊತ್ತಗಳು, ಕರೆನ್ಸಿಗಳು)
- ಅಗತ್ಯವಿದ್ದಾಗ ನಿಖರವಾದ ಪಠ್ಯ ಸ್ಟ್ರಿಂಗ್ಗಳಿಗಾಗಿ ಐಚ್ಛಿಕ OCR ಪಾಸ್
ಈ ಪೈಪ್ಲೈನ್ ದೃಶ್ಯ ಟೋಕನ್ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ, ಮಾದರಿಯ ಗಮನವನ್ನು ಕಿರಿದಾಗಿಸುತ್ತದೆ ಮತ್ತು ಉತ್ಪಾದನೆಯ ಉದ್ದವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ - ಪ್ರಮುಖ ಉಳಿತಾಯಕ್ಕಾಗಿ ಸಂಯೋಜಿಸುವ ಮೂರು ಲಿವರ್ಗಳು.
ನಿಖರತೆ, ವಿಶ್ವಾಸಾರ್ಹತೆ ಮತ್ತು ಅಂಚಿನ ಪ್ರಕರಣಗಳು
- ಕಡಿಮೆ DPI ನಲ್ಲಿ ಉತ್ತಮ ಪಠ್ಯ: ಸಣ್ಣ ಫಾಂಟ್ಗಳನ್ನು ತಪ್ಪಾಗಿ ಓದಬಹುದು. ಶಂಕಿತ ಸಣ್ಣ ಪಠ್ಯ ಪ್ರದೇಶಗಳಿಗೆ ಹೊಂದಾಣಿಕೆಯ ಟೈಲಿಂಗ್ ಅಥವಾ ಹೆಚ್ಚಿನ DPI ಬಳಸಿ.
- ಕೈಬರಹ: ವಿಷನ್ ಮಾದರಿಗಳು ಸಹಾಯ ಮಾಡುತ್ತವೆ, ಆದರೆ ಕ್ಷೇತ್ರ-ನಿರ್ದಿಷ್ಟ ಉತ್ತಮ-ಶ್ರುತಿ ಅಥವಾ ವಿಶೇಷ ಕೈಬರಹ ಗುರುತಿಸುವಿಕೆಗಳು ಇನ್ನೂ ಅಗತ್ಯವಾಗಬಹುದು.
- ಗಣಿತ ಮತ್ತು ಕೋಡ್ ಬ್ಲಾಕ್ಗಳು: ದೃಶ್ಯ ಸಂದರ್ಭವು ರಚನೆಯನ್ನು ಸಂರಕ್ಷಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ನಿಖರವಾದ ಸಿಂಟ್ಯಾಕ್ಸ್ ನಿಷ್ಠೆಗಾಗಿ ಆಯ್ದ OCR ಅನ್ನು ಪರಿಗಣಿಸಿ.
- ವಿಲೀನಗೊಂಡ ಕೋಶಗಳೊಂದಿಗೆ ಟೇಬಲ್ಗಳು: ಲೇಔಟ್ ಗಮನ ಸಾಮಾನ್ಯವಾಗಿ ಸಹಾಯ ಮಾಡುತ್ತದೆ, ಆದರೆ ನಂತರದ-ನಿಯಮಗಳು ವಿಶ್ವಾಸಾರ್ಹತೆಯನ್ನು ಹೆಚ್ಚಿಸಬಹುದು (ಉದಾಹರಣೆಗೆ, ಹೆಡರ್ ತೀರ್ಮಾನ, ಡಿಲಿಮಿಟರ್ ಪರಿಶೀಲನೆಗಳು).
ಬೆಂಚ್ಮಾರ್ಕಿಂಗ್ ಸಲಹೆ: ಕಚ್ಚಾ ಅಕ್ಷರ ದೋಷ ದರಕ್ಕಿಂತ ಕಾರ್ಯ ಮಟ್ಟದಲ್ಲಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡಿ (ಕ್ಷೇತ್ರ-ಮಟ್ಟದ F1, ಟೇಬಲ್ ನಿಖರತೆ, QA ನಿಖರ ಹೊಂದಾಣಿಕೆ).
ನೀವು ನಿಯಂತ್ರಿಸುವ ವೆಚ್ಚದ ಲಿವರ್ಗಳು
- ಡೌನ್ಸ್ಯಾಂಪ್ಲಿಂಗ್: ಕಡಿಮೆ DPI ದೃಶ್ಯ ಟೋಕನ್ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ; ನಿಖರತೆಯನ್ನು ಹಾಗೇ ಇರಿಸುವ ಮಿತಿಗಳನ್ನು ಪರೀಕ್ಷಿಸಿ.
- ಪ್ರದೇಶ ಗೇಟಿಂಗ್: ನಿಮಗೆ ಒಂದು ಷರತ್ತು ಅಥವಾ ಟೇಬಲ್ ಮಾತ್ರ ಬೇಕಾದಲ್ಲಿ ಪೂರ್ಣ ಪುಟಗಳನ್ನು ಎಂದಿಗೂ ಕಳುಹಿಸಬೇಡಿ.
- ಔಟ್ಪುಟ್ ನಿರ್ಬಂಧಗಳು: JSON ಸ್ಕೀಮಾ ಅಥವಾ ರೆಜೆಕ್ಸ್ ಮಾದರಿಗಳು ವಾಕ್ಚಾತುರ್ಯದ ಉತ್ಪಾದನೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತವೆ.
- ಕ್ಯಾಶಿಂಗ್: ಬಹು ಪ್ರಶ್ನೆಗಳಲ್ಲಿ ಒಂದೇ ಡಾಕ್ಯುಮೆಂಟ್ಗಾಗಿ ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್ಗಳನ್ನು ಮರುಬಳಕೆ ಮಾಡಿ.
- ಮಿಶ್ರ ನಿಖರತೆ / ಕ್ವಾಂಟೈಸೇಶನ್: ನೀವು ಸ್ವಯಂ-ಹೋಸ್ಟ್ ಮಾಡಿದರೆ, FP16 / INT8 ಕಂಪ್ಯೂಟ್ ಮತ್ತು ಸುಪ್ತತೆಯನ್ನು ಕಡಿಮೆ ಮಾಡಬಹುದು.
ಅನುಷ್ಠಾನ ಉದಾಹರಣೆಗಳು (ಸನ್ನಿವೇಶಗಳು)
- ಇನ್ವಾಯ್ಸ್ ಲೈನ್-ಐಟಂ ಹೊರತೆಗೆಯುವಿಕೆ
- ಲೈನ್-ಐಟಂ ಬ್ಲಾಕ್ ಮತ್ತು ಮಾರಾಟಗಾರರ ಬಾಕ್ಸ್ ಅನ್ನು ಮಾತ್ರ ಚಿತ್ರಗಳಾಗಿ ಕಳುಹಿಸಿ
- ಔಟ್ಪುಟ್ ಅನ್ನು JSON ಸ್ಕೀಮಾಗೆ ನಿರ್ಬಂಧಿಸಿ (ದಿನಾಂಕ, ಮಾರಾಟಗಾರ, ಕರೆನ್ಸಿ, ಐಟಂಗಳು[])
- ನಿಖರವಾದ ಸ್ಟ್ರಿಂಗ್ ಹೊಂದಾಣಿಕೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಲು ಇನ್ವಾಯ್ಸ್ ID ಗಾಗಿ ಐಚ್ಛಿಕ OCR ಫಾಲ್ಬ್ಯಾಕ್
- ಪ್ರತಿ ಪುಟವನ್ನು ದೃಷ್ಟಿಗೋಚರವಾಗಿ ಎಂಬೆಡ್ ಮಾಡಿ; ವೆಕ್ಟರ್ DB ಯಲ್ಲಿ ಸಂಗ್ರಹಿಸಿ
- ಪ್ರಶ್ನೆಗೆ ಸಂಬಂಧಿಸಿದ 1–3 ಪ್ರದೇಶಗಳನ್ನು ಹಿಂಪಡೆಯಿರಿ ("ಮುಕ್ತಾಯ," "ನಿಯೋಜನೆ," "ಆಡಳಿತ ಕಾನೂನು")
- ಪ್ರದೇಶ ಸೂಚ್ಯಂಕವನ್ನು ಉಲ್ಲೇಖಿಸಲು ಮತ್ತು ≤120 ಟೋಕನ್ಗಳಲ್ಲಿ ಷರತ್ತನ್ನು ಸಾರಾಂಶ ಮಾಡಲು VLM ಅನ್ನು ಕೇಳಿ
- ಶೀರ್ಷಿಕೆ, ಅಮೂರ್ತ, ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ತೀರ್ಮಾನ ಪ್ರದೇಶಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿ
- ಒಂದು ಲೇ ಸಾರಾಂಶ ಮತ್ತು ವಿಧಾನಗಳ ಪರಿಶೀಲನಾಪಟ್ಟಿಯನ್ನು ಉತ್ಪಾದಿಸಿ; ಉಲ್ಲೇಖಗಳ ವಿಭಾಗವನ್ನು ಕಳುಹಿಸುವುದನ್ನು ತಪ್ಪಿಸಿ
ಈ ಮಾದರಿಗಳು ಇನ್ಪುಟ್ ಮತ್ತು ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತವೆ, ಆದರೆ ಅದು ಮುಖ್ಯವಾಗಿರುವಲ್ಲಿ ನಿಖರತೆಯನ್ನು ಕಾಪಾಡುತ್ತವೆ.
ಏಕೆ 10 ಪಟ್ಟು ವರೆಗೆ ಮತ್ತು ಯಾವಾಗಲೂ 10 ಪಟ್ಟು ಅಲ್ಲ?
ಟೋಕನ್ ಉಳಿತಾಯವು ಇದರ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿದೆ:
- ಡಾಕ್ಯುಮೆಂಟ್ ಸಾಂದ್ರತೆ: ಭಾರೀ ಲೇಔಟ್ಗಳು ಹೆಚ್ಚು ಪ್ರಯೋಜನ ಪಡೆಯುತ್ತವೆ
- ಕಾರ್ಯದ ವ್ಯಾಪ್ತಿ: ಗುರಿಯಾಗಿಸಿದ ಹೊರತೆಗೆಯುವಿಕೆ ಪೂರ್ಣ-ಪಠ್ಯ ಮರುಉತ್ಪಾದನೆಯನ್ನು ಸೋಲಿಸುತ್ತದೆ
- ಮಾದರಿ ಬೆಲೆ: ಪೂರೈಕೆದಾರರ ಪ್ರಕಾರ ವಿಷನ್ ಇನ್ಪುಟ್ ಬೆಲೆ vs ಪಠ್ಯ ಇನ್ಪುಟ್ ಬೆಲೆ ಬದಲಾಗುತ್ತದೆ
- ಪೂರ್ವ-/ನಂತರದ-ಸಂಸ್ಕರಣೆ: ಉತ್ತಮ ಪ್ರದೇಶ ಆಯ್ಕೆ ಮತ್ತು ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್ ಲಾಭಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ
ಸಾಮಾನ್ಯವಾಗಿ 2–4 ಪಟ್ಟು ನಿರೀಕ್ಷಿಸಿ + ಸಂಕೀರ್ಣ, ಬಹು-ಪುಟ, ಲೇಔಟ್-ಭಾರೀ ವರ್ಕ್ಫ್ಲೋಗಳಲ್ಲಿ ~10 ಪಟ್ಟು ಹೆಚ್ಚಳ.
ಸಾಮಾನ್ಯ ತಪ್ಪುಗ್ರಹಿಕೆಗಳು
- "ಚಿತ್ರಗಳು ಪಠ್ಯಕ್ಕಿಂತ ಭಾರವಾಗಿರುತ್ತದೆ, ಆದ್ದರಿಂದ ಇದು ಹೆಚ್ಚು ವೆಚ್ಚವಾಗುತ್ತದೆ."
- LLM ಬಿಲ್ಲಿಂಗ್ನಲ್ಲಿ, ವೆಚ್ಚವು ಮಾದರಿ ಟೋಕನ್ಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತದೆ, ಕಚ್ಚಾ ಫೈಲ್ ಗಾತ್ರವನ್ನಲ್ಲ. ದೃಶ್ಯ ಪ್ಯಾಚ್ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಸಾವಿರಾರು ಸಬ್ವರ್ಡ್ ಟೋಕನ್ಗಳನ್ನು ಬದಲಾಯಿಸುತ್ತವೆ.
- "OCR ಪರಿಹಾರವಾಗಿದೆ, ಆದ್ದರಿಂದ ಅದನ್ನು ಏಕೆ ಸಂಕೀರ್ಣಗೊಳಿಸಬೇಕು?"
- OCR ಲೇಔಟ್ ಸೆಮ್ಯಾಂಟಿಕ್ಸ್, ಟೇಬಲ್ಗಳು, ಸ್ಟಾಂಪ್ಗಳು ಮತ್ತು ಬಹುಭಾಷಾ ಶಬ್ದದೊಂದಿಗೆ ಹೋರಾಡುತ್ತದೆ. ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಗಳು ರಚನೆಯ ಮೇಲೆ ನೇರವಾಗಿ ತರ್ಕಿಸುತ್ತವೆ.
- "ಚಿತ್ರಗಳಿಂದ ನಿಮಗೆ ನಿಖರವಾದ ಪಠ್ಯವನ್ನು ಪಡೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ."
- ಪಿಕ್ಸೆಲ್-ಪರಿಪೂರ್ಣ ಸ್ಟ್ರಿಂಗ್ಗಳಿಗೆ ಸತ್ಯ. ಅದಕ್ಕಾಗಿಯೇ ಅನೇಕ ತಂಡಗಳು ಈ ವಿಧಾನವನ್ನು ಆಯ್ದ OCR ನೊಂದಿಗೆ ಮಾತ್ರ ಜೋಡಿಸುತ್ತವೆ, ಅಲ್ಲಿ ನಿಖರತೆ ಅಗತ್ಯವಿರುತ್ತದೆ.
ಟೂಲಿಂಗ್ ಮತ್ತು ಇಂಟಿಗ್ರೇಷನ್ ಟಿಪ್ಪಣಿಗಳು
- ಹಿಂಪಡೆಯುವಿಕೆ ಲೇಯರ್: ಲೇಔಟ್ ಡಿಟೆಕ್ಟರ್ಗಳನ್ನು ಬಳಸಿ (DocLayNet-ಶೈಲಿ), ಅಥವಾ ಫಾರ್ಮ್ಗಳು / ಟೇಬಲ್ಗಳಿಗಾಗಿ ಹಗುರವಾದ ಪ್ರದೇಶ ಪ್ರಸ್ತಾಪ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡಿ.
- ಸ್ಕೀಮಾ-ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್: JSON ಸ್ಕೀಮಾ ಅಥವಾ Pydantic-ಶೈಲಿಯ ನಿರ್ಬಂಧಗಳು ವಾಕ್ಚಾತುರ್ಯ ಮತ್ತು ದೋಷಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತವೆ.
- ಮೌಲ್ಯಮಾಪನ ಸರಂಜಾಮು: ಡಾಕ್ಯುಮೆಂಟ್ಗೆ ಉತ್ತರಿಸಲು ತೆಗೆದುಕೊಳ್ಳುವ ಸಮಯ, ವೆಚ್ಚ ಮತ್ತು ಕ್ಷೇತ್ರ-ಮಟ್ಟದ ನಿಖರತೆಯನ್ನು ಅಳೆಯಿರಿ - ಟೋಕನ್ ಎಣಿಕೆಗಳನ್ನು ಮಾತ್ರವಲ್ಲ.
- ಗೌಪ್ಯತೆ: ಸೂಕ್ಷ್ಮ ಡಾಕ್ಯುಮೆಂಟ್ಗಳಿಗಾಗಿ, ಆನ್-ಪ್ರೆಮ್ VLMs ಅನ್ನು ಪರಿಗಣಿಸಿ ಮತ್ತು ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್ಗಳ ಎನ್ಕ್ರಿಪ್ಟ್ ಮಾಡಿದ ಸಂಗ್ರಹಣೆಯನ್ನು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳಿ.
ಗಮನಿಸಬೇಕಾದ ಅಂಶ: ನೀವು ಮಲ್ಟಿ-ಮೋಡಲ್ ವರ್ಕ್ಫ್ಲೋಗಳನ್ನು ಅನ್ವೇಷಿಸುತ್ತಿದ್ದರೆ, Sider.AI ಪ್ರಯೋಗವನ್ನು ಸುಗಮಗೊಳಿಸುತ್ತದೆ. ಪಠ್ಯ ಮತ್ತು ಚಿತ್ರ ಇನ್ಪುಟ್ಗಳೆರಡಕ್ಕೂ ನೀವು ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಪುನರಾವರ್ತಿಸಬಹುದು, ಮಾದರಿಗಳಾದ್ಯಂತ ವೆಚ್ಚ/ಸುಪ್ತತೆಯನ್ನು ಅಕ್ಕಪಕ್ಕದಲ್ಲಿ ಹೋಲಿಸಬಹುದು ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಬ್ಯಾಚ್ಗಳನ್ನು ಸ್ವಯಂ-ಉತ್ಪಾದಿಸಬಹುದು. DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನವು ನಿಮ್ಮ ಸ್ವಂತ ಡೇಟಾದಲ್ಲಿ 10 ಪಟ್ಟು ನಿಮ್ಮ ಟೋಕನ್ ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆಯೇ ಎಂದು ಮೈಗ್ರೇಶನ್ಗೆ ಬದ್ಧರಾಗುವ ಮೊದಲು ಮೌಲ್ಯೀಕರಿಸಲು ಅದು ಸುಲಭಗೊಳಿಸುತ್ತದೆ. ಕ್ರಿಯಾ ಯೋಜನೆ: ಒಂದು ವಾರದಲ್ಲಿ ಪೈಲಟ್ ಮಾಡಿ
- ದಿನ 1–2: ನಿಮ್ಮ ಪ್ರಸ್ತುತ OCR + LLM ಪೈಪ್ಲೈನ್ ಅನ್ನು ಪರಿಕರವಾಗಿ ಬಳಸಿ. ಪ್ರತಿ ಕಾರ್ಯಕ್ಕೆ ಇನ್ಪುಟ್ / ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳು, ಸುಪ್ತತೆ ಮತ್ತು ನಿಖರತೆಯನ್ನು ಲಾಗ್ ಮಾಡಿ.
- ದಿನ 3: ದೃಶ್ಯ ಎಂಬೆಡಿಂಗ್ ಹಂತ ಮತ್ತು ಪ್ರದೇಶ ಹಿಂಪಡೆಯುವಿಕೆಯನ್ನು ಸೇರಿಸಿ. ಪ್ರತಿ-ಪುಟ ಎಂಬೆಡಿಂಗ್ಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ.
- ದಿನ 4: ಗುರಿಯಾಗಿಸಿದ ಪ್ರದೇಶಗಳಿಗಾಗಿ ನಿಮ್ಮ LLM ಕರೆಯನ್ನು VLM ಗೆ ಬದಲಾಯಿಸಿ. ಔಟ್ಪುಟ್ ಅನ್ನು ನಿರ್ಬಂಧಿಸಿ.
- ದಿನ 5: 100–500 ಡಾಕ್ಯುಮೆಂಟ್ಗಳಲ್ಲಿ A/B ಹೋಲಿಕೆಗಳನ್ನು ಚಲಾಯಿಸಿ. ವೆಚ್ಚ ಡೆಲ್ಟಾಗಳು, ನಿಖರತೆ ಮತ್ತು ದೋಷ ವಿಧಾನಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ.
- ದಿನ 6–7: DPI, ಟೈಲಿಂಗ್ ಮತ್ತು ಪ್ರದೇಶ ಗೇಟಿಂಗ್ ಅನ್ನು ಟ್ಯೂನ್ ಮಾಡಿ; ಆಯ್ದ OCR ಫಾಲ್ಬ್ಯಾಕ್ಗಳನ್ನು ಸೇರಿಸಿ.
ಸಂಖ್ಯೆಗಳು ನಿರೀಕ್ಷೆಗಳಿಗೆ ಹೊಂದಿಕೆಯಾದರೆ, ಸಂಪೂರ್ಣ ರೋಲ್ಔಟ್ಗೆ ವಿಸ್ತರಿಸಿ; ಇಲ್ಲದಿದ್ದರೆ, ಉಳಿತಾಯವನ್ನು ಅರಿತುಕೊಳ್ಳಲು ಉತ್ತಮ ಪ್ರದೇಶ ಆಯ್ಕೆ ಮತ್ತು ಕಟ್ಟುನಿಟ್ಟಾದ ಡಿಕೋಡಿಂಗ್ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿ.
ಪ್ರಮುಖ ಅಂಶಗಳು
- DeepSeek-OCR ನ “ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ” ಮಾಡುವ ವಿಧಾನವು ವಾಕ್ಚಾತುರ್ಯದ ಪಠ್ಯ ಟೋಕನ್ಗಳನ್ನು ಕಾಂಪ್ಯಾಕ್ಟ್ ದೃಶ್ಯ ಪ್ಯಾಚ್ಗಳೊಂದಿಗೆ ಬದಲಾಯಿಸುವ ಮೂಲಕ, ಪ್ರದೇಶ-ಮಟ್ಟದ ಹಿಂಪಡೆಯುವಿಕೆಯನ್ನು ಬಳಸುವ ಮೂಲಕ ಮತ್ತು ಉತ್ಪಾದನೆಯನ್ನು ಕಡಿಮೆ ಮಾಡುವ ಮೂಲಕ ಟೋಕನ್ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
- ಇದು ದಟ್ಟವಾದ, ಗೊಂದಲಮಯ ಅಥವಾ ಬಹುಭಾಷಾ ಡಾಕ್ಯುಮೆಂಟ್ಗಳು ಮತ್ತು ರಚನಾತ್ಮಕ ಹೊರತೆಗೆಯುವ ಕಾರ್ಯಗಳಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ.
- ಹೈಬ್ರಿಡ್ ತಂತ್ರಗಳು - ತಾರ್ಕಿಕತೆಗಾಗಿ ದೃಷ್ಟಿ, ನಿಖರವಾದ ಸ್ಟ್ರಿಂಗ್ಗಳಿಗಾಗಿ ಆಯ್ದ OCR - ಸಾಮಾನ್ಯವಾಗಿ ಅತ್ಯುತ್ತಮ ನಿಖರತೆ-ವೆಚ್ಚ ಅನುಪಾತವನ್ನು ನೀಡುತ್ತವೆ.
- ಕಟ್ಟುನಿಟ್ಟಾದ ಮಾಪನ ಮತ್ತು ಬಿಗಿಯಾದ ಔಟ್ಪುಟ್ ನಿರ್ಬಂಧಗಳು ನೈಜ-ಪ್ರಪಂಚದ ಉಳಿತಾಯಕ್ಕೆ ವೇಗವಾದ ಮಾರ್ಗವಾಗಿದೆ.
ಮುಂದೆ ನೋಡೋಣ: ಸಂಕ್ಷಿಪ್ತ ಭವಿಷ್ಯದ ಮುನ್ನೋಟ
ಮಲ್ಟಿಮೋಡಲ್ LLM ಗಳು ಪ್ರಬುದ್ಧವಾಗುತ್ತಿದ್ದಂತೆ, ಡಾಕ್ಯುಮೆಂಟ್ ತಿಳುವಳಿಕೆಯು ಬೇಡಿಕೆಯ ಮೇರೆಗೆ ಪಠ್ಯ ಮರುಪಡೆಯುವಿಕೆಯೊಂದಿಗೆ ದೃಷ್ಟಿ-ಮೊದಲ ತಾರ್ಕಿಕತೆಯ ಮೇಲೆ ಒಮ್ಮುಖವಾಗುವ ನಿರೀಕ್ಷೆಯಿದೆ. ನಾವು ಹೆಚ್ಚು ಲೇಔಟ್-ಅರಿವಿನ ಪೂರ್ವ ತರಬೇತಿ, ಅಗ್ಗದ ದೃಶ್ಯ ಟೋಕನ್ಗಳು ಮತ್ತು ಪ್ರಮಾಣಿತ JSON-ನಿರ್ಬಂಧಿತ ಔಟ್ಪುಟ್ಗಳನ್ನು ನೋಡುತ್ತೇವೆ. ಇಂದು LLM ವೆಚ್ಚಗಳೊಂದಿಗೆ ಹೋರಾಡುತ್ತಿರುವ ತಂಡಗಳಿಗೆ, "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಬದಲಾಯಿಸುವುದು ಅತ್ಯಂತ ಪರಿಣಾಮಕಾರಿ ಲಿವರ್ ಆಗಿರಬಹುದು - ವಿಶೇಷವಾಗಿ ದೊಡ್ಡ ಪ್ರಮಾಣದಲ್ಲಿ.
FAQ
Q1:DeepSeek-OCR ನ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಮಾಡುವ ವಿಧಾನ ಸರಳ ಪದಗಳಲ್ಲಿ ಯಾವುದು?
ಪುಟಗಳನ್ನು OCR ನೊಂದಿಗೆ ದೀರ್ಘ ಸ್ಟ್ರಿಂಗ್ಗಳಾಗಿ ಪರಿವರ್ತಿಸುವ ಬದಲು, DeepSeek-OCR ವಿಷಯವನ್ನು ಚಿತ್ರಗಳಾಗಿ ಇರಿಸುತ್ತದೆ ಮತ್ತು ಲೇಔಟ್ನ ಮೇಲೆ ತರ್ಕಿಸಲು ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಯನ್ನು ಬಳಸುತ್ತದೆ. ಇದು ಇನ್ಪುಟ್ ಟೋಕನ್ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಆಗಾಗ್ಗೆ ವೆಚ್ಚವನ್ನು 10 ಪಟ್ಟು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
Q2:OCR ಗೆ ಹೋಲಿಸಿದರೆ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಟೋಕನ್ ವೆಚ್ಚವನ್ನು ಹೇಗೆ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ?
ದೃಶ್ಯ ಟೋಕನ್ಗಳು (ಪ್ಯಾಚ್ಗಳು) ಪಠ್ಯ ಮತ್ತು ಲೇಔಟ್ನ ದೊಡ್ಡ ಪ್ರದೇಶಗಳನ್ನು ಸಾರಾಂಶಿಸುತ್ತವೆ, ಸಾವಿರಾರು ಸಬ್ವರ್ಡ್ ಟೋಕನ್ಗಳನ್ನು ಬದಲಾಯಿಸುತ್ತವೆ. ಪ್ರದೇಶ-ಮಟ್ಟದ ಹಿಂಪಡೆಯುವಿಕೆ ಮತ್ತು ನಿರ್ಬಂಧಿತ ಡಿಕೋಡಿಂಗ್ ಎರಡೂ ಇನ್ಪುಟ್ ಮತ್ತು ಔಟ್ಪುಟ್ ಟೋಕನ್ಗಳನ್ನು ಮತ್ತಷ್ಟು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
Q3:ಸಾಂಪ್ರದಾಯಿಕ OCR ಗಿಂತ DeepSeek-OCR ಹೆಚ್ಚು ನಿಖರವಾಗಿದೆಯೇ?
ಲೇಔಟ್ ತಿಳುವಳಿಕೆ ಮತ್ತು ಗುರಿಯಾಗಿಸಿದ ಹೊರತೆಗೆಯುವಿಕೆಗಾಗಿ, ಇದು ರಚನೆಯ ಮೇಲೆ ತರ್ಕಿಸುವುದರಿಂದ ಇದು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ನಿಖರವಾದ, ಅಕ್ಷರ-ಪರಿಪೂರ್ಣ ಪಠ್ಯಕ್ಕಾಗಿ, ಅದನ್ನು ಆಯ್ದ OCR ನೊಂದಿಗೆ ಜೋಡಿಸುವುದರಿಂದ ಹೆಚ್ಚಿನ ನಿಖರತೆಯನ್ನು ನೀಡಬಹುದು.
Q4:ನಾನು ಯಾವಾಗ "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ಪೈಪ್ಲೈನ್ ಬದಲಿಗೆ ಕ್ಲಾಸಿಕ್ OCR ಅನ್ನು ಆದ್ಯತೆ ನೀಡಬೇಕು?
ಹುಡುಕಾಟ ಅಥವಾ ಪ್ರವೇಶಿಸುವಿಕೆಗಾಗಿ ನಿಮಗೆ ಪೂರ್ಣ, ನಕಲಿಸಬಹುದಾದ ಪಠ್ಯ ಅಗತ್ಯವಿದ್ದರೆ ಕ್ಲಾಸಿಕ್ OCR ಅನ್ನು ಬಳಸಿ. ವೆಚ್ಚ-ಪರಿಣಾಮಕಾರಿ ಹೊರತೆಗೆಯುವಿಕೆ, ಸಾರಾಂಶಗಳು ಮತ್ತು ಸಂಕೀರ್ಣ PDF ಗಳಲ್ಲಿ QA ಗಾಗಿ, "ಪಠ್ಯವನ್ನು ಚಿತ್ರವನ್ನಾಗಿ" ವಿಧಾನವು ಸಾಮಾನ್ಯವಾಗಿ ಉತ್ತಮವಾಗಿರುತ್ತದೆ.
Q5:10 ಪಟ್ಟು ಉಳಿತಾಯವನ್ನು ಪರಿಶೀಲಿಸಲು ನಾನು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಪೈಲಟ್ ಮಾಡಬಹುದು?
ನಿಮ್ಮ ಪ್ರಸ್ತುತ OCR + LLM ಪೈಪ್ಲೈನ್ ಅನ್ನು ಪ್ರತಿನಿಧಿ ಡಾಕ್ಯುಮೆಂಟ್ಗಳಲ್ಲಿ ಬೆಂಚ್ಮಾರ್ಕ್ ಮಾಡಿ, ನಂತರ ಪ್ರದೇಶ ಗೇಟಿಂಗ್ ಮತ್ತು ಸ್ಕೀಮಾ-ನಿರ್ಬಂಧಿತ ಔಟ್ಪುಟ್ಗಳೊಂದಿಗೆ ವಿಷನ್-ಲ್ಯಾಂಗ್ವೇಜ್ ಮಾದರಿಯೊಂದಿಗೆ ಬದಲಾಯಿಸಿ. ಟೋಕನ್ ಎಣಿಕೆಗಳು, ಸುಪ್ತತೆ ಮತ್ತು ಕಾರ್ಯ ನಿಖರತೆಯನ್ನು ಅಕ್ಕಪಕ್ಕದಲ್ಲಿ ಹೋಲಿಕೆ ಮಾಡಿ.