ಅರ್ಥ ಕಳೆದುಕೊಳ್ಳದೆ 20 ಪಟ್ಟು ಕಡಿಮೆ ಟೋಕನ್ಗಳು
ದೀರ್ಘ ರಸೀದಿಗಳು, ಇನ್ವಾಯ್ಸ್ಗಳು ಅಥವಾ ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪಿಡಿಎಫ್ಗಳಿಂದ ನಿಮ್ಮ ಎಲ್ಎಲ್ಎಂ ಬಿಲ್ ಹೆಚ್ಚಾಗಿರುವುದನ್ನು ನೀವು ನೋಡಿದ್ದರೆ, 20 ಪಟ್ಟು ಟೋಕನ್ ಕಡಿತದ ಭರವಸೆ ನಂಬಲು ಸಾಧ್ಯವಾಗದಷ್ಟು ಉತ್ತಮವಾಗಿದೆ ಎಂದು ಅನಿಸುತ್ತದೆ. ಆದರೆ ಇತ್ತೀಚಿನ DeepSeek-OCR ಪೈಪ್ಲೈನ್ಗಳು ದೃಶ್ಯ ಪಠ್ಯವನ್ನು ತೆಳ್ಳಗಿನ, ಶಬ್ದಾರ್ಥ ನಿರೂಪಣೆಗಳಾಗಿ ಕುಗ್ಗಿಸುವ ಮೂಲಕ ಸಾಧಿಸುತ್ತಿವೆ. ಭಾಷಾ ಮಾದರಿಗೆ ಏನನ್ನಾದರೂ ಹಸ್ತಾಂತರಿಸುವ ಮೊದಲು ಹೀಗೆ ಮಾಡಲಾಗುತ್ತಿದೆ. ಕಡಿಮೆ ಟೋಕನ್ಗಳು, ವೇಗವಾಗಿ ಪ್ರತಿಕ್ರಿಯೆಗಳು, ಗಣನೀಯವಾಗಿ ಕಡಿಮೆ ವೆಚ್ಚ - ಮತ್ತು ಸಾಮಾನ್ಯವಾಗಿ ಕೆಳಗಿನ ಕಾರ್ಯಗಳಲ್ಲಿ ಉತ್ತಮ ನಿಖರತೆ.
ಈ ವಿವರಣೆಯಲ್ಲಿ, DeepSeek-OCR ಆ ಕಡಿತಗಳನ್ನು ಹೇಗೆ ತಲುಪುತ್ತದೆ, ಅದು ಎಲ್ಲಿ ಪ್ರಕಾಶಿಸುತ್ತದೆ (ಮತ್ತು ಎಲ್ಲಿ ಅಲ್ಲ), ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್ QA, RAG, ಮತ್ತು ಫಾರ್ಮ್ ತಿಳುವಳಿಕೆ ಮುಂತಾದ ನೈಜ ಕಾರ್ಯಪ್ರವಾಹಗಳಿಗೆ ಅದನ್ನು ಹೇಗೆ ಸಂಪರ್ಕಿಸುವುದು ಎಂಬುದನ್ನು ನಾವು ವಿವರಿಸುತ್ತೇವೆ - ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಕೆಸರಾಗಿಸದೆ.
---
ತ್ವರಿತ ಪ್ರೈಮರ್: DeepSeek-OCR ಎಂದರೇನು, ನಿಜವಾಗಿಯೂ?
DeepSeek-OCR ಅನ್ನು LLM-ಯುಗದ ಕೆಲಸದ ಹೊರೆಗಳಿಗಾಗಿ ಆಪ್ಟಿಮೈಸ್ ಮಾಡಿದ OCR-ಮೊದಲ ದೃಷ್ಟಿ-ಭಾಷಾ ಪೈಪ್ಲೈನ್ ಎಂದು ಯೋಚಿಸಿ. ಸಾಮಾನ್ಯ ಉದ್ದೇಶದ ಮಾದರಿಗೆ ನೇರವಾಗಿ ಕಚ್ಚಾ ಪಠ್ಯ ಅಥವಾ ಚಿತ್ರಗಳನ್ನು ಸುರಿಯುವ ಬದಲು, DeepSeek-OCR:
- ದೃಢವಾದ ಲೇಔಟ್ ಅರಿವಿನೊಂದಿಗೆ ಚಿತ್ರಗಳು/ಪಿಡಿಎಫ್ಗಳಿಂದ ಪಠ್ಯವನ್ನು ಪತ್ತೆ ಮಾಡುತ್ತದೆ ಮತ್ತು ಗುರುತಿಸುತ್ತದೆ.
- ಆ ಪಠ್ಯವನ್ನು ರಚನಾತ್ಮಕ ನಿರೂಪಣೆಗಳಾಗಿ ಸಾಮಾನ್ಯಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಕುಗ್ಗಿಸುತ್ತದೆ.
- ಕೆಳಗಿನ ಪ್ರಾಂಪ್ಟ್ಗಳಿಗೆ ಅನುಗುಣವಾಗಿ ಟೋಕನ್-ಸಮರ್ಥ ಔಟ್ಪುಟ್ಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ.
ಫಲಿತಾಂಶ? ನಿಮ್ಮ LLM ಗಾಗಿ ಸಿಗ್ನಲ್-ಟು-ಶಬ್ದ ಅನುಪಾತವನ್ನು ಸುಧಾರಿಸುವಾಗ ನೀವು ಪ್ರತಿ ಪುಟಕ್ಕೆ ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ಖರ್ಚು ಮಾಡುತ್ತೀರಿ.
---
ಡಾಕ್ಯುಮೆಂಟ್ಗಳಲ್ಲಿ ಟೋಕನ್ಗಳು ಏಕೆ ನಿಯಂತ್ರಣ ತಪ್ಪುತ್ತವೆ
ಹೆಚ್ಚಿನ ತಂಡಗಳು ಒಂದು ನಿಷ್ಕಪಟ ವಿಧಾನದೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸುತ್ತವೆ: ಪಿಡಿಎಫ್ಗಳನ್ನು ಪಠ್ಯಕ್ಕೆ ಪರಿವರ್ತಿಸಿ ಮತ್ತು ಎಲ್ಲವನ್ನೂ ಪ್ರಾಂಪ್ಟ್ಗೆ ತಳ್ಳಿರಿ. ಅಲ್ಲಿ ವೆಚ್ಚಗಳು ಸ್ಫೋಟಗೊಳ್ಳುತ್ತವೆ. ಅದಕ್ಕೆ ಕಾರಣಗಳು ಇಲ್ಲಿವೆ:
- ಲೇಔಟ್ ಉಬ್ಬು: ಹೆಡರ್ಗಳು, ಫೂಟರ್ಗಳು, ಪುಟ ಸಂಖ್ಯೆಗಳು, ವಾಟರ್ಮಾರ್ಕ್ಗಳು ಮತ್ತು ನಕಲಿ ವಿಷಯ ಟೋಕನ್ಗಳನ್ನು ತಿನ್ನುತ್ತವೆ.
- ಹೆಚ್ಚುವರಿ ಶಬ್ದಾರ್ಥಗಳು: ಅದೇ ಮಾರಾಟಗಾರರ ಹೆಸರು ಪ್ರತಿ ಪುಟದಲ್ಲಿ ಕಾಣಿಸಿಕೊಳ್ಳುತ್ತದೆ; ಸಾಲಿನ ಐಟಂಗಳು ಲೇಬಲ್ಗಳನ್ನು ಪುನರಾವರ್ತಿಸುತ್ತವೆ.
- ಕಡಿಮೆ-ಮೌಲ್ಯದ ಪಠ್ಯ: ಕಾನೂನು ನಿಬಂಧನೆಗಳು, ಟೇಬಲ್ ಗಡಿಗಳು, ಅಥವಾ OCR ಶಬ್ದ.
- ಅಪ್ರಸ್ತುತ ಪ್ರದೇಶಗಳು: ನಿಮ್ಮ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸದ ಲೋಗೊಗಳು, ಸ್ಟಾಂಪ್ಗಳು, ಸಹಿಗಳು.
DeepSeek-OCR ಈ ಪ್ರತಿಯೊಂದು ಪದರಗಳ ಮೇಲೆ ಗುರಿಯಾಗಿಸಿದ ಸಂಕೋಚನದೊಂದಿಗೆ ದಾಳಿ ಮಾಡುತ್ತದೆ.
---
20 ಪಟ್ಟು ಟೋಕನ್ ಕಡಿತದ ಹಿಂದಿನ ಐದು ಲಿವರ್ಗಳು
ಒಂದೇ ತಂತ್ರಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ, DeepSeek-OCR ಅನೇಕ ತಂತ್ರಗಳನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ. ನಿಖರವಾದ ಸ್ಟಾಕ್ ಅನುಷ್ಠಾನದ ಮೂಲಕ ಬದಲಾಗುತ್ತದೆ, ಆದರೆ ಇವುಗಳು ಸೂಜಿಯನ್ನು ಚಲಿಸುವ ಪ್ರಮುಖ ಲಿವರ್ಗಳಾಗಿವೆ.
1) ಪ್ರದೇಶ-ಅರಿವಿನ ಹೊರತೆಗೆಯುವಿಕೆ: ನೀವು ಬಳಸದನ್ನು ಓದಬೇಡಿ
- ದೃಶ್ಯ ವಿಭಾಗವು ಪಠ್ಯ ಬ್ಲಾಕ್ಗಳು, ಟೇಬಲ್ಗಳು ಮತ್ತು ಪ್ರಮುಖ-ಮೌಲ್ಯ ವಲಯಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸುತ್ತದೆ.
- ಅಪ್ರಸ್ತುತ ಪ್ರದೇಶಗಳನ್ನು (ಲೋಗೊಗಳು, ಅಲಂಕಾರಿಕ ಹೆಡರ್ಗಳು) ಫಿಲ್ಟರ್ ಮಾಡಲಾಗುತ್ತದೆ.
- ಕೆಳಗಿನ ಪ್ರಾಂಪ್ಟ್ಗಳು ಆಯ್ದ ಪ್ರದೇಶಗಳನ್ನು ಮಾತ್ರ ವಿನಂತಿಸಬಹುದು, ಉದಾಹರಣೆಗೆ, "ಐಟಂಗಳ ಟೇಬಲ್", "ಬಿಲ್ಲಿಂಗ್ ವಿಳಾಸ", "ಒಟ್ಟು".
ಫಲಿತಾಂಶ: ಉತ್ತರವಲ್ಲದ ಪ್ರದೇಶಗಳನ್ನು ಹೊರಗಿಡುವ ಮೂಲಕ 2–5× ಕಡಿತ.
2) ರಚನೆ-ಮೊದಲ ಸಾಮಾನ್ಯೀಕರಣ: ಲೇಔಟ್ ಅನ್ನು ಅರ್ಥಕ್ಕೆ ಸಂಕುಚಿತಗೊಳಿಸಿ
- ಕಚ್ಚಾ ಮಲ್ಟಿ-ಲೈನ್ ಪಠ್ಯದ ಬದಲು, DeepSeek-OCR ರಚನಾತ್ಮಕ JSON ಅಥವಾ ಕಾಂಪ್ಯಾಕ್ಟ್ ಸ್ಕೀಮಾಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ.
- ಉದಾಹರಣೆಗಳು: ಪ್ರಮುಖ-ಮೌಲ್ಯ ನಕ್ಷೆಗಳು, ಟೇಬಲ್ ಸಾಲುಗಳು ಶ್ರೇಣಿಗಳಂತೆ, ಐಡಿಗಳೊಂದಿಗೆ ಕ್ರಮಾನುಗತ ವಿಭಾಗಗಳು.
- ಐಚ್ಛಿಕ ಪ್ರಮಾಣೀಕರಣ (ದಿನಾಂಕ ಸ್ವರೂಪಗಳು, ಕರೆನ್ಸಿ ಕೋಡ್ಗಳು) ಟೋಕನ್-ಭಾರೀ ವ್ಯತ್ಯಾಸಗಳನ್ನು ತೆಗೆದುಹಾಕುತ್ತದೆ.
ಫಲಿತಾಂಶ: ಲೇಔಟ್ ಅನ್ನು ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಪ್ರತಿನಿಧಿಸುವ ಮೂಲಕ 3–8× ಕಡಿತ.
3) ಡಿಡ್ಯೂಪ್ಲಿಕೇಶನ್ ಮತ್ತು ಪ್ರಮಾಣಿತ ಘಟಕಗಳು: ಒಂದು ಐಡಿ, ಅನೇಕ ಉಲ್ಲೇಖಗಳು
- ಪುನರಾವರ್ತಿತ ಘಟಕಗಳು (ಕಂಪನಿಯ ಹೆಸರು, ವಿಳಾಸಗಳು, ಪಾಲಿಸಿ ಗುರುತಿಸುವಿಕೆಗಳು) ಒಂದೇ ಪ್ರಮಾಣಿತ ನಮೂದಿಗೆ ನಕ್ಷೆಯಾಗುತ್ತವೆ.
- ಉಲ್ಲೇಖಗಳು ದೀರ್ಘ ಸ್ಟ್ರಿಂಗ್ಗಳ ಬದಲು ಚಿಕ್ಕ ಐಡಿಗಳಾಗುತ್ತವೆ.
ಫಲಿತಾಂಶ: ಪುನರಾವರ್ತಿತ ದಾಖಲೆಗಳಲ್ಲಿ 1.5–3× ಕಡಿತ.
4) ವಿಷಯ-ಅರಿವಿನ ಸಾರಾಂಶ: ಸತ್ಯಗಳನ್ನು ಇರಿಸಿ, ಅನಗತ್ಯವನ್ನು ಬಿಡಿ
- ಕ್ಷೇತ್ರ-ಮಟ್ಟದ ಸಾರಾಂಶಗಳು ವಾಕ್ಚಾತುರ್ಯದ ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳನ್ನು ವಾಸ್ತವಿಕ ಹೇಳಿಕೆಗಳಾಗಿ ಸಂಕುಚಿತಗೊಳಿಸುತ್ತವೆ.
- ಡೊಮೇನ್-ಟ್ಯೂನ್ಡ್ ಮಾದರಿಗಳು (ಉದಾಹರಣೆಗೆ, ವಿಮೆ, ಲಾಜಿಸ್ಟಿಕ್ಸ್, ಹಣಕಾಸು) ಅನುಸರಣೆ-ನಿರ್ಣಾಯಕ ವಿವರಗಳನ್ನು ಸಂರಕ್ಷಿಸುತ್ತವೆ.
ಫಲಿತಾಂಶ: ವಾಕ್ಚಾತುರ್ಯವನ್ನು ಅವಲಂಬಿಸಿ 2–6× ಕಡಿತ.
5) ಟೋಕನ್-ಆಪ್ಟಿಮಲ್ ಸೀರಿಯಲೈಸೇಶನ್: LLM ಗಳು ಅಗ್ಗವಾಗಿ ಪಾರ್ಸ್ ಮಾಡುವ ಸ್ವರೂಪಗಳನ್ನು ಆರಿಸಿ
- ಸಣ್ಣ ಕೀಲಿಗಳೊಂದಿಗೆ ಕಾಂಪ್ಯಾಕ್ಟ್ JSON, ಅಥವಾ ಸ್ಕೀಮಾ-ಮಾರ್ಗದರ್ಶಿತ ಟಪಲ್ಗಳು.
- ವಾಕ್ಚಾತುರ್ಯದ YAML, ಅತಿಯಾದ ವೈಟ್ಸ್ಪೇಸ್ ಮತ್ತು ದೀರ್ಘ ನೆಸ್ಟೆಡ್ ಲೇಬಲ್ಗಳನ್ನು ತಪ್ಪಿಸುತ್ತದೆ.
- ಸ್ಥಿರ ಕ್ಷೇತ್ರ ಕ್ರಮವು ಬ್ಯಾಚ್ಗಳಾದ್ಯಂತ ಪ್ರಾಂಪ್ಟ್ ಓವರ್ಹೆಡ್ ಅನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ.
ಫಲಿತಾಂಶ: ಶುದ್ಧ ಫಾರ್ಮ್ಯಾಟಿಂಗ್ ಶಿಸ್ತಿನಿಂದ 1.2–2× ಕಡಿತ.
ಒಟ್ಟಿಗೆ ಜೋಡಿಸಿದಾಗ, ಈ ಲಿವರ್ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಗೊಂದಲಮಯ ಪಿಡಿಎಫ್ಗಳಲ್ಲಿ 10× ಅನ್ನು ದಾಟುತ್ತವೆ ಮತ್ತು ಮಲ್ಟಿ-ಪುಟ ಫಾರ್ಮ್ಗಳು, ಇನ್ವಾಯ್ಸ್ಗಳು ಮತ್ತು ದಟ್ಟವಾದ ವರದಿಗಳಲ್ಲಿ 20× ಅನ್ನು ತಲುಪಬಹುದು, ವಿಶೇಷವಾಗಿ ಟೇಬಲ್ಗಳು ಮೇಲುಗೈ ಸಾಧಿಸಿದಾಗ.
---
ಪ್ರಾಯೋಗಿಕವಾಗಿ ಪೈಪ್ಲೈನ್ ಹೇಗಿರುತ್ತದೆ?
ಪ್ರಾಯೋಗಿಕ, ಪರಿಹಾರ-ಆಧಾರಿತ ಹರಿವಿನ ಮೂಲಕ ನಡೆಯೋಣ. ನೀವು DeepSeek-OCR ಅನ್ನು ಆನ್-ಪ್ರೆಮ್ ಅಥವಾ API ಮೂಲಕ ರನ್ ಮಾಡಿದರೂ ಇದನ್ನು ನಿಮ್ಮ ಇನ್ಫ್ರಾಗೆ ಹೊಂದಿಕೊಳ್ಳಬಹುದು.
- ಇನ್ಪುಟ್: ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪಿಡಿಎಫ್, ಚಿತ್ರ ಅಥವಾ ಹೈಬ್ರಿಡ್ ಪಿಡಿಎಫ್.
- ಕ್ರಮಗಳು: ಪುಟ ಪತ್ತೆ → ಪ್ರದೇಶ ಪ್ರಸ್ತಾಪಗಳು → ಪಠ್ಯ ಬ್ಲಾಕ್ ಮತ್ತು ಟೇಬಲ್ ಪತ್ತೆ → ಶಬ್ದ ಫಿಲ್ಟರಿಂಗ್.
- ಔಟ್ಪುಟ್: ಕಕ್ಷೆಗಳು ಮತ್ತು ಪ್ರಕಾರಗಳೊಂದಿಗೆ ಪ್ರದೇಶ ನಕ್ಷೆ (ಹೆಡರ್/ಬಾಡಿ/ಫೂಟರ್, ಪ್ಯಾರಾಗ್ರಾಫ್/ಟೇಬಲ್, ಲೋಗೊ/ಸಹಿ).
- ಕಾಗುಣಿತ ಪಕ್ಷಪಾತ ತಿದ್ದುಪಡಿಗಾಗಿ ಭಾಷಾ ಮಾದರಿಗಳೊಂದಿಗೆ ಹೆಚ್ಚಿನ-ನಿಖರತೆಯ OCR.
- ಲೈನ್ ವಿಲೀನ, ಕಾಲಮ್ ಜೋಡಣೆ ಮತ್ತು ಟೇಬಲ್ ಸೆಲ್ ಸಂಯೋಜನೆ.
- ಔಟ್ಪುಟ್: ಪಠ್ಯ ನೋಡ್ಗಳು + ಕಕ್ಷೆಗಳಿಗೆ ಲಂಗರು ಹಾಕಲಾದ ಟೇಬಲ್ ರಚನೆಗಳು.
- ಪ್ರತಿ ಡಾಕ್ಯುಮೆಂಟ್ ವರ್ಗಕ್ಕೆ ಸ್ಕೀಮಾವನ್ನು ಆಯ್ಕೆಮಾಡಿ: ಇನ್ವಾಯ್ಸ್, ರಸೀದಿ, ಸರಕುಪಟ್ಟಿ, ವೈದ್ಯಕೀಯ ಟಿಪ್ಪಣಿ.
- ಎಡ್ಜ್ ಕೇಸ್ಗಳಿಗಾಗಿ ರೆಜೆಕ್ಸ್ + ವರ್ಗೀಕರಣ + LLM ಫಾಲ್ಬ್ಯಾಕ್ನೊಂದಿಗೆ ಕ್ಷೇತ್ರಗಳನ್ನು ಹೊರತೆಗೆಯಿರಿ.
- ಔಟ್ಪುಟ್: ಸಣ್ಣ, ಸ್ಥಿರ ಕೀಲಿಗಳೊಂದಿಗೆ ಕಾಂಪ್ಯಾಕ್ಟ್ JSON (ಉದಾಹರಣೆಗೆ, inv_id, issue_dt, due_dt, vendor_id, items[]).
- ಡಿಡ್ಯೂಪ್ಲಿಕೇಟ್ ಮತ್ತು ಪ್ರಮಾಣೀಕರಿಸಿ
- ಮಾರಾಟಗಾರರ ಹೆಸರುಗಳು/ವಿಳಾಸಗಳನ್ನು ಪ್ರಮಾಣಿತ ಐಡಿಗಳಿಗೆ ಮ್ಯಾಪ್ ಮಾಡಿ.
- ಕರೆನ್ಸಿಗಳು, ದಿನಾಂಕಗಳು, ಘಟಕಗಳನ್ನು ಸಾಮಾನ್ಯಗೊಳಿಸಿ; ಸಾಮಾನ್ಯ ನಿಬಂಧನೆಗಳ ವಿಭಾಗಗಳನ್ನು ತೆಗೆದುಹಾಕಿ.
- ಸಂಕುಚಿತಗೊಳಿಸಿ ಮತ್ತು ಸರಣೀಕರಿಸಿ
- ಐಚ್ಛಿಕ: ದೀರ್ಘ ಟಿಪ್ಪಣಿಗಳಿಗಾಗಿ ವಿಷಯ-ಅರಿವಿನ ಸಾರಾಂಶ.
- ಟೋಕನ್-ಅಗ್ಗದ ಸರಣೀಕರಣವನ್ನು ಜಾರಿಗೊಳಿಸಿ (ಬಿಗಿಯಾದ JSON, ಆರ್ಡರ್ ಮಾಡಿದ ಕೀಲಿಗಳು).
- ಕನಿಷ್ಠ, ಪ್ರಶ್ನೆ-ಜೋಡಿಸಲಾದ ಸಂದರ್ಭ ವಿಂಡೋವನ್ನು ಒದಗಿಸಿ.
- ಕಾರ್ಯ/ಉಪಕರಣ ಸ್ಕೀಮಾದ ಮೂಲಕ ಪ್ರಾಂಪ್ಟ್ಗೆ ಸಂಬಂಧಿಸಿದ ಕ್ಷೇತ್ರಗಳನ್ನು ಮಾತ್ರ ಹಿಂಪಡೆಯಿರಿ.
ಇದು ಟೋಕನ್ ಉಳಿತಾಯವು ಸಂಯುಕ್ತವಾಗುವ ಕ್ಷಣವಾಗಿದೆ, ಏಕೆಂದರೆ ನೀವು ಇನ್ನು ಮುಂದೆ ಮಾದರಿಗೆ ಸಂಪೂರ್ಣ ಡಾಕ್ಯುಮೆಂಟ್ ಅನ್ನು ಮರು-ವಿವರಿಸಲು ಪಾವತಿಸುತ್ತಿಲ್ಲ - ನೀವು ಅದನ್ನು ಅಗ್ಗದ ರೂಪದಲ್ಲಿ ಅಗತ್ಯವಿರುವದನ್ನು ಮಾತ್ರ ತಲುಪಿಸುತ್ತಿದ್ದೀರಿ.
---
ಉದಾಹರಣೆ: 5-ಪುಟದ ಇನ್ವಾಯ್ಸ್ ಅನ್ನು 20 ಪಟ್ಟು ಕಡಿಮೆ ಟೋಕನ್ಗಳಾಗಿ ಪರಿವರ್ತಿಸುವುದು
ಬೇಸ್ಲೈನ್ (ನಿಷ್ಕಪಟ)
- OCR ಮಾಡಿದ ಪಠ್ಯದ 5 ಪುಟಗಳು → ಹೆಡರ್ಗಳು, ಫೂಟರ್ಗಳು, ಟೇಬಲ್ಗಳು, ಕಾನೂನು ಟಿಪ್ಪಣಿಗಳು ಸೇರಿದಂತೆ ~9,000–12,000 ಟೋಕನ್ಗಳು.
- ಪ್ರಾಂಪ್ಟ್ ಕೇಳುತ್ತದೆ: "ಒಟ್ಟು ಬಾಕಿ, ನ್ಯಾಯವ್ಯಾಪ್ತಿಯಿಂದ ತೆರಿಗೆಗಳು ಮತ್ತು ಯಾವುದೇ ತಡವಾದ ಶುಲ್ಕಗಳು ಯಾವುವು?"
- ಮಾದರಿಯು ಅಪ್ರಸ್ತುತ ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳಲ್ಲಿ ಸಂದರ್ಭವನ್ನು ವ್ಯರ್ಥ ಮಾಡುತ್ತದೆ.
DeepSeek-OCR ಸಂಕೋಚನದೊಂದಿಗೆ
- ಪ್ರದೇಶ ಫಿಲ್ಟರಿಂಗ್ ಹೆಡರ್/ಫೂಟರ್ ವಾಟರ್ಮಾರ್ಕ್ಗಳು, ಸಾಮಾನ್ಯ ನಿಬಂಧನೆಗಳ ನಿಯಮಗಳು ಮತ್ತು ನಕಲಿ ಮಾರಾಟಗಾರರ ವಿವರಗಳನ್ನು ತೆಗೆದುಹಾಕುತ್ತದೆ.
- ಟೇಬಲ್ ಹೊರತೆಗೆಯುವಿಕೆಯು items[] ಅನ್ನು 50 ಸಾಲುಗಳು × 6 ಕಾಲಮ್ಗಳಾಗಿ ಔಟ್ಪುಟ್ ಮಾಡುತ್ತದೆ → 300 ಕಾಂಪ್ಯಾಕ್ಟ್ ಸೆಲ್ಗಳು, 1,500+ ಪದಗಳಲ್ಲ.
- ಪ್ರಮಾಣೀಕರಣವು ಘಟಕ ಸ್ಟ್ರಿಂಗ್ಗಳನ್ನು ಕುಗ್ಗಿಸುತ್ತದೆ; ಡಿಡ್ಯೂಪ್ ಮಾಡಿದ ವಿಳಾಸಗಳನ್ನು ಒಮ್ಮೆ ಉಲ್ಲೇಖಿಸಲಾಗಿದೆ.
- ಅಂತಿಮ ಸಂದರ್ಭ: ~450–600 ಟೋಕನ್ಗಳು.
ಫಲಿತಾಂಶ
- ವೇಗವಾದ ಲೇಟೆನ್ಸಿ, ಕಡಿಮೆ ವೆಚ್ಚ ಮತ್ತು ಗುರಿಯಾಗಿಸಿದ ಪ್ರಶ್ನೆಗಳಲ್ಲಿ ಹೆಚ್ಚಿನ ನಿಖರತೆ ಏಕೆಂದರೆ ಶಬ್ದವನ್ನು ತೆಗೆದುಹಾಕಲಾಗಿದೆ.
---
DeepSeek-OCR ಎಲ್ಲಿ ಪ್ರಕಾಶಿಸುತ್ತದೆ (ಮತ್ತು ಎಲ್ಲಿ ಅಲ್ಲ)
ಸಾಮರ್ಥ್ಯಗಳು
- ರಚನಾತ್ಮಕ ವ್ಯಾಪಾರ ದಾಖಲೆಗಳು: ಇನ್ವಾಯ್ಸ್ಗಳು, ರಸೀದಿಗಳು, PO ಗಳು, ಶಿಪ್ಪಿಂಗ್ ಲೇಬಲ್ಗಳು, ಬ್ಯಾಂಕ್ ಸ್ಟೇಟ್ಮೆಂಟ್ಗಳು.
- ಮಲ್ಟಿ-ಪುಟ ಸ್ಥಿರತೆ: ಪುನರಾವರ್ತಿತ ವಿಭಾಗಗಳು ಚೆನ್ನಾಗಿ ಸಂಕುಚಿತಗೊಳ್ಳುತ್ತವೆ.
- ಟೇಬಲ್-ಭಾರೀ ವಿಷಯ: ಗದ್ಯದ ಮೇಲೆ ಶ್ರೇಣಿಗಳೊಂದಿಗೆ ದೊಡ್ಡ ಟೋಕನ್ ಉಳಿತಾಯ.
- RAG ಪೈಪ್ಲೈನ್ಗಳು: ಪೂರ್ವ-ಸಾಮಾನ್ಯಗೊಳಿಸಿದ ತುಣುಕುಗಳು ಹಿಂಪಡೆಯುವಿಕೆಯ ನಿಖರತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತವೆ.
ಮಿತಿಗಳು
- ಕೈಬರಹ, ಹೆಚ್ಚು ಶೈಲೀಕೃತ ಪಠ್ಯ: ಗುರುತಿಸುವಿಕೆಯ ಗುಣಮಟ್ಟ ಎಲ್ಲವನ್ನೂ ಚಾಲನೆ ಮಾಡುತ್ತದೆ.
- ಕಾನೂನು ಅಭಿಪ್ರಾಯಗಳು/ವೈದ್ಯಕೀಯ ನಿರೂಪಣೆಗಳು: ಭಾರೀ ಸಾರಾಂಶವು ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸ ನಷ್ಟದ ಅಪಾಯವನ್ನುಂಟುಮಾಡುತ್ತದೆ; ಹೆಚ್ಚಿನ-ನಿಷ್ಠೆಯ ವಿಧಾನಗಳನ್ನು ಪರಿಗಣಿಸಿ.
- ಸಾಲು-ವ್ಯಾಪ್ತಿ/ಕಾಲಮ್-ವ್ಯಾಪ್ತಿಯೊಂದಿಗೆ ಸಂಕೀರ್ಣ ಟೇಬಲ್ಗಳು: ಎಚ್ಚರಿಕೆಯಿಂದ ಸೆಲ್ ಮ್ಯಾಪಿಂಗ್ ಮತ್ತು QA ಅಗತ್ಯವಿದೆ.
ತಗ್ಗಿಸುವಿಕೆಗಳು
- ಖಚಿತವಿಲ್ಲದಿದ್ದಾಗ ವಿಶ್ವಾಸದ ಮಿತಿಗಳನ್ನು ಬಳಸಿ ಮತ್ತು ಚಿತ್ರ ಕ್ರಾಪ್ಗಳಿಗೆ ಫಾಲ್ಬ್ಯಾಕ್ ಮಾಡಿ.
- ದ್ವಿಗುಣ ವಿಧಾನಗಳನ್ನು ಇರಿಸಿ: ಕಾಂಪ್ಯಾಕ್ಟ್ ಶಬ್ದಾರ್ಥ ನೋಟ ಮತ್ತು ಬೇಡಿಕೆಯ ಮೇರೆಗೆ ಹೆಚ್ಚಿನ-ನಿಷ್ಠೆಯ ನೋಟ.
- ಕ್ಷೇತ್ರ ಸ್ಕೀಮಾಗಳು ಮತ್ತು ದೃಶ್ಯ ಕಕ್ಷೆಗಳ ನಡುವಿನ ಜೋಡಣೆಯನ್ನು ಪತ್ತೆಹಚ್ಚುವಿಕೆಗಾಗಿ ಲಾಗ್ ಮಾಡಿ.
---
ನಿಮ್ಮ LLM ಸ್ಟಾಕ್ನೊಂದಿಗೆ DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಸಂಯೋಜಿಸುವುದು
ನೀವು ಇಂದು ಅನುಸರಿಸಬಹುದಾದ ಪ್ರಶ್ನೆ-ನೇತೃತ್ವದ ಮಾರ್ಗದರ್ಶಿ.
ಬಳಕೆದಾರರು ಏನು ಕೇಳುತ್ತಿದ್ದಾರೆ?
- ಸಮಯಕ್ಕೆ ಮುಂಚಿತವಾಗಿ ಕಾರ್ಯ ವರ್ಗಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿ: ಒಟ್ಟು ಹೊರತೆಗೆಯುವಿಕೆ, ಲೈನ್-ಐಟಂ QA, ಘಟಕ ಹೊಂದಾಣಿಕೆ.
- ಪ್ರತಿ ಕಾರ್ಯವನ್ನು ಕನಿಷ್ಠ ಸಂದರ್ಭಕ್ಕೆ ಮ್ಯಾಪ್ ಮಾಡಿ: ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸುವ ಕೆಲವು ಕ್ಷೇತ್ರಗಳು.
ನಾವು OCR ಔಟ್ಪುಟ್ ಅನ್ನು ಹೇಗೆ ಸಂಗ್ರಹಿಸುತ್ತೇವೆ?
- ಎರಡನ್ನೂ ಸಂಗ್ರಹಿಸಿ: (1) ಕಾಂಪ್ಯಾಕ್ಟ್ ಶಬ್ದಾರ್ಥ JSON ಮತ್ತು (2) ಪರಿಶೀಲನೆಗಾಗಿ ಐಚ್ಛಿಕ ಕಚ್ಚಾ ಪಠ್ಯ ಅಥವಾ ಪುಟ ಕ್ರಾಪ್ಗಳು.
- ಪ್ರತಿ ಕರೆಯಲ್ಲಿ ಟೋಕನ್ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಣ್ಣ ಕೀಲಿಗಳನ್ನು ಮತ್ತು ಸ್ಥಿರ ಆದೇಶವನ್ನು ಬಳಸಿ.
ನಮಗೆ ಅಗತ್ಯವಿರುವದನ್ನು ಮಾತ್ರ ನಾವು ಹೇಗೆ ಹಿಂಪಡೆಯುವುದು?
- ಉಪಕರಣ/ಕಾರ್ಯ ಸ್ಕೀಮಾದಲ್ಲಿ ನಿಮ್ಮ LLM ಕರೆಯನ್ನು ಸುತ್ತಿಕೊಳ್ಳಿ ಆದ್ದರಿಂದ ಮಾದರಿಯು ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರಗಳನ್ನು ಮಾತ್ರ ಪಡೆಯುತ್ತದೆ.
- ಉದಾಹರಣೆ ಉಪಕರಣ ಆರ್ಗ್ಗಳು: ಒಟ್ಟು, taxes_by_region[], outstanding_balance, due_date, items[sku, qty, unit_price].
ಗುಣಮಟ್ಟವನ್ನು ನಾವು ಹೇಗೆ ಹೆಚ್ಚಾಗಿ ಇಟ್ಟುಕೊಳ್ಳುವುದು?
- ಪ್ರತಿ ಕ್ಷೇತ್ರಕ್ಕೆ ವಿಶ್ವಾಸ ಸ್ಕೋರ್ಗಳನ್ನು ಸೇರಿಸಿ; ಮಾನವ ಪರಿಶೀಲನೆಗೆ ಮಿತಿಗಳನ್ನು ಹೊಂದಿಸಿ.
- ಲೆಕ್ಕಪರಿಶೋಧನೆಗಾಗಿ ಪುಟ ಕಕ್ಷೆಗಳಿಗೆ ಹಿಂತಿರುಗುವ ಲಿಂಕ್ಗಳನ್ನು ಇರಿಸಿ.
- ವಿಭಿನ್ನ ಪರೀಕ್ಷೆಗಳನ್ನು ರನ್ ಮಾಡಿ: ಎರಡು ಸ್ವತಂತ್ರ ಎಕ್ಸ್ಟ್ರಾಕ್ಟರ್ಗಳಿಂದ ಒಟ್ಟು ಮೊತ್ತವನ್ನು ಹೋಲಿಕೆ ಮಾಡಿ.
---
20× ಅನ್ನು ಅಳೆಯುವುದು: ಏನು ಟ್ರ್ಯಾಕ್ ಮಾಡಬೇಕು
- ಪ್ರತಿ ಪುಟಕ್ಕೆ ಟೋಕನ್ಗಳು (ಮೊದಲು ವಿರುದ್ಧ ನಂತರ): ನಿಮ್ಮ ಪ್ರಮುಖ KPI.
- ಪ್ರತಿ ಪ್ರಶ್ನೆಗೆ ಲೇಟೆನ್ಸಿ: ಟೋಕನ್ಗಳೊಂದಿಗೆ ಕಡಿತಗಳು ರೇಖಾತ್ಮಕವಾಗಿರಬೇಕು, ಕಡಿಮೆ ಪಾರ್ಸಿಂಗ್ನಿಂದಾಗಿ ಹೆಚ್ಚಾಗಿ ಉತ್ತಮವಾಗಿರುತ್ತದೆ.
- ಗುರಿ ಪ್ರಶ್ನೆಗಳ ಮೇಲೆ ನಿಖರತೆ: ಸರಿಪಡಿಸುವಿಕೆಯನ್ನು ವ್ಯಾಪಾರ ಮಾಡಬೇಡಿ.
- ಮಾನವ-ಲೂಪ್ ದರ: ವಿಶ್ವಾಸ ಸುಧಾರಿಸಿದಂತೆ ಕಾಲಾನಂತರದಲ್ಲಿ ಕಡಿಮೆ ಮಾಡಲು ಗುರಿಮಾಡಿ.
ಸಲಹೆ: ನಿಮ್ಮ ಟಾಪ್ ಮೂರು ಟೆಂಪ್ಲೇಟ್ಗಳಾದ್ಯಂತ 100-ಡಾಕ್ಯುಮೆಂಟ್ ಮಾನದಂಡವನ್ನು ರನ್ ಮಾಡಿ. ಪ್ರತಿ ಕಾರ್ಯಪ್ರವಾಹಕ್ಕೆ ಬಜೆಟ್ ಅನ್ನು ಸ್ಥಾಪಿಸಿ (ಉದಾಹರಣೆಗೆ, ಪ್ರತಿ ಡಾಕ್ಯುಮೆಂಟ್ ಪ್ರಶ್ನೆಗೆ <$0.01) ಮತ್ತು ನೀವು ಅದನ್ನು ಹೊಡೆಯುವವರೆಗೆ ಪುನರಾವರ್ತಿಸಿ.
---
ವೆಚ್ಚದ ಮಾದರಿ: ಹಣಕಾಸು ಸೈನ್-ಆಫ್ಗಾಗಿ ಒರಟು ಗಣಿತ
- ಬೇಸ್ಲೈನ್: ಪ್ರತಿ ಡಾಕ್ಯುಮೆಂಟ್ಗೆ 10,000 ಟೋಕನ್ಗಳು $X/1M ಟೋಕನ್ಗಳಲ್ಲಿ → ಪ್ರತಿ 1,000 ಟೋಕನ್ಗಳಿಗೆ $0.01 → ಪ್ರತಿ ಡಾಕ್ಗೆ $0.10.
- ಸಂಕೋಚನದ ನಂತರ: 500 ಟೋಕನ್ಗಳು → ಪ್ರತಿ ಡಾಕ್ಗೆ $0.005.
- ಪ್ರತಿ ತಿಂಗಳು 100k ಡಾಕ್ಯುಮೆಂಟ್ಗಳಲ್ಲಿ: $10,000 ದಿಂದ $500 - 95% ಕಡಿತ, ಲೇಟೆನ್ಸಿ ಉಳಿತಾಯ ಮತ್ತು ಕಡಿಮೆ ಮರುಪ್ರಯತ್ನಗಳ ಮೊದಲು.
ಸಂಖ್ಯೆಗಳು ಪೂರೈಕೆದಾರರ ಮೂಲಕ ಬದಲಾಗುತ್ತವೆ, ಆದರೆ ದಿಕ್ಕು ಹಿಡಿದಿರುತ್ತದೆ: ಮೊದಲು ಸಂಕುಚಿತಗೊಳಿಸಿ, ನಂತರ ಕೇಳಿ.
---
ಸಾಮಾನ್ಯ ತೊಂದರೆಗಳು (ಮತ್ತು ತ್ವರಿತ ಪರಿಹಾರಗಳು)
- ಅತಿಯಾದ ಸಾರಾಂಶ: ನಿಯಂತ್ರಕ ನಿಯಮಗಳನ್ನು ಕಳೆದುಕೊಳ್ಳುವುದು. ಪರಿಹಾರ: ಇಟ್ಟುಕೊಳ್ಳಬೇಕಾದ ನುಡಿಗಟ್ಟುಗಳು ಮತ್ತು ವಿಭಾಗಗಳನ್ನು ವೈಟ್ಲಿಸ್ಟ್ ಮಾಡಿ.
- ಸ್ಕೀಮಾ ಡ್ರಿಫ್ಟ್: ಕಾಲಾನಂತರದಲ್ಲಿ ಕೀಲಿಗಳು ಬದಲಾಗುತ್ತವೆ. ಪರಿಹಾರ: ನಿಮ್ಮ ಸ್ಕೀಮಾವನ್ನು ಆವೃತ್ತಿ ಮಾಡಿ; ಅಪರಿಚಿತ ಕ್ಷೇತ್ರಗಳನ್ನು ತಿರಸ್ಕರಿಸಿ.
- ಟೇಬಲ್ ತಪ್ಪಾದ ಜೋಡಣೆ: ಆಫ್-ಬೈ-ಒಂದು ಸೆಲ್ ದೋಷಗಳು. ಪರಿಹಾರ: ದೃಶ್ಯ ಕ್ರಾಸ್-ಚೆಕ್ಗಳು ಮತ್ತು ಒಟ್ಟು-ಮರುಲೆಕ್ಕಿಸುವ ಮೌಲ್ಯಮಾಪಕರು.
- ಪ್ರಾಂಪ್ಟ್ ಉಬ್ಬು: ವಾಕ್ಚಾತುರ್ಯದ ಸಿಸ್ಟಮ್ ಪ್ರಾಂಪ್ಟ್ಗಳು ನಿಮ್ಮ ಉಳಿತಾಯವನ್ನು ಸರಿದೂಗಿಸುತ್ತದೆ. ಪರಿಹಾರ: ಟೆಂಪ್ಲೇಟ್ ಮಿನಿಮಲಿಸಂ ಮತ್ತು ಉಪಕರಣ ಸ್ಕೀಮಾಗಳು.
---
ನೀವು ಈ ವಾರ ಕಾರ್ಯಗತಗೊಳಿಸಬಹುದಾದ ನೈಜ-ಪ್ರಪಂಚದ ಸನ್ನಿವೇಶಗಳು
- ಹಣಕಾಸು ಕಾರ್ಯಾಚರಣೆಗಳು: 20× ಕಡಿಮೆ ಟೋಕನ್ಗಳೊಂದಿಗೆ ಇನ್ವಾಯ್ಸ್ ಮೊತ್ತಗಳು ಮತ್ತು ತೆರಿಗೆಗಳನ್ನು ಸ್ವಯಂ-ಮೌಲ್ಯೀಕರಿಸಿ; ಪರಿಶೀಲನೆಗಾಗಿ ವೈಪರೀತ್ಯಗಳನ್ನು ಗುರುತಿಸಿ.
- ಲಾಜಿಸ್ಟಿಕ್ಸ್: ಸರಕುಪಟ್ಟಿಗಳಿಂದ ಕಂಟೇನರ್ ಐಡಿಗಳು, ಪೋರ್ಟ್ಗಳು ಮತ್ತು ದಿನಾಂಕಗಳನ್ನು ಹೊರತೆಗೆಯಿರಿ; ERP ವಿರುದ್ಧ ಸಮನ್ವಯಗೊಳಿಸಿ.
- ಆರೋಗ್ಯ ಆಡಳಿತ: ಹಕ್ಕು ತೀರ್ಮಾನಕ್ಕಾಗಿ EOB ಗಳನ್ನು ಪ್ರಮಾಣಿತ ಕ್ಷೇತ್ರಗಳಾಗಿ ಸಂಕುಚಿತಗೊಳಿಸಿ.
- ಚಿಲ್ಲರೆ ವ್ಯಾಪಾರ: ಲಾಯಲ್ಟಿ ಮತ್ತು ರಿಟರ್ನ್ಸ್ ಕಾರ್ಯಪ್ರವಾಹಗಳಿಗಾಗಿ ರಸೀದಿಗಳಿಂದ ಸಾಲಿನ ಐಟಂಗಳನ್ನು ಹೊರತೆಗೆಯಿರಿ.
---
ಗಮನಿಸಬೇಕಾದ ಅಂಶ: ಪೈಪ್ಲೈನ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಲು Sider.AI ಅನ್ನು ಬಳಸುವುದು
ನೀವು OCR, ಸಾಮಾನ್ಯೀಕರಣ ಮತ್ತು LLM ಕರೆಗಳನ್ನು ಒಟ್ಟಿಗೆ ಹೊಲಿಯುತ್ತಿದ್ದರೆ, ಆರ್ಕೆಸ್ಟ್ರೇಶನ್ ಮತ್ತು ಪುನರಾವರ್ತನೆಯ ವೇಗ ಮುಖ್ಯವಾಗಿದೆ. ಮೂಲಕ, Sider.AI ತಂಡಗಳು ಇದನ್ನು ಪುನರಾವರ್ತಿತ ಕಾರ್ಯಪ್ರವಾಹವಾಗಿ ಪರಿವರ್ತಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ: ನೀವು ವಿಭಿನ್ನ OCR ಸೆಟ್ಟಿಂಗ್ಗಳಲ್ಲಿ ಟೋಕನ್ ಬಳಕೆಯನ್ನು ಹೋಲಿಸಬಹುದು, ಸರಣೀಕರಣ ಸ್ವರೂಪಗಳಲ್ಲಿ A/B ಪರೀಕ್ಷೆಗಳನ್ನು ರನ್ ಮಾಡಬಹುದು ಮತ್ತು ಅಂಟು ಕೋಡ್ ಅನ್ನು ಪುನಃ ಬರೆಯದೆ ಮಾದರಿ ವೆಚ್ಚಗಳನ್ನು ಮಾನದಂಡವಾಗಿಸಬಹುದು. ಆ 20× ಟೋಕನ್ ಕಡಿತದ ಗುರಿಯಲ್ಲಿ ವೇಗವಾಗಿ ಒಮ್ಮುಖವಾಗುವುದು ಲಾಭವಾಗಿದೆ. ---
ಪ್ರಮುಖ ಅಂಶಗಳು
- DeepSeek-OCR ನ 20× ಟೋಕನ್ ಕಡಿತವು ಪ್ರದೇಶ ಫಿಲ್ಟರಿಂಗ್, ರಚನೆ-ಮೊದಲ ಸಾಮಾನ್ಯೀಕರಣ, ಡಿಡ್ಯೂಪ್ಲಿಕೇಶನ್, ಸ್ಮಾರ್ಟ್ ಸಾರಾಂಶ ಮತ್ತು ಟೋಕನ್-ಆಪ್ಟಿಮಲ್ ಸರಣೀಕರಣವನ್ನು ಜೋಡಿಸುವುದರಿಂದ ಬರುತ್ತದೆ.
- ಟೇಬಲ್-ಭಾರೀ, ಮಲ್ಟಿ-ಪುಟ ವ್ಯಾಪಾರ ದಾಖಲೆಗಳಲ್ಲಿ ಉಳಿತಾಯವು ದೊಡ್ಡದಾಗಿದೆ.
- ದ್ವಿಗುಣ ವೀಕ್ಷಣೆಗಳನ್ನು ಇರಿಸಿ: ಅಗ್ಗದ LLM ಕರೆಗಳಿಗಾಗಿ ಕಾಂಪ್ಯಾಕ್ಟ್ ಶಬ್ದಾರ್ಥ ಪದರ ಮತ್ತು ಲೆಕ್ಕಪರಿಶೋಧನೆಗಾಗಿ ಹೆಚ್ಚಿನ-ನಿಷ್ಠೆಯ ಫಾಲ್ಬ್ಯಾಕ್.
- ಸತತವಾಗಿ ಅಳೆಯಿರಿ: ಪ್ರತಿ ಪುಟಕ್ಕೆ ಟೋಕನ್ಗಳು, ನಿಖರತೆ ಮತ್ತು ಲೇಟೆನ್ಸಿ - ಮತ್ತು ನಿಮ್ಮ ಸ್ಕೀಮಾವನ್ನು ಪುನರಾವರ್ತಿಸಿ.
- ಪ್ರಮಾಣಕ್ಕಾಗಿ ಆರ್ಕೆಸ್ಟ್ರೇಟ್ ಮಾಡಿ: ಹಿಂಪಡೆಯುವಿಕೆ-ಜೋಡಿಸಲಾದ ಪ್ರಾಂಪ್ಟ್ಗಳು ಮತ್ತು ಉಪಕರಣ ಸ್ಕೀಮಾಗಳು ಉಳಿತಾಯವನ್ನು ಅಂಟಿಕೊಳ್ಳುವಂತೆ ಮಾಡುತ್ತದೆ.
---
ಮುಂದಿನ ಕ್ರಮಗಳು: ಕನಿಷ್ಠ ಅನುಷ್ಠಾನ ಯೋಜನೆ
- ನಿಮ್ಮ ಟಾಪ್ ಮೂರು ಡಾಕ್ಯುಮೆಂಟ್ ಪ್ರಕಾರಗಳನ್ನು ಗುರುತಿಸಿ ಮತ್ತು ಕಾಂಪ್ಯಾಕ್ಟ್ ಸ್ಕೀಮಾಗಳನ್ನು ವ್ಯಾಖ್ಯಾನಿಸಿ.
- ಪ್ರದೇಶ ವಿಭಾಗ ಮತ್ತು ಟೇಬಲ್ ಹೊರತೆಗೆಯುವಿಕೆಯೊಂದಿಗೆ DeepSeek-OCR ಅನ್ನು ಹೊಂದಿಸಿ.
- ಪ್ರಮಾಣೀಕರಣ ಮತ್ತು ಡಿಡ್ಯೂಪ್ಲಿಕೇಶನ್ ಅನ್ನು ಸೇರಿಸಿ; ಪ್ರತಿ ಕ್ಷೇತ್ರಕ್ಕೆ ವಿಶ್ವಾಸವನ್ನು ಲಾಗ್ ಮಾಡಿ.
- ಸಣ್ಣ ಕೀಲಿಗಳೊಂದಿಗೆ ಬಿಗಿಯಾದ JSON ಗೆ ಸರಣೀಕರಿಸಿ; ಸ್ಥಿರ ಆದೇಶವನ್ನು ಜಾರಿಗೊಳಿಸಿ.
- ನಿಮ್ಮ LLM ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಕಾರ್ಯ/ಉಪಕರಣ ಸ್ಕೀಮಾಗಳಲ್ಲಿ ಸುತ್ತಿಕೊಳ್ಳಿ, ಅಗತ್ಯವಿರುವ ಕ್ಷೇತ್ರಗಳನ್ನು ಮಾತ್ರ ಬಳಸಿಕೊಳ್ಳಿ.
- ಟೋಕನ್ ಬಳಕೆ ಮತ್ತು ನಿಖರತೆಯನ್ನು ಮಾನದಂಡವಾಗಿಡಿ; ನೀವು 10–20× ಅನ್ನು ಹೊಡೆಯುವವರೆಗೆ ಪುನರಾವರ್ತಿಸಿ.
FAQ
Q1:DeepSeek-OCR ಪ್ರಾಯೋಗಿಕವಾಗಿ 20× ಟೋಕನ್ ಕಡಿತವನ್ನು ಹೇಗೆ ಸಾಧಿಸುತ್ತದೆ?
ಪ್ರದೇಶ ಫಿಲ್ಟರಿಂಗ್, ಸ್ಕೀಮಾ-ಆಧಾರಿತ ಸಾಮಾನ್ಯೀಕರಣ, ಡಿಡ್ಯೂಪ್ಲಿಕೇಶನ್, ವಿಷಯ-ಅರಿವಿನ ಸಾರಾಂಶ ಮತ್ತು ಕಾಂಪ್ಯಾಕ್ಟ್ ಸರಣೀಕರಣವನ್ನು ಸಂಯೋಜಿಸುವ ಮೂಲಕ. ಈ ಹಂತಗಳು ಅಪ್ರಸ್ತುತ ಮತ್ತು ಅನಗತ್ಯ ಪಠ್ಯವನ್ನು ತೆಗೆದುಹಾಕುತ್ತವೆ ಆದ್ದರಿಂದ LLM ಟೋಕನ್-ಸಮರ್ಥ, ಕಾರ್ಯ-ಜೋಡಿಸಲಾದ ಡೇಟಾವನ್ನು ಮಾತ್ರ ನೋಡುತ್ತದೆ.
Q2:DeepSeek-OCR ನೊಂದಿಗೆ ಟೋಕನ್ ಕಡಿತವು ಇನ್ವಾಯ್ಸ್ಗಳು ಅಥವಾ ರಸೀದಿಗಳಲ್ಲಿ ನಿಖರತೆಗೆ ಹಾನಿ ಮಾಡುತ್ತದೆಯೇ?
ನೀವು ನಿರ್ಣಾಯಕ ಕ್ಷೇತ್ರಗಳನ್ನು ಹಾಗೇ ಇಟ್ಟುಕೊಂಡರೆ ಮತ್ತು ವಿಶ್ವಾಸದ ಮಿತಿಗಳನ್ನು ಬಳಸಿದರೆ ಅಲ್ಲ. ಅನೇಕ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಶಬ್ದವನ್ನು ತೆಗೆದುಹಾಕುವುದರಿಂದ ಮತ್ತು ಮಾದರಿಯು ರಚನಾತ್ಮಕ, ಸಂಬಂಧಿತ ಕ್ಷೇತ್ರಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುವುದರಿಂದ ನಿಖರತೆ ಸುಧಾರಿಸುತ್ತದೆ.
Q3:ಯಾವ ಡಾಕ್ಯುಮೆಂಟ್ ಪ್ರಕಾರಗಳು DeepSeek-OCR ಟೋಕನ್ ಸಂಕೋಚನದಿಂದ ಹೆಚ್ಚು ಪ್ರಯೋಜನ ಪಡೆಯುತ್ತವೆ?
ಇನ್ವಾಯ್ಸ್ಗಳು, ಖರೀದಿ ಆದೇಶಗಳು, ಶಿಪ್ಪಿಂಗ್ ಡಾಕ್ಯುಮೆಂಟ್ಗಳು ಮತ್ತು ಬ್ಯಾಂಕ್ ಸ್ಟೇಟ್ಮೆಂಟ್ಗಳಂತಹ ಟೇಬಲ್-ಭಾರೀ, ಮಲ್ಟಿ-ಪುಟ ವ್ಯಾಪಾರ ಡಾಕ್ಯುಮೆಂಟ್ಗಳು. ಅನಗತ್ಯ ಹೆಡರ್ಗಳು ಮತ್ತು ಪುನರಾವರ್ತಿತ ಘಟಕಗಳು ವಿಶೇಷವಾಗಿ ಚೆನ್ನಾಗಿ ಸಂಕುಚಿತಗೊಳ್ಳುತ್ತವೆ.
Q4:ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಸ್ಫೋಟಿಸದೆ ನನ್ನ LLM ನೊಂದಿಗೆ DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಸಂಯೋಜಿಸುವುದು?
ಕಾಂಪ್ಯಾಕ್ಟ್ ಶಬ್ದಾರ್ಥ JSON ಅನ್ನು ಸಂಗ್ರಹಿಸಿ ಮತ್ತು ಉಪಕರಣ/ಕಾರ್ಯ ಕರೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪ್ರತಿ ಪ್ರಶ್ನೆಗೆ ಅಗತ್ಯವಿರುವ ಕ್ಷೇತ್ರಗಳನ್ನು ಮಾತ್ರ ಹಿಂಪಡೆಯಿರಿ. ಟೋಕನ್ಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಣ್ಣ ಕೀಲಿಗಳು ಮತ್ತು ಸ್ಥಿರ ಆದೇಶದೊಂದಿಗೆ ಬಿಗಿಯಾದ JSON ಅನ್ನು ಇರಿಸಿ.
Q5:ವೆಚ್ಚ ಆಪ್ಟಿಮೈಸೇಶನ್ಗಾಗಿ ನಾನು Sider.AI ಅನ್ನು DeepSeek-OCR ನೊಂದಿಗೆ ಬಳಸಬಹುದೇ?
ಹೌದು. Sider.AI OCR ಸೆಟ್ಟಿಂಗ್ಗಳು ಮತ್ತು ಸರಣೀಕರಣ ಸ್ವರೂಪಗಳಾದ್ಯಂತ ಪ್ರಯೋಗಗಳನ್ನು ಆರ್ಕೆಸ್ಟ್ರೇಟ್ ಮಾಡಬಹುದು, ಟೋಕನ್ ಬಳಕೆ ಮತ್ತು ನಿಖರತೆಯನ್ನು ಮಾನದಂಡವಾಗಿಡಬಹುದು ಮತ್ತು ಉತ್ಪಾದನೆಯಲ್ಲಿ ಸ್ಥಿರವಾದ 10–20× ಕಡಿತವನ್ನು ತಲುಪಲು ನಿಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ.