“ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಎಐ” ಬಗ್ಗೆ ಎಲ್ಲರೂ ಖಚಿತವಾಗಿ ಇದನ್ನು ಹೊಂದಿದ್ದಾರೆಂದು ಭಾವಿಸುತ್ತಾರೆ—ಆದರೆ ನೀವು ಪುಟ 47ರ ಸೂಕ್ಷ್ಮ ಪ್ರಶ್ನೆಯನ್ನು ಕೇಳಿದಾಗ, ಅಳಿವಿನಂತೆ ಸ್ಮರಣೆ ತಪ್ಪಿಹೋಗುತ್ತದೆ. DeepSeek-OCR ಈ ಗೊಂದಲದ ಮಧ್ಯದಲ್ಲಿ ಸಿಂಪಲ್ ಆದರೆ ನಿಜವಾದ ಹಕ್ಕಿಯನ್ನು ಹೊಂದಿದ್ದು: ಮಹತ್ವದ ಮಾಹಿತಿಯನ್ನು ಸಂಕೋಚಿಸು, ರಚನೆಯನ್ನು ಉಳಿಸು, ಮತ್ತು 2023 ರಂತೆ ಟೋಕನ್ಗಳನ್ನು ಅತಿ ಹೆಚ್ಚು ಬಳಸುವಿಕೆಯನ್ನು ನಿಲ್ಲಿಸು. ಬ್ಲೂಪ್ರಿಂಟ್ “ಮೇಲು OCR” ಅಲ್ಲ; ಇದು ವಿನ್ಯಾಸವನ್ನು ಗೌರವಿಸುವ OCR ಆಗಿದ್ದು, ನಿಮ್ಮ ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋ ಅನ್ನು ಅಶ್ರವ್ಯ ಪದಾರ್ಥಗಳಿಂದ ತುಂಬಿಸುವುದನ್ನು ತಡೆಯುತ್ತದೆ.
ಹೌದು, ಬಹುಮಾನಿತ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್ಲೈನ್ಗಳು ಇದು ತಪ್ಪಾಗುತ್ತದೆ. ಅವು ಕೇವಲ ಕಚ್ಚಾ ಪಠ್ಯವನ್ನು ಮಾದರಿಯಲ್ಲಿ ಹಾಕಿ ಆಗ್ರಹಿಸುತ್ತವೆ, ಮತ್ತು ಈ ಪ್ರಯತ್ನದ ಅಂತರವಾಗಿ ಭ್ರಮೆಗಳಾಗುತ್ತದೆ.
ನೀವು ಹೇಗೆ DeepSeek-OCR ಅನ್ನು ನಿಖರವಾಗಿ ನಿಜವಾದ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್ಲೈನ್ಗೆ ಸಂಯೋಜಿಸಬಹುದು ಎಂಬುದನ್ನು ವಿಶ್ಲೇಷಿಸಿ ನೋಡಿಯೋಣ—ಇದು ವಿಸ್ತರಿಸುತ್ತದೆ, ಗಣನೆ ದರವನ್ನು ಸಹಜವಾಗಿ ಪಾವತಿಸುತ್ತದೆ ಮತ್ತು PDF ನಲ್ಲಿ ಟೇಬಲ್ಗಳು, ಫುಟ್ನೋಟ್ಗಳು ಅಥವಾ ಕಾನೂನು ದಾಖಲೆಗಳು ಇರುವಾಗ ಅವಳೆಯಿಂದ ಕುಸಿತವಾಗುವುದಿಲ್ಲ.
DeepSeek-OCR ವಿಭಿನ್ನ ಮತ್ತು ಉಪಯುಕ್ತವಾದುದು ಏಕೆ
- ವಿನ್ಯಾಸವು ಡೇಟಾ: ಲಾಂಬೆಡೋಕ್ಯುಮೆಂಟ್ಗಳು ಕೇವಲ ಪಠ್ಯವಲ್ಲ; ಅವು ಅಂತರಿಕ ವಿವರಣೆಗಳಾಗಿವೆ. ತಲೆಬರಹಗಳು, ಕಾಲಮ್ಗಳು, ಟೇಬಲ್ಗಳು, ಚಿತ್ರಕೆಪ್ಷನ್ಗಳೆಲ್ಲವೂ ಅರ್ಥ ಹೊಂದಿವೆ. DeepSeek-OCR ಅವುಗಳ ರಚನೆಯನ್ನು ಪೂರ್ವದರ್ಜೆಯ ನಾಗರಿಕನಂತೆ ಉಳಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ, ಇದು ನೂಕುನುಗ್ಗುವ ಮಾದರಿಗಳು ನೂರಾರು ಪುಟಗಳನ್ನು reasoning ಮಾಡಿಕೊಳ್ಳಲು ಅಗತ್ಯವಾಗಿರುವದು.
- ಲೋಬೋಟಮಿ ಇಲ್ಲದೆ ಸಂಕೋಚನೆ: ಉದ್ದೇಶವೇ 8K ವಿಂಡೋನಲ್ಲಿ ಎಲ್ಲವನ್ನು ಸರಿಪಡಿಸುವುದು ಅಲ್ಲ. ಇದು ಸಂಕೇತವನ್ನು ಉಳಿಸುವುದು—ಘನ, ರಚಿಸಲಾದ, ನೆವಿಗೇಬಲ್ ಆಗಿರುವ ಒಂದನ್ನು ಉಳಿಸಿ, ಉಳಿದನ್ನು ಕಡಿಮೆ ವೆಚ್ಚದಂತೆ ಮಾಡುವುದು.
- ಅಂಗೀಕರಿಸುವ ಹಂತಗಳಿಗೆ ಸಹ ಚೆನ್ನಾಗಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ: RAG, ಸಾರಾಂಶ, ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಟ್ರಾನ್ಸ್ಫಾರ್ಮರ್ಗಳು, ಮತ್ತು ಏಜೆಂಟ್ಗಳು. ನಿಮ್ಮ OCR ಹಂತವು ಉತ್ತಮವಾಗಿದ್ದರೆ, ರಿಟ್ರೀವಲ್ ಮತ್ತು reasoning ಹಂತಗಳು ಕ್ಷಮಿಸಬೇಕಾಗುವುದಿಲ್ಲ.
ನೀವು ನಿರ್ಮಿಸುತ್ತಿರುವದು: ಸ್ಪೈನಿನೊಂದಿಗೆ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್ಲೈನ್
ಪೈಪ್ಲೈನನ್ನು ಐದು ಭಾಗಗಳಾಗಿ ಭಾವಿಸಿ, ಪ್ರತಿಯೊಂದು ವಿಭಿನ್ನ ಕಾರ್ಯವನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ:
- ಪದಾರ್ಥ ತಗೆದು ಸಾಮಾನ್ಯೀಕರಣ ಮಾಡಿ
- ಇನ್ಪುಟ್ ಪ್ರಕಾರ: PDF ಗಳು (ಜನನ-ಡಿಜಿಟಲ್ ಮತ್ತು ಸ್ಕ್ಯಾನ್ಡ್), ಚಿತ್ರಗಳು, TIFF ಗಳು ಸ್ಕ್ಯಾನರ್ಗಳಲ್ಲಿಂದ, ಗಣರಾಜ್ಯದ ಕಚೇರಿ ರಫ್ತುಗಳು.
- ಪೂರ್ವಪ್ರಕ್ರಿಯೆ: ಡಿ-ಸ್ಕ್ಯೂ, ಡಿನಾಯಸ್, ಅಗತ್ಯವಿದ್ದರೆ ಬೈನರೈಸ್ ಮಾಡಿ, ಪುಟಗಳನ್ನು ಸಾದೃಶ್ಯವಾಗಿ ವಿಭಜಿಸಿ. ಪ್ರತಿ ಪುಟದ ಮೆಟಾಡೇಟಾವನ್ನು സൂಕ್ಷ್ಮ ಜಾಗ್ರತೆ—ಪೇಜ್ ಸಂಖ್ಯೆಗಳು, ಮೂಲ ಫೈಲ್, ವಿಭಾಗ ಕಿಪ್ಪೆಗಳು—ಪಾಲಿಸಿ.
- ಇ_OUTPUT ಗುರಿ: ಪಾಂಟಾ ಚಿತ್ರಗಳು ಅಥವಾ ಪುಟ ಕ್ಯಾನ್ವಾಸ್ಗಳು ನಿರೀಕ್ಷಿತ ಸ್ವರೂಪದಲ್ಲಿ (PNG ಅಥವಾ JPEG) ಸ್ಥಿರ DPI ಜೊತೆಗೆ.
- ಪ್ರತಿ ಪುಟದಲ್ಲಿ DeepSeek-OCR ಅನ್ನು ಓಡಿಸಿ ಮತ್ತು ಪೇರಿಮೆಟರ್ ಮಾಹಿತಿ ಪಡೆಯಿರಿ:
- ಪಠ್ಯದ ವ್ಯಾಪ್ತಿಗಳು ಬೌಂಡಿಂಗ್ ಬಾಕ್ಸ್ಗಳೊಂದಿಗೆ (x, y, ಅಗಲ, ಎತ್ತರ)
- ಬ್ಲಾಕ್ ಪ್ರಕಾರಗಳು: ತಲೆಬರಹಗಳು, ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳು, ಪಟ್ಟಿ, ಟೇಬಲ್ಗಳು, ಚಿತ್ರಗಳು, ಫುಟ್ನೋಟ್ಸ್
- ಓದುವ ಆದೇಶ ಮತ್ತು ಹೈರಾರ್ಕಿ ರಚನೆ (ಡಾಕ್ಯೂಮೆಂಟ್ ಟ್ರೀ)
- ಕಚ್ಚಾ ಪಠ್ಯ ಮತ್ತು ವಿನ್ಯಾಸ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಉಳಿಸಿ. ಟೋಕನ್-ನಿವ್ವಳ ನಕ್ಷೆಯನ್ನು ರಫ್ತು ಮಾಡಬಲ್ಲದಿದ್ದರೆ, ಅದನ್ನು ಉಳಿಸು. ಟೇಬಲ್ಗಳು ಸಂರಚಿಸಲಾದ (CSV/HTML) ಆಗಿರಬೇಕು ಮತ್ತು ಅವುಗಳ ನಿರ್ದೇಶಾಗಳಿಗೆ ಸೇರಿಸಬೇಕು.
- ಟ್ರಿಕ್: ಬ್ಲಾಕ್ ಮಹತ್ವದ ಆಧಾರದಿಂದ ಸಂಕೋಚಿಸಿ, ಸರಳ ಟೋಕನ್ ಕಡಿತದಿಂದ ಅಲ್ಲ.
- ಯಥಾರ್ಥ heuristics ಹೀಗಿವೆ:
- ತಲೆಬರಹ ಮತ್ತು ವಿಭಾಗ ಸಾರಾಂಶ: ಸ್ಪಷ್ಟವಾಗಿ ಉಳಿಸಿ.
- ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳು: ಸ句ತಾ ಮುಖ್ಯವಾಕ್ಯ ಆಯ್ಕೆ ಮಾಡುವುದು ಸಣ್ಣ ರ್ಯಾಂಕರ್ (BM25/ColBERT ಶೈಲಿ ಅಥವಾ ಸ್ಥಳೀಯ ಸಂಕೇತಕ) ಉಪಯೋಗಿಸಿ.
- ಟೇಬಲ್ಗಳು: ಹೆಡರ್ಗಳನ್ನು ಮತ್ತು ಟಾಪ್-k ಸ್ಥಿತಿಗತಿಯಾಗಿ ಬದಲಾದ ಸಾಲುಗಳನ್ನು ಉಳಿಸಿ; ಸಂಖ್ಯಾತ್ಮಕ ಕಾಲಮ್ಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಉಳಿಸಿ; ಪೂರ್ಣ ಟೇಬಲ್ ಅನ್ನು ಬಾಹ್ಯವಾಗಿ ಸಂಗ್ರಹಿಸಿ.
- ಕೆಪ್ಷನ್ಗಳು ಮತ್ತು ಫುಟ್ನೋಟ್ಗಳು: ಉಳಿಸಿ; ಕಡಿಮೆ ಟೋಕನ್, ಹೆಚ್ಚಿನ ಅರ್ಥ.
- ಏರ್ಟಿಫ್ಯಾಕ್ಟ್ ಎರಡು ಉತ್ಪಾದಿಸಿ:
- ಸಂಕೊಚಿತ, ವಿನ್ಯಾಸ-ಜಾಗೃತ ಕಥಾನಕ ಕಾಂಟೆಕ್ಸ್ಟ್: ಮೂಲ ಟೋಕನ್ಗಳ 10-20%, ಸುಸಂಗತ ಮತ್ತು ನವಿಗೇಬಲ್.
- ಸೈಡ್ಕಾರ್ ಸೂಚ್ಯಂಕ: ಸಂಕೊಚಿತ ವ್ಯಾಪ್ತಿಗಳಿಂದ ಸಂಪೂರ್ಣ ನಿಖರ ಬ್ಲಾಕ್ಗಳಿಗೆ ಸೂಚನೆಗಳು.
- ರಿಟ್ರೀವಲ್ ಮತ್ತು ರೌಟಿಂಗ್ (ಮಾಹಿತಿ ಸಂಗ್ರಹಣೆ ವಿನಯದಿಂದ ಮಾಡಲಾಗಿದೆ)
- ವಾಕ್ಯಗಳು/ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳ ಮೇಲೆ ಅರ್ಥಾನುಸಾರ semantics ಹುಡುಕಲು ದಟ್ಟ vectors.
- ನಿಖರವಾಗಿ ಹುಡುಕಲು ವಿಷ್ಣಂತಹ (BM25) ತಿಳಿವಳಿಕೆ—ಕೋಡ್ಗಳು, ಉಲ್ಲೇಖಗಳು, ಗುರುತುಗಳು.
- ಟೇಬಲ್-ಅware ಸೂಚ್ಯಂಕ: ಸಾಲು ಮತ್ತು ಸೆಲ್ embedding ಗಳು ಸಂಖ್ಯಾತ್ಮಕ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ.
- ಕೀಲಿಪದ ಭರಿತ ಪ್ರಶ್ನೆಗಳು → ಮೊದಲು ವಿಷ್ಣತ್ವ, ನಂತರ ದಟ್ಟದಿಂದ ಮರು-ರ್ಯಾಂಕ್.
- ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಅಥವಾ “ಏಕೆ” ಪ್ರಶ್ನೆಗಳು → ಮೊದಲು ದಟ್ಟ, ನಂತರ ವಿಷ್ಣತ್ವ ಅನುಕೂಲಕ.
- ಟೇಬಲ್/ಗಣಿತ ಪ್ರಶ್ನೆಗಳು → ನೇರವಾಗಿ ಟೇಬಲ್ ಸೂಚ್ಯಂಕ, ಸಾಲು/ಕಾಲಮ್ ಮೂಲ ಸಹಿತ.
- ಲಾಂಬೆಡೋಕ್ಯುಮೆಂಟ್ reasoning
- ಹೈ-ಕಾಂಟೆಕ್ಸ್ಟ್ LLM ಒಟ್ಟು ಪ್ರಾಂಪ್ಟ್ಗಳಿಗಾಗಿ (ನೀತಿ ದಾಖಲೆಗಳು, RFPಗಳು, ಸಂಶೋಧನಾ ಪತ್ರಿಕೆಗಳು).
- ಹಂತ-ಹಂತ, ಕೈಗಾರಿಕಾ ಏಜೆಂಟ್ ಬಹು ಹೋಪ್ ಕಾರ್ಯಗಳಿಗೆ: ಪತ್ತೆಹಚ್ಚಿ → ವಿಶ್ಲೇಷಿಸಿ → ಪರಿಶೀಲಿಸಿ → ಉಲ್ಲೇಖಿಸಿ.
- ಮಾತು ಸಂಪೂರ್ಣ ಕಥಾನಕವನ್ನು ಮಾದರಿಯಲ್ಲಿ ಹಾಕಬೇಡಿ. ತಕ್ಷಣ ಬೇಕಾಗುವ ಸಂಗತಿಗಳನ್ನು ಕೂಡಿಸಿ: ಉದ್ದೇಶದ ಪ್ರಕಾರ ಟಾಪ್ ವಿಭಾಗಗಳು, ಸಂಬಂಧಿತ ಟೇಬಲ್ಗಳು, ಸಮೀಪದ ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳು. ಬ್ರೆಡ್ಕ್ರಂಬ್ಗಳು (ವಿಭಾಗ ಹೆಸರುಗಳು, ಪುಟ ಉಲ್ಲೇಖಗಳು, ಚಿತ್ರ IDಗಳು) ಒಳಗೊಳ್ಳಿಸಿ.
ಫಲವಂತ: ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಉತ್ತರಗಳು. ಪ್ರತಿ ಹಕ್ಕು ಬ್ಲಾಕ್ ID, ಪುಟ ಸಂಖ್ಯೆ, ಮತ್ತು ಮೂಲ PDFನಲ್ಲಿ ಹೈಲೈಟ್ ಮಾಡಬಹುದಾದ ನಕ್ಷಾ ವ್ಯಾಪ್ತಿಗೆ ಲಿಂಕ್ ಹೊಂದಿದೆ. ಇದರಿಂದ ನಂಬಿಕೆ ಸಿಗುತ್ತದೆ.
ವಾಸ್ತವಿಕ ಬ್ಲೂಪ್ರಿಂಟ್: ಕಚ್ಚಾ PDF ಗಿಂತ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಉತ್ತರಗಳವರೆಗೆ
ಹಂತ 1: ಡಾಕ್ಯುಮೆಂಟ್ ಸ್ವೀಕಾರ
- ಫೈಲ್ನ್ನು ಮಾನ್ಯ ಮಾಡಿ: ಗುಪ್ತಪದರಕ್ಷಿತ ಅಥವಾ ಹಾನಿಗೊಂಡಿದ್ದರೆ, ವೇಗವಾಗಿ ವಿಫಲಿಸು.
- ನಿಶ್ಚಲ DPI (300 ಸರಿಯಾಗಿದೆ; ವೇಗಕ್ಕಾಗಿ 200) ನಲ್ಲಿ ಪುಟ ಚಿತ್ರಗಳನ್ನು ರೆಂಡರ್ ಮಾಡಿ.
- OCR ಕ್ಯಾಶೇ ಮಾಡಲು ಪುಟ-ಪರಿಮಾಣದ ಹ್ಯಾಷ್ಗಳನ್ನು ಉಳಿಸಿ.
ಹಂತ 2: DeepSeek-OCR ಜಾರಿ
- GPU ದಕ್ಷತೆಯಿಗಾಗಿ ಪುಟಗಳನ್ನು ಬ್ಯಾಚ್ ಮಾಡಿ.
- ಬ್ಲಾಕ್ಗಳು ಮತ್ತು ಓದುವ ಕ್ರಮವನ್ನು ತೆಗೆಯಿರಿ. ನಿರ್ದಿಷ್ಟ ಪುಟ ಸ್ಥಳಕ್ಕೆ ಸಂಯೋಜನೆ ಮಾಡಿ.
- JSON: ಬ್ಲಾಕ್ ಪಟ್ಟಿ ಪ್ರಕಾರ, ಪಠ್ಯ, ಬೌಂಡಿಂಗ್ ಬಾಕ್ಸ್, ಪುಟ ಸಹಿತ.
- ಟೇಬಲ್ಗಳ CSV/HTML ಜೊತೆಗೆ ಪ್ರತಿಯೊಂದು ಸೆಲ್ಗೆ bbox ನಕ್ಷೆ.
- ಐಚ್ಛಿಕ ಜೋಡಿಸಲಾದ ಮಾರ್ಕ್ಡೌನ್ ವಿನ್ಯಾಸ ಸೂಚನೆಗಳೊಂದಿಗೆ (## ತಲೆಬರಹಗಳಿಗೆ, :::table ಟೇಬಲ್ಗೆ).
ಹಂತ 3: OCR ನಂತರ ಶುದ್ಧೀಕರಣ
- ರೇಖಾ ವಿಚ್ಛೇದನದ ಮಧ್ಯೆ ಹೈಫನೇಟ್ ಪದಗಳನ್ನು ಮಿಶ್ರಣಿಸು.
- ಕಾಲಮ್ಗಳನ್ನು ಪರಿಹರಿಸಿ: ಎರಡು ಕಾಲಮ್ಗಳಿದ್ದ ಪುಟಗಳಲ್ಲಿ ಓದುವ ಕ್ರಮವು ಕಾಲಮ್ಗಳಿಗೆ ಅನುಗುಣವಾಗಿರಲಿ.
- ಅಗತ್ಯವಿದ್ದರೆ ಫಾಂಟ್/ಗಾತ್ರ ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್ ಮೂಲಕ ತಲೆಬರಹಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿ; TOC ಮರವನ್ನು ನಿರ್ಮಿಸು.
- ಪುನರಾವರ್ತಿತ ಹೆಡರ್/ಫುಟರ್ಗಳನ್ನು ದ್ವಿತೀಯತೆ ಮಾಡಿ (ಸ್ಕ್ಯಾನ್ಡ್ ಒಪ್ಪಂದಗಳಲ್ಲಿ ಸಾಮಾನ್ಯ).
ಹಂತ 4: ರಚನೆಯೊಂದಿಗೆ ಸಂಕೋಚನೆ
- ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳನ್ನು ವಾಕ್ಯಗಳಿಂದ ವಿಭಜಿಸಿ. ನಿಮ್ಮ ಕ್ಷೇತ್ರದಲ್ಲಿ ತರಬೇತಿಗೊಂಡ ಸಿಂಪಲ್ ರ್ಯಾಂಕರ್ ಮೂಲಕ ವಾಕ್ಯಗಳನ್ನು ಅಂಕಿಸಿ.
- ಉನ್ನತ ಅಂಕೆ ಪಡೆದ ವಾಕ್ಯಗಳನ್ನು ಉಳಿಸಿ; ಪ್ರತಿಯೊಂದು ತಲೆಬರಹದ ಅಡಿಯಲ್ಲಿ ಮೊದಲನೆಯ ವಾಕ್ಯವನ್ನು ಸದಾ ಉಳಿಸಿ.
- ಟೇಬಲ್ಗಳಿಗೆ: ಹೆಡರ್ ಸಾಲು ಮತ್ತು ವ್ಯತ್ಯಾಸ/ಪ್ರಮುಖತೆಯ ಆಧಾರದ ಮೇಲೆ ಟಾಪ್-k ಸಾಲುಗಳನ್ನು ಹಾಗೂ ಪೂರ್ಣ ಟೇಬಲ್ಗೆ ಉಲ್ಲೇಖವನ್ನು ಉಳಿಸಿ.
- ಸಂಕೋಚಿತ ಕಥಾನಕ ಮತ್ತು ಸೂಚ್ಯಂಕ ಸೈಡ್ಕಾರ್ ಅನ್ನು ಉತ್ಪಾದಿಸಿ, ಪ್ರತಿಯೊಂದು ಉಳಿಸಿದ ವಾಕ್ಯವನ್ನು ಮೂಲಕ್ಕೆ ಸಂಪರ್ಕಿಸುತ್ತವೆ.
ಹಂತ 5: ಸೂಚ್ಯಂಕ ನಿರ್ಮಾಣ
- ವಾಕ್ಯಗಳಿಗಾಗಿ ದಟ್ಟ embeddings (ಅಗತ್ಯವಿದ್ದರೆ ಬಲವಾದ ಬಹುಭಾಷಾ ಮಾದರಿ ಉಪಯೋಗಿಸಿ).
- ಸಂಕಲನದ ಮೇಲೆ ವಿಷ್ಣ (BM25) ಸೂಚ್ಯಂಕ (ಶೀರ್ಷಿಕೆ, ತಲೆಬರಹ, ಕೋಡ್ಗಳು, ಉಲ್ಲೇಖಗಳು, ಗುರುತುಗಳು, ಮಾಪಕಗಳು).
- ಸಾಲು ಮತ್ತು ಸೆಲ್ ಮಟ್ಟದ ಟೇಬಲ್ embeddings; ವೇಗವಂತ ಗುಣಪರಿಶೀಲನೆಗಳಿಗೆ (ಕನಿಷ್ಟ, ಗರಿಷ್ಟ, ಸರಾಸರಿ) ಸಂಖ್ಯಾತ್ಮಕ ಆಂಕಡಗಳನ್ನು ಉಳಿಸಿ.
- ಮೂಲತತ್ತ್ವವನ್ನು ಸಂಗ್ರಹಿಸಿ: doc_id, ಪುಟ, bbox, block_id.
ಹಂತ 6: ಪ್ರಶ್ನೆ ಮಾರ್ಗ ಮತ್ತು ಸಂಗ್ರಹಣೆ
- ಪ್ರಶ್ನೆಯ ಉದ್ದೇಶವನ್ನು ವರ್ಗೀಕರಿಸಿ: ಹುಡುಕಾಟ, ವಿಶ್ಲೇಷಣೆ, ಟೇಬಲ್ ಗಣಿತ, ಹೋಲಿಕೆ.
- ತಕ್ಕ retrieval ವಿಧಾನವನ್ನು ಚಾಲನೆ ಮಾಡಿ:
- ಹುಡುಕಾಟ: ವಿಷ್ಣ → ದಟ್ಟ ಮರುರ್ಯಾಂಕಿಂಗ್.
- ವಿಶ್ಲೇಷಣೆ: ದಟ್ಟ → ವಿಭಾಗದ ತುತ್ತು;
- ಟೇಬಲ್ ಗಣಶಾಸ್ತ್ರ: ಟೇಬಲ್ ಸೂಚ್ಯಾಂಕ + ಸಾಲು ಫಿಲ್ಟರ್; ಸಂಪರ್ಕದ ದೃಷ್ಟಿಗೆ ಸಮೀಪದ ಪಠ್ಯ ಸೇರಿಸಿ.
- 3-6 ಸಂಗ್ರಹಿತ ಪ್ಯಾಸೇಜ್ಗಳು (ತಲೆಬರಹ ಮತ್ತು ಪುಟ ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ)
- ಅಗತ್ಯವಿದ್ದರೆ 1-2 ಸಣ್ಣ ಟೇಬಲ್ಗಳು ಅಥವಾ ಲೆಕ್ಕ ಪಾಠಿಸಿದ ಅಂಕಡಗಳು
- ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಮಾದರಿ-ನಿರ್ದಿಷ್ಟ ಮಿತಿಗಳೊಳಗೆ ಇಡಿ. ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಎಂದರೆ ಅನಂತ ಕಾಂಟೆಕ್ಸ್ಟ್ ಅಲ್ಲ.
ಹಂತ 7: ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ ಉತ್ತರ ಸಂಯೋಜನೆ
- ರಚನಾತ್ಮಕ ಔಟ್ಪುಟ್ ಕೇಳಿ: ವಿಭಾಗೀಕೃತ ಉತ್ತರ ಮತ್ತು_INLINE ಉಲ್ಲೇಖಗಳು [ಡಾಕ್ §2.3, ಪುಟ 47, ಟೇಬಲ್ A] ಹೀಗಿರಲಿ.
- ಸಂಕೀರ್ಣ ಹಕ್ಕುಗಳಿಗೆ ಪರಿಶೀಲನಾ ಹಂತ ಪ್ರೇರೇಪಿಸಿ: ನಿಖರ ವಿಸ್ತರಣೆಗಳನ್ನು ಮರುಗುಳು, ಗುರಿಖಚಿತ ಪ್ರಶ್ನೆ ಕೇಳಿ, ಭೇದಗಳನ್ನು ಸಮ್ಮಿಲನಗೊಳಿಸಿ.
- ಬಳಕೆದಾರರಿಗೆ ಕ್ಲಿಕ್ ಮಾಡಬಹುದಾದ ಮೂಲತತ್ತ್ವದ ಸಪೂರ್ತಿ ತುಳುಮಾಡಿ ಉತ್ತರ ನೀಡಿ.
ಪ್ರದರ್ಶನ ಟಿಪ್ಸ್, ನಿಜವಾದ ಹಣ ಉಳಿಸುವ:
- GPU ಅನ್ನು YOLO ಮಾಡಿ ತಪ್ಪು: OCR I/O ಮತ್ತು GPU ನಡುವೆ ವಿಭಿನ್ನ ವ್ಯತ್ಯಾಸ. ಪುಟ ಸಂಖ್ಯೆ ಇರಿಸಿಕೊಂಡು ಬ್ಯಾಚ್ ಮಾಡಿ ಮತ್ತು ಚಿತ್ರ ಗಾತ್ರಗಳನ್ನು ಸಾಮಾನ್ಯಗೊಳಿಸಿ ಕರ್ನಲ್ ಪುನಃ ಉಪಯೋಗಕ್ಕಾಗಿ.
- ತೀವ್ರ ಕ್ಯಾಶೆ ಮಾಡಿ: ಮೂಲ ಡಾಕ್ ಬದಲಾಗದಿದ್ದರೆ ಮರು OCR ಮಾಡಬೇಡಿ. ಫೈಲ್ ಅಲ್ಲ, ಪುಟ ಬಿಟ್ಮ್ಯಾಪ್ನಲ್ಲಿ ವಿಷಯ ಹ್ಯಾಶ್ ಮಾಡಿ.
- ಟೇಬಲ್ಗಳು ಅರೆನಾಗಿವೆ: ಟೋಕನ್ ಸಂಖ್ಯೆಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತವೆ ಮತ್ತು ಗುಣಮಟ್ಟವನ್ನು ಕೆಡಿಸುತ್ತವೆ. ಅವುಗಳನ್ನು ಶುದ್ಧವಾಗಿ ತೆಗೆಯಿರಿ ಮತ್ತು ವಿಷಯದ ಸಾಮಾನ್ಯ ಕಾಂಟೆಕ್ಸ್ಟ್ನಿಂದ ವಿಭಜಿಸಿ, ಪ್ರಶ್ನೆಗೆ ಅವಶ್ಯಕತೆ ಇದ್ದಾಗ ಮಾತ್ರ ಸೇರಿಸಿ.
- ಚಂಕಿಂಗ್ ಧರ್ಮವಲ್ಲ: ವಿನ್ಯಾಸ (ತಲೆಬರಹ, ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳು) ಆಧರಿಸಿ ಚಂಕ್ ಮಾಡಿ, ಟೋಕನ್ ಉದ್ದದಿಂದ ಅಲ್ಲ. ಟೋಕನ್ ಉದ್ದದ ಚಂಕಿಂಗ್ ಸಮಸ್ಯೆಯಾಗಿದೆ, ಇದರಿಂದ ವಿವರಣೆ ರಚನೆ ತಪ್ಪುತ್ತದೆ.
- ಸಾರಾಂಶ ಮಾಡುವಕ್ಕೆ ಮುಂಚಿತವಾಗಿ ಪರಿಶೀಲಿಸಿ: ಅಸ್ಪಷ್ಟ ಭಾಗಗಳನ್ನು ತಿರುವುಮಾಡದೆ retrieval ಕಾಂಟೆಕ್ಸ್ಟ್ ಅನ್ನು ನರೋಪಿಸಿ; ತಪ್ಪಾದ ಸಂಗತಿಗಳನ್ನು ಸಂಕೋಚಿತಪಡಿಸುವ ಸಾಧ್ಯತೆ ಇದೆ.
ದೋಷ ನಿರ್ವಹಣೆ: ಆಕರ್ಷಕವಲ್ಲದ ಆದರೆ ಮುಖ್ಯ ಭಾಗಗಳು
- ನೋಯೋಜಿತ PDF ಗಳು: ರ್ಯಾಸ್ಟರೈಜೆಷನ್ ಬದಲಿ ಪ್ರಯತ್ನಿಸಿ. ಇನ್ನೂ ಸಮಸ್ಯೆ ಇದ್ದರೆ, ಡೈಯಾಗ್ನೊಸ್ಟಿಕ್ ಐಟಂ ನೀಡಿರಿ. ಮೌನ ವಿಫಲತೆ ಯಾವುದೇ ಉತ್ತರಕ್ಕಿಂತ ಕೆಟ್ಟದು.
- ಕೋಪಗೊಂಡ ಸ್ಕ್ಯಾನ್ಗಳು (ಫ್ಯಾಕ್ಸ್ ಗುಣಮಟ್ಟ): ಡಿನಾಯಸ್/ಕಾಂಟ್ರಾಸ್ಟ್ ಹೆಚ್ಚಿಸುವಿಕೆಯನ್ನು ಪ್ರಯತ್ನಿಸಿ; ವಿಶ್ವಾಸ ಶೇ. ಕಡಿಮೆ ಇದ್ದರೆ ಮಾನವನ ಪರಿಶೀಲನೆಗೆ ಸೂಚಿಸಿ. ತಿಳಿದುಕೊಳ್ಳುವುದು
- ಅಲೋಲ ಲಿಪಿಗಳು: OCR ಮಾದರಿ ನಿಮ್ಮ ಲಿಪಿಮಾಲೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ ಎಂದು ಖಚಿತಪಡಿಸಿ; ಇಲ್ಲದಿದ್ದರೆ ವಿಶೇಷ OCR ಮಾದರಿಯ ಕಡೆಗೆ ಮಾರ್ಗ ನೀಡಿ.
- ಕಲೆ ಹಾಗು ಟೆಬಲ್: ಟೇಬಲ್ ಪತ್ತೆ ತಪ್ಪಾದರೆ, ಕಲಾವಿಧಾನವಾಗಿ ಸೇವೆ ಮಾಡುವಂತೆ ನಕಲಿಸಬೇಡಿ. ಚಿತ್ರ ಮತ್ತು ಕೆಪ್ಷನ್ ಎಂದು ಪರಿಗಣಿಸಿ “ಮಾನವೀಯ ತೆಗೆಯುವಿಕೆ ಅಗತ್ಯವಿದೆ” ಸೂಚನೆ ನೀಡಿ.
ಡೇಟಾ ಮಾದರಿ: ನಕ್ಷೆಯನ್ನು ಪ್ರದೇಶದೊಡನೆ ಇರಿಸು
- ಪ್ರಕಾರ: ತಲೆಬರಹ/ಪ್ಯಾರಾಗ್ರಾಫ್/ಪಟ್ಟಿ/ಟೇಬಲ್/ಚಿತ್ರ/ಫುಟ್ನೋಟ್
- ಪಠ್ಯ (ಐಚ್ಛಿಕ), ಬಾಕ್ಸ್, ಕ್ರಮ, ಶೈಲಿ ಸೂಚನೆಗಳು
- ಲಿಂಕ್ಗಳು: ಮಗುಗಳು, ಪೋಷಕರು
- ಸಾಲುಗಳು, ಕಾಲಮ್ಗಳು, ಸೆಲ್ ಪಠ್ಯಗಳು, bbox ಗಳು, ಹೆಡರ್ ಫ್ಲಾಗ್ಗಳು
- ಡಾಕ್ ID, ಪುಟ, ಬ್ಲಾಕ್ ID, ಸ್ಥಳಾಂತರಗಳು, ಬಾಕ್ಸ್
ಭದ್ರತೆ ಮತ್ತು ಅನುಕೂಲತೆ
- ನಿಮ್ಮ ನೀತಿಯಿಂದ ಅನುಮತಿ ಇಲ್ಲದಿದ್ದರೆ ಸಂವೇದನಶೀಲ PDF ಗಳನ್ನು ಮೂರನೇ-ಪಕ್ಷ API ಗಳಿಗೆ ಅಪ್ಲೋಡ್ ಮಾಡಬೇಡಿ. ಆಗಿಯಾಗಿರಬೇಕಾದರೆ, ಸಂಕ್ರಮಣದಲ್ಲಿ ಮತ್ತು ವಿಶ್ರಾಂತಿಯಲ್ಲಿ ಎನ್ಕ್ರಿಪ್ಟ್ ಮಾಡಿರಿ.
- ಪಿಐಐ ಅನ್ನು OCR ಹಂತದಲ್ಲಿ ಲಿಪಿಸಿರಿಸಿ—ಬೌಂಡಿಂಗ್-ಬಾಕ್ಸ್ ರೆಡಾಕ್ಶನ್ ಪೋಸ್ಟ್-ಹಾಕ್ ಸ್ಟ್ರಿಂಗ್ ಮಾಸ್ಕಿಂಗ್ ಮೇಲೆ ಸುಧಾರಿತವಾಗಿದೆ.
- ವಿಷಯವಿಲ್ಲದ retrieval ಮತ್ತು ಉತ್ತರ ರಚನೆಯನ್ನು ಲಾಗ್ ಮಾಡಿ. ಹ್ಯಾಶ್ ಮತ್ತು IDಗಳನ್ನು ಇರಿಸಿ, ಕಚ್ಚಾ ಪಠ್ಯವನ್ನಲ್ಲ.
ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿ ಆಯ್ಕೆ (ಹೈಪ್ ಇಲ್ಲದೆ)
- ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳು ‘ಎಲ್ಲಿ ಇದು ಹೇಳುತ್ತದೆ X’ ಎಂಬುದರಂತೆ ಸಿಂಪಲ್ ಆಗಿದ್ದರೆ, retrieval ಮತ್ತು ಉಲ್ಲೇಖಗಳನ್ನು ಉದ್ದಕ್ಕೂ ಕಾಂಟೆಕ್ಸ್ಟ್ ಉದ್ದಕ್ಕಿಂತ ಮೇಲುಗೈ ಮಾಡಿ. ಸಣ್ಣ, ನಿಖರವಾದ ಕಾಂಟೆಕ್ಸ್ಟ್ ಹೆಚ್ಚು ಉತ್ತಮ.
- ನೀವು ನರೇಟಿವ್ (ಸಂಶೋಧನೆ, ವರದಿಗಳು) ಡಾಕ್ಯುಮೆಂಟ್ ಹೊಂದಿದ್ದರೆ, ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿಗಳು ಸಹಾಯ ಮಾಡಬಹುದು, ಆದರೆ ವಿಭಾಗ ರಚನೆಯ ಮಾರ್ಗದರ್ಶನದಲ್ಲಿ ಮಾತ್ರ.
- ಟೇಬಲ್ ಭಾರಿತ ಕೆಲಸಗಳಿಗೆ ಸ್ಪ್ಲಿಟ್ ಬ್ರೆನ್ ಉತ್ತಮ: ಭಾಷಾ ಮಾದರಿ ಪ್ರೋಸ್ಗಾಗಿ, ಸಣ್ಣ ಪ್ರೋಗ್ರಾಂ ಅಂಕಗಣಿತ ಮತ್ತು ಫಿಲ್ಟರಿಂಗ್ಗೆ.
ಆವೃತ್ತಿ ಮತ್ತು ಹಾದುಹೋಗುವಿಕೆ
- OCR ಉತ್ತಮವಾಗುತ್ತದೆ; ಡಾಕ್ಯುಮೆಂಟ್ಗಳು ಬದಲಾಗುತ್ತವೆ; embeddingಗಳು ಹಾದುಹೋಗುತ್ತವೆ. ಎಲ್ಲಾ ಆವೃತ್ತಿಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ:
- OCR ಎಂಜಿನ್ ಆವೃತ್ತಿ ಮತ್ತು ಸಂರಚನೆ
- ಯಾವುದೇ ಆವೃತ್ತಿ ಬದಲಾಗಿದ್ದರೆ, ಕ್ರಮವಾಗಿ ಮರು-ಸೂಚ್ಯಂಕಿಸಿ. ಹಳೇ ಮತ್ತು ಹೊಸದನ್ನು ಕಾಳಜಿಯಾಗಿ ಉಳಿಸು, ಸಮಾನತೆ ಸರಿಪಡಿಸುವವರೆಗೆ.
ವಿಕಸಕ ಸಂಯೋಜನಾ ದೃಶ್ಯಕೋಣ
- ಕಾರ್ಮಿಕ 1: ಅಂಗೀಕರಿಸಿ → ಪುಟ ರೆಂಡರ್ ಮಾಡಿ → ಸಾಲಿನಲ್ಲಿ ಸೇರಿಸಿ.
- ಕಾರ್ಮಿಕ 2 (GPU): ಪ್ರತಿಪುಟ DeepSeek-OCR → ರಚನೆಯ JSON → ಟೇಬಲ್ಗಳು.
- ಕಾರ್ಮಿಕ 3: ಶುದ್ಧೀಕರಣ + ವಿನ್ಯಾಸ ಮರ → ಸಂಕೋಚನೆ.
- ಕಾರ್ಮಿಕ 4: ಸೂಚ್ಯಂಕ ನಿರ್ಮಾಣ (ದಟ್ಟ + ವಿಷ್ಣ + ಟೇಬಲ್ಗಳು) → ಪ್ರಕಟಿಸಿ.
- ಸೇವೆ: ಪ್ರಶ್ನೆ ರೌಟರ್ → retrieval → ಪ್ರಾಂಪ್ಟ್ ಸಂಯೋಜನೆ → LLM → ಪರಿಶೀಲನೆ → ಪ್ರತಿಕ್ರಿಯೆ.
- ಸಂಗ್ರಹ: ಪುಟ ಚಿತ್ರಗಳು ಮತ್ತು ಸೈಡ್ಕಾರ್ಗಳುಗಾಗಿ ಆಬ್ಜೆಕ್ಟ್ ಸ್ಟೋರ್; ಬ್ಲಾಕ್ಗಳು ಮತ್ತು ಮೂಲತತ್ತ್ವಕ್ಕೆ DB; ವೆಕ್ಟರ್ ಮತ್ತು ವಿಷ್ಣ ಸೂಚ್ಯಂಕಗಳು.
ಗೊತ್ತಿಲ್ಲದ ಸಾಧನಗಳ ಬಗ್ಗೆ ಒಂದು ಮಾತು
ಕಡಿಮೆ ಪ್ರಭಾವಶಾಲಿಯಾದ ತುಂಡುಗಳು ಪೈಪ್ಲೈನ್ ಗಾಗಿ ಮುಖ್ಯ. ದಟ್ಟ OCR ವಿನ್ಯಾಸಕ್ಕೆ ಗೌರವಿಸುವದು, “ನನಗೆ ಗೊತ್ತಿಲ್ಲ” ಎಂದು ಹೇಳಬಲ್ಲ ಸೂಚ್ಯಂಕ ಮತ್ತು ಮಿತಿಯ ಪ್ರಾಂಪ್ಟ್ ನಿರ್ಮಾಪಕ. ಇದು ಕೆಲಸ. ನೀವು ಕಾಂಗ್ರೆಸ್ ಅನ್ನು ಪ್ರಾಯೋಗಿಕ ಕಾರ್ಯಪ್ರವಾಹಕ್ಕೆ, ಉದಾಹರಣೆಗೆ ಒಪ್ಪಂದ ಸಾಂಕ್ಷೆ, 300 ಪುಟಗಳ RFIಗಳ ಪರಿಶೀಲನೆ, ಅಥವಾ SOP ಮನ್ಯುಯಲ್ಗಳ ಪರಿಶೀಲೆ ಮಾದರಿಸಿ ಬಲವಾಗಿ ಬಳಸಬಹುದು—Sider.AI OCR, retrieval ಮತ್ತು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪ್ರಾಂಪ್ಟಿಂಗ್ ನಡುವೆ ನಿಜವಾದ ಗುಟ್ಟು ಪೆÇದು ಎಂದು ಪರಿಗಣಿಸಿ. ಇದು ingest ಕಾರ್ಯಗಳು, ಚಂಕಿಂಗ್ ನೀತಿಗಳು, ಮಾದರಿ ಆಯ್ಕೆ ಮತ್ತು “ನಂಬಿಕೆಗೆ ಮುಂಚೆ ಪರಿಶೀಲನೆ” ಲೂಪನ್ನು ಸಂಯೋಜಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ತಂಡಗಳ ನಡುವೆ ಈ ಕೆಲಸಗಳನ್ನು ಸಂಸ್ಕರಿಸುವಾಗ ಮತ್ತು ಫಲಿತಾಂಶವನ್ನು ಪುನಃರಚಿಸಲಾಗುವಂತೆ ಇರಿಸಲು ಇದು ಬಹುಮೂಲ್ಯವಾಗಿದೆ. ನೀವು ಗೈರವಾರು ದಿನದೊಳಗೆ ಎದುರಿಸುವ “ಗೊತ್ತುಗಳ” ವಿಷಯಗಳು
- ಅತಿಸಂಕೋಚನೆ: ನೀವು ಬಹಳ ಕಡಿತಮಾಡಿ ನುಡಿಗಳ ತಳಮಟ್ಟ ಕಣ್ಮರೆಯಾಗಬಹುದು. ಉತ್ತರ-ದೈರ್ಘ್ಯ/ವೆಚ್ಚದ ಸೂಚ್ಯಂಕಗಳನ್ನು ಗಮನಿಸಿ; ವಿಶ್ವಾಸ ಕಡಿಮೆ ಆಗಿದ್ದಾಗ ಪೂರ್ಣ ಬ್ಲಾಕ್ನ್ನು ತರಲು ಬ್ಯಾಕ್ಅಪ್ ಸೇರಿಸಿ.
- ಅತಿರೇಕ ರಿಟ್ರೀವಲ್: 60 ಚಂಕ್ ಪ್ರಾಂಪ್ಟ್ಗೆ ಎಳೆಯಿರಿ ಮತ್ತು ಕಾಂಟೆಕ್ಸ್ಟ್ ಮೀರಿಸಿರಿ. ಇದನ್ನು ನಿಯಂತ್ರಿಸಿ ಮತ್ತು ಸಮೀಪ ವಿಂಗಡಣೆಯ ಕಡೆಗೆ ತಿರಸ್ಕರಿಸಿ (ನೆರೆಯುವ ವಿಭಾಗಗಳು ದ್ರವ್ಯವಾಗಿವೆ).
- ಟೇಬಲ್ ಭ್ರಮೆಗಳು: ಮಾದರಿ ಸಂಭವನೀಯವಾಗಿ ಸಂಖ್ಯೆಯನ್ನು ಉಲ್ಖಿಸುತ್ತೆ — ಆದರೆ ತಪ್ಪು ಸಾಲಿನಿಂದ. ಪ್ರಾಂಪ್ಟ್ನಲ್ಲಿ ಟೇಬಲ್ ತುಂಡುಗಳನ್ನು ಸಾಲು ಕೀಲಿಕಾಣಿಕೆ ಜೊತೆಗೆ ಸದಾ ಜೋಡಿಸಿ.
- ನಕಲಿ ಪುಟಗಳು: ಸ್ಕ್ಯಾನಿಂಗ್ ಕಾರ್ಯಪಥಗಳು ಪುಟಗಳನ್ನು ಮರುಕಳಿಸಲು ಇಷ್ಟಪಡುತ್ತವೆ. ಪುಟಗಳನ್ನು ಹ್ಯಾಶ್ ಮಾಡಿ; OCRಗೆ ಮೊದಲು ಪುಟ ಮಟ್ಟದಲ್ಲಿ ನಕಲಿಸುವಿಕೆ ಮಾಡಿ.
- ಅಂತರಸಹಿತ ಉಲ್ಲೇಖ ಮತ್ತು ಫುಟ್ನೋಟ್: ಅವು ಕಾನೂನು ಅರ್ಥಪೂರ್ಣ ಎಚ್ಚರಿಕೆಗಳನ್ನು ತರುತ್ತವೆ. ನೀತಿ/ಕಾನೂನು ಡಾಕ್ಯುಮೆಂಟ್ಗಳಲ್ಲಿ ಫುಟ್ನೋಟ್ ಹಾಳು ಮಾಡಬೇಡಿ; ಕಡಿಮೆ-ಟೋಕನ್ ಮಾರ್ಗದಲ್ಲಿ ಇಟ್ಟುಕೊಳ್ಳಿರಿ.
ಸುಧಾರಿತ ಗುಣಮಟ್ಟ ನಿರೀಕ್ಷಣೆಗಳು
- ಮುಖ್ಯ ಖಾತರಿ ನಿಖರತೆ: ಉಲ್ಲೇಖಿತ ಬ್ಲಾಕ್ ವಿಳಾಸ ಸತ್ಯವೋ?
- ಟೇಬಲ್ ಸೆಲ್ ನಿಖರತೆ: ಸಂಖ್ಯಾತ್ಮಕ ಉತ್ತರದಲ್ಲಿ ಸರಿಯಾದ ಸೆಲ್ ಉಲ್ಲೇಖಗಳ ಪ್ರಮಾಣ.
- ಸಂಕೋಚನೆ ನಿಷ್ಠೆ: ಸಂಕೋಚಿತ ಕಥಾನಕ ಮತ್ತು ಮೂಲದ ನಡುವೆ ROUGE/LFQA ಶೈಲಿಯ ಒಡನಾಡಿಕೆ ಪ್ರತಿ ವಿಭಾಗದಲ್ಲಿ.
- ಬijzeೕ ಇಳಿಕ ದೈರ್ಘ್ಯ: P95 ಆರಂಭದಿಂದ ಅಂತ್ಯ, ಕೇವಲ LLM ಸಮಯವನ್ನಲ್ಲ.
- ಮಾನವ ನಂಬಿಕೆ ಅಂಕೆ: ಬಳಕೆದಾರರು ಪ್ರಥಮ ನೋಡಿಕೆಯಲ್ಲೇ ಉತ್ತರವನ್ನು ಒಪ್ಪಿಕೊಳ್ಳುತ್ತಾರಾ? ಇದು ಸ್ವೀಕೃತಿಯನ್ನು ಬಹುಪಾಲಾಗಿ ಸೂಚಿಸುವ ಏಕೈಕ ಸೂಚಕ.
ಕನಿಷ್ಟ ಕೆಲಸ ಮಾಡುವ ಉದಾಹರಣೆ (ಸಾಂದರ್ಭಿಕ)
- ಇನ್ಪುಟ್: 180 ಪುಟದ ಖರೀದಿ ನಿರ್ದಿಷ್ಟತೆ ಅಪೆಂಡಿಕ್ಸ್ ಮತ್ತು ಐದು ಕುಂದು ಟೇಬಲ್ಗಳೊಂದಿಗೆ.
- ನೀವು DeepSeek-OCR ಬಳಸಿ; ಇದು ಬಾಕ್ಸ್ಗಳು ಮತ್ತು ನಿಷ್ಠಾವಂತ TOC ಹೊಂದಿದ ರಚನೆಯ ಬ್ಲಾಕ್ಗಳನ್ನು ಹೊರಪಡಿಸುತ್ತದೆ.
- ಸಂಕೋಚನೆ ಎಲ್ಲಾ ತಲೆಬರಹ, ಮೊದಲ ವಾಕ್ಯಗಳು, ಮತ್ತು ಟೇಬಲ್ಗಳ ಅತ್ಯಂತ ಪ್ರಮುಖ ಸಾಲುಗಳನ್ನು ಉಳಿಸುತ್ತದೆ. ಸೈಡ್ಕಾರ್ ಎಲ್ಲವಿಗೂ ಹಿಂದಿರುಗುತ್ತದೆ.
- ಬಳಕೆದಾರರು ಕೇಳುತ್ತಾರೆ: “ಯಾವ ವಿಭಾಗವು ವಿದ್ಯುತ್ ಘಟಕಗಳ ವಾರಂಟಿ ಅವಧಿಯನ್ನು ನಿಗದೀಕರಿಸುತ್ತದೆ?”
- ರೌಟರ್ ವಿಷಣ → ದಟ್ಟನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ.
- ರಿಟ್ರೀವಲ್ ಎರಡು ವಿಭಾಗಗಳು ಮತ್ತು ಒಬ್ಬ ಅಪೆಂಡಿಕ್ಸ್ ಅನ್ನು ನೀಡುತ್ತದೆ.
- ಪ್ರಾಂಪ್ಟ್ ತಲೆಬರಹ+ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳನ್ನು ಇನ್ಲೈನ್ ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ ನೀಡುತ್ತದೆ.
- ಮಾದರಿ ಉತ್ತರಿಸುತ್ತದೆ: “ವಿಭಾಗ 4.2.1, ಪುಟ 67: ‘ವಿದ್ಯುತ್ ಘಟಕಗಳಿಗೆ ಕನಿಷ್ಠ 36 ತಿಂಗಳ ವಾರಂಟಿ ಇದೆ…’” ಜೊತೆಗೆ ಮೂಲದ ನಿಖರ ವಿಸ್ತರಣೆ ಹೈಲೈಟ್ ಮಾಡಿರುವ ಲಿಂಕ್.
- ಬಳಕೆದಾರರು ಕೇಳುತ್ತಾರೆ: “ರ್ಯಾಕ್ಗಳ ಒಟ್ಟು ವಿದ್ಯುತ್ ಬಜೆಟ್ ಎಷ್ಟು?”
- ರೌಟರ್ ಟೇಬಲ್ ಸೂಚ್ಯಾಂಕನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ. ಇದು ಸರಿಯಾದ ಸಾಲುಗಳನ್ನು ತೆಗೆಯುತ್ತದೆ, ಸರಳ ಉಪಕರಣದಿಂದ ಎರಡು ಕಾಲಮ್ಗಳ ಮೊತ್ತ ಮಾಡುತ್ತದೆ ಮತ್ತು ಟೇಬಲ್ B-3 ಅನ್ನು ಸಾಲು-ಕೀಲಿಗಳೊಂದಿಗೆ ಉಲ್ಲೇಖಿಸುತ್ತದೆ. ಭ್ರಮೆಗೊಳ್ಳದ ಗಣಿತ.
ಇದು ಇತರರು ಮಾಡದ ಕಾರಣ
ಏಕೆಂದರೆ ಅದು OCR, retrieval, ಮತ್ತು reasoning ಅನ್ನು ಪ್ರತ್ಯೇಕ ಕೆಲಸಗಳಾಗಿ ಮತ್ತು ಅವುಗಳ ನಡುವೆ ಒಪ್ಪಂದವನ್ನಿಟ್ಟುಕೊಂಡು ಸಂದರ್ಭಪಡಿಸುತ್ತದೆ. DeepSeek-OCR ರಚನೆಯನ್ನು ಕೊಡುತ್ತದೆ; ಸಂಕೋಚನೆ ಅರ್ಥವನ್ನು ಉಳಿಸುತ್ತದೆ; retrieval ಸರಿಯಾದ ಸಾಕ್ಷ್ಯವನ್ನು ತರುತ್ತದೆ; ಮತ್ತು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿ ಅದನ್ನು ಸಂಘಟಿಸಿದೆ, ಭ್ರಮೆಯಲ್ಲಿ ಮುಳುಗಿಸುವುದಿಲ್ಲ. ಉದ್ಯಮದ ಸಾಮಾನ್ಯ ವಿಧಾನವೆಂದರೆ ಎಲ್ಲವನ್ನೂ ದೊಡ್ಡ ವಿಂಡೋದಲ್ಲಿ ಮುಟ್ಟಿಸುವುದು ಮತ್ತು ಪ್ರಾರ್ಥಿಸುವುದು. ಪ್ರಾರ್ಥನೆ ಒಂದು ತಂತ್ರವಲ್ಲ.
ನೀವು ಕನಸುಗಳನ್ನು ಕಡಿತಮಾಡುವಿರಾದರೆ, ಅವುಗಳನ್ನು ಕೊನೆಯದಾಗಿ ಕಡಿತಮಾಡಿ:
- ಟೇಬಲ್ ತೆಗೆಯುವಿಕೆ: ಇದನ್ನು ತೊಡಕಿದರೆ, ಪ್ರತಿಯೊಂದು ಕೆಳಗಿನ ಹಂತಕ್ಕೆ ಗೊಂದಲ ಬರುವುದೆಂದು ಭಾವಿಸಿ.
- ಮೂಲತತ್ತ್ವ ಪ್ಲಂಬಿಂಗ್: ಬಳಕೆದಾರರು ನಿಧಾನತೆ ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ತಪ್ಪಾದ ಉತ್ತರಗಳನ್ನು ಕ್ಷಮಿಸುತ್ತಾರೂ; ದೃಢೀಕರಿಸಲಾಗದ ಉತ್ತರಗಳನ್ನು ಕ್ಷಮಿಸುವುದಿಲ್ಲ.
- ಕ್ಯಾಶ್ ಮತ್ತು ಹ್ಯಾಷಿಂಗ್: ನೀವು ಇದನ್ನು ಸರಿಯಾಗಿ ಮಾಡಿದರೆ ನಿಮ್ಮ ಕ್ಲೌಡ್ ಬಿಲ್ ಕ್ಷಮಿಸಲಿದೆ.
ವಿಚಾರ ವಾಸ್ತವಾಚರಣೆಯ ಭಾಗ: ನೀವು ನಿಜಕ್ಕೂ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಅಗತ್ಯವಿದೆಯೇ?
ಒಂದು ಹೊತ್ತಿನ ಆಲೋಚನೆ: ಕೆಲವೊಮ್ಮೆ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಕಡಿಮೆ retrieval ನ ಅಸಮರ್ಥತೆಯ ನೆರಳು. ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳು ಸರಳ ಮತ್ತು ನಿಶ್ಚಿತವಾದರೆ, ಉತ್ತಮ ಸೂಚ್ಯಂಕումով ಮತ್ತು ಸಣ್ಣ ಕಾಂಟೆಕ್ಸ್ಟ್ಗಳ ಮೂಲಕ ಹೂಡಿಕೆಗೆ ಆದ್ಯತೆ ನೀಡಿ. ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಬೆಳಕು ಕೊಡುವುದು ಪ್ರಶ್ನೆಗೆ ವಿಭಾಗಗಳ ನಡುವೆ ಸಂಶ್ಲೇಷಣೆಯ ಅಗತ್ಯವಿರುವಾಗ ಮಾತ್ರ—ನೀತಿ ಹೊರತುಪಡಿಸುವಿಕೆಗಳು, ಪರಸ್ಪರ ಉಲ್ಲೇಖಿಸಿದ ಸಲಹೆಗಳು, ಸಾಹಿತ್ಯ ವಿಮರ್ಶೆಗಳು. ಇಲ್ಲದಿದ್ದರೆ ನೀವು ಅನಗತ್ಯ ಗಮನಕ್ಕೆ ಹಣ ಕೊಡುತ್ತಿದ್ದೀರಿ.
ನೀವು ನಿಜವಾಗಿಯೂ “ಎಲ್ಲಾವುದನ್ನೂ ಓದಿ” ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕಿದ್ದರೆ? ಮಾದರಿಯನ್ನು ಮೂರ್ಖತನದಿಂದ ಸಕ್ರೀಯವಾಗಿ ಎಲ್ಲವನ್ನೂ ನೆನಪಿಕೊಂಡಿರಿಸಲು ಒತ್ತಾಯ ಮಾಡಬೇಡಿ. ಹಂತಗಳನ್ನು ಮಾಡಿ: ಸಂಗ್ರಹಿಸಿ → retrieval ಮಾಡಿ → ನ್ಯಾಯಯುತ ಮಾಡು. ಮಾನವರೂ ಕೂಡ ಹಾಗೆ ಮಾಡುತ್ತಾರೆ.
ಶೇಷ: ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಬರುವ ಅಥವಾ ಬಾರದ ಉತ್ತರ ಕೊಡಿ
DeepSeek-OCR ಅನ್ನು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್ಲೈನ್ನಲ್ಲಿ ಸೇರ್ಪಡೆ ಮಾಡುವುದು ದೊಡ್ಡ ವಿಂಡೋಗಳ ದೇವತೆಯನ್ನು ಪೂಜಿಸುವುದಲ್ಲ. ಅದು ಡಾಕ್ಯುಮೆಂಟ್ಗಳನ್ನು ಅಂತರಗ್ರಹಗಳಂತೆ ಗೌರವಿಸುವುದು, ಸಾದೃಶ್ಯದಿಂದ ಸಂಕೋಚಿಸುವುದು, ಉದ್ದೇಶದಿಂದ retrieval ಮಾಡುವುದು ಮತ್ತು ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಉತ್ತರಿಸುವುದಾಗಿದೆ. ಹಾಗು ಮಾಡಿದ್ರೆ, ನಿಮ್ಮ ಪೈಪ್ಲೈನ್ ಪುಟ 47 ಅನ್ನು ನೆನಪಿಗೆ ತರೋದಾಗಿ ನಾಟಕವನ್ನ ಮಾಡುವುದು ನಿಲ್ಲಿಸಿ ಅದನ್ನು ಸಾಬೀತುಪಡಿಸುತ್ತದೆ.
Sider.AIವನ್ನು ವಿವೇಚನಾಶೀಲವಾಗಿ ಉಪಯೋಗಿಸಿದರೆ ಇದು ಪ್ರಾಯೋಗಿಕವಾಗುತ್ತದೆ: ಹಂತಗಳನ್ನು ಸಂಯೋಜಿಸಿ, ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ಸತ್ಯವಾಗಿರಿಸಿ ಮತ್ತು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಕೆಲಸಕ್ಕೆ ಅಗತ್ಯವಿರುವ ಶಿಸ್ತನ್ನು ಕಾಯ್ದುಕೊಳ್ಳಿ. ಇದು ಸೆಕ್ಸಿ ಅಲ್ಲದ ಕೆಲಸವಾಗಿದೆ ಎಂದು ತಿಳಿಸಿದರೆ ಸರಿ. ಸೆಕ್ಸಿ ಭಾಗವು ನೀವು ನಂಬಬಹುದಾದ ಉತ್ತರಗಳಾಗಿವೆ. ಸೈಕಲ್ (FAQ)
Q1: DeepSeek-OCRನ್ನು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್ಲೈನ್ಗೆ ಸೇರಿಸುವ ವೇಗದ ಮಾರ್ಗವೇನು? OCR ಅನ್ನು ಬಿಗಿಯಾದ ಕ್ಯಾಶೆ ನಿಯಂತ್ರಣದ GPU ಬ್ಯಾಚ್ ಸೇವೆಯಾಗಿ ಪರಿಗಣಿಸಿ, ನಂತರ ವಿನ್ಯಾಸದಿಂದ ಸಂಕೋಚಿಸಿ (ತಲೆಬರಹಗಳು, ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳು, ಟೇಬಲ್ಗಳು) retrievalಗೂ ಮುಂಚೆ. ಸಂಯೋಜಿತ ಸೂಚ್ಯಂಕ (ದಟ್ಟ + ವಿಷ್ಣ + ಟೇಬಲ್) ಸೇರಿಸಿ ಮತ್ತು ಸಂಪೂರ್ಣ ಡಾಕ್ಯುಮೆಂಟ್ ಬಿಟ್ಟು ತಕ್ಷಣ ಪ್ರಾಂಪ್ಟ್ಗಳನ್ನು ರಚಿಸಿ.
Q2: ನಾನು DeepSeek-OCR ಉಪಯೋಗಿಸುತ್ತಿದ್ದರೆ ನಿಜವಾಗಿಯೂ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿಗಳ ಅಗತ್ಯವಿದೆಯೇ? ಎಲ್ಲರೂ ಅಲ್ಲ. ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳು ನಿಖರವಾದರೆ, retrieval ಮತ್ತು ಉಲ್ಲೇಖಗಳು ಕಾಂಟೆಕ್ಸ್ಟ್ ಉದ್ದಕ್ಕಿಂತ ಮೇಲುಗೈ ಮಾಡುತ್ತವೆ. ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಅವಶ್ಯಕತೆ ವಿಭಾಗಗಳ ಮಧ್ಯೆ ಸಂಶ್ಲೇಷಣೆಯ ಅಗತ್ಯವಿದ್ದಾಗ ಮಾತ್ರ.
Q3: ಟೇಬಲ್ಗಳನ್ನು ಟೋಕನ್ ಗಾತ್ರವನ್ನು ಹೆಚ್ಚಿಸದೇ ಹೇಗೆ ನಿರ್ವಹಿಸುವುದು? ಟೇಬಲ್ಗಳನ್ನು ರಚನೆಗೆ ಅನುಗುಣವಾಗಿ ತೆಗೆಯಿರಿ, ಹೆಡರ್ಗಳನ್ನೂ ಕೆಲವು ಪ್ರತ್ಯಿಷ್ಟ ಸಾಲುಗಳನ್ನೂ ಉಳಿಸಿ, ಮತ್ತು ಪೂರ್ಣ ಟೇಬಲ್ಗಳನ್ನು ಬಾಹ್ಯವಾಗಿ ಸಂಗ್ರಹಿಸಿ. ಟೇಬಲ್ ಪ್ರಶ್ನೆಗಳನ್ನು ಟೇಬಲ್ ಸೂಚ್ಯಂಕಕ್ಕೆ ಮಾರ್ಗನಿರ್ದೇಶ ಮಾಡಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ನಲ್ಲಿ ಅಗತ್ಯವಿರುವ ಸೆಲ್ಗಳನ್ನಷ್ಟೆ ಸೇರಿಸಿ.
Q4: ಯಾವ ಸೂಚೆಗಳು ಪೈಪ್ಲೈನ್ ನಿಜವಾಗಿಯೂ ಕೆಲಸ ಮಾಡುತ್ತದೆಯೆಂದು ಸಾಬೀತುಪಡಿಸುತ್ತವೆ? ಉಲ್ಲೇಖ ನಿಖರತೆ, ಟೇಬಲ್ ಸೆಲ್ ನಿಖರತೆ, ವಿಭಾಗ ಪ್ರತಿ ಸಂಕೋಚನೆ ನಿಷ್ಠೆ, ಮತ್ತು P95 ಕೊನೆಯಲ್ಲಿ ತಡೆವಿರುವ ಲೇಟೆನ್ಸಿ. ಅತ್ಯಂತ ಪ್ರಭಾವಿ ಮಾನವ ನಂಬಿಕೆ ಅಂಕೆ—ಬಳಕೆದಾರರು ನಿರೀಕ್ಷೆಯ ಫಲಿತಾಂಶವನ್ನು ಮೊದಲ ನೋಡುವಾಗ ಸ್ವೀಕರಿಸುತ್ತಾರೆಯೇ ಇಲ್ಲವೇ ಎಂದು.
Q5: Sider.AI ಈ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಎಲ್ಲಿ ಎಲ್ಲಿದೆ? ಅದು ಸಂಯೋಜನಾ ಹಂತ, OCR ಗಾಗಿ ಕಾರ್ಯವಿಚಾರಣೆಯನ್ನು ಸಮಯಪಡಿಸಿ, ಚಂಕಿಂಗ್ ಮತ್ತು retrieval ನೀತಿಗಳನ್ನು ಜಾರಿ ಮಾಡುತ್ತದೆ, ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ಗಳಿಗೆ ಶಿಸ್ತನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುತ್ತದೆ. ಅದನ್ನು ಮಾಯಾಜಾಲಿಗಿಂತ ಮುಂದೆ ಈತನೆಂದು ಭಾವಿಸಿ—ಎಲ್ಲಾ ಹಂತಗಳು ನಿಗದಿತ ಸಮಯದಲ್ಲಿ ಮತ್ತು ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಸರಿಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲು responsible.