ಪರಿಚಯ: ಅತಿಯಾದ ಪಠ್ಯದ ಸಮಸ್ಯೆಯೆಂದರೆ ಅದು ದೀರ್ಘವಾಗಿರುವುದಲ್ಲ
LLM ಗಳಲ್ಲಿ "ದೀರ್ಘ ಸನ್ನಿವೇಶ" ದ ಬಗ್ಗೆ ಹೇಳುವುದಾದರೆ, ಎಲ್ಲರೂ ಅದು ಪರಿಹಾರವಾದ ಸಮಸ್ಯೆ ಎಂದು ನಟಿಸುತ್ತಾರೆ - ನೀವು ಅವರಿಗೆ 200 ಪುಟಗಳ PDF ಅನ್ನು ನೀಡುವವರೆಗೆ ಮತ್ತು ಏನೂ ಇಲ್ಲದ ಹೈಕುವನ್ನು ಹಿಂದಿರುಗಿಸುವವರೆಗೆ. ಮಾದರಿಗಳು ಉದ್ದದೊಂದಿಗೆ ಹೋರಾಡುವುದಿಲ್ಲ; ಅವು ಅಪ್ರಸ್ತುತತೆಯಿಂದ ಉಸಿರುಗಟ್ಟಿಸುತ್ತವೆ. ಕಸ ಹಾಕಿದರೆ, ಸಮಂಜಸವಾದ ಕಸ ಹೊರಬರುತ್ತದೆ. ನಿಮಗೆ ಅರ್ಥಪೂರ್ಣವಾದ ಉತ್ತರಗಳು ಬೇಕಾದರೆ, ನಿಮಗೆ ದೊಡ್ಡ ಮಾದರಿ ಅಗತ್ಯವಿಲ್ಲ. ನಿಮಗೆ ಕಡಿಮೆ ಕಸ ಬೇಕು.
DeepSeek-OCR ಅನ್ನು ನಮೂದಿಸಿ. ಇದು ಉತ್ತಮ ಸಾಧನಗಳು ಮಾಡಬೇಕಾದುದನ್ನು ಮಾಡುವ OCR ಎಂಜಿನ್ ಆಗಿದೆ: ಇದು ಚಿತ್ರಗಳು ಮತ್ತು PDF ಗಳನ್ನು ಯಾವುದೇ ತೊಂದರೆಯಿಲ್ಲದೆ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ಆದರೆ ಇಲ್ಲಿನ ತಂತ್ರ ಕೇವಲ OCR ಅಲ್ಲ. ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಬಳಸುವುದು - ರಚನೆಯನ್ನು ಹೊರತೆಗೆಯುವುದು, ಅನಗತ್ಯವನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು, ಸಿಗ್ನಲ್ ಅನ್ನು ಉಳಿಸಿಕೊಳ್ಳುವುದು - ಇದರಿಂದ ಕೆಳಗಿರುವ LLM ಗಳು 1998 ರಿಂದ ಅಂಕಿಅಂಶಗಳ ಶೀರ್ಷಿಕೆಗಳ ಮೇಲೆ ಟೋಕನ್ಗಳನ್ನು ವ್ಯರ್ಥ ಮಾಡುವುದಿಲ್ಲ.
"ಕುಗ್ಗಿಸು" ಎಂಬುದು ಮುಖ್ಯ ಪದ. ZIP-ಫೈಲ್ ಕುಗ್ಗಿಸುವಿಕೆಯಲ್ಲ. ಸೆಮ್ಯಾಂಟಿಕ್ ಕುಗ್ಗಿಸುವಿಕೆ. ಮಾನವರು ಇದನ್ನು ನಿರಂತರವಾಗಿ ಮಾಡುತ್ತಾರೆ. ಒಂದು ಪುಟವನ್ನು ಓದಿ, ಒಂದು ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ನೆನಪಿಡಿ. ಒಂದು ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ಓದಿ, ಒಂದು ವಾಕ್ಯವನ್ನು ಉಳಿಸಿಕೊಳ್ಳಿ. ನಾವು ಅದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಎಂದು ಕರೆಯುತ್ತೇವೆ. DeepSeek-OCR ಲೂಪ್ನಲ್ಲಿರುವುದರಿಂದ, ನೀವು ಆ ಪೈಪ್ಲೈನ್ ಅನ್ನು ಅಂದಾಜು ಮಾಡಬಹುದು: ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛವಾಗಿ ಎಳೆಯಿರಿ, ಅದನ್ನು ವಿಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಿ ಮತ್ತು ಮಾದರಿಯು ನಿಜವಾಗಿ ಕೆಲಸ ಮಾಡಲು ಸಾಧ್ಯವಾಗುವಂತಹ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು ರಚಿಸಿ. ಕಡಿಮೆ ಸಾಹಸ, ಹೆಚ್ಚು ಫಲಿತಾಂಶಗಳು.
ಇದು ಹೇಗೆ ಮಾಡಬೇಕೆಂಬುದರ ಬಗ್ಗೆ. ಆದರೆ ಇದು ಚಾಟ್ ಬಾಕ್ಸ್ನಲ್ಲಿ ಕಚ್ಚಾ PDF ಗಳನ್ನು ತಳ್ಳಿ ಪ್ರಾರ್ಥಿಸುವುದು ಕೆಲಸದ ಹರಿವು ಎಂದು ಯೋಚಿಸುವ ಯಾರಿಗಾದರೂ ಸೌಮ್ಯವಾದ ಮಧ್ಯಸ್ಥಿಕೆ. ಅದನ್ನು ಒಂದು ವ್ಯವಸ್ಥೆಯನ್ನಾಗಿ ಮಾಡೋಣ.
"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂಬುದರ ನಿಜವಾದ ಅರ್ಥವೇನು
ಉಪಕರಣಗಳು ಕುಗ್ಗಿಸುವುದಿಲ್ಲ; ನಿರ್ಧಾರಗಳು ಮಾಡುತ್ತವೆ. ಜನರು "LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂದು ಹೇಳಿದಾಗ, ಅವರು ನಿಜವಾಗಿಯೂ ಬಯಸುವುದು ಗೊಂದಲಮಯ, ದೃಶ್ಯ ದಾಖಲೆಗಳಿಂದ ಸಂಕ್ಷಿಪ್ತ, ರಚನಾತ್ಮಕ ಪಠ್ಯದ ಭಾಗಗಳಿಗೆ ಹೋಗಲು ಪುನರುತ್ಪಾದಿಸಬಹುದಾದ ಮಾರ್ಗ, ಅಲ್ಲಿ ಭಾಷಾ ಮಾದರಿಯು ತಪ್ಪು ಟಿಪ್ಪಣಿಗಳನ್ನು ಭ್ರಮೆಗೊಳಿಸದೆ ತಾರ್ಕಿಕವಾಗಿ ಯೋಚಿಸಬಲ್ಲದು. ಪ್ರಕ್ರಿಯೆಯನ್ನು ನಾಲ್ಕು ಕೆಲಸಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ:
- ನಿಖರವಾದ ಹೊರತೆಗೆಯುವಿಕೆ: ಪುಟದಿಂದ ಪದಗಳನ್ನು ಪಡೆಯಿರಿ-ಸರಿಯಾಗಿ.
- ರಚನಾತ್ಮಕ ಮರುಪಡೆಯುವಿಕೆ: ಶೀರ್ಷಿಕೆಗಳು, ಪಟ್ಟಿಗಳು, ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಓದುವ ಕ್ರಮವನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಿ.
- ಶಬ್ದಾರ್ಥದ ಸಂಕ್ಷೇಪಣ: ಅರ್ಥವನ್ನು ಉಳಿಸಿಕೊಂಡು ಅನಗತ್ಯವನ್ನು ಕಡಿಮೆ ಮಾಡಿ.
- ಹಿಂಪಡೆಯುವ ಶಿಸ್ತು: ಮಾದರಿಗೆ ಯಾವಾಗ ಏನು ಬೇಕೋ ಅದನ್ನು ಮಾತ್ರ ನೀಡಿ.
DeepSeek-OCR ಮೊದಲ ಎರಡನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ನೀವು (ಮತ್ತು ನಿಮ್ಮ LLM) ನಂತರದ ಎರಡನ್ನು ನಿರ್ವಹಿಸುತ್ತೀರಿ. ಇದರ ಪರಿಣಾಮವಾಗಿ ಬರುವ ಪೈಪ್ಲೈನ್ "LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುತ್ತದೆ" ಇದು ಮುಖ್ಯವಾದ ಏಕೈಕ ಅರ್ಥದಲ್ಲಿ: ಕಡಿಮೆ ಟೋಕನ್ಗಳು, ಅದೇ ಉತ್ತರಗಳು, ಕಡಿಮೆ ಅರ್ಥವಿಲ್ಲದ ಮಾತುಗಳು.
ಹಂತ 1: DeepSeek-OCR ಅನ್ನು ಸರಿಯಾಗಿ ಬಳಸಿ (ಹೊರತೆಗೆಯುವಿಕೆ ಪದರ)
ಕೆಟ್ಟ OCR ಕೆಳಗಿರುವ ಎಲ್ಲವನ್ನೂ ವಿಷಪೂರಿತಗೊಳಿಸುತ್ತದೆ. ನೀವು ತಪ್ಪುಗಳು, ಮುರಿದ ಕಾಲಮ್ಗಳು ಮತ್ತು ಬೇರ್ಪಟ್ಟ ಅಡಿಟಿಪ್ಪಣಿಗಳು ವಾಕ್ಯಗಳಂತೆ ನಟಿಸುವುದರೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಿದರೆ, ನಿಮ್ಮ "ಸಂಕುಚಿತಗೊಳಿಸುವಿಕೆ" ಕೇವಲ ತಪ್ಪುಗಳನ್ನು ಶಾಶ್ವತಗೊಳಿಸುತ್ತದೆ. DeepSeek-OCR ನ ಕೆಲಸವೆಂದರೆ ನಿಮಗೆ ಲೇಔಟ್ ಸುಳಿವುಗಳೊಂದಿಗೆ ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ನೀಡುವುದು.
- ಮೊದಲು PDF ಪಠ್ಯ ಹೊರತೆಗೆಯುವಿಕೆಗೆ ಆದ್ಯತೆ ನೀಡಿ. PDF ಡಿಜಿಟಲ್-ಸ್ಥಳೀಯವಾಗಿದ್ದರೆ (ಆಯ್ಕೆ ಮಾಡಬಹುದಾದ ಪಠ್ಯ), ಪಠ್ಯವನ್ನು ನೇರವಾಗಿ ಹೊರತೆಗೆಯಿರಿ ಮತ್ತು ಎಂಬೆಡೆಡ್ ಚಿತ್ರಗಳು ಅಥವಾ ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳಿಗೆ ಮಾತ್ರ OCR ಅನ್ನು ಬಳಸಿ. ಈಗಾಗಲೇ ಪಠ್ಯವಾಗಿರುವುದನ್ನು OCR ಮಾಡಬೇಡಿ-ತಪ್ಪುಗಳನ್ನು ಸರಿಪಡಿಸಲು ತಪ್ಪುಗಳನ್ನು ಪರಿಚಯಿಸುವುದು ಬುದ್ಧಿವಂತಿಕೆಯಲ್ಲ.
- ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ PDF ಗಳಿಗಾಗಿ, ಪುಟ-ಮಟ್ಟದ ಮತ್ತು ಬ್ಲಾಕ್-ಮಟ್ಟದ ಲೇಔಟ್ ಪತ್ತೆಹಚ್ಚುವಿಕೆಯೊಂದಿಗೆ DeepSeek-OCR ಅನ್ನು ಬಳಸಿ. ನಿಮಗೆ ಶೀರ್ಷಿಕೆಗಳು, ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳು, ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಅಂಕಿಅಂಶಗಳ ಶೀರ್ಷಿಕೆಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸಬೇಕು. ಮಾದರಿಯು ನಿಮಗೆ ನಂತರ ಧನ್ಯವಾದಗಳನ್ನು ಹೇಳುತ್ತದೆ.
- ಓದಬಲ್ಲ ಸಾಲಿನ ಅಗಲವನ್ನು ಹೊಂದಿಸಿ. ಎರಡು-ಕಾಲಮ್ PDF ಗಳ ದೀರ್ಘವಾದ ಮುರಿಯದ ಸಾಲುಗಳು ಬೀಟ್ ಕಾವ್ಯದಂತೆ ಕಾಣುವಂತೆ ಮಾಡುತ್ತದೆ.
- ಸಾಧ್ಯವಾದಾಗ ಕೋಷ್ಟಕಗಳನ್ನು CSV ಅಥವಾ ಮಾರ್ಕ್ಡೌನ್ನಂತೆ ಹೊರತೆಗೆಯಿರಿ. ಕೋಷ್ಟಕಗಳು ಅರ್ಥದಿಂದ ಕೂಡಿರುತ್ತವೆ. ಅವುಗಳು ಹಾಗೇ ಉಳಿದುಕೊಂಡರೆ, ನಿಮ್ಮ ಕುಗ್ಗಿಸುವಿಕೆ ಬುದ್ಧಿವಂತಿಕೆಯಿಂದ ಕೂಡಿರುತ್ತದೆ, ದಡ್ಡತನದಿಂದಲ್ಲ.
ಫಲಿತಾಂಶ: ಕಾರ್ಪಸ್ ಇನ್ನೂ ಉದ್ದವಾಗಿದೆ, ಆದರೆ ಗೊಂದಲಮಯವಾಗಿಲ್ಲ-ಪಠ್ಯ, ಶೀರ್ಷಿಕೆಗಳು, ಪಟ್ಟಿಗಳು, ಕೋಷ್ಟಕಗಳು, alt-ತರಹದ ಶೀರ್ಷಿಕೆಗಳೊಂದಿಗೆ ಚಿತ್ರಗಳು. ರಚನೆಯು ಮೊದಲ ಕುಗ್ಗಿಸುವಿಕೆಯಾಗಿದೆ.
ಹಂತ 2: ಪುಟ ಸಂಖ್ಯೆಗಳ ಪ್ರಕಾರ ಅಲ್ಲ, ಅರ್ಥದ ಪ್ರಕಾರ ಭಾಗಿಸಿ
ಸಾಮಾನ್ಯ ತಪ್ಪು: ಪುಟಗಳು ಅಥವಾ ಟೋಕನ್ ಎಣಿಕೆಗಳ ಮೂಲಕ ವಿಂಗಡಿಸಿ ಮತ್ತು ಅದನ್ನು ಮುಗಿಸಿ ಎಂದು ಕರೆಯುವುದು. ಪುಟ ಸಂಖ್ಯೆಗಳು ಮುದ್ರಕಗಳಿಗೆ; ಅರ್ಥವು ಫೋಲಿಯೊಗಳ ಬಗ್ಗೆ ತಲೆಕೆಡಿಸಿಕೊಳ್ಳುವುದಿಲ್ಲ. ವಿಭಾಗಗಳು ಮತ್ತು ಉಪಶೀರ್ಷಿಕೆಗಳ ಪ್ರಕಾರ ಭಾಗಿಸಲು DeepSeek-OCR ನ ಲೇಔಟ್ ಸುಳಿವುಗಳನ್ನು ಬಳಸಿ.
- ಪ್ರತಿ ಉನ್ನತ-ಮಟ್ಟದ ಹೆಡರ್ಗೆ (H1/H2) ಒಂದು ಭಾಗ, H3/H4 ಗೆ ಉಪ-ಭಾಗಗಳು. ನಿಮ್ಮ ಗುರಿ ಮಾದರಿಯ ಆರಾಮದಾಯಕ ಸನ್ನಿವೇಶ ವಿಂಡೋದ ಅಡಿಯಲ್ಲಿ ಪ್ರತಿ ಭಾಗವನ್ನು ಇರಿಸಿ-800-1,200 ಟೋಕನ್ಗಳು ಎಂದು ಹೇಳಿ.
- ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಅವುಗಳ ವಿವರಣಾತ್ಮಕ ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳನ್ನು ಒಟ್ಟಿಗೆ ಇರಿಸಿ. ಅವುಗಳನ್ನು ವಿಭಜಿಸುವುದು ಮಾದರಿಯು ಅಂತರವನ್ನು ತುಂಬಲು ಡೇಟಾವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಉತ್ತಮ ಮಾರ್ಗವಾಗಿದೆ.
- ಮುಖ್ಯ ಪಠ್ಯದೊಂದಿಗೆ ಅನುಬಂಧ ಸಾಮಗ್ರಿಗಳನ್ನು ಮಿಶ್ರಣ ಮಾಡಬೇಡಿ. ಇದು ಐಚ್ಛಿಕ ಓದುವಿಕೆ; ಅದನ್ನು ಹಾಗೆಯೇ ಪರಿಗಣಿಸಿ.
ಕುಗ್ಗಿಸುವಿಕೆ ನಿಮ್ಮ ಭಾಗಿಸುವ ತಂತ್ರದಲ್ಲಿ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ: ಬಿಗಿಯಾದ, ಸುಸಂಬದ್ಧ ಘಟಕಗಳನ್ನು LLM ಅರ್ಧದಾರಿಯಲ್ಲೇ ಪ್ರಾರಂಭವನ್ನು ಮರೆಯದೆ ಜೀರ್ಣಿಸಿಕೊಳ್ಳಬಹುದು.
ಹಂತ 3: ಶಬ್ದಾರ್ಥದ ಕುಗ್ಗಿಸುವಿಕೆ ಪಾಸ್: ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳು
ಈಗ "LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವ" ಭಾಗ. ಇಡೀ ಡಾಕ್ಯುಮೆಂಟ್ ಅನ್ನು ಒಂದೇ ಕಾರ್ಯನಿರ್ವಾಹಕ ಸಾರಾಂಶಕ್ಕೆ ಇಳಿಸುವ ಬದಲು (ಕಾರ್ಯನಿರ್ವಾಹಕರು ಇಷ್ಟಪಡುತ್ತಾರೆ ಮತ್ತು ಮಾದರಿಗಳು ದ್ವೇಷಿಸುತ್ತವೆ), ಪ್ರತಿ ಭಾಗಕ್ಕೆ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು ರಚಿಸಿ:
- ಬುಲೆಟ್ ಸಾರಾಂಶ (5-10 ಬುಲೆಟ್ಗಳು): ಪ್ರಮುಖ ಅಂಶಗಳು, ಹಕ್ಕುಗಳು, ವ್ಯಾಖ್ಯಾನಗಳು, ಸಂಖ್ಯೆಗಳು.
- ಒಂದು-ಪ್ಯಾರಾಗ್ರಾಫ್ ಸಾರ: ಐದು ನಿಮಿಷಗಳ ನಂತರ ಒಬ್ಬ ಎಚ್ಚರಿಕೆಯ ಓದುಗನು ಏನು ಉಳಿಸಿಕೊಳ್ಳುತ್ತಾನೆ.
- ಗ್ಲಾಸರಿ ಹೊರತೆಗೆಯುವಿಕೆ: ಕಲೆಯ ನಿಯಮಗಳು ಮತ್ತು ಅವುಗಳ ಒಂದು-ಸಾಲಿನ ವ್ಯಾಖ್ಯಾನಗಳು.
- ಉಲ್ಲೇಖಗಳು ಮತ್ತು ಆಂಕರ್ಗಳು: ವಿಭಾಗದ ಶೀರ್ಷಿಕೆ, ಪುಟ ಸಂಖ್ಯೆ, ಕೋಷ್ಟಕ ID ಗಳು.
ಇದು ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯೊಂದಿಗೆ ಕುಗ್ಗಿಸುವಿಕೆ. ಬುಲೆಟ್ಗಳು ನಿಮ್ಮ ನಷ್ಟವಿಲ್ಲದ ಸೂಚ್ಯಂಕ; ಪ್ಯಾರಾಗ್ರಾಫ್ ನಿಮ್ಮ ನಷ್ಟದ ಕೋಡೆಕ್. ಎರಡನ್ನೂ ಇರಿಸಿ. ನೀವು ನಂತರ ಮಾದರಿಯನ್ನು ಪ್ರಶ್ನಿಸಿದಾಗ, ಸಂಪೂರ್ಣ ಭಾಗವನ್ನು ಅಲ್ಲ, ಬುಲೆಟ್ಗಳು ಮತ್ತು ಸಂಬಂಧಿತ ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ಹಿಂಪಡೆಯಿರಿ. ನೀವು ಕಡಿಮೆ ಟೋಕನ್ಗಳನ್ನು ನೀಡುತ್ತೀರಿ ಮತ್ತು ಉತ್ತಮ ಉತ್ತರಗಳನ್ನು ಪಡೆಯುತ್ತೀರಿ. ಮ್ಯಾಜಿಕ್ ಟ್ರಿಕ್: ಇದು ಕೇವಲ ಸಂಪಾದನೆ.
ಹಂತ 4: ಮಾನವ ವಿಶ್ಲೇಷಕರಂತೆ ಕೋಷ್ಟಕಗಳನ್ನು ಸಾರಾಂಶಗೊಳಿಸಿ
ದೀರ್ಘ ದಾಖಲೆಗಳು ತಮ್ಮ ನಿಜವಾದ ಅರ್ಥವನ್ನು ಕೋಷ್ಟಕಗಳಲ್ಲಿ ಮರೆಮಾಡುತ್ತವೆ. ಮಾಹಿತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುವುದನ್ನು ನೀವು ಆನಂದಿಸದ ಹೊರತು ಅವುಗಳನ್ನು ಪಠ್ಯಕ್ಕೆ ಚಪ್ಪಟೆ ಮಾಡಬೇಡಿ.
- ಮೂಲಕ್ಕಾಗಿ ಕಚ್ಚಾ ಕೋಷ್ಟಕವನ್ನು (CSV/ಮಾರ್ಕ್ಡೌನ್) ಇರಿಸಿ.
- "ಕೋಷ್ಟಕ ಮೆಮೊ" ಅನ್ನು ಸೇರಿಸಿ: ಕೋಷ್ಟಕವು ಏನು ತೋರಿಸುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು 3-5 ಬುಲೆಟ್ಗಳು, ಅದು ಏನು ಸೂಚಿಸುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ಒಂದು ವಾಕ್ಯ ಮತ್ತು ಯಾವುದೇ ವಿಚಿತ್ರತೆ (ಕಾಣೆಯಾದ ಸಾಲುಗಳು, ಕೆಂಪು ಧ್ವಜಗಳು, ಕಠಾರಿಗಳೊಂದಿಗೆ ಅಡಿಟಿಪ್ಪಣಿಗಳು).
- ಘಟಕಗಳು, ಸಮಯದ ಶ್ರೇಣಿಗಳು ಮತ್ತು ಸಮೂಹ ವ್ಯಾಖ್ಯಾನಗಳನ್ನು ಸಂರಕ್ಷಿಸಿ. "ಮಾರಾಟವು 10% ರಷ್ಟು ಹೆಚ್ಚಾಗಿದೆ" ಎನ್ನುವುದು "QoQ, ex-FX, APAC ಮಾತ್ರ" ಇಲ್ಲದೆ ಕ್ಷುಲ್ಲಕವಾಗಿದೆ.
ಪ್ರಶ್ನೆಯು ಸಂಖ್ಯೆಗಳನ್ನು ಒಳಗೊಂಡಾಗ ಮೆಮೊ ಮತ್ತು ಕೋಷ್ಟಕವನ್ನು LLM ಗೆ ನೀಡಿ. ಅದು ಸ್ಪಷ್ಟತೆಯಿಂದ ಕುಗ್ಗಿಸುವಿಕೆ, ಅಳಿಸುವಿಕೆಯಿಂದಲ್ಲ.
ಹಂತ 5: ಉತ್ಪಾದನೆಯ ಮೊದಲು ಹಿಂಪಡೆಯುವಿಕೆ (RAG, buzzword ಇಲ್ಲದೆ)
RAG ಮಾಡಲು ನೀವು "RAG" ಎಂದು ಹೇಳಬೇಕಾಗಿಲ್ಲ. ಉತ್ತರಿಸಲು ಮಾದರಿಯನ್ನು ಕೇಳುವ ಮೊದಲು ನೀವು ಸರಿಯಾದ ಭಾಗಗಳನ್ನು ಆರಿಸಬೇಕಷ್ಟೆ.
- ವೆಕ್ಟರ್ ಹುಡುಕಾಟದೊಂದಿಗೆ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು (ಸಮಾನಾರ್ಥಕ ಪದಗಳು, ಅರ್ಥವಿವರಣೆಗಳು) ಮತ್ತು ಕೀವರ್ಡ್ ಹುಡುಕಾಟದೊಂದಿಗೆ ಶೀರ್ಷಿಕೆಗಳನ್ನು (ನಿಖರ ಹೊಂದಾಣಿಕೆಗಳು) ಸೂಚಿಸಿ. ಎರಡು ಹುಡುಕಾಟಗಳು, ಸಣ್ಣ ಪಟ್ಟಿಗಳು, ಅವುಗಳನ್ನು ಛೇದಿಸಿ.
- ಹಿಂಪಡೆಯಿರಿ: ಬುಲೆಟ್ಗಳು + ಸಾರ + ಸಂಬಂಧಿತ ಕೋಷ್ಟಕ ಮೆಮೊಗಳು. ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಕ್ಕಾಗಿ ಮೂಲ ಭಾಗದಿಂದ ಟಾಪ್ ಕೆಲವು ವಾಕ್ಯಗಳನ್ನು ಕಚ್ಚಾ ಪಠ್ಯವಾಗಿ ಐಚ್ಛಿಕವಾಗಿ ಸೇರಿಸಿ.
- ಪುರಾವೆಗಳೊಂದಿಗೆ ಉತ್ತರಿಸಿ: ಭಾಗ ID ಅಥವಾ ಪುಟವನ್ನು ಉಲ್ಲೇಖಿಸಲು ಮಾದರಿಗೆ ಸೂಚಿಸಿ.
ನಿಮ್ಮ ಇನ್ಪುಟ್ಗಳನ್ನು ಲಾಬೊಟಮೈಸ್ ಮಾಡದೆ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವುದು ಹೇಗೆ. ಗ್ರಂಥಪಾಲಕರಂತೆ ಯೋಚಿಸಿ, ಬ್ಲೆಂಡರ್ ಅಲ್ಲ.
ಕನಿಷ್ಠ, ನೀರಸವಾಗಿ ಪರಿಣಾಮಕಾರಿ ಪ್ರಾಂಪ್ಟಿಂಗ್ ಮಾದರಿ
ಪ್ರತಿ ಭಾಗಕ್ಕೆ, ಸ್ಥಿರವಾದ ಸಾರಾಂಶ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಚಲಾಯಿಸಿ. ಸ್ಥಿರತೆಯು ಅರ್ಧ ಯುದ್ಧ.
ಪ್ರಾಂಪ್ಟ್ ಅಸ್ಥಿಪಂಜರ:
"ನೀವು ಎಚ್ಚರಿಕೆಯ ತಾಂತ್ರಿಕ ಸಂಪಾದಕರು. ಬುಲೆಟ್ ಪಾಯಿಂಟ್ಗಳೊಂದಿಗೆ (ಸತ್ಯಗಳು ಮಾತ್ರ), ಒಂದು-ಪ್ಯಾರಾಗ್ರಾಫ್ ಸಾರ, ನಿಯಮಗಳ ಗ್ಲಾಸರಿ ಮತ್ತು ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ (ವಿಭಾಗದ ಶೀರ್ಷಿಕೆ ಮತ್ತು ಪುಟ) ಕೆಳಗಿನ ಭಾಗವನ್ನು ಸಾರಾಂಶಗೊಳಿಸಿ. ಘಟಕಗಳು, ದಿನಾಂಕಗಳು ಮತ್ತು ಅರ್ಹತೆಗಳನ್ನು ಸಂರಕ್ಷಿಸಿ. ಪಠ್ಯದಲ್ಲಿ ಹಕ್ಕಿಗೆ ಪುರಾವೆ ಇಲ್ಲದಿದ್ದರೆ, ಅದನ್ನು [ಉಲ್ಲೇಖಿಸದ] ಎಂದು ಗುರುತಿಸಿ. ಕೋಷ್ಟಕಗಳನ್ನು ಪುನಃ ಬರೆಯುವುದನ್ನು ತಪ್ಪಿಸಿ; ಅವುಗಳನ್ನು ID ಮೂಲಕ ಉಲ್ಲೇಖಿಸಿ. ಇನ್ಪುಟ್ --- ನಂತರ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ."
ನಂತರ ಭಾಗವನ್ನು ನೀಡಿ. ಭಾಗ ID ಯೊಂದಿಗೆ ಔಟ್ಪುಟ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಿ. ಉತ್ತಮ ಪತ್ರಕರ್ತರು ಉಲ್ಲೇಖಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ಇಟ್ಟುಕೊಳ್ಳುವ ರೀತಿಯಲ್ಲಿಯೇ ನೀವು ಈಗ ನಿಮ್ಮ ಸ್ವಂತ ಕುಗ್ಗಿಸುವಿಕೆ ಪದರವನ್ನು ತಯಾರಿಸಿದ್ದೀರಿ.
ನಿರ್ದಿಷ್ಟವಾಗಿ DeepSeek-OCR ಏಕೆ?
OCR ಉಪಕರಣಗಳು ಬಹಳಷ್ಟು ಇವೆ. ಕೆಲವು ವೇಗವಾಗಿ ಮತ್ತು ತಪ್ಪಾಗಿವೆ; ಕೆಲವು ನಿಧಾನವಾಗಿ ಮತ್ತು ತಪ್ಪಾಗಿವೆ. DeepSeek-OCR ವೇಗವಾಗಿದೆ ಮತ್ತು ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿ, ಲೇಔಟ್ ಅನ್ನು ಗೌರವಿಸುತ್ತದೆ. ಇದರ ಬಹು-ಕಾಲಮ್ ನಿರ್ವಹಣೆ ಮತ್ತು ಅಂಕಿಅಂಶಗಳ ಶೀರ್ಷಿಕೆ ಪ್ರತ್ಯೇಕಿಸುವಿಕೆ ನಿಮಗೆ ಗಂಟೆಗಳ ನಂತರದ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಉಳಿಸುತ್ತದೆ. ಪ್ರಶ್ನೆಯೆಂದರೆ "ಇದು ಪರಿಪೂರ್ಣವಾಗಿದೆಯೇ?"-ಅವು ಯಾವುದೂ ಅಲ್ಲ. ವೈಫಲ್ಯದ ವಿಧಾನಗಳು ಊಹಿಸಬಹುದಾದವೇ ಎಂಬುದು ಪ್ರಶ್ನೆ. DeepSeek-OCR ನೊಂದಿಗೆ, ಅವು ಹೆಚ್ಚಾಗಿ: ಟ್ರಿಕಿ ಲಿಗೇಚರ್ಗಳು, ಶೀರ್ಷಿಕೆಗಳು ದೇಹದ ಪಠ್ಯಕ್ಕೆ ಹರಿಯುತ್ತವೆ ಮತ್ತು ಸಾಂದರ್ಭಿಕ ಗಣಿತ. ನೀವು ಅದಕ್ಕಾಗಿ ಯೋಜಿಸಬಹುದು. ಯೋಜಿಸುವುದು ಕುಗ್ಗಿಸುವಿಕೆಯ ಅರ್ಧದಷ್ಟು.
ಹೇಳಲು ಯೋಗ್ಯವಾಗಿದೆ: ಟೋಕನ್-ಸಮರ್ಥ ಪಠ್ಯವನ್ನು ಹಿಂದಿರುಗಿಸುವ OCR ಮುಖ್ಯವಾಗಿದೆ. ನಿಮ್ಮ OCR ಫ್ಯಾಂಟಮ್ ವೈಟ್ಸ್ಪೇಸ್, ಮುರಿದ ಹೈಫನೇಶನ್ ಅಥವಾ ನಕಲಿ ಸಾಲುಗಳನ್ನು ಸೇರಿಸಿದರೆ, ಪ್ರತಿ ಕೆಳಗಿರುವ ಕರೆಯಲ್ಲಿ ಆ ಟೋಕನ್ಗಳಿಗೆ ನೀವು ಪಾವತಿಸುತ್ತೀರಿ. DeepSeek-OCR ಅದನ್ನು ಸ್ವಚ್ಛವಾಗಿ ಇರಿಸುತ್ತದೆ. ಕಡಿಮೆ ಮರದ ಪುಡಿ, ಕಡಿಮೆ ಚೂರುಗಳು.
ಪ್ರಾಯೋಗಿಕ ಕೆಲಸದ ಹರಿವು: PDF ನಿಂದ ಉತ್ತರಗಳಿಗೆ ಅನಗತ್ಯವಿಲ್ಲದೆ
"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂಬ ಪ್ರಾಯೋಗಿಕ ಕೆಲಸದ ಹರಿವು ನಿಜವಾಗಿ ರವಾನೆಯಾಗುತ್ತದೆ:
- ಡಿಜಿಟಲ್ ಪಠ್ಯವನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳಿಗೆ ಹೋಲಿಸಿ ಪತ್ತೆ ಮಾಡಿ; ಅಗತ್ಯವಿದ್ದರೆ ಮಿಶ್ರ ವಿಧಾನಗಳನ್ನು ಬಳಸಿ.
- ಲೇಔಟ್ ಹೊರತೆಗೆಯುವಿಕೆ ಮತ್ತು ಕೋಷ್ಟಕ ಪತ್ತೆಹಚ್ಚುವಿಕೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿ DeepSeek-OCR ಅನ್ನು ಚಲಾಯಿಸಿ.
- ರಫ್ತು: ಪಠ್ಯಕ್ಕಾಗಿ ಮಾರ್ಕ್ಡೌನ್ (ಶೀರ್ಷಿಕೆಗಳು, ಪಟ್ಟಿಗಳು), ಕೋಷ್ಟಕಗಳಿಗಾಗಿ CSV/ಮಾರ್ಕ್ಡೌನ್, ಅಂಕಿಅಂಶಗಳಿಗಾಗಿ PNG ಉಲ್ಲೇಖಗಳು (ಐಚ್ಛಿಕ).
- ಹೈಫನೇಶನ್ ಅನ್ನು ಸರಿಪಡಿಸಿ: ಸಾಲಿನ ಬ್ರೇಕ್ಗಳಲ್ಲಿ ಮಾತ್ರ ಹೈಫನ್ ತೆಗೆದುಹಾಕಿ, ಮುಂದಿನ ಸಾಲು ಸಣ್ಣಕ್ಷರದಿಂದ ಪ್ರಾರಂಭವಾದರೆ ಮಾತ್ರ.
- ಮುರಿದ ಪ್ಯಾರಾಗ್ರಾಫ್ಗಳನ್ನು ವಿಲೀನಗೊಳಿಸಿ; ವಿಭಾಗಗಳ ನಡುವೆ ಖಾಲಿ ಸಾಲುಗಳನ್ನು ಇರಿಸಿ.
- ಸ್ಮಾರ್ಟ್ ಉಲ್ಲೇಖಗಳನ್ನು ಪರಿವರ್ತಿಸಿ, ಯೂನಿಕೋಡ್ ಅನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಿ (NFC). ಮಾದರಿಗಳು ಟೋಕನ್ಗಳನ್ನು ನೋಡಿಕೊಳ್ಳುತ್ತವೆ.
- H2/H3 ಗಡಿಗಳಿಂದ ಭಾಗಿಸಿ; ಹತ್ತಿರದ ಉಲ್ಲೇಖಿಸುವ ಪ್ಯಾರಾಗ್ರಾಫ್ಗೆ ಕೋಷ್ಟಕಗಳನ್ನು ಲಗತ್ತಿಸಿ.
- ಗಾತ್ರದ ಮಿತಿಗಳನ್ನು ಜಾರಿಗೊಳಿಸಿ (ಪ್ರತಿ ಭಾಗದ ಗುರಿಗೆ 1k ಟೋಕನ್ಗಳು). ವಾದದ ಮಧ್ಯದಲ್ಲಿ ವಿಭಜಿಸಬೇಡಿ.
- ಪ್ರತಿ ಭಾಗಕ್ಕೆ ಸ್ಥಿರವಾದ ಸಾರಾಂಶ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಚಲಾಯಿಸಿ.
- ಪ್ರತಿ ಕೋಷ್ಟಕಕ್ಕೆ ಪ್ರತ್ಯೇಕ ಕೋಷ್ಟಕ ಮೆಮೊವನ್ನು ಸೇರಿಸಿ.
- ಬುಲೆಟ್ ಪಾಯಿಂಟ್ಗಳು ಮತ್ತು ಸಾರ ಪಠ್ಯದ ಮೇಲೆ ವೆಕ್ಟರ್ ಸೂಚ್ಯಂಕವನ್ನು ನಿರ್ಮಿಸಿ.
- ಶೀರ್ಷಿಕೆಗಳು, ಗ್ಲಾಸರಿ ನಿಯಮಗಳು ಮತ್ತು ಕೋಷ್ಟಕ ID ಗಳ ಮೇಲೆ ಕೀವರ್ಡ್ ಸೂಚ್ಯಂಕವನ್ನು ನಿರ್ಮಿಸಿ.
- ವೆಕ್ಟರ್ + ಕೀವರ್ಡ್ ಛೇದಕದ ಮೂಲಕ ಟಾಪ್ 3-6 ಭಾಗಗಳನ್ನು ಹಿಂಪಡೆಯಿರಿ.
- ಸನ್ನಿವೇಶವನ್ನು ರಚಿಸಿ: ಬುಲೆಟ್ಗಳು + ಸಾರ + ಯಾವುದೇ ಕೋಷ್ಟಕ ಮೆಮೊಗಳು + ಮೂಲದಿಂದ 2-3 ಉಲ್ಲೇಖಿತ ವಾಕ್ಯಗಳು.
- ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ ಉತ್ತರಿಸಲು ಕೇಳಿ; ಊಹಾಪೋಹವನ್ನು ನಿಷೇಧಿಸಿ.
- ಉತ್ತರದ ನಂತರದ ವಿವೇಚನೆ ಪರಿಶೀಲನೆ
- ಉತ್ತರವು [ಉಲ್ಲೇಖಿಸದ] ಹಕ್ಕುಗಳನ್ನು ಉಲ್ಲೇಖಿಸಿದರೆ, ಪೋಷಕ ಭಾಗವನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಮರು-ಹಿಂಪಡೆಯಿರಿ.
- ಘಟಕಗಳಿಲ್ಲದೆ ಸಂಖ್ಯೆಗಳು ಕಾಣಿಸಿಕೊಂಡರೆ, ಘಟಕದ ನಿರ್ಬಂಧದೊಂದಿಗೆ ತಿರಸ್ಕರಿಸಿ ಮತ್ತು ಮರು-ಕೇಳಿ.
ಅಭಿನಂದನೆಗಳು, ನೀವು ಅದನ್ನು ಓಟ್ ಮೀಲ್ ಆಗಿ ಪರಿವರ್ತಿಸದೆ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದ್ದೀರಿ.
ಕುಗ್ಗಿಸುವಿಕೆ ಸಾರಾಂಶವಲ್ಲ; ಇದು ಟ್ರಿಯೇಜ್ ಆಗಿದೆ
ಸಾರಾಂಶ ಕಡಿಮೆ ಹೇಳಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ. ಕುಗ್ಗಿಸುವಿಕೆ ಕಡಿಮೆ ಟೋಕನ್ಗಳಲ್ಲಿ ಅದೇ ಅರ್ಥವನ್ನು ಇರಿಸಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ. ವಿಭಿನ್ನ ಗುರಿಗಳು. DeepSeek-OCR ನೊಂದಿಗೆ, ನೀವು ಮಾಹಿತಿ ಪೈಪ್ಲೈನ್ ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದೀರಿ, ಅಲ್ಲಿ ಪ್ರತಿ ಹಂತವು ನಿಮಗೆ ಅಗತ್ಯವಿಲ್ಲದ ಏನನ್ನಾದರೂ ಎಸೆಯುತ್ತದೆ:
- OCR ಪಿಕ್ಸೆಲ್ಗಳನ್ನು ಎಸೆಯುತ್ತದೆ ಮತ್ತು ಪಠ್ಯವನ್ನು ಇರಿಸುತ್ತದೆ.
- ಭಾಗಿಸುವಿಕೆ ಪುಟದ ಗಡಿಗಳನ್ನು ಎಸೆಯುತ್ತದೆ ಮತ್ತು ವಾದಗಳನ್ನು ಇರಿಸುತ್ತದೆ.
- ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳು ಪುನರಾವರ್ತನೆಯನ್ನು ಎಸೆಯುತ್ತವೆ ಮತ್ತು ಹಕ್ಕುಗಳನ್ನು ಇರಿಸುತ್ತವೆ.
- ಹಿಂಪಡೆಯುವಿಕೆ ಹೆಚ್ಚಿನ ಹಕ್ಕುಗಳನ್ನು ಎಸೆಯುತ್ತದೆ ಮತ್ತು ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸುವ ಕೆಲವನ್ನು ಇರಿಸುತ್ತದೆ.
ಹೆಚ್ಚಿನ "ದೀರ್ಘ ಸನ್ನಿವೇಶ" ಫ್ಯಾಂಟಸಿಗಳು ಸಾಯಲು ಹೋಗುವುದು ಕೊನೆಯ ಹಂತ. ಮಾದರಿಗೆ ಯಾವ 2k ಟೋಕನ್ಗಳು ಮುಖ್ಯವೆಂದು ತಿಳಿದಿಲ್ಲದಿದ್ದರೆ 200k-ಟೋಕನ್ ಸನ್ನಿವೇಶ ವಿಂಡೋ ಪಾರ್ಲರ್ ಟ್ರಿಕ್ ಆಗಿದೆ. ನೀವು ಹೇಗೆ ನಿರ್ಧರಿಸುತ್ತೀರಿ ಎಂಬುದು ಕುಗ್ಗಿಸುವಿಕೆ.
ದೋಷಗಳು, ಪಕ್ಷಪಾತ ಮತ್ತು "ಮಾದರಿ ಹೇಳಿದೆ" ಕುರಿತು
ನೀವು ತಪ್ಪು ವಿಷಯಗಳನ್ನು ಕುಗ್ಗಿಸಿದರೆ, ನೀವು ಡಾಕ್ಯುಮೆಂಟ್ನಿಂದ ಸತ್ಯವನ್ನು ಕುಗ್ಗಿಸುತ್ತೀರಿ. ನಂತರ ಮಾದರಿಯು ಸಂತೋಷದಿಂದ ಉಳಿದಿರುವುದರ ಮೇಲೆ ತಾರ್ಕಿಕವಾಗಿ ಯೋಚಿಸುತ್ತದೆ ಮತ್ತು ಹಾಗೆ ಮಾಡುವಾಗ ಅಧಿಕೃತವಾಗಿ ಧ್ವನಿಸುತ್ತದೆ. ಗಾರ್ಡ್ರೈಲ್ಗಳು:
- ಉಲ್ಲೇಖಗಳನ್ನು ಪದಶಃ ಸಂರಕ್ಷಿಸಿ; ಅರ್ಥವಿವರಣೆಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಗುರುತಿಸಿ.
- ಪ್ರಾಯೋಗಿಕವಾದಾಗ ಭಾಗ ಮತ್ತು ವಾಕ್ಯ ಮಟ್ಟದಲ್ಲಿ ಮೂಲವನ್ನು ಇರಿಸಿ.
- ವ್ಯಾಖ್ಯಾನಗಳು, ಸಮೀಕರಣಗಳು ಮತ್ತು ಸಾರಾಂಶಗೊಳಿಸಬಾರದ ನಿಯಂತ್ರಕ ಭಾಷೆಗಾಗಿ ಸಣ್ಣ "ಪದಶಃ ಸಂಗ್ರಹ" ಅನ್ನು ನಿರ್ವಹಿಸಿ.
- ಎಲ್ಲವನ್ನೂ ಆವೃತ್ತಿ ಮಾಡಿ. ಮೂಲವು ಬದಲಾದರೆ, ಸಾರಾಂಶಗಳನ್ನು ಅಮಾನ್ಯಗೊಳಿಸಿ. ವಾರದ ಹಿಂದಿನ ಸುಶಿಯನ್ನು ನೀಡಬೇಡಿ.
DeepSeek-OCR ಸಾಂದರ್ಭಿಕವಾಗಿ ಹೆಡರ್ ಮತ್ತು ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ಸೇರುತ್ತದೆ ಅಥವಾ ಲಿಗೇಚರ್ ಅನ್ನು ತಪ್ಪಾಗಿ ಓದುತ್ತದೆ. ಸರಿ. ಅದಕ್ಕಾಗಿಯೇ ನಿಮ್ಮ ಸಾರಾಂಶಗಳು ವಿಭಾಗಗಳು ಮತ್ತು ಪುಟಗಳನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತವೆ. ಅನುಮಾನವಿದ್ದರೆ, ರಸೀದಿಗಳನ್ನು ತೋರಿಸಿ.
ಟೋಕನ್ ಗಣಿತ, ನೀರಸ ಆದರೆ ನಿಜ
"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂಬುದರ ಅರ್ಥಶಾಸ್ತ್ರವು ಟೋಕನ್ಗಳಿಗೆ ಬರುತ್ತದೆ. OCR ಪಠ್ಯವು ಅಗ್ಗವಾಗಿದೆ; LLM ಸನ್ನಿವೇಶವು ಅಲ್ಲ.
- ಪ್ರತಿ ಭಾಗವು ~1,000 ಟೋಕನ್ಗಳ ಕಚ್ಚಾ ಮತ್ತು ನಿಮ್ಮ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳು ~200 ಟೋಕನ್ಗಳಾಗಿದ್ದರೆ, ನೀವು ಈಗಾಗಲೇ 5× ಕುಗ್ಗಿಸುವಿಕೆಯನ್ನು ಸಾಧಿಸಿದ್ದೀರಿ.
- ಪ್ರಶ್ನೆ ಸಮಯದಲ್ಲಿ, 5 ಸಾರಾಂಶಗಳನ್ನು ಹಿಂಪಡೆಯುವುದು 5,000+ ಕಚ್ಚಾ ಬದಲು ~1,000 ಟೋಕನ್ಗಳ ಸನ್ನಿವೇಶವನ್ನು ಬಳಸುತ್ತದೆ. ನೀವು ಉತ್ತರಿಸುವ ಮೊದಲು ಅದು.
- ಆಯ್ಕೆಯಾಗಿ ಕೋಷ್ಟಕಗಳನ್ನು ಸೇರಿಸಿ. 200-ಸಾಲು ಕೋಷ್ಟಕವು ಸಾವಿರಾರು ಕೋಶಗಳಿಂದ ಸಾವಿನಂತೆ; 5-ಬುಲೆಟ್ ಮೆಮೊ ಜೊತೆಗೆ 10-ಸಾಲು ಫಿಲ್ಟರ್ ಮಾಡಿದ ಸಾರವು ಜೀವನವಾಗಿದೆ.
ಉಳಿತಾಯವನ್ನು ನೋಡಲು ನಿಮಗೆ ಸ್ಪ್ರೆಡ್ಶೀಟ್ ಅಗತ್ಯವಿಲ್ಲ. ತಡರಾತ್ರಿಯ ಬುರ್ರಿಟೋದಂತೆ ನೀವು ಸಂಪೂರ್ಣ ದಾಖಲೆಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್ಗಳಲ್ಲಿ ತುಂಬುವುದನ್ನು ನಿಲ್ಲಿಸಬೇಕು.
Sider.AI ಎಲ್ಲಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ (ಇದು ನಿಜವಾಗಿಯೂ ಕೆಲಸ ಮಾಡಲು ನೀವು ಬಯಸಿದರೆ)
ಇಲ್ಲಿ ಎಲ್ಲರೂ ಮಾರ್ಕೆಟಿಂಗ್ ಡಂಬಳಿಕೆಯನ್ನು ನಿರೀಕ್ಷಿಸುವ ಭಾಗವಿದೆ. ಬದಲಾಗಿ: Sider.AI ನಿಜವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ-ಕನಿಷ್ಠ ಇದಕ್ಕಾಗಿ. ಮೊಂಡುತನದ PDF ಅನ್ನು ಅಪ್ಲೋಡ್ ಮಾಡಿ, OCR ಅನ್ನು ರನ್ ಮಾಡಲು ಬಿಡಿ ಮತ್ತು ನೀವು ಬೇಬಿ ಸಿಟ್ಟಿಂಗ್ ಮಾಡದೆಯೇ ಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಬಹುದಾದ ವಿಭಾಗ ಆಂಕರ್ಗಳೊಂದಿಗೆ ಸ್ವಚ್ಛವಾದ, ನ್ಯಾವಿಗೇಬಲ್ ಪಠ್ಯವನ್ನು ಪಡೆಯುತ್ತೀರಿ. ಚಾಟ್ ಪದರವು ಮ್ಯಾಜಿಕ್ ಅಲ್ಲ; ನೀವು ತಯಾರಿಸಿದ ಸಂಕುಚಿತ ಸಾರಾಂಶಗಳ ಮೇಲೆ ಇದು ಶಿಸ್ತುಬದ್ಧ ಹಿಂಪಡೆಯುವಿಕೆ. ಒಳ್ಳೆಯ ಆಶ್ಚರ್ಯವೆಂದರೆ ಅದು PhD ಹೊಂದಿರುವ PDF ರೀಡರ್ ಎಂದು ನಟಿಸುವುದಿಲ್ಲ. ಇದು ಚೂಪಾದ ಚಾಕುವನ್ನು ಹೊಂದಿರುವ ಸಮರ್ಥ ಸಹಾಯಕ, ಮತ್ತು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಅರ್ಥವನ್ನು ಹಾಳುಮಾಡದೆ ಕುಗ್ಗಿಸುವುದು ಗುರಿಯಾದಾಗ ನೀವು ಬಯಸುವುದು ನಿಖರವಾಗಿ ಅದು. ಹೊರತೆಗೆಯಲು ನೀವು DeepSeek-OCR ಅನ್ನು ತಂದರೆ ಮತ್ತು ಹಿಂಪಡೆಯಲು ಮತ್ತು ಪ್ರೇರೇಪಿಸುವ ನೈರ್ಮಲ್ಯಕ್ಕಾಗಿ Sider.AI ಅನ್ನು ಬಳಸಿದರೆ, ನೀವು ಟೋಕನ್ಗಳು, ಸಮಯ ಮತ್ತು ನಿಮ್ಮ ವಿವೇಚನೆಯನ್ನು ಗೌರವಿಸುವ ಪೈಪ್ಲೈನ್ ಅನ್ನು ಪಡೆಯುತ್ತೀರಿ. ಅಡಿಟಿಪ್ಪಣಿ ಮಾರ್ಕರ್ನ ಗಾತ್ರದ ಎಚ್ಚರಿಕೆಗಳು
- ಸಂಕೀರ್ಣ ಗಣಿತ: ನೀವು ಅವುಗಳನ್ನು ಚಪ್ಪಟೆಗೊಳಿಸಿದರೆ OCR ಜೊತೆಗೆ ಸಾರಾಂಶೀಕರಣವು ಸಾಂಕೇತಿಕ ಅಭಿವ್ಯಕ್ತಿಗಳನ್ನು ಕಸಾಯಿಖಾನೆಗೆ ತರುತ್ತದೆ. ಸಮೀಕರಣಗಳಿಗಾಗಿ LaTeX ಅಥವಾ ಚಿತ್ರಗಳನ್ನು ಇರಿಸಿ; ಪದಗಳಲ್ಲಿ ಸಾರಾಂಶಗೊಳಿಸಿ, ಚಿಹ್ನೆಗಳಲ್ಲಿ ಅಲ್ಲ.
- ಚಿತ್ರಾತ್ಮಕ ನಕ್ಷೆಗಳು: ಲೇಬಲ್ ಮಾಡದ ಚಿತ್ರಾತ್ಮಕ ನಕ್ಷೆಯನ್ನು "ಅನುಮಾನಿಸಲು" ಮಾದರಿಯನ್ನು ಎಂದಿಗೂ ಕೇಳಬೇಡಿ. ಅದು ಟ್ಯಾರೋ, ವಿಶ್ಲೇಷಣೆಯಲ್ಲ. ಶೀರ್ಷಿಕೆಯನ್ನು OCR ಮಾಡಿ, ಉಲ್ಲೇಖಕ್ಕಾಗಿ ಚಿತ್ರವನ್ನು ಇರಿಸಿ ಮತ್ತು ಗುರಿಯಾಗಿಸಿದ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಿ.
- ಕಾನೂನು ಮತ್ತು ಅನುಸರಣೆ: ಕೆಲವು ಪಠ್ಯವನ್ನು ಪದಶಃ ಸಂರಕ್ಷಿಸಬೇಕು. ಅದನ್ನು ಗುರುತಿಸಿ. ಒಂದು ಷರತ್ತು ಅಸ್ತಿತ್ವದಲ್ಲಿದೆಯೇ ಎಂದು ಮಾದರಿಯನ್ನು ಕೇಳುವ ಮೊದಲು ಅದನ್ನು ಕುಗ್ಗಿಸಬೇಡಿ. ಷರತ್ತುಗಳು-ಅಥವಾ ವಕೀಲರು-ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ ಎಂಬುದಲ್ಲ.
ವಿವೇಚನೆಯಿಂದ ಪರಿಶೀಲಿಸಿದ ಉದಾಹರಣೆ ಮಾದರಿ
ನೀವು 120 ಪುಟಗಳ ವಾರ್ಷಿಕ ವರದಿಯನ್ನು ಹೊಂದಿದ್ದೀರಿ ಎಂದು ಹೇಳೋಣ.
- DeepSeek-OCR ನೊಂದಿಗೆ OCR -> ಮಾರ್ಕ್ಡೌನ್ ಪಠ್ಯ + CSV ಕೋಷ್ಟಕಗಳನ್ನು ಪಡೆಯಿರಿ.
- ವಿಭಾಗಗಳ ಮೂಲಕ ಭಾಗಿಸಿ: "ನಿರ್ವಹಣೆ ಚರ್ಚೆ," "ಅಪಾಯದ ಅಂಶಗಳು," ಇತ್ಯಾದಿ.
- ಭಾಗಕ್ಕೆ ಸಾರಾಂಶಗಳು: 8 ಬುಲೆಟ್ಗಳು, 1 ಸಾರಾಂಶ ಪ್ಯಾರಾಗ್ರಾಫ್, ಗ್ಲಾಸರಿ, ಉಲ್ಲೇಖಗಳು.
- ಆದಾಯ, ವೆಚ್ಚಗಳು, ಹೆಡ್ಕೌಂಟ್ ಮತ್ತು ವಿಭಾಗಗಳಿಗೆ ಕೋಷ್ಟಕ ಮೆಮೊಗಳು.
- ದ್ವಂದ್ವ ಸೂಚ್ಯಂಕವನ್ನು ನಿರ್ಮಿಸಿ: ಬುಲೆಟ್ಗಳ ಮೇಲೆ ವೆಕ್ಟರ್ಗಳು; ಶೀರ್ಷಿಕೆಗಳು ಮತ್ತು ಗ್ಲಾಸರಿಯ ಮೇಲೆ ಕೀವರ್ಡ್ಗಳು.
- ಪ್ರಶ್ನೆ: "ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಒಟ್ಟು ಅಂಚು ಹೇಗೆ ಬದಲಾಯಿತು ಮತ್ತು ಏಕೆ?" ವೆಚ್ಚದ ವ್ಯಾಖ್ಯಾನದೊಂದಿಗೆ ಎರಡು ಭಾಗಗಳನ್ನು + ಆದಾಯ ಕೋಷ್ಟಕ ಮೆಮೊವನ್ನು ಹಿಂಪಡೆಯಿರಿ. ಉಲ್ಲೇಖಗಳು ಮತ್ತು 1-2 ಉಲ್ಲೇಖಿತ ವಾಕ್ಯಗಳೊಂದಿಗೆ ಉತ್ತರಿಸಿ.
ನೀವು 120 ಪುಟಗಳನ್ನು ಓದಲಿಲ್ಲ. ಮಾದರಿಯು ಸಹ ಓದಿದೆ ಎಂದು ನೀವು ನಟಿಸಲಿಲ್ಲ. ನೀವು LLM ಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದ್ದೀರಿ ಮತ್ತು ಹಗಲು ಬೆಳಕಿಗೆ ಹಿಡಿದಿಟ್ಟುಕೊಳ್ಳುವ ಉತ್ತರವನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೀರಿ.
ಇದು ಪಕ್ಕಕ್ಕೆ ಹೋಗುವ ಊಹಿಸಬಹುದಾದ ವಿಧಾನಗಳ ಪರಿಹಾರ
- ಮಾದರಿಯು ಹಕ್ಕನ್ನು ಬೆಂಬಲಿಸದ ವಿಭಾಗವನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತದೆ. ಪರಿಹಾರ: ಹಿಂಪಡೆಯುವಿಕೆಯನ್ನು ಬಿಗಿಗೊಳಿಸಿ-ವಿಭಾಗದ ಶೀರ್ಷಿಕೆಗಳಿಗಾಗಿ ಕೀವರ್ಡ್ ಹಿಟ್ಗಳನ್ನು ಹೆಚ್ಚಿಸಿ, ಸಾಮಾನ್ಯ ವೆಕ್ಟರ್ ಹೊಂದಾಣಿಕೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಿ.
- ಸಾರಾಂಶಗಳು ಮೂಲಕ್ಕೆ ವಿರುದ್ಧವಾಗಿವೆ. ಪರಿಹಾರ: ಸೂಕ್ಷ್ಮ ವಿಭಾಗಗಳಿಗೆ "ಅರ್ಥವಿವರಣೆ ಇಲ್ಲ" ಮೋಡ್ ಅನ್ನು ಸೇರಿಸಿ; ಸನ್ನಿವೇಶದಲ್ಲಿ 2-3 ಪದಶಃ ವಾಕ್ಯಗಳನ್ನು ಸೇರಿಸಿ.
- OCR ದೋಷಗಳು ಹೆಡರ್ಗಳು ಅಥವಾ ಅಡಿಟಿಪ್ಪಣಿಗಳಲ್ಲಿ ಕ್ಲಸ್ಟರ್ ಆಗುತ್ತವೆ. ಪರಿಹಾರ: ಸಾರಾಂಶಕ್ಕೆ ಮೊದಲು ಪುನರಾವರ್ತಿತ ಬಾಯ್ಲರ್ಪ್ಲೇಟ್ ಅನ್ನು ತೆಗೆದುಹಾಕಲು ನಿಮ್ಮ ಪ್ರಿಪ್ರೊಸೆಸರ್ಗೆ ಕಲಿಸಿ; ಇದು ಶಬ್ದವಾಗಿದೆ.
- ಕೋಷ್ಟಕಗಳು ಟೋಕನ್ ಬಜೆಟ್ ಅನ್ನು ಉಬ್ಬಿಸುತ್ತವೆ. ಪರಿಹಾರ: ಪ್ರಸ್ತುತತೆಯ ಮೂಲಕ ಟಾಪ್ N ಸಾಲುಗಳಿಗೆ ಕ್ಯಾಪ್ ಮಾಡಿ ಮತ್ತು ಮೆಮೊವನ್ನು ಇರಿಸಿ; ನೀವು ಆಳವಾಗಿ ಅಗೆಯಬೇಕಾದರೆ ಪೂರ್ಣ CSV ಗೆ ಲಿಂಕ್ ಅನ್ನು ಸೇರಿಸಿ.
"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು" ಮೂರ್ಖ vs ಸ್ಮಾರ್ಟ್ ಮಾರ್ಗ
ಮೂರ್ಖ: "ಈ 300-ಪುಟದ PDF ಅನ್ನು ಸಾರಾಂಶಗೊಳಿಸಿ."
ಸ್ಮಾರ್ಟ್: "ಈ 10 ವಿಭಾಗ ಸಾರಾಂಶಗಳು ಮತ್ತು 3 ಕೋಷ್ಟಕ ಮೆಮೊಗಳಿಂದ, ಮೂಲವನ್ನು ಉಲ್ಲೇಖಿಸಿ, ಈ ಕಿರಿದಾದ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸಿ."
ಹಿಂದಿನದು ಮಾದರಿಯನ್ನು ಹೊಗಳುತ್ತದೆ ಮತ್ತು ನಿಮ್ಮ ಹಣವನ್ನು ವ್ಯರ್ಥ ಮಾಡುತ್ತದೆ. ಎರಡನೆಯದು ನಿಮ್ಮ ಬಳಕೆದಾರರನ್ನು ಹೊಗಳುತ್ತದೆ ಮತ್ತು ವಾಸ್ತವವನ್ನು ಗೌರವಿಸುತ್ತದೆ. DeepSeek-OCR ನಿಮಗೆ ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ನೀಡುತ್ತದೆ; ನಿಮ್ಮ ಪೈಪ್ಲೈನ್ ಅದನ್ನು ಪ್ರಾಮಾಣಿಕವಾಗಿ ಇರಿಸುತ್ತದೆ.
ತೀರ್ಮಾನ: ಗೌರವವಾಗಿ ಕುಗ್ಗಿಸುವಿಕೆ
ಓದುಗರನ್ನು ಗೌರವಿಸಿ. ಟೋಕನ್ಗಳನ್ನು ಗೌರವಿಸಿ. ಸತ್ಯವನ್ನು ಗೌರವಿಸಿ. LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು ಎಂಬುದರ ಮೂಲಕ-ಸಾಲಾಗಿದೆ. OCR ಹಂತವು ಕೋಷ್ಟಕ ಷೇರುಗಳು; ಉಳಿದವು ಸಂಪಾದಕೀಯ ತೀರ್ಪು ಕೆಲಸದ ಹರಿವಿನಂತೆ ಧರಿಸಲ್ಪಟ್ಟಿದೆ-ಆಲೋಚನೆಗಳ ಮೂಲಕ ಭಾಗಿಸುವಿಕೆ, ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸವನ್ನು ಮರಳುಗಾಡಿನಂತೆ ಮಾಡದೆ ಸಾರಾಂಶಗೊಳಿಸುವುದು, ಮುಖ್ಯವಾದುದನ್ನು ಹಿಂಪಡೆಯುವುದು ಮತ್ತು ರಸೀದಿಗಳೊಂದಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಲು ಮಾದರಿಗೆ ಅವಕಾಶ ನೀಡುವುದು.
ದೀರ್ಘ ಸನ್ನಿವೇಶ ವಿಂಡೋಗಳು ಚೆನ್ನಾಗಿವೆ. ಸ್ಪಷ್ಟ ಸನ್ನಿವೇಶವು ಉತ್ತಮವಾಗಿದೆ. ಎಚ್ಚರಿಕೆಯ ಓದುಗರಂತೆ ವರ್ತಿಸುವ ಮಾದರಿಗಳು ನಿಮಗೆ ಬೇಕಾದರೆ, ಎಚ್ಚರಿಕೆಯ ಓದುಗರು ಏನು ಇಟ್ಟುಕೊಳ್ಳುತ್ತಾರೋ ಅದನ್ನು ಅವರಿಗೆ ನೀಡಿ. ಉಳಿದೆಲ್ಲವೂ ಕೇವಲ ಪುಟ ಎಣಿಕೆಯಾಗಿದೆ.
FAQ
Q1:ಅರ್ಥವನ್ನು ಕಳೆದುಕೊಳ್ಳದೆ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು?
ಲೇಔಟ್ ಅನ್ನು ಸಂರಕ್ಷಿಸಿ ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯಿರಿ, ಶೀರ್ಷಿಕೆಗಳ ಮೂಲಕ (ಪುಟಗಳಲ್ಲ) ಭಾಗಿಸಿ ಮತ್ತು ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು ರಚಿಸಿ-ಬುಲೆಟ್ಗಳು, ಒಂದು-ಪ್ಯಾರಾಗ್ರಾಫ್ ಸಾರ, ಗ್ಲಾಸರಿ ಮತ್ತು ಉಲ್ಲೇಖಗಳು. ಪ್ರಶ್ನೆ ಸಮಯದಲ್ಲಿ ಆ ಸಾರಾಂಶಗಳನ್ನು ಮತ್ತು ಸಂಬಂಧಿತ ಕೋಷ್ಟಕ ಮೆಮೊಗಳನ್ನು ಮಾತ್ರ ಹಿಂಪಡೆಯಿರಿ. ಅದು ಸಿಗ್ನಲ್ ಅನ್ನು ಇಟ್ಟುಕೊಂಡು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುತ್ತದೆ.
Q2:ನಾನು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದಾಗ ಉತ್ತಮ ಭಾಗದ ಗಾತ್ರ ಯಾವುದು?
ಯಾದೃಚ್ಛಿಕ ಪುಟ ಬ್ರೇಕ್ಗಳಿಗಿಂತ ವಿಭಾಗಗಳು ಅಥವಾ ಉಪಶೀರ್ಷಿಕೆಗಳಿಗೆ ಹೊಂದಿಕೆಯಾಗಿ ಪ್ರತಿ ಭಾಗಕ್ಕೆ 800-1,200 ಟೋಕನ್ಗಳನ್ನು ಗುರಿಯಾಗಿಸಿ. ಸಮಾನ ಬೈಟ್ ಎಣಿಕೆಗಳಲ್ಲ, ಸುಸಂಬದ್ಧ ವಾದಗಳು ಗುರಿಯಾಗಿದೆ; ತರ್ಕವನ್ನು ಅರ್ಧದಷ್ಟು ಕತ್ತರಿಸದೆ ನೀವು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವುದು ಹೇಗೆ.
Q3:ಪಠ್ಯವನ್ನು ಆಯ್ಕೆ ಮಾಡಬಹುದಾದರೂ ಸಹ ನಾನು ಪ್ರತಿ PDF ಪುಟವನ್ನು DeepSeek-OCR ನೊಂದಿಗೆ OCR ಮಾಡಬೇಕೇ?
ಇಲ್ಲ. ಪಠ್ಯವು ಡಿಜಿಟಲ್-ಸ್ಥಳೀಯವಾಗಿದ್ದರೆ, ಅದನ್ನು ನೇರವಾಗಿ ಹೊರತೆಗೆಯಿರಿ ಮತ್ತು ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳು ಅಥವಾ ಚಿತ್ರಗಳಿಗೆ ಮಾತ್ರ DeepSeek-OCR ಅನ್ನು ಬಳಸಿ. ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ಮರು-OCR ಮಾಡುವುದು ದೋಷಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ-ಮತ್ತು ಅದು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವುದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿದೆ.
Q4: LLMಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದಾಗ ಕೋಷ್ಟಕಗಳನ್ನು ನಾನು ಹೇಗೆ ನಿರ್ವಹಿಸುವುದು?
ಕೋಷ್ಟಕಗಳನ್ನು CSV/Markdown ಆಗಿ ಇರಿಸಿ ಮತ್ತು ಒಂದು ಸಣ್ಣ ಟಿಪ್ಪಣಿಯನ್ನು ಸೇರಿಸಿ: ಅದು ಏನು ತೋರಿಸುತ್ತದೆ, ಅದು ಏನನ್ನು ಸೂಚಿಸುತ್ತದೆ ಮತ್ತು ಯಾವುದೇ ಎಚ್ಚರಿಕೆಗಳು. ಸಂಬಂಧಿತವಾದಾಗ ಟಿಪ್ಪಣಿ ಮತ್ತು ಫಿಲ್ಟರ್ ಮಾಡಿದ ಭಾಗವನ್ನು ಪಡೆದುಕೊಳ್ಳಿ; 200-ಸಾಲುಗಳ ಗ್ರಿಡ್ ಅನ್ನು ಪ್ರಾಂಪ್ಟ್ಗೆ ಸುರಿಯುವುದಕ್ಕಿಂತ ಅದು ಚುರುಕಾಗಿದೆ.
Q5: DeepSeek-OCR ನೊಂದಿಗೆ ಈ ಕಾರ್ಯವಿಧಾನದಲ್ಲಿ Sider.AI ಎಲ್ಲಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ?
ನಿಖರವಾದ ಹೊರತೆಗೆಯುವಿಕೆಗಾಗಿ DeepSeek-OCR ಅನ್ನು ಬಳಸಿ ಮತ್ತು ಶಿಸ್ತುಬದ್ಧ ಮರುಪಡೆಯುವಿಕೆ ಮತ್ತು ಸಾರಾಂಶ ನೈರ್ಮಲ್ಯಕ್ಕಾಗಿ Sider.AI ಅನ್ನು ಬಳಸಿ. ಇವೆರಡೂ ಒಟ್ಟಾಗಿ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಕುಗ್ಗಿಸುತ್ತವೆ: ಕಡಿಮೆ ಟೋಕನ್ ವ್ಯರ್ಥ, ಸ್ಪಷ್ಟವಾದ ಉತ್ತರಗಳು ಮತ್ತು ಪರಿಶೀಲನೆಯನ್ನು ಉಳಿಸಿಕೊಳ್ಳುವ ಉಲ್ಲೇಖಗಳು.