How do I use DeepSeek‑OCR to compress long text for LLMs without losing meaning?

Extract clean text with layout preserved, chunk by headings (not pages), and generate layered summaries—bullets, a one‑paragraph gist, a glossary, and citations. Retrieve only those summaries and relevant table memos at query time. That compresses long text for LLMs while keeping the signal.

What’s the best chunk size when I compress long text for LLMs?

Aim for 800–1,200 tokens per chunk, aligned to sections or subheads rather than arbitrary page breaks. The goal is coherent arguments, not equal byte counts; that’s how you compress long text for LLMs without chopping logic in half.

Should I OCR every PDF page with DeepSeek‑OCR even if text is selectable?

No. If the text is digital‑native, extract it directly and use DeepSeek‑OCR only for scanned pages or images. Re‑OCRing clean text adds errors—and that’s the opposite of compressing long text for LLMs.

How do I handle tables when I compress long text for LLMs?

Keep tables as CSV/Markdown and add a short memo: what it shows, what it implies, and any caveats. Retrieve the memo plus a filtered slice when relevant; that’s smarter than dumping a 200‑row grid into the prompt.

Where does [Sider.AI](https://sider.ai) fit in this workflow with DeepSeek‑OCR?

Use DeepSeek‑OCR for accurate extraction and [Sider.AI](https://sider.ai) for disciplined retrieval and summarization hygiene. Together they compress long text for LLMs in practice: less token waste, clearer answers, and citations that survive scrutiny.

ದೀರ್ಘ ಪಠ್ಯಕ್ಕಾಗಿ DeepSeek‑OCR: ಶಬ್ದವನ್ನು ಕುಗ್ಗಿಸಿ, ಸಂಕೇತವನ್ನು ಉಳಿಸಿಕೊಳ್ಳಿ

ಪರಿಚಯ: ಅತಿಯಾದ ಪಠ್ಯದ ಸಮಸ್ಯೆಯೆಂದರೆ ಅದು ದೀರ್ಘವಾಗಿರುವುದಲ್ಲ

LLM ಗಳಲ್ಲಿ "ದೀರ್ಘ ಸನ್ನಿವೇಶ" ದ ಬಗ್ಗೆ ಹೇಳುವುದಾದರೆ, ಎಲ್ಲರೂ ಅದು ಪರಿಹಾರವಾದ ಸಮಸ್ಯೆ ಎಂದು ನಟಿಸುತ್ತಾರೆ - ನೀವು ಅವರಿಗೆ 200 ಪುಟಗಳ PDF ಅನ್ನು ನೀಡುವವರೆಗೆ ಮತ್ತು ಏನೂ ಇಲ್ಲದ ಹೈಕುವನ್ನು ಹಿಂದಿರುಗಿಸುವವರೆಗೆ. ಮಾದರಿಗಳು ಉದ್ದದೊಂದಿಗೆ ಹೋರಾಡುವುದಿಲ್ಲ; ಅವು ಅಪ್ರಸ್ತುತತೆಯಿಂದ ಉಸಿರುಗಟ್ಟಿಸುತ್ತವೆ. ಕಸ ಹಾಕಿದರೆ, ಸಮಂಜಸವಾದ ಕಸ ಹೊರಬರುತ್ತದೆ. ನಿಮಗೆ ಅರ್ಥಪೂರ್ಣವಾದ ಉತ್ತರಗಳು ಬೇಕಾದರೆ, ನಿಮಗೆ ದೊಡ್ಡ ಮಾದರಿ ಅಗತ್ಯವಿಲ್ಲ. ನಿಮಗೆ ಕಡಿಮೆ ಕಸ ಬೇಕು.

DeepSeek-OCR ಅನ್ನು ನಮೂದಿಸಿ. ಇದು ಉತ್ತಮ ಸಾಧನಗಳು ಮಾಡಬೇಕಾದುದನ್ನು ಮಾಡುವ OCR ಎಂಜಿನ್ ಆಗಿದೆ: ಇದು ಚಿತ್ರಗಳು ಮತ್ತು PDF ಗಳನ್ನು ಯಾವುದೇ ತೊಂದರೆಯಿಲ್ಲದೆ ಪಠ್ಯವಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ಆದರೆ ಇಲ್ಲಿನ ತಂತ್ರ ಕೇವಲ OCR ಅಲ್ಲ. ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಬಳಸುವುದು - ರಚನೆಯನ್ನು ಹೊರತೆಗೆಯುವುದು, ಅನಗತ್ಯವನ್ನು ಕಡಿಮೆ ಮಾಡುವುದು, ಸಿಗ್ನಲ್ ಅನ್ನು ಉಳಿಸಿಕೊಳ್ಳುವುದು - ಇದರಿಂದ ಕೆಳಗಿರುವ LLM ಗಳು 1998 ರಿಂದ ಅಂಕಿಅಂಶಗಳ ಶೀರ್ಷಿಕೆಗಳ ಮೇಲೆ ಟೋಕನ್‌ಗಳನ್ನು ವ್ಯರ್ಥ ಮಾಡುವುದಿಲ್ಲ.

"ಕುಗ್ಗಿಸು" ಎಂಬುದು ಮುಖ್ಯ ಪದ. ZIP-ಫೈಲ್ ಕುಗ್ಗಿಸುವಿಕೆಯಲ್ಲ. ಸೆಮ್ಯಾಂಟಿಕ್ ಕುಗ್ಗಿಸುವಿಕೆ. ಮಾನವರು ಇದನ್ನು ನಿರಂತರವಾಗಿ ಮಾಡುತ್ತಾರೆ. ಒಂದು ಪುಟವನ್ನು ಓದಿ, ಒಂದು ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ನೆನಪಿಡಿ. ಒಂದು ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ಓದಿ, ಒಂದು ವಾಕ್ಯವನ್ನು ಉಳಿಸಿಕೊಳ್ಳಿ. ನಾವು ಅದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು ಎಂದು ಕರೆಯುತ್ತೇವೆ. DeepSeek-OCR ಲೂಪ್‌ನಲ್ಲಿರುವುದರಿಂದ, ನೀವು ಆ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಅಂದಾಜು ಮಾಡಬಹುದು: ಪಠ್ಯವನ್ನು ಸ್ವಚ್ಛವಾಗಿ ಎಳೆಯಿರಿ, ಅದನ್ನು ವಿಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಿ ಮತ್ತು ಮಾದರಿಯು ನಿಜವಾಗಿ ಕೆಲಸ ಮಾಡಲು ಸಾಧ್ಯವಾಗುವಂತಹ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು ರಚಿಸಿ. ಕಡಿಮೆ ಸಾಹಸ, ಹೆಚ್ಚು ಫಲಿತಾಂಶಗಳು.

ಇದು ಹೇಗೆ ಮಾಡಬೇಕೆಂಬುದರ ಬಗ್ಗೆ. ಆದರೆ ಇದು ಚಾಟ್ ಬಾಕ್ಸ್‌ನಲ್ಲಿ ಕಚ್ಚಾ PDF ಗಳನ್ನು ತಳ್ಳಿ ಪ್ರಾರ್ಥಿಸುವುದು ಕೆಲಸದ ಹರಿವು ಎಂದು ಯೋಚಿಸುವ ಯಾರಿಗಾದರೂ ಸೌಮ್ಯವಾದ ಮಧ್ಯಸ್ಥಿಕೆ. ಅದನ್ನು ಒಂದು ವ್ಯವಸ್ಥೆಯನ್ನಾಗಿ ಮಾಡೋಣ.

"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂಬುದರ ನಿಜವಾದ ಅರ್ಥವೇನು

ಉಪಕರಣಗಳು ಕುಗ್ಗಿಸುವುದಿಲ್ಲ; ನಿರ್ಧಾರಗಳು ಮಾಡುತ್ತವೆ. ಜನರು "LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂದು ಹೇಳಿದಾಗ, ಅವರು ನಿಜವಾಗಿಯೂ ಬಯಸುವುದು ಗೊಂದಲಮಯ, ದೃಶ್ಯ ದಾಖಲೆಗಳಿಂದ ಸಂಕ್ಷಿಪ್ತ, ರಚನಾತ್ಮಕ ಪಠ್ಯದ ಭಾಗಗಳಿಗೆ ಹೋಗಲು ಪುನರುತ್ಪಾದಿಸಬಹುದಾದ ಮಾರ್ಗ, ಅಲ್ಲಿ ಭಾಷಾ ಮಾದರಿಯು ತಪ್ಪು ಟಿಪ್ಪಣಿಗಳನ್ನು ಭ್ರಮೆಗೊಳಿಸದೆ ತಾರ್ಕಿಕವಾಗಿ ಯೋಚಿಸಬಲ್ಲದು. ಪ್ರಕ್ರಿಯೆಯನ್ನು ನಾಲ್ಕು ಕೆಲಸಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ:

ನಿಖರವಾದ ಹೊರತೆಗೆಯುವಿಕೆ: ಪುಟದಿಂದ ಪದಗಳನ್ನು ಪಡೆಯಿರಿ-ಸರಿಯಾಗಿ.

ರಚನಾತ್ಮಕ ಮರುಪಡೆಯುವಿಕೆ: ಶೀರ್ಷಿಕೆಗಳು, ಪಟ್ಟಿಗಳು, ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಓದುವ ಕ್ರಮವನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳಿ.

ಶಬ್ದಾರ್ಥದ ಸಂಕ್ಷೇಪಣ: ಅರ್ಥವನ್ನು ಉಳಿಸಿಕೊಂಡು ಅನಗತ್ಯವನ್ನು ಕಡಿಮೆ ಮಾಡಿ.

ಹಿಂಪಡೆಯುವ ಶಿಸ್ತು: ಮಾದರಿಗೆ ಯಾವಾಗ ಏನು ಬೇಕೋ ಅದನ್ನು ಮಾತ್ರ ನೀಡಿ.

DeepSeek-OCR ಮೊದಲ ಎರಡನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ನೀವು (ಮತ್ತು ನಿಮ್ಮ LLM) ನಂತರದ ಎರಡನ್ನು ನಿರ್ವಹಿಸುತ್ತೀರಿ. ಇದರ ಪರಿಣಾಮವಾಗಿ ಬರುವ ಪೈಪ್‌ಲೈನ್ "LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುತ್ತದೆ" ಇದು ಮುಖ್ಯವಾದ ಏಕೈಕ ಅರ್ಥದಲ್ಲಿ: ಕಡಿಮೆ ಟೋಕನ್‌ಗಳು, ಅದೇ ಉತ್ತರಗಳು, ಕಡಿಮೆ ಅರ್ಥವಿಲ್ಲದ ಮಾತುಗಳು.

ಹಂತ 1: DeepSeek-OCR ಅನ್ನು ಸರಿಯಾಗಿ ಬಳಸಿ (ಹೊರತೆಗೆಯುವಿಕೆ ಪದರ)

ಕೆಟ್ಟ OCR ಕೆಳಗಿರುವ ಎಲ್ಲವನ್ನೂ ವಿಷಪೂರಿತಗೊಳಿಸುತ್ತದೆ. ನೀವು ತಪ್ಪುಗಳು, ಮುರಿದ ಕಾಲಮ್‌ಗಳು ಮತ್ತು ಬೇರ್ಪಟ್ಟ ಅಡಿಟಿಪ್ಪಣಿಗಳು ವಾಕ್ಯಗಳಂತೆ ನಟಿಸುವುದರೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಿದರೆ, ನಿಮ್ಮ "ಸಂಕುಚಿತಗೊಳಿಸುವಿಕೆ" ಕೇವಲ ತಪ್ಪುಗಳನ್ನು ಶಾಶ್ವತಗೊಳಿಸುತ್ತದೆ. DeepSeek-OCR ನ ಕೆಲಸವೆಂದರೆ ನಿಮಗೆ ಲೇಔಟ್ ಸುಳಿವುಗಳೊಂದಿಗೆ ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ನೀಡುವುದು.

ಮೊದಲು PDF ಪಠ್ಯ ಹೊರತೆಗೆಯುವಿಕೆಗೆ ಆದ್ಯತೆ ನೀಡಿ. PDF ಡಿಜಿಟಲ್-ಸ್ಥಳೀಯವಾಗಿದ್ದರೆ (ಆಯ್ಕೆ ಮಾಡಬಹುದಾದ ಪಠ್ಯ), ಪಠ್ಯವನ್ನು ನೇರವಾಗಿ ಹೊರತೆಗೆಯಿರಿ ಮತ್ತು ಎಂಬೆಡೆಡ್ ಚಿತ್ರಗಳು ಅಥವಾ ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳಿಗೆ ಮಾತ್ರ OCR ಅನ್ನು ಬಳಸಿ. ಈಗಾಗಲೇ ಪಠ್ಯವಾಗಿರುವುದನ್ನು OCR ಮಾಡಬೇಡಿ-ತಪ್ಪುಗಳನ್ನು ಸರಿಪಡಿಸಲು ತಪ್ಪುಗಳನ್ನು ಪರಿಚಯಿಸುವುದು ಬುದ್ಧಿವಂತಿಕೆಯಲ್ಲ.

ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ PDF ಗಳಿಗಾಗಿ, ಪುಟ-ಮಟ್ಟದ ಮತ್ತು ಬ್ಲಾಕ್-ಮಟ್ಟದ ಲೇಔಟ್ ಪತ್ತೆಹಚ್ಚುವಿಕೆಯೊಂದಿಗೆ DeepSeek-OCR ಅನ್ನು ಬಳಸಿ. ನಿಮಗೆ ಶೀರ್ಷಿಕೆಗಳು, ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು, ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಅಂಕಿಅಂಶಗಳ ಶೀರ್ಷಿಕೆಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸಬೇಕು. ಮಾದರಿಯು ನಿಮಗೆ ನಂತರ ಧನ್ಯವಾದಗಳನ್ನು ಹೇಳುತ್ತದೆ.

ಓದಬಲ್ಲ ಸಾಲಿನ ಅಗಲವನ್ನು ಹೊಂದಿಸಿ. ಎರಡು-ಕಾಲಮ್ PDF ಗಳ ದೀರ್ಘವಾದ ಮುರಿಯದ ಸಾಲುಗಳು ಬೀಟ್ ಕಾವ್ಯದಂತೆ ಕಾಣುವಂತೆ ಮಾಡುತ್ತದೆ.

ಸಾಧ್ಯವಾದಾಗ ಕೋಷ್ಟಕಗಳನ್ನು CSV ಅಥವಾ ಮಾರ್ಕ್‌ಡೌನ್‌ನಂತೆ ಹೊರತೆಗೆಯಿರಿ. ಕೋಷ್ಟಕಗಳು ಅರ್ಥದಿಂದ ಕೂಡಿರುತ್ತವೆ. ಅವುಗಳು ಹಾಗೇ ಉಳಿದುಕೊಂಡರೆ, ನಿಮ್ಮ ಕುಗ್ಗಿಸುವಿಕೆ ಬುದ್ಧಿವಂತಿಕೆಯಿಂದ ಕೂಡಿರುತ್ತದೆ, ದಡ್ಡತನದಿಂದಲ್ಲ.

ಫಲಿತಾಂಶ: ಕಾರ್ಪಸ್ ಇನ್ನೂ ಉದ್ದವಾಗಿದೆ, ಆದರೆ ಗೊಂದಲಮಯವಾಗಿಲ್ಲ-ಪಠ್ಯ, ಶೀರ್ಷಿಕೆಗಳು, ಪಟ್ಟಿಗಳು, ಕೋಷ್ಟಕಗಳು, alt-ತರಹದ ಶೀರ್ಷಿಕೆಗಳೊಂದಿಗೆ ಚಿತ್ರಗಳು. ರಚನೆಯು ಮೊದಲ ಕುಗ್ಗಿಸುವಿಕೆಯಾಗಿದೆ.

ಹಂತ 2: ಪುಟ ಸಂಖ್ಯೆಗಳ ಪ್ರಕಾರ ಅಲ್ಲ, ಅರ್ಥದ ಪ್ರಕಾರ ಭಾಗಿಸಿ

ಸಾಮಾನ್ಯ ತಪ್ಪು: ಪುಟಗಳು ಅಥವಾ ಟೋಕನ್ ಎಣಿಕೆಗಳ ಮೂಲಕ ವಿಂಗಡಿಸಿ ಮತ್ತು ಅದನ್ನು ಮುಗಿಸಿ ಎಂದು ಕರೆಯುವುದು. ಪುಟ ಸಂಖ್ಯೆಗಳು ಮುದ್ರಕಗಳಿಗೆ; ಅರ್ಥವು ಫೋಲಿಯೊಗಳ ಬಗ್ಗೆ ತಲೆಕೆಡಿಸಿಕೊಳ್ಳುವುದಿಲ್ಲ. ವಿಭಾಗಗಳು ಮತ್ತು ಉಪಶೀರ್ಷಿಕೆಗಳ ಪ್ರಕಾರ ಭಾಗಿಸಲು DeepSeek-OCR ನ ಲೇಔಟ್ ಸುಳಿವುಗಳನ್ನು ಬಳಸಿ.

ಪ್ರತಿ ಉನ್ನತ-ಮಟ್ಟದ ಹೆಡರ್‌ಗೆ (H1/H2) ಒಂದು ಭಾಗ, H3/H4 ಗೆ ಉಪ-ಭಾಗಗಳು. ನಿಮ್ಮ ಗುರಿ ಮಾದರಿಯ ಆರಾಮದಾಯಕ ಸನ್ನಿವೇಶ ವಿಂಡೋದ ಅಡಿಯಲ್ಲಿ ಪ್ರತಿ ಭಾಗವನ್ನು ಇರಿಸಿ-800-1,200 ಟೋಕನ್‌ಗಳು ಎಂದು ಹೇಳಿ.

ಕೋಷ್ಟಕಗಳು ಮತ್ತು ಅವುಗಳ ವಿವರಣಾತ್ಮಕ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳನ್ನು ಒಟ್ಟಿಗೆ ಇರಿಸಿ. ಅವುಗಳನ್ನು ವಿಭಜಿಸುವುದು ಮಾದರಿಯು ಅಂತರವನ್ನು ತುಂಬಲು ಡೇಟಾವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಉತ್ತಮ ಮಾರ್ಗವಾಗಿದೆ.

ಮುಖ್ಯ ಪಠ್ಯದೊಂದಿಗೆ ಅನುಬಂಧ ಸಾಮಗ್ರಿಗಳನ್ನು ಮಿಶ್ರಣ ಮಾಡಬೇಡಿ. ಇದು ಐಚ್ಛಿಕ ಓದುವಿಕೆ; ಅದನ್ನು ಹಾಗೆಯೇ ಪರಿಗಣಿಸಿ.

ಕುಗ್ಗಿಸುವಿಕೆ ನಿಮ್ಮ ಭಾಗಿಸುವ ತಂತ್ರದಲ್ಲಿ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ: ಬಿಗಿಯಾದ, ಸುಸಂಬದ್ಧ ಘಟಕಗಳನ್ನು LLM ಅರ್ಧದಾರಿಯಲ್ಲೇ ಪ್ರಾರಂಭವನ್ನು ಮರೆಯದೆ ಜೀರ್ಣಿಸಿಕೊಳ್ಳಬಹುದು.

ಹಂತ 3: ಶಬ್ದಾರ್ಥದ ಕುಗ್ಗಿಸುವಿಕೆ ಪಾಸ್: ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳು

ಈಗ "LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವ" ಭಾಗ. ಇಡೀ ಡಾಕ್ಯುಮೆಂಟ್ ಅನ್ನು ಒಂದೇ ಕಾರ್ಯನಿರ್ವಾಹಕ ಸಾರಾಂಶಕ್ಕೆ ಇಳಿಸುವ ಬದಲು (ಕಾರ್ಯನಿರ್ವಾಹಕರು ಇಷ್ಟಪಡುತ್ತಾರೆ ಮತ್ತು ಮಾದರಿಗಳು ದ್ವೇಷಿಸುತ್ತವೆ), ಪ್ರತಿ ಭಾಗಕ್ಕೆ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು ರಚಿಸಿ:

ಬುಲೆಟ್ ಸಾರಾಂಶ (5-10 ಬುಲೆಟ್‌ಗಳು): ಪ್ರಮುಖ ಅಂಶಗಳು, ಹಕ್ಕುಗಳು, ವ್ಯಾಖ್ಯಾನಗಳು, ಸಂಖ್ಯೆಗಳು.

ಒಂದು-ಪ್ಯಾರಾಗ್ರಾಫ್ ಸಾರ: ಐದು ನಿಮಿಷಗಳ ನಂತರ ಒಬ್ಬ ಎಚ್ಚರಿಕೆಯ ಓದುಗನು ಏನು ಉಳಿಸಿಕೊಳ್ಳುತ್ತಾನೆ.

ಗ್ಲಾಸರಿ ಹೊರತೆಗೆಯುವಿಕೆ: ಕಲೆಯ ನಿಯಮಗಳು ಮತ್ತು ಅವುಗಳ ಒಂದು-ಸಾಲಿನ ವ್ಯಾಖ್ಯಾನಗಳು.

ಉಲ್ಲೇಖಗಳು ಮತ್ತು ಆಂಕರ್‌ಗಳು: ವಿಭಾಗದ ಶೀರ್ಷಿಕೆ, ಪುಟ ಸಂಖ್ಯೆ, ಕೋಷ್ಟಕ ID ಗಳು.

ಇದು ಉಲ್ಲೇಖಿತ ಸಮಗ್ರತೆಯೊಂದಿಗೆ ಕುಗ್ಗಿಸುವಿಕೆ. ಬುಲೆಟ್‌ಗಳು ನಿಮ್ಮ ನಷ್ಟವಿಲ್ಲದ ಸೂಚ್ಯಂಕ; ಪ್ಯಾರಾಗ್ರಾಫ್ ನಿಮ್ಮ ನಷ್ಟದ ಕೋಡೆಕ್. ಎರಡನ್ನೂ ಇರಿಸಿ. ನೀವು ನಂತರ ಮಾದರಿಯನ್ನು ಪ್ರಶ್ನಿಸಿದಾಗ, ಸಂಪೂರ್ಣ ಭಾಗವನ್ನು ಅಲ್ಲ, ಬುಲೆಟ್‌ಗಳು ಮತ್ತು ಸಂಬಂಧಿತ ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ಹಿಂಪಡೆಯಿರಿ. ನೀವು ಕಡಿಮೆ ಟೋಕನ್‌ಗಳನ್ನು ನೀಡುತ್ತೀರಿ ಮತ್ತು ಉತ್ತಮ ಉತ್ತರಗಳನ್ನು ಪಡೆಯುತ್ತೀರಿ. ಮ್ಯಾಜಿಕ್ ಟ್ರಿಕ್: ಇದು ಕೇವಲ ಸಂಪಾದನೆ.

ಹಂತ 4: ಮಾನವ ವಿಶ್ಲೇಷಕರಂತೆ ಕೋಷ್ಟಕಗಳನ್ನು ಸಾರಾಂಶಗೊಳಿಸಿ

ದೀರ್ಘ ದಾಖಲೆಗಳು ತಮ್ಮ ನಿಜವಾದ ಅರ್ಥವನ್ನು ಕೋಷ್ಟಕಗಳಲ್ಲಿ ಮರೆಮಾಡುತ್ತವೆ. ಮಾಹಿತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುವುದನ್ನು ನೀವು ಆನಂದಿಸದ ಹೊರತು ಅವುಗಳನ್ನು ಪಠ್ಯಕ್ಕೆ ಚಪ್ಪಟೆ ಮಾಡಬೇಡಿ.

ಮೂಲಕ್ಕಾಗಿ ಕಚ್ಚಾ ಕೋಷ್ಟಕವನ್ನು (CSV/ಮಾರ್ಕ್‌ಡೌನ್) ಇರಿಸಿ.

"ಕೋಷ್ಟಕ ಮೆಮೊ" ಅನ್ನು ಸೇರಿಸಿ: ಕೋಷ್ಟಕವು ಏನು ತೋರಿಸುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು 3-5 ಬುಲೆಟ್‌ಗಳು, ಅದು ಏನು ಸೂಚಿಸುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ಒಂದು ವಾಕ್ಯ ಮತ್ತು ಯಾವುದೇ ವಿಚಿತ್ರತೆ (ಕಾಣೆಯಾದ ಸಾಲುಗಳು, ಕೆಂಪು ಧ್ವಜಗಳು, ಕಠಾರಿಗಳೊಂದಿಗೆ ಅಡಿಟಿಪ್ಪಣಿಗಳು).

ಘಟಕಗಳು, ಸಮಯದ ಶ್ರೇಣಿಗಳು ಮತ್ತು ಸಮೂಹ ವ್ಯಾಖ್ಯಾನಗಳನ್ನು ಸಂರಕ್ಷಿಸಿ. "ಮಾರಾಟವು 10% ರಷ್ಟು ಹೆಚ್ಚಾಗಿದೆ" ಎನ್ನುವುದು "QoQ, ex-FX, APAC ಮಾತ್ರ" ಇಲ್ಲದೆ ಕ್ಷುಲ್ಲಕವಾಗಿದೆ.

ಪ್ರಶ್ನೆಯು ಸಂಖ್ಯೆಗಳನ್ನು ಒಳಗೊಂಡಾಗ ಮೆಮೊ ಮತ್ತು ಕೋಷ್ಟಕವನ್ನು LLM ಗೆ ನೀಡಿ. ಅದು ಸ್ಪಷ್ಟತೆಯಿಂದ ಕುಗ್ಗಿಸುವಿಕೆ, ಅಳಿಸುವಿಕೆಯಿಂದಲ್ಲ.

ಹಂತ 5: ಉತ್ಪಾದನೆಯ ಮೊದಲು ಹಿಂಪಡೆಯುವಿಕೆ (RAG, buzzword ಇಲ್ಲದೆ)

RAG ಮಾಡಲು ನೀವು "RAG" ಎಂದು ಹೇಳಬೇಕಾಗಿಲ್ಲ. ಉತ್ತರಿಸಲು ಮಾದರಿಯನ್ನು ಕೇಳುವ ಮೊದಲು ನೀವು ಸರಿಯಾದ ಭಾಗಗಳನ್ನು ಆರಿಸಬೇಕಷ್ಟೆ.

ವೆಕ್ಟರ್ ಹುಡುಕಾಟದೊಂದಿಗೆ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು (ಸಮಾನಾರ್ಥಕ ಪದಗಳು, ಅರ್ಥವಿವರಣೆಗಳು) ಮತ್ತು ಕೀವರ್ಡ್ ಹುಡುಕಾಟದೊಂದಿಗೆ ಶೀರ್ಷಿಕೆಗಳನ್ನು (ನಿಖರ ಹೊಂದಾಣಿಕೆಗಳು) ಸೂಚಿಸಿ. ಎರಡು ಹುಡುಕಾಟಗಳು, ಸಣ್ಣ ಪಟ್ಟಿಗಳು, ಅವುಗಳನ್ನು ಛೇದಿಸಿ.

ಹಿಂಪಡೆಯಿರಿ: ಬುಲೆಟ್‌ಗಳು + ಸಾರ + ಸಂಬಂಧಿತ ಕೋಷ್ಟಕ ಮೆಮೊಗಳು. ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸಕ್ಕಾಗಿ ಮೂಲ ಭಾಗದಿಂದ ಟಾಪ್ ಕೆಲವು ವಾಕ್ಯಗಳನ್ನು ಕಚ್ಚಾ ಪಠ್ಯವಾಗಿ ಐಚ್ಛಿಕವಾಗಿ ಸೇರಿಸಿ.

ಪುರಾವೆಗಳೊಂದಿಗೆ ಉತ್ತರಿಸಿ: ಭಾಗ ID ಅಥವಾ ಪುಟವನ್ನು ಉಲ್ಲೇಖಿಸಲು ಮಾದರಿಗೆ ಸೂಚಿಸಿ.

ನಿಮ್ಮ ಇನ್‌ಪುಟ್‌ಗಳನ್ನು ಲಾಬೊಟಮೈಸ್ ಮಾಡದೆ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವುದು ಹೇಗೆ. ಗ್ರಂಥಪಾಲಕರಂತೆ ಯೋಚಿಸಿ, ಬ್ಲೆಂಡರ್ ಅಲ್ಲ.

ಕನಿಷ್ಠ, ನೀರಸವಾಗಿ ಪರಿಣಾಮಕಾರಿ ಪ್ರಾಂಪ್ಟಿಂಗ್ ಮಾದರಿ

ಪ್ರತಿ ಭಾಗಕ್ಕೆ, ಸ್ಥಿರವಾದ ಸಾರಾಂಶ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಚಲಾಯಿಸಿ. ಸ್ಥಿರತೆಯು ಅರ್ಧ ಯುದ್ಧ.

ಪ್ರಾಂಪ್ಟ್ ಅಸ್ಥಿಪಂಜರ:

"ನೀವು ಎಚ್ಚರಿಕೆಯ ತಾಂತ್ರಿಕ ಸಂಪಾದಕರು. ಬುಲೆಟ್ ಪಾಯಿಂಟ್‌ಗಳೊಂದಿಗೆ (ಸತ್ಯಗಳು ಮಾತ್ರ), ಒಂದು-ಪ್ಯಾರಾಗ್ರಾಫ್ ಸಾರ, ನಿಯಮಗಳ ಗ್ಲಾಸರಿ ಮತ್ತು ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ (ವಿಭಾಗದ ಶೀರ್ಷಿಕೆ ಮತ್ತು ಪುಟ) ಕೆಳಗಿನ ಭಾಗವನ್ನು ಸಾರಾಂಶಗೊಳಿಸಿ. ಘಟಕಗಳು, ದಿನಾಂಕಗಳು ಮತ್ತು ಅರ್ಹತೆಗಳನ್ನು ಸಂರಕ್ಷಿಸಿ. ಪಠ್ಯದಲ್ಲಿ ಹಕ್ಕಿಗೆ ಪುರಾವೆ ಇಲ್ಲದಿದ್ದರೆ, ಅದನ್ನು [ಉಲ್ಲೇಖಿಸದ] ಎಂದು ಗುರುತಿಸಿ. ಕೋಷ್ಟಕಗಳನ್ನು ಪುನಃ ಬರೆಯುವುದನ್ನು ತಪ್ಪಿಸಿ; ಅವುಗಳನ್ನು ID ಮೂಲಕ ಉಲ್ಲೇಖಿಸಿ. ಇನ್‌ಪುಟ್ --- ನಂತರ ಪ್ರಾರಂಭವಾಗುತ್ತದೆ."

ನಂತರ ಭಾಗವನ್ನು ನೀಡಿ. ಭಾಗ ID ಯೊಂದಿಗೆ ಔಟ್‌ಪುಟ್ ಅನ್ನು ಸಂಗ್ರಹಿಸಿ. ಉತ್ತಮ ಪತ್ರಕರ್ತರು ಉಲ್ಲೇಖಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ಇಟ್ಟುಕೊಳ್ಳುವ ರೀತಿಯಲ್ಲಿಯೇ ನೀವು ಈಗ ನಿಮ್ಮ ಸ್ವಂತ ಕುಗ್ಗಿಸುವಿಕೆ ಪದರವನ್ನು ತಯಾರಿಸಿದ್ದೀರಿ.

ನಿರ್ದಿಷ್ಟವಾಗಿ DeepSeek-OCR ಏಕೆ?

OCR ಉಪಕರಣಗಳು ಬಹಳಷ್ಟು ಇವೆ. ಕೆಲವು ವೇಗವಾಗಿ ಮತ್ತು ತಪ್ಪಾಗಿವೆ; ಕೆಲವು ನಿಧಾನವಾಗಿ ಮತ್ತು ತಪ್ಪಾಗಿವೆ. DeepSeek-OCR ವೇಗವಾಗಿದೆ ಮತ್ತು ಹೆಚ್ಚು ಮುಖ್ಯವಾಗಿ, ಲೇಔಟ್ ಅನ್ನು ಗೌರವಿಸುತ್ತದೆ. ಇದರ ಬಹು-ಕಾಲಮ್ ನಿರ್ವಹಣೆ ಮತ್ತು ಅಂಕಿಅಂಶಗಳ ಶೀರ್ಷಿಕೆ ಪ್ರತ್ಯೇಕಿಸುವಿಕೆ ನಿಮಗೆ ಗಂಟೆಗಳ ನಂತರದ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಉಳಿಸುತ್ತದೆ. ಪ್ರಶ್ನೆಯೆಂದರೆ "ಇದು ಪರಿಪೂರ್ಣವಾಗಿದೆಯೇ?"-ಅವು ಯಾವುದೂ ಅಲ್ಲ. ವೈಫಲ್ಯದ ವಿಧಾನಗಳು ಊಹಿಸಬಹುದಾದವೇ ಎಂಬುದು ಪ್ರಶ್ನೆ. DeepSeek-OCR ನೊಂದಿಗೆ, ಅವು ಹೆಚ್ಚಾಗಿ: ಟ್ರಿಕಿ ಲಿಗೇಚರ್‌ಗಳು, ಶೀರ್ಷಿಕೆಗಳು ದೇಹದ ಪಠ್ಯಕ್ಕೆ ಹರಿಯುತ್ತವೆ ಮತ್ತು ಸಾಂದರ್ಭಿಕ ಗಣಿತ. ನೀವು ಅದಕ್ಕಾಗಿ ಯೋಜಿಸಬಹುದು. ಯೋಜಿಸುವುದು ಕುಗ್ಗಿಸುವಿಕೆಯ ಅರ್ಧದಷ್ಟು.

ಹೇಳಲು ಯೋಗ್ಯವಾಗಿದೆ: ಟೋಕನ್-ಸಮರ್ಥ ಪಠ್ಯವನ್ನು ಹಿಂದಿರುಗಿಸುವ OCR ಮುಖ್ಯವಾಗಿದೆ. ನಿಮ್ಮ OCR ಫ್ಯಾಂಟಮ್ ವೈಟ್‌ಸ್ಪೇಸ್, ಮುರಿದ ಹೈಫನೇಶನ್ ಅಥವಾ ನಕಲಿ ಸಾಲುಗಳನ್ನು ಸೇರಿಸಿದರೆ, ಪ್ರತಿ ಕೆಳಗಿರುವ ಕರೆಯಲ್ಲಿ ಆ ಟೋಕನ್‌ಗಳಿಗೆ ನೀವು ಪಾವತಿಸುತ್ತೀರಿ. DeepSeek-OCR ಅದನ್ನು ಸ್ವಚ್ಛವಾಗಿ ಇರಿಸುತ್ತದೆ. ಕಡಿಮೆ ಮರದ ಪುಡಿ, ಕಡಿಮೆ ಚೂರುಗಳು.

ಪ್ರಾಯೋಗಿಕ ಕೆಲಸದ ಹರಿವು: PDF ನಿಂದ ಉತ್ತರಗಳಿಗೆ ಅನಗತ್ಯವಿಲ್ಲದೆ

"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂಬ ಪ್ರಾಯೋಗಿಕ ಕೆಲಸದ ಹರಿವು ನಿಜವಾಗಿ ರವಾನೆಯಾಗುತ್ತದೆ:

ಸ್ವೀಕರಿಸುವಿಕೆ

ಡಿಜಿಟಲ್ ಪಠ್ಯವನ್ನು ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳಿಗೆ ಹೋಲಿಸಿ ಪತ್ತೆ ಮಾಡಿ; ಅಗತ್ಯವಿದ್ದರೆ ಮಿಶ್ರ ವಿಧಾನಗಳನ್ನು ಬಳಸಿ.

ಲೇಔಟ್ ಹೊರತೆಗೆಯುವಿಕೆ ಮತ್ತು ಕೋಷ್ಟಕ ಪತ್ತೆಹಚ್ಚುವಿಕೆಯನ್ನು ಸಕ್ರಿಯಗೊಳಿಸಿ DeepSeek-OCR ಅನ್ನು ಚಲಾಯಿಸಿ.

ರಫ್ತು: ಪಠ್ಯಕ್ಕಾಗಿ ಮಾರ್ಕ್‌ಡೌನ್ (ಶೀರ್ಷಿಕೆಗಳು, ಪಟ್ಟಿಗಳು), ಕೋಷ್ಟಕಗಳಿಗಾಗಿ CSV/ಮಾರ್ಕ್‌ಡೌನ್, ಅಂಕಿಅಂಶಗಳಿಗಾಗಿ PNG ಉಲ್ಲೇಖಗಳು (ಐಚ್ಛಿಕ).

ಸಾಮಾನ್ಯೀಕರಣ

ಹೈಫನೇಶನ್ ಅನ್ನು ಸರಿಪಡಿಸಿ: ಸಾಲಿನ ಬ್ರೇಕ್‌ಗಳಲ್ಲಿ ಮಾತ್ರ ಹೈಫನ್ ತೆಗೆದುಹಾಕಿ, ಮುಂದಿನ ಸಾಲು ಸಣ್ಣಕ್ಷರದಿಂದ ಪ್ರಾರಂಭವಾದರೆ ಮಾತ್ರ.

ಮುರಿದ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳನ್ನು ವಿಲೀನಗೊಳಿಸಿ; ವಿಭಾಗಗಳ ನಡುವೆ ಖಾಲಿ ಸಾಲುಗಳನ್ನು ಇರಿಸಿ.

ಸ್ಮಾರ್ಟ್ ಉಲ್ಲೇಖಗಳನ್ನು ಪರಿವರ್ತಿಸಿ, ಯೂನಿಕೋಡ್ ಅನ್ನು ಸಾಮಾನ್ಯೀಕರಿಸಿ (NFC). ಮಾದರಿಗಳು ಟೋಕನ್‌ಗಳನ್ನು ನೋಡಿಕೊಳ್ಳುತ್ತವೆ.

ಭಾಗಿಸುವಿಕೆ

H2/H3 ಗಡಿಗಳಿಂದ ಭಾಗಿಸಿ; ಹತ್ತಿರದ ಉಲ್ಲೇಖಿಸುವ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗೆ ಕೋಷ್ಟಕಗಳನ್ನು ಲಗತ್ತಿಸಿ.

ಗಾತ್ರದ ಮಿತಿಗಳನ್ನು ಜಾರಿಗೊಳಿಸಿ (ಪ್ರತಿ ಭಾಗದ ಗುರಿಗೆ 1k ಟೋಕನ್‌ಗಳು). ವಾದದ ಮಧ್ಯದಲ್ಲಿ ವಿಭಜಿಸಬೇಡಿ.

ಮೊದಲ-ಪಾಸ್ ಸಾರಾಂಶಗಳು

ಪ್ರತಿ ಭಾಗಕ್ಕೆ ಸ್ಥಿರವಾದ ಸಾರಾಂಶ ಪ್ರಾಂಪ್ಟ್ ಅನ್ನು ಚಲಾಯಿಸಿ.

ಪ್ರತಿ ಕೋಷ್ಟಕಕ್ಕೆ ಪ್ರತ್ಯೇಕ ಕೋಷ್ಟಕ ಮೆಮೊವನ್ನು ಸೇರಿಸಿ.

ಸೂಚ್ಯಂಕ

ಬುಲೆಟ್ ಪಾಯಿಂಟ್‌ಗಳು ಮತ್ತು ಸಾರ ಪಠ್ಯದ ಮೇಲೆ ವೆಕ್ಟರ್ ಸೂಚ್ಯಂಕವನ್ನು ನಿರ್ಮಿಸಿ.

ಶೀರ್ಷಿಕೆಗಳು, ಗ್ಲಾಸರಿ ನಿಯಮಗಳು ಮತ್ತು ಕೋಷ್ಟಕ ID ಗಳ ಮೇಲೆ ಕೀವರ್ಡ್ ಸೂಚ್ಯಂಕವನ್ನು ನಿರ್ಮಿಸಿ.

ಪ್ರಶ್ನೆ ಸಮಯ

ವೆಕ್ಟರ್ + ಕೀವರ್ಡ್ ಛೇದಕದ ಮೂಲಕ ಟಾಪ್ 3-6 ಭಾಗಗಳನ್ನು ಹಿಂಪಡೆಯಿರಿ.

ಸನ್ನಿವೇಶವನ್ನು ರಚಿಸಿ: ಬುಲೆಟ್‌ಗಳು + ಸಾರ + ಯಾವುದೇ ಕೋಷ್ಟಕ ಮೆಮೊಗಳು + ಮೂಲದಿಂದ 2-3 ಉಲ್ಲೇಖಿತ ವಾಕ್ಯಗಳು.

ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ ಉತ್ತರಿಸಲು ಕೇಳಿ; ಊಹಾಪೋಹವನ್ನು ನಿಷೇಧಿಸಿ.

ಉತ್ತರದ ನಂತರದ ವಿವೇಚನೆ ಪರಿಶೀಲನೆ

ಉತ್ತರವು [ಉಲ್ಲೇಖಿಸದ] ಹಕ್ಕುಗಳನ್ನು ಉಲ್ಲೇಖಿಸಿದರೆ, ಪೋಷಕ ಭಾಗವನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಮರು-ಹಿಂಪಡೆಯಿರಿ.

ಘಟಕಗಳಿಲ್ಲದೆ ಸಂಖ್ಯೆಗಳು ಕಾಣಿಸಿಕೊಂಡರೆ, ಘಟಕದ ನಿರ್ಬಂಧದೊಂದಿಗೆ ತಿರಸ್ಕರಿಸಿ ಮತ್ತು ಮರು-ಕೇಳಿ.

ಅಭಿನಂದನೆಗಳು, ನೀವು ಅದನ್ನು ಓಟ್ ಮೀಲ್ ಆಗಿ ಪರಿವರ್ತಿಸದೆ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದ್ದೀರಿ.

ಕುಗ್ಗಿಸುವಿಕೆ ಸಾರಾಂಶವಲ್ಲ; ಇದು ಟ್ರಿಯೇಜ್ ಆಗಿದೆ

ಸಾರಾಂಶ ಕಡಿಮೆ ಹೇಳಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ. ಕುಗ್ಗಿಸುವಿಕೆ ಕಡಿಮೆ ಟೋಕನ್‌ಗಳಲ್ಲಿ ಅದೇ ಅರ್ಥವನ್ನು ಇರಿಸಿಕೊಳ್ಳಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ. ವಿಭಿನ್ನ ಗುರಿಗಳು. DeepSeek-OCR ನೊಂದಿಗೆ, ನೀವು ಮಾಹಿತಿ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ನಿರ್ಮಿಸುತ್ತಿದ್ದೀರಿ, ಅಲ್ಲಿ ಪ್ರತಿ ಹಂತವು ನಿಮಗೆ ಅಗತ್ಯವಿಲ್ಲದ ಏನನ್ನಾದರೂ ಎಸೆಯುತ್ತದೆ:

OCR ಪಿಕ್ಸೆಲ್‌ಗಳನ್ನು ಎಸೆಯುತ್ತದೆ ಮತ್ತು ಪಠ್ಯವನ್ನು ಇರಿಸುತ್ತದೆ.

ಭಾಗಿಸುವಿಕೆ ಪುಟದ ಗಡಿಗಳನ್ನು ಎಸೆಯುತ್ತದೆ ಮತ್ತು ವಾದಗಳನ್ನು ಇರಿಸುತ್ತದೆ.

ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳು ಪುನರಾವರ್ತನೆಯನ್ನು ಎಸೆಯುತ್ತವೆ ಮತ್ತು ಹಕ್ಕುಗಳನ್ನು ಇರಿಸುತ್ತವೆ.

ಹಿಂಪಡೆಯುವಿಕೆ ಹೆಚ್ಚಿನ ಹಕ್ಕುಗಳನ್ನು ಎಸೆಯುತ್ತದೆ ಮತ್ತು ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸುವ ಕೆಲವನ್ನು ಇರಿಸುತ್ತದೆ.

ಹೆಚ್ಚಿನ "ದೀರ್ಘ ಸನ್ನಿವೇಶ" ಫ್ಯಾಂಟಸಿಗಳು ಸಾಯಲು ಹೋಗುವುದು ಕೊನೆಯ ಹಂತ. ಮಾದರಿಗೆ ಯಾವ 2k ಟೋಕನ್‌ಗಳು ಮುಖ್ಯವೆಂದು ತಿಳಿದಿಲ್ಲದಿದ್ದರೆ 200k-ಟೋಕನ್ ಸನ್ನಿವೇಶ ವಿಂಡೋ ಪಾರ್ಲರ್ ಟ್ರಿಕ್ ಆಗಿದೆ. ನೀವು ಹೇಗೆ ನಿರ್ಧರಿಸುತ್ತೀರಿ ಎಂಬುದು ಕುಗ್ಗಿಸುವಿಕೆ.

ದೋಷಗಳು, ಪಕ್ಷಪಾತ ಮತ್ತು "ಮಾದರಿ ಹೇಳಿದೆ" ಕುರಿತು

ನೀವು ತಪ್ಪು ವಿಷಯಗಳನ್ನು ಕುಗ್ಗಿಸಿದರೆ, ನೀವು ಡಾಕ್ಯುಮೆಂಟ್‌ನಿಂದ ಸತ್ಯವನ್ನು ಕುಗ್ಗಿಸುತ್ತೀರಿ. ನಂತರ ಮಾದರಿಯು ಸಂತೋಷದಿಂದ ಉಳಿದಿರುವುದರ ಮೇಲೆ ತಾರ್ಕಿಕವಾಗಿ ಯೋಚಿಸುತ್ತದೆ ಮತ್ತು ಹಾಗೆ ಮಾಡುವಾಗ ಅಧಿಕೃತವಾಗಿ ಧ್ವನಿಸುತ್ತದೆ. ಗಾರ್ಡ್‌ರೈಲ್‌ಗಳು:

ಉಲ್ಲೇಖಗಳನ್ನು ಪದಶಃ ಸಂರಕ್ಷಿಸಿ; ಅರ್ಥವಿವರಣೆಗಳನ್ನು ಸ್ಪಷ್ಟವಾಗಿ ಗುರುತಿಸಿ.

ಪ್ರಾಯೋಗಿಕವಾದಾಗ ಭಾಗ ಮತ್ತು ವಾಕ್ಯ ಮಟ್ಟದಲ್ಲಿ ಮೂಲವನ್ನು ಇರಿಸಿ.

ವ್ಯಾಖ್ಯಾನಗಳು, ಸಮೀಕರಣಗಳು ಮತ್ತು ಸಾರಾಂಶಗೊಳಿಸಬಾರದ ನಿಯಂತ್ರಕ ಭಾಷೆಗಾಗಿ ಸಣ್ಣ "ಪದಶಃ ಸಂಗ್ರಹ" ಅನ್ನು ನಿರ್ವಹಿಸಿ.

ಎಲ್ಲವನ್ನೂ ಆವೃತ್ತಿ ಮಾಡಿ. ಮೂಲವು ಬದಲಾದರೆ, ಸಾರಾಂಶಗಳನ್ನು ಅಮಾನ್ಯಗೊಳಿಸಿ. ವಾರದ ಹಿಂದಿನ ಸುಶಿಯನ್ನು ನೀಡಬೇಡಿ.

DeepSeek-OCR ಸಾಂದರ್ಭಿಕವಾಗಿ ಹೆಡರ್ ಮತ್ತು ಪ್ಯಾರಾಗ್ರಾಫ್ ಅನ್ನು ಸೇರುತ್ತದೆ ಅಥವಾ ಲಿಗೇಚರ್ ಅನ್ನು ತಪ್ಪಾಗಿ ಓದುತ್ತದೆ. ಸರಿ. ಅದಕ್ಕಾಗಿಯೇ ನಿಮ್ಮ ಸಾರಾಂಶಗಳು ವಿಭಾಗಗಳು ಮತ್ತು ಪುಟಗಳನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತವೆ. ಅನುಮಾನವಿದ್ದರೆ, ರಸೀದಿಗಳನ್ನು ತೋರಿಸಿ.

ಟೋಕನ್ ಗಣಿತ, ನೀರಸ ಆದರೆ ನಿಜ

"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು" ಎಂಬುದರ ಅರ್ಥಶಾಸ್ತ್ರವು ಟೋಕನ್‌ಗಳಿಗೆ ಬರುತ್ತದೆ. OCR ಪಠ್ಯವು ಅಗ್ಗವಾಗಿದೆ; LLM ಸನ್ನಿವೇಶವು ಅಲ್ಲ.

ಪ್ರತಿ ಭಾಗವು ~1,000 ಟೋಕನ್‌ಗಳ ಕಚ್ಚಾ ಮತ್ತು ನಿಮ್ಮ ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳು ~200 ಟೋಕನ್‌ಗಳಾಗಿದ್ದರೆ, ನೀವು ಈಗಾಗಲೇ 5× ಕುಗ್ಗಿಸುವಿಕೆಯನ್ನು ಸಾಧಿಸಿದ್ದೀರಿ.

ಪ್ರಶ್ನೆ ಸಮಯದಲ್ಲಿ, 5 ಸಾರಾಂಶಗಳನ್ನು ಹಿಂಪಡೆಯುವುದು 5,000+ ಕಚ್ಚಾ ಬದಲು ~1,000 ಟೋಕನ್‌ಗಳ ಸನ್ನಿವೇಶವನ್ನು ಬಳಸುತ್ತದೆ. ನೀವು ಉತ್ತರಿಸುವ ಮೊದಲು ಅದು.

ಆಯ್ಕೆಯಾಗಿ ಕೋಷ್ಟಕಗಳನ್ನು ಸೇರಿಸಿ. 200-ಸಾಲು ಕೋಷ್ಟಕವು ಸಾವಿರಾರು ಕೋಶಗಳಿಂದ ಸಾವಿನಂತೆ; 5-ಬುಲೆಟ್ ಮೆಮೊ ಜೊತೆಗೆ 10-ಸಾಲು ಫಿಲ್ಟರ್ ಮಾಡಿದ ಸಾರವು ಜೀವನವಾಗಿದೆ.

ಉಳಿತಾಯವನ್ನು ನೋಡಲು ನಿಮಗೆ ಸ್ಪ್ರೆಡ್‌ಶೀಟ್ ಅಗತ್ಯವಿಲ್ಲ. ತಡರಾತ್ರಿಯ ಬುರ್ರಿಟೋದಂತೆ ನೀವು ಸಂಪೂರ್ಣ ದಾಖಲೆಗಳನ್ನು ಪ್ರಾಂಪ್ಟ್‌ಗಳಲ್ಲಿ ತುಂಬುವುದನ್ನು ನಿಲ್ಲಿಸಬೇಕು.

Sider.AI ಎಲ್ಲಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ (ಇದು ನಿಜವಾಗಿಯೂ ಕೆಲಸ ಮಾಡಲು ನೀವು ಬಯಸಿದರೆ)

ಇಲ್ಲಿ ಎಲ್ಲರೂ ಮಾರ್ಕೆಟಿಂಗ್ ಡಂಬಳಿಕೆಯನ್ನು ನಿರೀಕ್ಷಿಸುವ ಭಾಗವಿದೆ. ಬದಲಾಗಿ: Sider.AI ನಿಜವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ-ಕನಿಷ್ಠ ಇದಕ್ಕಾಗಿ. ಮೊಂಡುತನದ PDF ಅನ್ನು ಅಪ್‌ಲೋಡ್ ಮಾಡಿ, OCR ಅನ್ನು ರನ್ ಮಾಡಲು ಬಿಡಿ ಮತ್ತು ನೀವು ಬೇಬಿ ಸಿಟ್ಟಿಂಗ್ ಮಾಡದೆಯೇ ಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಬಹುದಾದ ವಿಭಾಗ ಆಂಕರ್‌ಗಳೊಂದಿಗೆ ಸ್ವಚ್ಛವಾದ, ನ್ಯಾವಿಗೇಬಲ್ ಪಠ್ಯವನ್ನು ಪಡೆಯುತ್ತೀರಿ. ಚಾಟ್ ಪದರವು ಮ್ಯಾಜಿಕ್ ಅಲ್ಲ; ನೀವು ತಯಾರಿಸಿದ ಸಂಕುಚಿತ ಸಾರಾಂಶಗಳ ಮೇಲೆ ಇದು ಶಿಸ್ತುಬದ್ಧ ಹಿಂಪಡೆಯುವಿಕೆ. ಒಳ್ಳೆಯ ಆಶ್ಚರ್ಯವೆಂದರೆ ಅದು PhD ಹೊಂದಿರುವ PDF ರೀಡರ್ ಎಂದು ನಟಿಸುವುದಿಲ್ಲ. ಇದು ಚೂಪಾದ ಚಾಕುವನ್ನು ಹೊಂದಿರುವ ಸಮರ್ಥ ಸಹಾಯಕ, ಮತ್ತು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಅರ್ಥವನ್ನು ಹಾಳುಮಾಡದೆ ಕುಗ್ಗಿಸುವುದು ಗುರಿಯಾದಾಗ ನೀವು ಬಯಸುವುದು ನಿಖರವಾಗಿ ಅದು.

ಹೊರತೆಗೆಯಲು ನೀವು DeepSeek-OCR ಅನ್ನು ತಂದರೆ ಮತ್ತು ಹಿಂಪಡೆಯಲು ಮತ್ತು ಪ್ರೇರೇಪಿಸುವ ನೈರ್ಮಲ್ಯಕ್ಕಾಗಿ Sider.AI ಅನ್ನು ಬಳಸಿದರೆ, ನೀವು ಟೋಕನ್‌ಗಳು, ಸಮಯ ಮತ್ತು ನಿಮ್ಮ ವಿವೇಚನೆಯನ್ನು ಗೌರವಿಸುವ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಪಡೆಯುತ್ತೀರಿ.

ಅಡಿಟಿಪ್ಪಣಿ ಮಾರ್ಕರ್‌ನ ಗಾತ್ರದ ಎಚ್ಚರಿಕೆಗಳು

ಸಂಕೀರ್ಣ ಗಣಿತ: ನೀವು ಅವುಗಳನ್ನು ಚಪ್ಪಟೆಗೊಳಿಸಿದರೆ OCR ಜೊತೆಗೆ ಸಾರಾಂಶೀಕರಣವು ಸಾಂಕೇತಿಕ ಅಭಿವ್ಯಕ್ತಿಗಳನ್ನು ಕಸಾಯಿಖಾನೆಗೆ ತರುತ್ತದೆ. ಸಮೀಕರಣಗಳಿಗಾಗಿ LaTeX ಅಥವಾ ಚಿತ್ರಗಳನ್ನು ಇರಿಸಿ; ಪದಗಳಲ್ಲಿ ಸಾರಾಂಶಗೊಳಿಸಿ, ಚಿಹ್ನೆಗಳಲ್ಲಿ ಅಲ್ಲ.

ಚಿತ್ರಾತ್ಮಕ ನಕ್ಷೆಗಳು: ಲೇಬಲ್ ಮಾಡದ ಚಿತ್ರಾತ್ಮಕ ನಕ್ಷೆಯನ್ನು "ಅನುಮಾನಿಸಲು" ಮಾದರಿಯನ್ನು ಎಂದಿಗೂ ಕೇಳಬೇಡಿ. ಅದು ಟ್ಯಾರೋ, ವಿಶ್ಲೇಷಣೆಯಲ್ಲ. ಶೀರ್ಷಿಕೆಯನ್ನು OCR ಮಾಡಿ, ಉಲ್ಲೇಖಕ್ಕಾಗಿ ಚಿತ್ರವನ್ನು ಇರಿಸಿ ಮತ್ತು ಗುರಿಯಾಗಿಸಿದ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಿ.

ಕಾನೂನು ಮತ್ತು ಅನುಸರಣೆ: ಕೆಲವು ಪಠ್ಯವನ್ನು ಪದಶಃ ಸಂರಕ್ಷಿಸಬೇಕು. ಅದನ್ನು ಗುರುತಿಸಿ. ಒಂದು ಷರತ್ತು ಅಸ್ತಿತ್ವದಲ್ಲಿದೆಯೇ ಎಂದು ಮಾದರಿಯನ್ನು ಕೇಳುವ ಮೊದಲು ಅದನ್ನು ಕುಗ್ಗಿಸಬೇಡಿ. ಷರತ್ತುಗಳು-ಅಥವಾ ವಕೀಲರು-ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತಾರೆ ಎಂಬುದಲ್ಲ.

ವಿವೇಚನೆಯಿಂದ ಪರಿಶೀಲಿಸಿದ ಉದಾಹರಣೆ ಮಾದರಿ

ನೀವು 120 ಪುಟಗಳ ವಾರ್ಷಿಕ ವರದಿಯನ್ನು ಹೊಂದಿದ್ದೀರಿ ಎಂದು ಹೇಳೋಣ.

DeepSeek-OCR ನೊಂದಿಗೆ OCR -> ಮಾರ್ಕ್‌ಡೌನ್ ಪಠ್ಯ + CSV ಕೋಷ್ಟಕಗಳನ್ನು ಪಡೆಯಿರಿ.

ವಿಭಾಗಗಳ ಮೂಲಕ ಭಾಗಿಸಿ: "ನಿರ್ವಹಣೆ ಚರ್ಚೆ," "ಅಪಾಯದ ಅಂಶಗಳು," ಇತ್ಯಾದಿ.

ಭಾಗಕ್ಕೆ ಸಾರಾಂಶಗಳು: 8 ಬುಲೆಟ್‌ಗಳು, 1 ಸಾರಾಂಶ ಪ್ಯಾರಾಗ್ರಾಫ್, ಗ್ಲಾಸರಿ, ಉಲ್ಲೇಖಗಳು.

ಆದಾಯ, ವೆಚ್ಚಗಳು, ಹೆಡ್‌ಕೌಂಟ್ ಮತ್ತು ವಿಭಾಗಗಳಿಗೆ ಕೋಷ್ಟಕ ಮೆಮೊಗಳು.

ದ್ವಂದ್ವ ಸೂಚ್ಯಂಕವನ್ನು ನಿರ್ಮಿಸಿ: ಬುಲೆಟ್‌ಗಳ ಮೇಲೆ ವೆಕ್ಟರ್‌ಗಳು; ಶೀರ್ಷಿಕೆಗಳು ಮತ್ತು ಗ್ಲಾಸರಿಯ ಮೇಲೆ ಕೀವರ್ಡ್‌ಗಳು.

ಪ್ರಶ್ನೆ: "ವರ್ಷದಿಂದ ವರ್ಷಕ್ಕೆ ಒಟ್ಟು ಅಂಚು ಹೇಗೆ ಬದಲಾಯಿತು ಮತ್ತು ಏಕೆ?" ವೆಚ್ಚದ ವ್ಯಾಖ್ಯಾನದೊಂದಿಗೆ ಎರಡು ಭಾಗಗಳನ್ನು + ಆದಾಯ ಕೋಷ್ಟಕ ಮೆಮೊವನ್ನು ಹಿಂಪಡೆಯಿರಿ. ಉಲ್ಲೇಖಗಳು ಮತ್ತು 1-2 ಉಲ್ಲೇಖಿತ ವಾಕ್ಯಗಳೊಂದಿಗೆ ಉತ್ತರಿಸಿ.

ನೀವು 120 ಪುಟಗಳನ್ನು ಓದಲಿಲ್ಲ. ಮಾದರಿಯು ಸಹ ಓದಿದೆ ಎಂದು ನೀವು ನಟಿಸಲಿಲ್ಲ. ನೀವು LLM ಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದ್ದೀರಿ ಮತ್ತು ಹಗಲು ಬೆಳಕಿಗೆ ಹಿಡಿದಿಟ್ಟುಕೊಳ್ಳುವ ಉತ್ತರವನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೀರಿ.

ಇದು ಪಕ್ಕಕ್ಕೆ ಹೋಗುವ ಊಹಿಸಬಹುದಾದ ವಿಧಾನಗಳ ಪರಿಹಾರ

ಮಾದರಿಯು ಹಕ್ಕನ್ನು ಬೆಂಬಲಿಸದ ವಿಭಾಗವನ್ನು ಉಲ್ಲೇಖಿಸುತ್ತದೆ. ಪರಿಹಾರ: ಹಿಂಪಡೆಯುವಿಕೆಯನ್ನು ಬಿಗಿಗೊಳಿಸಿ-ವಿಭಾಗದ ಶೀರ್ಷಿಕೆಗಳಿಗಾಗಿ ಕೀವರ್ಡ್ ಹಿಟ್‌ಗಳನ್ನು ಹೆಚ್ಚಿಸಿ, ಸಾಮಾನ್ಯ ವೆಕ್ಟರ್ ಹೊಂದಾಣಿಕೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಿ.

ಸಾರಾಂಶಗಳು ಮೂಲಕ್ಕೆ ವಿರುದ್ಧವಾಗಿವೆ. ಪರಿಹಾರ: ಸೂಕ್ಷ್ಮ ವಿಭಾಗಗಳಿಗೆ "ಅರ್ಥವಿವರಣೆ ಇಲ್ಲ" ಮೋಡ್ ಅನ್ನು ಸೇರಿಸಿ; ಸನ್ನಿವೇಶದಲ್ಲಿ 2-3 ಪದಶಃ ವಾಕ್ಯಗಳನ್ನು ಸೇರಿಸಿ.

OCR ದೋಷಗಳು ಹೆಡರ್‌ಗಳು ಅಥವಾ ಅಡಿಟಿಪ್ಪಣಿಗಳಲ್ಲಿ ಕ್ಲಸ್ಟರ್ ಆಗುತ್ತವೆ. ಪರಿಹಾರ: ಸಾರಾಂಶಕ್ಕೆ ಮೊದಲು ಪುನರಾವರ್ತಿತ ಬಾಯ್ಲರ್‌ಪ್ಲೇಟ್ ಅನ್ನು ತೆಗೆದುಹಾಕಲು ನಿಮ್ಮ ಪ್ರಿಪ್ರೊಸೆಸರ್‌ಗೆ ಕಲಿಸಿ; ಇದು ಶಬ್ದವಾಗಿದೆ.

ಕೋಷ್ಟಕಗಳು ಟೋಕನ್ ಬಜೆಟ್ ಅನ್ನು ಉಬ್ಬಿಸುತ್ತವೆ. ಪರಿಹಾರ: ಪ್ರಸ್ತುತತೆಯ ಮೂಲಕ ಟಾಪ್ N ಸಾಲುಗಳಿಗೆ ಕ್ಯಾಪ್ ಮಾಡಿ ಮತ್ತು ಮೆಮೊವನ್ನು ಇರಿಸಿ; ನೀವು ಆಳವಾಗಿ ಅಗೆಯಬೇಕಾದರೆ ಪೂರ್ಣ CSV ಗೆ ಲಿಂಕ್ ಅನ್ನು ಸೇರಿಸಿ.

"LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು" ಮೂರ್ಖ vs ಸ್ಮಾರ್ಟ್ ಮಾರ್ಗ

ಮೂರ್ಖ: "ಈ 300-ಪುಟದ PDF ಅನ್ನು ಸಾರಾಂಶಗೊಳಿಸಿ."

ಸ್ಮಾರ್ಟ್: "ಈ 10 ವಿಭಾಗ ಸಾರಾಂಶಗಳು ಮತ್ತು 3 ಕೋಷ್ಟಕ ಮೆಮೊಗಳಿಂದ, ಮೂಲವನ್ನು ಉಲ್ಲೇಖಿಸಿ, ಈ ಕಿರಿದಾದ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸಿ."

ಹಿಂದಿನದು ಮಾದರಿಯನ್ನು ಹೊಗಳುತ್ತದೆ ಮತ್ತು ನಿಮ್ಮ ಹಣವನ್ನು ವ್ಯರ್ಥ ಮಾಡುತ್ತದೆ. ಎರಡನೆಯದು ನಿಮ್ಮ ಬಳಕೆದಾರರನ್ನು ಹೊಗಳುತ್ತದೆ ಮತ್ತು ವಾಸ್ತವವನ್ನು ಗೌರವಿಸುತ್ತದೆ. DeepSeek-OCR ನಿಮಗೆ ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ನೀಡುತ್ತದೆ; ನಿಮ್ಮ ಪೈಪ್‌ಲೈನ್ ಅದನ್ನು ಪ್ರಾಮಾಣಿಕವಾಗಿ ಇರಿಸುತ್ತದೆ.

ತೀರ್ಮಾನ: ಗೌರವವಾಗಿ ಕುಗ್ಗಿಸುವಿಕೆ

ಓದುಗರನ್ನು ಗೌರವಿಸಿ. ಟೋಕನ್‌ಗಳನ್ನು ಗೌರವಿಸಿ. ಸತ್ಯವನ್ನು ಗೌರವಿಸಿ. LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು ಎಂಬುದರ ಮೂಲಕ-ಸಾಲಾಗಿದೆ. OCR ಹಂತವು ಕೋಷ್ಟಕ ಷೇರುಗಳು; ಉಳಿದವು ಸಂಪಾದಕೀಯ ತೀರ್ಪು ಕೆಲಸದ ಹರಿವಿನಂತೆ ಧರಿಸಲ್ಪಟ್ಟಿದೆ-ಆಲೋಚನೆಗಳ ಮೂಲಕ ಭಾಗಿಸುವಿಕೆ, ಸೂಕ್ಷ್ಮ ವ್ಯತ್ಯಾಸವನ್ನು ಮರಳುಗಾಡಿನಂತೆ ಮಾಡದೆ ಸಾರಾಂಶಗೊಳಿಸುವುದು, ಮುಖ್ಯವಾದುದನ್ನು ಹಿಂಪಡೆಯುವುದು ಮತ್ತು ರಸೀದಿಗಳೊಂದಿಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಲು ಮಾದರಿಗೆ ಅವಕಾಶ ನೀಡುವುದು.

ದೀರ್ಘ ಸನ್ನಿವೇಶ ವಿಂಡೋಗಳು ಚೆನ್ನಾಗಿವೆ. ಸ್ಪಷ್ಟ ಸನ್ನಿವೇಶವು ಉತ್ತಮವಾಗಿದೆ. ಎಚ್ಚರಿಕೆಯ ಓದುಗರಂತೆ ವರ್ತಿಸುವ ಮಾದರಿಗಳು ನಿಮಗೆ ಬೇಕಾದರೆ, ಎಚ್ಚರಿಕೆಯ ಓದುಗರು ಏನು ಇಟ್ಟುಕೊಳ್ಳುತ್ತಾರೋ ಅದನ್ನು ಅವರಿಗೆ ನೀಡಿ. ಉಳಿದೆಲ್ಲವೂ ಕೇವಲ ಪುಟ ಎಣಿಕೆಯಾಗಿದೆ.

FAQ

Q1:ಅರ್ಥವನ್ನು ಕಳೆದುಕೊಳ್ಳದೆ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಲು DeepSeek-OCR ಅನ್ನು ಹೇಗೆ ಬಳಸುವುದು? ಲೇಔಟ್ ಅನ್ನು ಸಂರಕ್ಷಿಸಿ ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ಹೊರತೆಗೆಯಿರಿ, ಶೀರ್ಷಿಕೆಗಳ ಮೂಲಕ (ಪುಟಗಳಲ್ಲ) ಭಾಗಿಸಿ ಮತ್ತು ಲೇಯರ್ಡ್ ಸಾರಾಂಶಗಳನ್ನು ರಚಿಸಿ-ಬುಲೆಟ್‌ಗಳು, ಒಂದು-ಪ್ಯಾರಾಗ್ರಾಫ್ ಸಾರ, ಗ್ಲಾಸರಿ ಮತ್ತು ಉಲ್ಲೇಖಗಳು. ಪ್ರಶ್ನೆ ಸಮಯದಲ್ಲಿ ಆ ಸಾರಾಂಶಗಳನ್ನು ಮತ್ತು ಸಂಬಂಧಿತ ಕೋಷ್ಟಕ ಮೆಮೊಗಳನ್ನು ಮಾತ್ರ ಹಿಂಪಡೆಯಿರಿ. ಅದು ಸಿಗ್ನಲ್ ಅನ್ನು ಇಟ್ಟುಕೊಂಡು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುತ್ತದೆ.

Q2:ನಾನು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದಾಗ ಉತ್ತಮ ಭಾಗದ ಗಾತ್ರ ಯಾವುದು? ಯಾದೃಚ್ಛಿಕ ಪುಟ ಬ್ರೇಕ್‌ಗಳಿಗಿಂತ ವಿಭಾಗಗಳು ಅಥವಾ ಉಪಶೀರ್ಷಿಕೆಗಳಿಗೆ ಹೊಂದಿಕೆಯಾಗಿ ಪ್ರತಿ ಭಾಗಕ್ಕೆ 800-1,200 ಟೋಕನ್‌ಗಳನ್ನು ಗುರಿಯಾಗಿಸಿ. ಸಮಾನ ಬೈಟ್ ಎಣಿಕೆಗಳಲ್ಲ, ಸುಸಂಬದ್ಧ ವಾದಗಳು ಗುರಿಯಾಗಿದೆ; ತರ್ಕವನ್ನು ಅರ್ಧದಷ್ಟು ಕತ್ತರಿಸದೆ ನೀವು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವುದು ಹೇಗೆ.

Q3:ಪಠ್ಯವನ್ನು ಆಯ್ಕೆ ಮಾಡಬಹುದಾದರೂ ಸಹ ನಾನು ಪ್ರತಿ PDF ಪುಟವನ್ನು DeepSeek-OCR ನೊಂದಿಗೆ OCR ಮಾಡಬೇಕೇ? ಇಲ್ಲ. ಪಠ್ಯವು ಡಿಜಿಟಲ್-ಸ್ಥಳೀಯವಾಗಿದ್ದರೆ, ಅದನ್ನು ನೇರವಾಗಿ ಹೊರತೆಗೆಯಿರಿ ಮತ್ತು ಸ್ಕ್ಯಾನ್ ಮಾಡಿದ ಪುಟಗಳು ಅಥವಾ ಚಿತ್ರಗಳಿಗೆ ಮಾತ್ರ DeepSeek-OCR ಅನ್ನು ಬಳಸಿ. ಸ್ವಚ್ಛವಾದ ಪಠ್ಯವನ್ನು ಮರು-OCR ಮಾಡುವುದು ದೋಷಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ-ಮತ್ತು ಅದು LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸುವುದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿದೆ.

Q4: LLMಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಕುಗ್ಗಿಸಿದಾಗ ಕೋಷ್ಟಕಗಳನ್ನು ನಾನು ಹೇಗೆ ನಿರ್ವಹಿಸುವುದು? ಕೋಷ್ಟಕಗಳನ್ನು CSV/Markdown ಆಗಿ ಇರಿಸಿ ಮತ್ತು ಒಂದು ಸಣ್ಣ ಟಿಪ್ಪಣಿಯನ್ನು ಸೇರಿಸಿ: ಅದು ಏನು ತೋರಿಸುತ್ತದೆ, ಅದು ಏನನ್ನು ಸೂಚಿಸುತ್ತದೆ ಮತ್ತು ಯಾವುದೇ ಎಚ್ಚರಿಕೆಗಳು. ಸಂಬಂಧಿತವಾದಾಗ ಟಿಪ್ಪಣಿ ಮತ್ತು ಫಿಲ್ಟರ್ ಮಾಡಿದ ಭಾಗವನ್ನು ಪಡೆದುಕೊಳ್ಳಿ; 200-ಸಾಲುಗಳ ಗ್ರಿಡ್ ಅನ್ನು ಪ್ರಾಂಪ್ಟ್‌ಗೆ ಸುರಿಯುವುದಕ್ಕಿಂತ ಅದು ಚುರುಕಾಗಿದೆ.

Q5: DeepSeek-OCR ನೊಂದಿಗೆ ಈ ಕಾರ್ಯವಿಧಾನದಲ್ಲಿ Sider.AI ಎಲ್ಲಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ? ನಿಖರವಾದ ಹೊರತೆಗೆಯುವಿಕೆಗಾಗಿ DeepSeek-OCR ಅನ್ನು ಬಳಸಿ ಮತ್ತು ಶಿಸ್ತುಬದ್ಧ ಮರುಪಡೆಯುವಿಕೆ ಮತ್ತು ಸಾರಾಂಶ ನೈರ್ಮಲ್ಯಕ್ಕಾಗಿ Sider.AI ಅನ್ನು ಬಳಸಿ. ಇವೆರಡೂ ಒಟ್ಟಾಗಿ LLM ಗಳಿಗಾಗಿ ದೀರ್ಘ ಪಠ್ಯವನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿ ಕುಗ್ಗಿಸುತ್ತವೆ: ಕಡಿಮೆ ಟೋಕನ್ ವ್ಯರ್ಥ, ಸ್ಪಷ್ಟವಾದ ಉತ್ತರಗಳು ಮತ್ತು ಪರಿಶೀಲನೆಯನ್ನು ಉಳಿಸಿಕೊಳ್ಳುವ ಉಲ್ಲೇಖಗಳು.