What’s the fastest way to integrate DeepSeek‑OCR into a long‑context pipeline?

Treat OCR as a GPU batch service with strict caching, then compress by layout (headings, paragraphs, tables) before retrieval. Add a hybrid index (dense + sparse + table) and assemble prompts just‑in‑time rather than dumping the whole document.

Do I really need long‑context models if I’m using DeepSeek‑OCR?

Not always. If your questions are precise, better retrieval and citations beat brute‑force context. Long‑context pays off when you need synthesis across sections, not when you’re hunting for one clause on page 67.

How do I handle tables without exploding token counts?

Extract tables structurally, keep headers and a few high‑signal rows, and store the full table out‑of‑band. Route table questions to a table index and only include the necessary cells in the prompt.

What metrics prove the pipeline actually works?

Track citation accuracy, table cell precision, compression fidelity per section, and P95 end‑to‑end latency. Most telling is a human trust score—do users accept the answer without digging for proof?

Where does [Sider.AI](https://sider.ai) fit in this setup?

As the orchestration layer: it schedules OCR, enforces chunking and retrieval policies, and keeps prompts disciplined. Think foreman, not wizard—the thing that makes all the other pieces show up on time and with receipts.

ದೀರ್ಘ-ಸಂದರ್ಭ ಕಂದಕಗಳಲ್ಲಿ DeepSeek-OCR: ನಿಜವಾಗಿ ಏನು ಕೆಲಸ ಮಾಡುತ್ತದೆ

“ಲಾಂಗ್‌-ಕಾಂಟೆಕ್ಸ್ಟ್ ಎಐ” ಬಗ್ಗೆ ಎಲ್ಲರೂ ಖಚಿತವಾಗಿ ಇದನ್ನು ಹೊಂದಿದ್ದಾರೆಂದು ಭಾವಿಸುತ್ತಾರೆ—ಆದರೆ ನೀವು ಪುಟ 47ರ ಸೂಕ್ಷ್ಮ ಪ್ರಶ್ನೆಯನ್ನು ಕೇಳಿದಾಗ, ಅಳಿವಿನಂತೆ ಸ್ಮರಣೆ ತಪ್ಪಿಹೋಗುತ್ತದೆ. DeepSeek-OCR ಈ ಗೊಂದಲದ ಮಧ್ಯದಲ್ಲಿ ಸಿಂಪಲ್ ಆದರೆ ನಿಜವಾದ ಹಕ್ಕಿಯನ್ನು ಹೊಂದಿದ್ದು: ಮಹತ್ವದ ಮಾಹಿತಿಯನ್ನು ಸಂಕೋಚಿಸು, ರಚನೆಯನ್ನು ಉಳಿಸು, ಮತ್ತು 2023 ರಂತೆ ಟೋಕನ್ಗಳನ್ನು ಅತಿ ಹೆಚ್ಚು ಬಳಸುವಿಕೆಯನ್ನು ನಿಲ್ಲಿಸು. ಬ್ಲೂಪ್ರಿಂಟ್ “ಮೇಲು OCR” ಅಲ್ಲ; ಇದು ವಿನ್ಯಾಸವನ್ನು ಗೌರವಿಸುವ OCR ಆಗಿದ್ದು, ನಿಮ್ಮ ಕಾಂಟೆಕ್ಸ್ಟ್ ವಿಂಡೋ ಅನ್ನು ಅಶ್ರವ್ಯ ಪದಾರ್ಥಗಳಿಂದ ತುಂಬಿಸುವುದನ್ನು ತಡೆಯುತ್ತದೆ.

ಹೌದು, ಬಹುಮಾನಿತ ಲಾಂಗ್‌-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್‌ಲೈನ್ಗಳು ಇದು ತಪ್ಪಾಗುತ್ತದೆ. ಅವು ಕೇವಲ ಕಚ್ಚಾ ಪಠ್ಯವನ್ನು ಮಾದರಿಯಲ್ಲಿ ಹಾಕಿ ಆಗ್ರಹಿಸುತ್ತವೆ, ಮತ್ತು ಈ ಪ್ರಯತ್ನದ ಅಂತರವಾಗಿ ಭ್ರಮೆಗಳಾಗುತ್ತದೆ.

ನೀವು ಹೇಗೆ DeepSeek-OCR ಅನ್ನು ನಿಖರವಾಗಿ ನಿಜವಾದ ಲಾಂಗ್‌-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್‌ಲೈನ್‌ಗೆ ಸಂಯೋಜಿಸಬಹುದು ಎಂಬುದನ್ನು ವಿಶ್ಲೇಷಿಸಿ ನೋಡಿಯೋಣ—ಇದು ವಿಸ್ತರಿಸುತ್ತದೆ, ಗಣನೆ ದರವನ್ನು ಸಹಜವಾಗಿ ಪಾವತಿಸುತ್ತದೆ ಮತ್ತು PDF ನಲ್ಲಿ ಟೇಬಲ್ಗಳು, ಫುಟ್ನೋಟ್‌ಗಳು ಅಥವಾ ಕಾನೂನು ದಾಖಲೆಗಳು ಇರುವಾಗ ಅವಳೆಯಿಂದ ಕುಸಿತವಾಗುವುದಿಲ್ಲ.

DeepSeek-OCR ವಿಭಿನ್ನ ಮತ್ತು ಉಪಯುಕ್ತವಾದುದು ಏಕೆ

ವಿನ್ಯಾಸವು ಡೇಟಾ: ಲಾಂಬೆಡೋಕ್ಯುಮೆಂಟ್‌ಗಳು ಕೇವಲ ಪಠ್ಯವಲ್ಲ; ಅವು ಅಂತರಿಕ ವಿವರಣೆಗಳಾಗಿವೆ. ತಲೆಬರಹಗಳು, ಕಾಲಮ್‌ಗಳು, ಟೇಬಲ್ಗಳು, ಚಿತ್ರಕೆಪ್ಷನ್‌ಗಳೆಲ್ಲವೂ ಅರ್ಥ ಹೊಂದಿವೆ. DeepSeek-OCR ಅವುಗಳ ರಚನೆಯನ್ನು ಪೂರ್ವದರ್ಜೆಯ ನಾಗರಿಕನಂತೆ ಉಳಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ, ಇದು ನೂಕುನುಗ್ಗುವ ಮಾದರಿಗಳು ನೂರಾರು ಪುಟಗಳನ್ನು reasoning ಮಾಡಿಕೊಳ್ಳಲು ಅಗತ್ಯವಾಗಿರುವದು.

ಲೋಬೋಟಮಿ ಇಲ್ಲದೆ ಸಂಕೋಚನೆ: ಉದ್ದೇಶವೇ 8K ವಿಂಡೋನಲ್ಲಿ ಎಲ್ಲವನ್ನು ಸರಿಪಡಿಸುವುದು ಅಲ್ಲ. ಇದು ಸಂಕೇತವನ್ನು ಉಳಿಸುವುದು—ಘನ, ರಚಿಸಲಾದ, ನೆವಿಗೇಬಲ್ ಆಗಿರುವ ಒಂದನ್ನು ಉಳಿಸಿ, ಉಳಿದನ್ನು ಕಡಿಮೆ ವೆಚ್ಚದಂತೆ ಮಾಡುವುದು.

ಅಂಗೀಕರಿಸುವ ಹಂತಗಳಿಗೆ ಸಹ ಚೆನ್ನಾಗಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ: RAG, ಸಾರಾಂಶ, ಲಾಂಗ್‌-ಕಾಂಟೆಕ್ಸ್ಟ್ ಟ್ರಾನ್ಸ್‌ಫಾರ್ಮರ್‌ಗಳು, ಮತ್ತು ಏಜೆಂಟ್‌ಗಳು. ನಿಮ್ಮ OCR ಹಂತವು ಉತ್ತಮವಾಗಿದ್ದರೆ, ರಿಟ್ರೀವಲ್ ಮತ್ತು reasoning ಹಂತಗಳು ಕ್ಷಮಿಸಬೇಕಾಗುವುದಿಲ್ಲ.

ನೀವು ನಿರ್ಮಿಸುತ್ತಿರುವದು: ಸ್ಪೈನಿನೊಂದಿಗೆ ಲಾಂಗ್‌-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್ಲೈನ್

ಪೈಪ್ಲೈನನ್ನು ಐದು ಭಾಗಗಳಾಗಿ ಭಾವಿಸಿ, ಪ್ರತಿಯೊಂದು ವಿಭಿನ್ನ ಕಾರ್ಯವನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ:

ಪದಾರ್ಥ ತಗೆದು ಸಾಮಾನ್ಯೀಕರಣ ಮಾಡಿ

ಇನ್‌ಪುಟ್ ಪ್ರಕಾರ: PDF ಗಳು (ಜನನ-ಡಿಜಿಟಲ್ ಮತ್ತು ಸ್ಕ್ಯಾನ್ಡ್), ಚಿತ್ರಗಳು, TIFF ಗಳು ಸ್ಕ್ಯಾನರ್‌ಗಳಲ್ಲಿಂದ, ಗಣರಾಜ್ಯದ ಕಚೇರಿ ರಫ್ತುಗಳು.

ಪೂರ್ವಪ್ರಕ್ರಿಯೆ: ಡಿ-ಸ್ಕ್ಯೂ, ಡಿನಾಯಸ್, ಅಗತ್ಯವಿದ್ದರೆ ಬೈನರೈಸ್ ಮಾಡಿ, ಪುಟಗಳನ್ನು ಸಾದೃಶ್ಯವಾಗಿ ವಿಭಜಿಸಿ. ಪ್ರತಿ ಪುಟದ ಮೆಟಾಡೇಟಾವನ್ನು സൂಕ್ಷ್ಮ ಜಾಗ್ರತೆ—ಪೇಜ್ ಸಂಖ್ಯೆಗಳು, ಮೂಲ ಫೈಲ್, ವಿಭಾಗ ಕಿಪ್ಪೆಗಳು—ಪಾಲಿಸಿ.

ಇ_OUTPUT ಗುರಿ: ಪಾಂಟಾ ಚಿತ್ರಗಳು ಅಥವಾ ಪುಟ ಕ್ಯಾನ್ವಾಸ್‌ಗಳು ನಿರೀಕ್ಷಿತ ಸ್ವರೂಪದಲ್ಲಿ (PNG ಅಥವಾ JPEG) ಸ್ಥಿರ DPI ಜೊತೆಗೆ.

ಢೃಢ ಸಂಕೇತವಾಗಿರುವ OCR

ಪ್ರತಿ ಪುಟದಲ್ಲಿ DeepSeek-OCR ಅನ್ನು ಓಡಿಸಿ ಮತ್ತು ಪೇರಿಮೆಟರ್ ಮಾಹಿತಿ ಪಡೆಯಿರಿ:

ಪಠ್ಯದ ವ್ಯಾಪ್ತಿಗಳು ಬೌಂಡಿಂಗ್ ಬಾಕ್ಸ್‌ಗಳೊಂದಿಗೆ (x, y, ಅಗಲ, ಎತ್ತರ)

ಬ್ಲಾಕ್ ಪ್ರಕಾರಗಳು: ತಲೆಬರಹಗಳು, ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು, ಪಟ್ಟಿ, ಟೇಬಲ್‌ಗಳು, ಚಿತ್ರಗಳು, ಫುಟ್ನೋಟ್ಸ್

ಓದುವ ಆದೇಶ ಮತ್ತು ಹೈರಾರ್ಕಿ ರಚನೆ (ಡಾಕ್ಯೂಮೆಂಟ್ ಟ್ರೀ)

ಕಚ್ಚಾ ಪಠ್ಯ ಮತ್ತು ವಿನ್ಯಾಸ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಉಳಿಸಿ. ಟೋಕನ್-ನಿವ್ವಳ ನಕ್ಷೆಯನ್ನು ರಫ್ತು ಮಾಡಬಲ್ಲದಿದ್ದರೆ, ಅದನ್ನು ಉಳಿಸು. ಟೇಬಲ್ಗಳು ಸಂರಚಿಸಲಾದ (CSV/HTML) ಆಗಿರಬೇಕು ಮತ್ತು ಅವುಗಳ ನಿರ್ದೇಶಾಗಳಿಗೆ ಸೇರಿಸಬೇಕು.

ವಿನ್ಯಾಸ-ಜಾಗೃತ ಸಂಕೋಚನೆ

ಟ್ರಿಕ್: ಬ್ಲಾಕ್ ಮಹತ್ವದ ಆಧಾರದಿಂದ ಸಂಕೋಚಿಸಿ, ಸರಳ ಟೋಕನ್ ಕಡಿತದಿಂದ ಅಲ್ಲ.

ಯಥಾರ್ಥ heuristics ಹೀಗಿವೆ:

ತಲೆಬರಹ ಮತ್ತು ವಿಭಾಗ ಸಾರಾಂಶ: ಸ್ಪಷ್ಟವಾಗಿ ಉಳಿಸಿ.

ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು: ಸ句ತಾ ಮುಖ್ಯವಾಕ್ಯ ಆಯ್ಕೆ ಮಾಡುವುದು ಸಣ್ಣ ರ‍್ಯಾಂಕರ್ (BM25/ColBERT ಶೈಲಿ ಅಥವಾ ಸ್ಥಳೀಯ ಸಂಕೇತಕ) ಉಪಯೋಗಿಸಿ.

ಟೇಬಲ್ಗಳು: ಹೆಡರ್‌ಗಳನ್ನು ಮತ್ತು ಟಾಪ್-k ಸ್ಥಿತಿಗತಿಯಾಗಿ ಬದಲಾದ ಸಾಲುಗಳನ್ನು ಉಳಿಸಿ; ಸಂಖ್ಯಾತ್ಮಕ ಕಾಲಮ್‌ಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಉಳಿಸಿ; ಪೂರ್ಣ ಟೇಬಲ್ ಅನ್ನು ಬಾಹ್ಯವಾಗಿ ಸಂಗ್ರಹಿಸಿ.

ಕೆಪ್ಷನ್‌ಗಳು ಮತ್ತು ಫುಟ್ನೋಟ್‌ಗಳು: ಉಳಿಸಿ; ಕಡಿಮೆ ಟೋಕನ್, ಹೆಚ್ಚಿನ ಅರ್ಥ.

ಏರ್ಟಿಫ್ಯಾಕ್ಟ್ ಎರಡು ಉತ್ಪಾದಿಸಿ:

ಸಂಕೊಚಿತ, ವಿನ್ಯಾಸ-ಜಾಗೃತ ಕಥಾನಕ ಕಾಂಟೆಕ್ಸ್ಟ್: ಮೂಲ ಟೋಕನ್‌ಗಳ 10-20%, ಸುಸಂಗತ ಮತ್ತು ನವಿಗೇಬಲ್.

ಸೈಡ್ಕಾರ್ ಸೂಚ್ಯಂಕ: ಸಂಕೊಚಿತ ವ್ಯಾಪ್ತಿಗಳಿಂದ ಸಂಪೂರ್ಣ ನಿಖರ ಬ್ಲಾಕ್‌ಗಳಿಗೆ ಸೂಚನೆಗಳು.

ರಿಟ್ರೀವಲ್ ಮತ್ತು ರೌಟಿಂಗ್ (ಮಾಹಿತಿ ಸಂಗ್ರಹಣೆ ವಿನಯದಿಂದ ಮಾಡಲಾಗಿದೆ)

ಸೂಚ್ಯಂಕ ರಚನೆ:

ವಾಕ್ಯಗಳು/ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳ ಮೇಲೆ ಅರ್ಥಾನುಸಾರ semantics ಹುಡುಕಲು ದಟ್ಟ vectors.

ನಿಖರವಾಗಿ ಹುಡುಕಲು ವಿಷ್ಣಂತಹ (BM25) ತಿಳಿವಳಿಕೆ—ಕೋಡ್‌ಗಳು, ಉಲ್ಲೇಖಗಳು, ಗುರುತುಗಳು.

ಟೇಬಲ್-ಅware ಸೂಚ್ಯಂಕ: ಸಾಲು ಮತ್ತು ಸೆಲ್ embedding ಗಳು ಸಂಖ್ಯಾತ್ಮಕ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ.

ರೌಟರ್:

ಕೀಲಿಪದ ಭರಿತ ಪ್ರಶ್ನೆಗಳು → ಮೊದಲು ವಿಷ್ಣತ್ವ, ನಂತರ ದಟ್ಟದಿಂದ ಮರು-ರ್ಯಾಂಕ್.

ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಅಥವಾ “ಏಕೆ” ಪ್ರಶ್ನೆಗಳು → ಮೊದಲು ದಟ್ಟ, ನಂತರ ವಿಷ್ಣತ್ವ ಅನುಕೂಲಕ.

ಟೇಬಲ್/ಗಣಿತ ಪ್ರಶ್ನೆಗಳು → ನೇರವಾಗಿ ಟೇಬಲ್ ಸೂಚ್ಯಂಕ, ಸಾಲು/ಕಾಲಮ್ ಮೂಲ ಸಹಿತ.

ಲಾಂಬೆಡೋಕ್ಯುಮೆಂಟ್ reasoning

ನಿಮ್ಮ ಸಲಹೆಯನ್ನು ಆರಿಸಿ:

ಹೈ-ಕಾಂಟೆಕ್ಸ್ಟ್ LLM ಒಟ್ಟು ಪ್ರಾಂಪ್ಟ್‌ಗಳಿಗಾಗಿ (ನೀತಿ ದಾಖಲೆಗಳು, RFPಗಳು, ಸಂಶೋಧನಾ ಪತ್ರಿಕೆಗಳು).

ಹಂತ-ಹಂತ, ಕೈಗಾರಿಕಾ ಏಜೆಂಟ್ ಬಹು ಹೋಪ್ ಕಾರ್ಯಗಳಿಗೆ: ಪತ್ತೆಹಚ್ಚಿ → ವಿಶ್ಲೇಷಿಸಿ → ಪರಿಶೀಲಿಸಿ → ಉಲ್ಲೇಖಿಸಿ.

ಮಾತು ಸಂಪೂರ್ಣ ಕಥಾನಕವನ್ನು ಮಾದರಿಯಲ್ಲಿ ಹಾಕಬೇಡಿ. ತಕ್ಷಣ ಬೇಕಾಗುವ ಸಂಗತಿಗಳನ್ನು ಕೂಡಿಸಿ: ಉದ್ದೇಶದ ಪ್ರಕಾರ ಟಾಪ್ ವಿಭಾಗಗಳು, ಸಂಬಂಧಿತ ಟೇಬಲ್‌ಗಳು, ಸಮೀಪದ ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು. ಬ್ರೆಡ್‌ಕ್ರಂಬ್‌ಗಳು (ವಿಭಾಗ ಹೆಸರುಗಳು, ಪುಟ ಉಲ್ಲೇಖಗಳು, ಚಿತ್ರ IDಗಳು) ಒಳಗೊಳ್ಳಿಸಿ.

ಫಲವಂತ: ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಉತ್ತರಗಳು. ಪ್ರತಿ ಹಕ್ಕು ಬ್ಲಾಕ್ ID, ಪುಟ ಸಂಖ್ಯೆ, ಮತ್ತು ಮೂಲ PDFನಲ್ಲಿ ಹೈಲೈಟ್ ಮಾಡಬಹುದಾದ ನಕ್ಷಾ ವ್ಯಾಪ್ತಿಗೆ ಲಿಂಕ್ ಹೊಂದಿದೆ. ಇದರಿಂದ ನಂಬಿಕೆ ಸಿಗುತ್ತದೆ.

ವಾಸ್ತವಿಕ ಬ್ಲೂಪ್ರಿಂಟ್: ಕಚ್ಚಾ PDF ಗಿಂತ ಲಾಂಗ್‌-ಕಾಂಟೆಕ್ಸ್ಟ್ ಉತ್ತರಗಳವರೆಗೆ

ಹಂತ 1: ಡಾಕ್ಯುಮೆಂಟ್ ಸ್ವೀಕಾರ

ಫೈಲ್‌ನ್ನು ಮಾನ್ಯ ಮಾಡಿ: ಗುಪ್ತಪದರಕ್ಷಿತ ಅಥವಾ ಹಾನಿಗೊಂಡಿದ್ದರೆ, ವೇಗವಾಗಿ ವಿಫಲಿಸು.

ನಿಶ್ಚಲ DPI (300 ಸರಿಯಾಗಿದೆ; ವೇಗಕ್ಕಾಗಿ 200) ನಲ್ಲಿ ಪುಟ ಚಿತ್ರಗಳನ್ನು ರೆಂಡರ್ ಮಾಡಿ.

OCR ಕ್ಯಾಶೇ ಮಾಡಲು ಪುಟ-ಪರಿಮಾಣದ ಹ್ಯಾಷ್‌ಗಳನ್ನು ಉಳಿಸಿ.

ಹಂತ 2: DeepSeek-OCR ಜಾರಿ

GPU ದಕ್ಷತೆಯಿಗಾಗಿ ಪುಟಗಳನ್ನು ಬ್ಯಾಚ್ ಮಾಡಿ.

ಬ್ಲಾಕ್‌ಗಳು ಮತ್ತು ಓದುವ ಕ್ರಮವನ್ನು ತೆಗೆಯಿರಿ. ನಿರ್ದಿಷ್ಟ ಪುಟ ಸ್ಥಳಕ್ಕೆ ಸಂಯೋಜನೆ ಮಾಡಿ.

ಮುಂದೆ ಬಿಡಿ:

JSON: ಬ್ಲಾಕ್ ಪಟ್ಟಿ ಪ್ರಕಾರ, ಪಠ್ಯ, ಬೌಂಡಿಂಗ್ ಬಾಕ್ಸ್, ಪುಟ ಸಹಿತ.

ಟೇಬಲ್‌ಗಳ CSV/HTML ಜೊತೆಗೆ ಪ್ರತಿಯೊಂದು ಸೆಲ್‌ಗೆ bbox ನಕ್ಷೆ.

ಐಚ್ಛಿಕ ಜೋಡಿಸಲಾದ ಮಾರ್ಕ್ಡೌನ್ ವಿನ್ಯಾಸ ಸೂಚನೆಗಳೊಂದಿಗೆ (## ತಲೆಬರಹಗಳಿಗೆ, :::table ಟೇಬಲ್ಗೆ).

ಹಂತ 3: OCR ನಂತರ ಶುದ್ಧೀಕರಣ

ರೇಖಾ ವಿಚ್ಛೇದನದ ಮಧ್ಯೆ ಹೈಫನೇಟ್ ಪದಗಳನ್ನು ಮಿಶ್ರಣಿಸು.

ಕಾಲಮ್‌ಗಳನ್ನು ಪರಿಹರಿಸಿ: ಎರಡು ಕಾಲಮ್‌ಗಳಿದ್ದ ಪುಟಗಳಲ್ಲಿ ಓದುವ ಕ್ರಮವು ಕಾಲಮ್‌ಗಳಿಗೆ ಅನುಗುಣವಾಗಿರಲಿ.

ಅಗತ್ಯವಿದ್ದರೆ ಫಾಂಟ್/ಗಾತ್ರ ಹ್ಯೂರಿಸ್ಟಿಕ್ಸ್ ಮೂಲಕ ತಲೆಬರಹಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಿ; TOC ಮರವನ್ನು ನಿರ್ಮಿಸು.

ಪುನರಾವರ್ತಿತ ಹೆಡರ್/ಫುಟರ್‌ಗಳನ್ನು ದ್ವಿತೀಯತೆ ಮಾಡಿ (ಸ್ಕ್ಯಾನ್ಡ್ ಒಪ್ಪಂದಗಳಲ್ಲಿ ಸಾಮಾನ್ಯ).

ಹಂತ 4: ರಚನೆಯೊಂದಿಗೆ ಸಂಕೋಚನೆ

ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳನ್ನು ವಾಕ್ಯಗಳಿಂದ ವಿಭಜಿಸಿ. ನಿಮ್ಮ ಕ್ಷೇತ್ರದಲ್ಲಿ ತರಬೇತಿಗೊಂಡ ಸಿಂಪಲ್ ರ‍್ಯಾಂಕರ್‌ ಮೂಲಕ ವಾಕ್ಯಗಳನ್ನು ಅಂಕಿಸಿ.

ಉನ್ನತ ಅಂಕೆ ಪಡೆದ ವಾಕ್ಯಗಳನ್ನು ಉಳಿಸಿ; ಪ್ರತಿಯೊಂದು ತಲೆಬರಹದ ಅಡಿಯಲ್ಲಿ ಮೊದಲನೆಯ ವಾಕ್ಯವನ್ನು ಸದಾ ಉಳಿಸಿ.

ಟೇಬಲ್‌ಗಳಿಗೆ: ಹೆಡರ್ ಸಾಲು ಮತ್ತು ವ್ಯತ್ಯಾಸ/ಪ್ರಮುಖತೆಯ ಆಧಾರದ ಮೇಲೆ ಟಾಪ್-k ಸಾಲುಗಳನ್ನು ಹಾಗೂ ಪೂರ್ಣ ಟೇಬಲ್‍ಗೆ ಉಲ್ಲೇಖವನ್ನು ಉಳಿಸಿ.

ಸಂಕೋಚಿತ ಕಥಾನಕ ಮತ್ತು ಸೂಚ್ಯಂಕ ಸೈಡ್ಕಾರ್ ಅನ್ನು ಉತ್ಪಾದಿಸಿ, ಪ್ರತಿಯೊಂದು ಉಳಿಸಿದ ವಾಕ್ಯವನ್ನು ಮೂಲಕ್ಕೆ ಸಂಪರ್ಕಿಸುತ್ತವೆ.

ಹಂತ 5: ಸೂಚ್ಯಂಕ ನಿರ್ಮಾಣ

ವಾಕ್ಯಗಳಿಗಾಗಿ ದಟ್ಟ embeddings (ಅಗತ್ಯವಿದ್ದರೆ ಬಲವಾದ ಬಹುಭಾಷಾ ಮಾದರಿ ಉಪಯೋಗಿಸಿ).

ಸಂಕಲನದ ಮೇಲೆ ವಿಷ್ಣ (BM25) ಸೂಚ್ಯಂಕ (ಶೀರ್ಷಿಕೆ, ತಲೆಬರಹ, ಕೋಡ್‌ಗಳು, ಉಲ್ಲೇಖಗಳು, ಗುರುತುಗಳು, ಮಾಪಕಗಳು).

ಸಾಲು ಮತ್ತು ಸೆಲ್ ಮಟ್ಟದ ಟೇಬಲ್ embeddings; ವೇಗವಂತ ಗುಣಪರಿಶೀಲನೆಗಳಿಗೆ (ಕನಿಷ್ಟ, ಗರಿಷ್ಟ, ಸರಾಸರಿ) ಸಂಖ್ಯಾತ್ಮಕ ಆಂಕಡಗಳನ್ನು ಉಳಿಸಿ.

ಮೂಲತತ್ತ್ವವನ್ನು ಸಂಗ್ರಹಿಸಿ: doc_id, ಪುಟ, bbox, block_id.

ಹಂತ 6: ಪ್ರಶ್ನೆ ಮಾರ್ಗ ಮತ್ತು ಸಂಗ್ರಹಣೆ

ಪ್ರಶ್ನೆಯ ಉದ್ದೇಶವನ್ನು ವರ್ಗೀಕರಿಸಿ: ಹುಡುಕಾಟ, ವಿಶ್ಲೇಷಣೆ, ಟೇಬಲ್ ಗಣಿತ, ಹೋಲಿಕೆ.

ತಕ್ಕ retrieval ವಿಧಾನವನ್ನು ಚಾಲನೆ ಮಾಡಿ:

ಹುಡುಕಾಟ: ವಿಷ್ಣ → ದಟ್ಟ ಮರುರ್ಯಾಂಕಿಂಗ್.

ವಿಶ್ಲೇಷಣೆ: ದಟ್ಟ → ವಿಭಾಗದ ತುತ್ತು;

ಟೇಬಲ್ ಗಣಶಾಸ್ತ್ರ: ಟೇಬಲ್ ಸೂಚ್ಯಾಂಕ + ಸಾಲು ಫಿಲ್ಟರ್; ಸಂಪರ್‍ಕದ ದೃಷ್ಟಿಗೆ ಸಮೀಪದ ಪಠ್ಯ ಸೇರಿಸಿ.

ಪ್ರಾಂಪ್ಟ್ ಪ್ಯಾಕ್ ರಚಿಸಿ:

ಸಿಸ್ಟಮ್ ಸಾರಾಂಶ

ಕಾರ್ಯ ಮಾನದಂಡ

3-6 ಸಂಗ್ರಹಿತ ಪ್ಯಾಸೇಜ್‌ಗಳು (ತಲೆಬರಹ ಮತ್ತು ಪುಟ ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ)

ಅಗತ್ಯವಿದ್ದರೆ 1-2 ಸಣ್ಣ ಟೇಬಲ್ಗಳು ಅಥವಾ ಲೆಕ್ಕ ಪಾಠಿಸಿದ ಅಂಕಡಗಳು

ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಮಾದರಿ-ನಿರ್ದಿಷ್ಟ ಮಿತಿಗಳೊಳಗೆ ಇಡಿ. ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಎಂದರೆ ಅನಂತ ಕಾಂಟೆಕ್ಸ್ಟ್ ಅಲ್ಲ.

ಹಂತ 7: ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ ಉತ್ತರ ಸಂಯೋಜನೆ

ರಚನಾತ್ಮಕ ಔಟ್‌ಪುಟ್ ಕೇಳಿ: ವಿಭಾಗೀಕೃತ ಉತ್ತರ ಮತ್ತು_INLINE ಉಲ್ಲೇಖಗಳು [ಡಾಕ್ §2.3, ಪುಟ 47, ಟೇಬಲ್ A] ಹೀಗಿರಲಿ.

ಸಂಕೀರ್ಣ ಹಕ್ಕುಗಳಿಗೆ ಪರಿಶೀಲನಾ ಹಂತ ಪ್ರೇರೇಪಿಸಿ: ನಿಖರ ವಿಸ್ತರಣೆಗಳನ್ನು ಮರುಗುಳು, ಗುರಿಖಚಿತ ಪ್ರಶ್ನೆ ಕೇಳಿ, ಭೇದಗಳನ್ನು ಸಮ್ಮಿಲನಗೊಳಿಸಿ.

ಬಳಕೆದಾರರಿಗೆ ಕ್ಲಿಕ್ ಮಾಡಬಹುದಾದ ಮೂಲತತ್ತ್ವದ ಸಪೂರ್ತಿ ತುಳುಮಾಡಿ ಉತ್ತರ ನೀಡಿ.

ಪ್ರದರ್ಶನ ಟಿಪ್ಸ್, ನಿಜವಾದ ಹಣ ಉಳಿಸುವ:

GPU ಅನ್ನು YOLO ಮಾಡಿ ತಪ್ಪು: OCR I/O ಮತ್ತು GPU ನಡುವೆ ವಿಭಿನ್ನ ವ್ಯತ್ಯಾಸ. ಪುಟ ಸಂಖ್ಯೆ ಇರಿಸಿಕೊಂಡು ಬ್ಯಾಚ್ ಮಾಡಿ ಮತ್ತು ಚಿತ್ರ ಗಾತ್ರಗಳನ್ನು ಸಾಮಾನ್ಯಗೊಳಿಸಿ ಕರ್‍ನಲ್ ಪುನಃ ಉಪಯೋಗಕ್ಕಾಗಿ.

ತೀವ್ರ ಕ್ಯಾಶೆ ಮಾಡಿ: ಮೂಲ ಡಾಕ್ ಬದಲಾಗದಿದ್ದರೆ ಮರು OCR ಮಾಡಬೇಡಿ. ಫೈಲ್ ಅಲ್ಲ, ಪುಟ ಬಿಟ್‌ಮ್ಯಾಪ್‌ನಲ್ಲಿ ವಿಷಯ ಹ್ಯಾಶ್ ಮಾಡಿ.

ಟೇಬಲ್‌ಗಳು ಅರೆನಾಗಿವೆ: ಟೋಕನ್ ಸಂಖ್ಯೆಗಳನ್ನು ಹೆಚ್ಚಿಸುತ್ತವೆ ಮತ್ತು ಗುಣಮಟ್ಟವನ್ನು ಕೆಡಿಸುತ್ತವೆ. ಅವುಗಳನ್ನು ಶುದ್ಧವಾಗಿ ತೆಗೆಯಿರಿ ಮತ್ತು ವಿಷಯದ ಸಾಮಾನ್ಯ ಕಾಂಟೆಕ್ಸ್ಟ್‌ನಿಂದ ವಿಭಜಿಸಿ, ಪ್ರಶ್ನೆಗೆ ಅವಶ್ಯಕತೆ ಇದ್ದಾಗ ಮಾತ್ರ ಸೇರಿಸಿ.

ಚಂಕಿಂಗ್ ಧರ್ಮವಲ್ಲ: ವಿನ್ಯಾಸ (ತಲೆಬರಹ, ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು) ಆಧರಿಸಿ ಚಂಕ್ ಮಾಡಿ, ಟೋಕನ್ ಉದ್ದದಿಂದ ಅಲ್ಲ. ಟೋಕನ್ ಉದ್ದದ ಚಂಕಿಂಗ್ ಸಮಸ್ಯೆಯಾಗಿದೆ, ಇದರಿಂದ ವಿವರಣೆ ರಚನೆ ತಪ್ಪುತ್ತದೆ.

ಸಾರಾಂಶ ಮಾಡುವಕ್ಕೆ ಮುಂಚಿತವಾಗಿ ಪರಿಶೀಲಿಸಿ: ಅಸ್ಪಷ್ಟ ಭಾಗಗಳನ್ನು ತಿರುವುಮಾಡದೆ retrieval ಕಾಂಟೆಕ್ಸ್ಟ್ ಅನ್ನು ನರೋಪಿಸಿ; ತಪ್ಪಾದ ಸಂಗತಿಗಳನ್ನು ಸಂಕೋಚಿತಪಡಿಸುವ ಸಾಧ್ಯತೆ ಇದೆ.

ದೋಷ ನಿರ್ವಹಣೆ: ಆಕರ್ಷಕವಲ್ಲದ ಆದರೆ ಮುಖ್ಯ ಭಾಗಗಳು

ನೋಯೋಜಿತ PDF ಗಳು: ರ‍್ಯಾಸ್ಟರೈಜೆಷನ್ ಬದಲಿ ಪ್ರಯತ್ನಿಸಿ. ಇನ್ನೂ ಸಮಸ್ಯೆ ಇದ್ದರೆ, ಡೈಯಾಗ್ನೊಸ್ಟಿಕ್ ಐಟಂ ನೀಡಿರಿ. ಮೌನ ವಿಫಲತೆ ಯಾವುದೇ ಉತ್ತರಕ್ಕಿಂತ ಕೆಟ್ಟದು.

ಕೋಪಗೊಂಡ ಸ್ಕ್ಯಾನ್ಗಳು (ಫ್ಯಾಕ್ಸ್ ಗುಣಮಟ್ಟ): ಡಿನಾಯಸ್/ಕಾಂಟ್ರಾಸ್ಟ್ ಹೆಚ್ಚಿಸುವಿಕೆಯನ್ನು ಪ್ರಯತ್ನಿಸಿ; ವಿಶ್ವಾಸ ಶೇ. ಕಡಿಮೆ ಇದ್ದರೆ ಮಾನವನ ಪರಿಶೀಲನೆಗೆ ಸೂಚಿಸಿ. ತಿಳಿದುಕೊಳ್ಳುವುದು

ಅಲೋಲ ಲಿಪಿಗಳು: OCR ಮಾದರಿ ನಿಮ್ಮ ಲಿಪಿಮಾಲೆಯನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆ ಎಂದು ಖಚಿತಪಡಿಸಿ; ಇಲ್ಲದಿದ್ದರೆ ವಿಶೇಷ OCR ಮಾದರಿಯ ಕಡೆಗೆ ಮಾರ್ಗ ನೀಡಿ.

ಕಲೆ ಹಾಗು ಟೆಬಲ್: ಟೇಬಲ್ ಪತ್ತೆ ತಪ್ಪಾದರೆ, ಕಲಾವಿಧಾನವಾಗಿ ಸೇವೆ ಮಾಡುವಂತೆ ನಕಲಿಸಬೇಡಿ. ಚಿತ್ರ ಮತ್ತು ಕೆಪ್ಷನ್ ಎಂದು ಪರಿಗಣಿಸಿ “ಮಾನವೀಯ ತೆಗೆಯುವಿಕೆ ಅಗತ್ಯವಿದೆ” ಸೂಚನೆ ನೀಡಿ.

ಡೇಟಾ ಮಾದರಿ: ನಕ್ಷೆಯನ್ನು ಪ್ರದೇಶದೊಡನೆ ಇರಿಸು

ಡಾಕ್ಯುಮೆಂಟ್

ಪುಟಗಳು: [ಪುಟ ID]

ಪುಟ

ಅಗಲ/ಎತ್ತರ, DPI, ಹ್ಯಾಶ್

ಬ್ಲಾಕ್‌ಗಳು: [ಬ್ಲಾಕ್ ID]

ಬ್ಲಾಕ್

ಪ್ರಕಾರ: ತಲೆಬರಹ/ಪ್ಯಾರಾಗ್ರಾಫ್/ಪಟ್ಟಿ/ಟೇಬಲ್/ಚಿತ್ರ/ಫುಟ್ನೋಟ್

ಪಠ್ಯ (ಐಚ್ಛಿಕ), ಬಾಕ್ಸ್, ಕ್ರಮ, ಶೈಲಿ ಸೂಚನೆಗಳು

ಲಿಂಕ್‌ಗಳು: ಮಗುಗಳು, ಪೋಷಕರು

ಟೇಬಲ್

ಸಾಲುಗಳು, ಕಾಲಮ್‌ಗಳು, ಸೆಲ್ ಪಠ್ಯಗಳು, bbox ಗಳು, ಹೆಡರ್ ಫ್ಲಾಗ್‌ಗಳು

ಮೂಲತತ್ತ್ವ

ಡಾಕ್ ID, ಪುಟ, ಬ್ಲಾಕ್ ID, ಸ್ಥಳಾಂತರಗಳು, ಬಾಕ್ಸ್

ಭದ್ರತೆ ಮತ್ತು ಅನುಕೂಲತೆ

ನಿಮ್ಮ ನೀತಿಯಿಂದ ಅನುಮತಿ ಇಲ್ಲದಿದ್ದರೆ ಸಂವೇದನಶೀಲ PDF ಗಳನ್ನು ಮೂರನೇ-ಪಕ್ಷ API ಗಳಿಗೆ ಅಪ್‍ಲೋಡ್ ಮಾಡಬೇಡಿ. ಆಗಿಯಾಗಿರಬೇಕಾದರೆ, ಸಂಕ್ರಮಣದಲ್ಲಿ ಮತ್ತು ವಿಶ್ರಾಂತಿಯಲ್ಲಿ ಎನ್‌ಕ್ರಿಪ್ಟ್ ಮಾಡಿರಿ.

ಪಿಐಐ ಅನ್ನು OCR ಹಂತದಲ್ಲಿ ಲಿಪಿಸಿರಿಸಿ—ಬೌಂಡಿಂಗ್-ಬಾಕ್ಸ್ ರೆಡಾಕ್ಶನ್ ಪೋಸ್ಟ್-ಹಾಕ್ ಸ್ಟ್ರಿಂಗ್ ಮಾಸ್ಕಿಂಗ್ ಮೇಲೆ ಸುಧಾರಿತವಾಗಿದೆ.

ವಿಷಯವಿಲ್ಲದ retrieval ಮತ್ತು ಉತ್ತರ ರಚನೆಯನ್ನು ಲಾಗ್ ಮಾಡಿ. ಹ್ಯಾಶ್ ಮತ್ತು IDಗಳನ್ನು ಇರಿಸಿ, ಕಚ್ಚಾ ಪಠ್ಯವನ್ನಲ್ಲ.

ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿ ಆಯ್ಕೆ (ಹೈಪ್ ಇಲ್ಲದೆ)

ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳು ‘ಎಲ್ಲಿ ಇದು ಹೇಳುತ್ತದೆ X’ ಎಂಬುದರಂತೆ ಸಿಂಪಲ್ ಆಗಿದ್ದರೆ, retrieval ಮತ್ತು ಉಲ್ಲೇಖಗಳನ್ನು ಉದ್ದಕ್ಕೂ ಕಾಂಟೆಕ್ಸ್ಟ್ ಉದ್ದಕ್ಕಿಂತ ಮೇಲುಗೈ ಮಾಡಿ. ಸಣ್ಣ, ನಿಖರವಾದ ಕಾಂಟೆಕ್ಸ್ಟ್ ಹೆಚ್ಚು ಉತ್ತಮ.

ನೀವು ನರೇಟಿವ್ (ಸಂಶೋಧನೆ, ವರದಿಗಳು) ಡಾಕ್ಯುಮೆಂಟ್ ಹೊಂದಿದ್ದರೆ, ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿಗಳು ಸಹಾಯ ಮಾಡಬಹುದು, ಆದರೆ ವಿಭಾಗ ರಚನೆಯ ಮಾರ್ಗದರ್ಶನದಲ್ಲಿ ಮಾತ್ರ.

ಟೇಬಲ್ ಭಾರಿತ ಕೆಲಸಗಳಿಗೆ ಸ್ಪ್ಲಿಟ್ ಬ್ರೆನ್ ಉತ್ತಮ: ಭಾಷಾ ಮಾದರಿ ಪ್ರೋಸ್‌ಗಾಗಿ, ಸಣ್ಣ ಪ್ರೋಗ್ರಾಂ ಅಂಕಗಣಿತ ಮತ್ತು ಫಿಲ್ಟರಿಂಗ್‌ಗೆ.

ಆವೃತ್ತಿ ಮತ್ತು ಹಾದುಹೋಗುವಿಕೆ

OCR ಉತ್ತಮವಾಗುತ್ತದೆ; ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳು ಬದಲಾಗುತ್ತವೆ; embedding‌ಗಳು ಹಾದುಹೋಗುತ್ತವೆ. ಎಲ್ಲಾ ಆವೃತ್ತಿಗಳನ್ನು ಸಂಗ್ರಹಿಸಿ:

OCR ಎಂಜಿನ್ ಆವೃತ್ತಿ ಮತ್ತು ಸಂರಚನೆ

Embedding ಮಾದರಿ ಆವೃತ್ತಿ

ಸೂಚ್ಯಂಕ ಸ್ಕೀಮಾ ಆವೃತ್ತಿ

ಯಾವುದೇ ಆವೃತ್ತಿ ಬದಲಾಗಿದ್ದರೆ, ಕ್ರಮವಾಗಿ ಮರು-ಸೂಚ್ಯಂಕಿಸಿ. ಹಳೇ ಮತ್ತು ಹೊಸದನ್ನು ಕಾಳಜಿಯಾಗಿ ಉಳಿಸು, ಸಮಾನತೆ ಸರಿಪಡಿಸುವವರೆಗೆ.

ವಿಕಸಕ ಸಂಯೋಜನಾ ದೃಶ್ಯಕೋಣ

ಕಾರ್ಮಿಕ 1: ಅಂಗೀಕರಿಸಿ → ಪುಟ ರೆಂಡರ್ ಮಾಡಿ → ಸಾಲಿನಲ್ಲಿ ಸೇರಿಸಿ.

ಕಾರ್ಮಿಕ 2 (GPU): ಪ್ರತಿಪುಟ DeepSeek-OCR → ರಚನೆಯ JSON → ಟೇಬಲ್ಗಳು.

ಕಾರ್ಮಿಕ 3: ಶುದ್ಧೀಕರಣ + ವಿನ್ಯಾಸ ಮರ → ಸಂಕೋಚನೆ.

ಕಾರ್ಮಿಕ 4: ಸೂಚ್ಯಂಕ ನಿರ್ಮಾಣ (ದಟ್ಟ + ವಿಷ್ಣ + ಟೇಬಲ್ಗಳು) → ಪ್ರಕಟಿಸಿ.

ಸೇವೆ: ಪ್ರಶ್ನೆ ರೌಟರ್ → retrieval → ಪ್ರಾಂಪ್ಟ್ ಸಂಯೋಜನೆ → LLM → ಪರಿಶೀಲನೆ → ಪ್ರತಿಕ್ರಿಯೆ.

ಸಂಗ್ರಹ: ಪುಟ ಚಿತ್ರಗಳು ಮತ್ತು ಸೈಡ್ಕಾರ್‌ಗಳುಗಾಗಿ ಆಬ್ಜೆಕ್ಟ್ ಸ್ಟೋರ್; ಬ್ಲಾಕ್‌ಗಳು ಮತ್ತು ಮೂಲತತ್ತ್ವಕ್ಕೆ DB; ವೆಕ್ಟರ್ ಮತ್ತು ವಿಷ್ಣ ಸೂಚ್ಯಂಕಗಳು.

ಗೊತ್ತಿಲ್ಲದ ಸಾಧನಗಳ ಬಗ್ಗೆ ಒಂದು ಮಾತು

ಕಡಿಮೆ ಪ್ರಭಾವಶಾಲಿಯಾದ ತುಂಡುಗಳು ಪೈಪ್ಲೈನ್ ಗಾಗಿ ಮುಖ್ಯ. ದಟ್ಟ OCR ವಿನ್ಯಾಸಕ್ಕೆ ಗೌರವಿಸುವದು, “ನನಗೆ ಗೊತ್ತಿಲ್ಲ” ಎಂದು ಹೇಳಬಲ್ಲ ಸೂಚ್ಯಂಕ ಮತ್ತು ಮಿತಿಯ ಪ್ರಾಂಪ್ಟ್ ನಿರ್ಮಾಪಕ. ಇದು ಕೆಲಸ. ನೀವು ಕಾಂಗ್ರೆಸ್ ಅನ್ನು ಪ್ರಾಯೋಗಿಕ ಕಾರ್ಯಪ್ರವಾಹಕ್ಕೆ, ಉದಾಹರಣೆಗೆ ಒಪ್ಪಂದ ಸಾಂಕ್ಷೆ, 300 ಪುಟಗಳ RFIಗಳ ಪರಿಶೀಲನೆ, ಅಥವಾ SOP ಮನ್ಯುಯಲ್ಗಳ ಪರಿಶೀಲೆ ಮಾದರಿಸಿ ಬಲವಾಗಿ ಬಳಸಬಹುದು—Sider.AI OCR, retrieval ಮತ್ತು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪ್ರಾಂಪ್ಟಿಂಗ್ ನಡುವೆ ನಿಜವಾದ ಗುಟ್ಟು ಪೆÇದು ಎಂದು ಪರಿಗಣಿಸಿ. ಇದು ingest ಕಾರ್ಯಗಳು, ಚಂಕಿಂಗ್ ನೀತಿಗಳು, ಮಾದರಿ ಆಯ್ಕೆ ಮತ್ತು “ನಂಬಿಕೆಗೆ ಮುಂಚೆ ಪರಿಶೀಲನೆ” ಲೂಪನ್ನು ಸಂಯೋಜಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ. ತಂಡಗಳ ನಡುವೆ ಈ ಕೆಲಸಗಳನ್ನು ಸಂಸ್ಕರಿಸುವಾಗ ಮತ್ತು ಫಲಿತಾಂಶವನ್ನು ಪುನಃರಚಿಸಲಾಗುವಂತೆ ಇರಿಸಲು ಇದು ಬಹುಮೂಲ್ಯವಾಗಿದೆ.

ನೀವು ಗೈರವಾರು ದಿನದೊಳಗೆ ಎದುರಿಸುವ “ಗೊತ್ತುಗಳ” ವಿಷಯಗಳು

ಅತಿಸಂಕೋಚನೆ: ನೀವು ಬಹಳ ಕಡಿತಮಾಡಿ ನುಡಿಗಳ ತಳಮಟ್ಟ ಕಣ್ಮರೆಯಾಗಬಹುದು. ಉತ್ತರ-ದೈರ್ಘ್ಯ/ವೆಚ್ಚದ ಸೂಚ್ಯಂಕಗಳನ್ನು ಗಮನಿಸಿ; ವಿಶ್ವಾಸ ಕಡಿಮೆ ಆಗಿದ್ದಾಗ ಪೂರ್ಣ ಬ್ಲಾಕ್‌ನ್ನು ತರಲು ಬ್ಯಾಕ್ಅಪ್ ಸೇರಿಸಿ.

ಅತಿರೇಕ ರಿಟ್ರೀವಲ್: 60 ಚಂಕ್ ಪ್ರಾಂಪ್ಟ್‌ಗೆ ಎಳೆಯಿರಿ ಮತ್ತು ಕಾಂಟೆಕ್ಸ್ಟ್ ಮೀರಿಸಿರಿ. ಇದನ್ನು ನಿಯಂತ್ರಿಸಿ ಮತ್ತು ಸಮೀಪ ವಿಂಗಡಣೆಯ ಕಡೆಗೆ ತಿರಸ್ಕರಿಸಿ (ನೆರೆಯುವ ವಿಭಾಗಗಳು ದ್ರವ್ಯವಾಗಿವೆ).

ಟೇಬಲ್ ಭ್ರಮೆಗಳು: ಮಾದರಿ ಸಂಭವನೀಯವಾಗಿ ಸಂಖ್ಯೆಯನ್ನು ಉಲ್ಖಿಸುತ್ತೆ — ಆದರೆ ತಪ್ಪು ಸಾಲಿನಿಂದ. ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ ಟೇಬಲ್ ತುಂಡುಗಳನ್ನು ಸಾಲು ಕೀಲಿಕಾಣಿಕೆ ಜೊತೆಗೆ ಸದಾ ಜೋಡಿಸಿ.

ನಕಲಿ ಪುಟಗಳು: ಸ್ಕ್ಯಾನಿಂಗ್ ಕಾರ್ಯಪಥಗಳು ಪುಟಗಳನ್ನು ಮರುಕಳಿಸಲು ಇಷ್ಟಪಡುತ್ತವೆ. ಪುಟಗಳನ್ನು ಹ್ಯಾಶ್ ಮಾಡಿ; OCRಗೆ ಮೊದಲು ಪುಟ ಮಟ್ಟದಲ್ಲಿ ನಕಲಿಸುವಿಕೆ ಮಾಡಿ.

ಅಂತರಸಹಿತ ಉಲ್ಲೇಖ ಮತ್ತು ಫುಟ್ನೋಟ್: ಅವು ಕಾನೂನು ಅರ್ಥಪೂರ್ಣ ಎಚ್ಚರಿಕೆಗಳನ್ನು ತರುತ್ತವೆ. ನೀತಿ/ಕಾನೂನು ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಲ್ಲಿ ಫುಟ್ನೋಟ್ ಹಾಳು ಮಾಡಬೇಡಿ; ಕಡಿಮೆ-ಟೋಕನ್ ಮಾರ್ಗದಲ್ಲಿ ಇಟ್ಟುಕೊಳ್ಳಿರಿ.

ಸುಧಾರಿತ ಗುಣಮಟ್ಟ ನಿರೀಕ್ಷಣೆಗಳು

ಮುಖ್ಯ ಖಾತರಿ ನಿಖರತೆ: ಉಲ್ಲೇಖಿತ ಬ್ಲಾಕ್ ವಿಳಾಸ ಸತ್ಯವೋ?

ಟೇಬಲ್ ಸೆಲ್ ನಿಖರತೆ: ಸಂಖ್ಯಾತ್ಮಕ ಉತ್ತರದಲ್ಲಿ ಸರಿಯಾದ ಸೆಲ್ ಉಲ್ಲೇಖಗಳ ಪ್ರಮಾಣ.

ಸಂಕೋಚನೆ ನಿಷ್ಠೆ: ಸಂಕೋಚಿತ ಕಥಾನಕ ಮತ್ತು ಮೂಲದ ನಡುವೆ ROUGE/LFQA ಶೈಲಿಯ ಒಡನಾಡಿಕೆ ಪ್ರತಿ ವಿಭಾಗದಲ್ಲಿ.

ಬijzeೕ ಇಳಿಕ ದೈರ್ಘ್ಯ: P95 ಆರಂಭದಿಂದ ಅಂತ್ಯ, ಕೇವಲ LLM ಸಮಯವನ್ನಲ್ಲ.

ಮಾನವ ನಂಬಿಕೆ ಅಂಕೆ: ಬಳಕೆದಾರರು ಪ್ರಥಮ ನೋಡಿಕೆಯಲ್ಲೇ ಉತ್ತರವನ್ನು ಒಪ್ಪಿಕೊಳ್ಳುತ್ತಾರಾ? ಇದು ಸ್ವೀಕೃತಿಯನ್ನು ಬಹುಪಾಲಾಗಿ ಸೂಚಿಸುವ ಏಕೈಕ ಸೂಚಕ.

ಕನಿಷ್ಟ ಕೆಲಸ ಮಾಡುವ ಉದಾಹರಣೆ (ಸಾಂದರ್ಭಿಕ)

ಇನ್‌ಪುಟ್: 180 ಪುಟದ ಖರೀದಿ ನಿರ್ದಿಷ್ಟತೆ ಅಪೆಂಡಿಕ್ಸ್ ಮತ್ತು ಐದು ಕುಂದು ಟೇಬಲ್ಗಳೊಂದಿಗೆ.

ನೀವು DeepSeek-OCR ಬಳಸಿ; ಇದು ಬಾಕ್ಸ್‌ಗಳು ಮತ್ತು ನಿಷ್ಠಾವಂತ TOC ಹೊಂದಿದ ರಚನೆಯ ಬ್ಲಾಕ್‌ಗಳನ್ನು ಹೊರಪಡಿಸುತ್ತದೆ.

ಸಂಕೋಚನೆ ಎಲ್ಲಾ ತಲೆಬರಹ, ಮೊದಲ ವಾಕ್ಯಗಳು, ಮತ್ತು ಟೇಬಲ್ಗಳ ಅತ್ಯಂತ ಪ್ರಮುಖ ಸಾಲುಗಳನ್ನು ಉಳಿಸುತ್ತದೆ. ಸೈಡ್ಕಾರ್ ಎಲ್ಲವಿಗೂ ಹಿಂದಿರುಗುತ್ತದೆ.

ಬಳಕೆದಾರರು ಕೇಳುತ್ತಾರೆ: “ಯಾವ ವಿಭಾಗವು ವಿದ್ಯುತ್ ಘಟಕಗಳ ವಾರಂಟಿ ಅವಧಿಯನ್ನು ನಿಗದೀಕರಿಸುತ್ತದೆ?”

ರೌಟರ್ ವಿಷಣ → ದಟ್ಟನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ.

ರಿಟ್ರೀವಲ್ ಎರಡು ವಿಭಾಗಗಳು ಮತ್ತು ಒಬ್ಬ ಅಪೆಂಡಿಕ್ಸ್ ಅನ್ನು ನೀಡುತ್ತದೆ.

ಪ್ರಾಂಪ್ಟ್ ತಲೆಬರಹ+ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳನ್ನು ಇನ್‌ಲೈನ್ ಉಲ್ಲೇಖಗಳೊಂದಿಗೆ ನೀಡುತ್ತದೆ.

ಮಾದರಿ ಉತ್ತರಿಸುತ್ತದೆ: “ವಿಭಾಗ 4.2.1, ಪುಟ 67: ‘ವಿದ್ಯುತ್ ಘಟಕಗಳಿಗೆ ಕನಿಷ್ಠ 36 ತಿಂಗಳ ವಾರಂಟಿ ಇದೆ…’” ಜೊತೆಗೆ ಮೂಲದ ನಿಖರ ವಿಸ್ತರಣೆ ಹೈಲೈಟ್ ಮಾಡಿರುವ ಲಿಂಕ್.

ಬಳಕೆದಾರರು ಕೇಳುತ್ತಾರೆ: “ರ್ಯಾಕ್‌ಗಳ ಒಟ್ಟು ವಿದ್ಯುತ್ ಬಜೆಟ್ ಎಷ್ಟು?”

ರೌಟರ್ ಟೇಬಲ್ ಸೂಚ್ಯಾಂಕನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ. ಇದು ಸರಿಯಾದ ಸಾಲುಗಳನ್ನು ತೆಗೆಯುತ್ತದೆ, ಸರಳ ಉಪಕರಣದಿಂದ ಎರಡು ಕಾಲಮ್‌ಗಳ ಮೊತ್ತ ಮಾಡುತ್ತದೆ ಮತ್ತು ಟೇಬಲ್ B-3 ಅನ್ನು ಸಾಲು-ಕೀಲಿಗಳೊಂದಿಗೆ ಉಲ್ಲೇಖಿಸುತ್ತದೆ. ಭ್ರಮೆಗೊಳ್ಳದ ಗಣಿತ.

ಇದು ಇತರರು ಮಾಡದ ಕಾರಣ

ಏಕೆಂದರೆ ಅದು OCR, retrieval, ಮತ್ತು reasoning ಅನ್ನು ಪ್ರತ್ಯೇಕ ಕೆಲಸಗಳಾಗಿ ಮತ್ತು ಅವುಗಳ ನಡುವೆ ಒಪ್ಪಂದವನ್ನಿಟ್ಟುಕೊಂಡು ಸಂದರ್ಭಪಡಿಸುತ್ತದೆ. DeepSeek-OCR ರಚನೆಯನ್ನು ಕೊಡುತ್ತದೆ; ಸಂಕೋಚನೆ ಅರ್ಥವನ್ನು ಉಳಿಸುತ್ತದೆ; retrieval ಸರಿಯಾದ ಸಾಕ್ಷ್ಯವನ್ನು ತರುತ್ತದೆ; ಮತ್ತು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿ ಅದನ್ನು ಸಂಘಟಿಸಿದೆ, ಭ್ರಮೆಯಲ್ಲಿ ಮುಳುಗಿಸುವುದಿಲ್ಲ. ಉದ್ಯಮದ ಸಾಮಾನ್ಯ ವಿಧಾನವೆಂದರೆ ಎಲ್ಲವನ್ನೂ ದೊಡ್ಡ ವಿಂಡೋದಲ್ಲಿ ಮುಟ್ಟಿಸುವುದು ಮತ್ತು ಪ್ರಾರ್ಥಿಸುವುದು. ಪ್ರಾರ್ಥನೆ ಒಂದು ತಂತ್ರವಲ್ಲ.

ನೀವು ಕನಸುಗಳನ್ನು ಕಡಿತಮಾಡುವಿರಾದರೆ, ಅವುಗಳನ್ನು ಕೊನೆಯದಾಗಿ ಕಡಿತಮಾಡಿ:

ಟೇಬಲ್ ತೆಗೆಯುವಿಕೆ: ಇದನ್ನು ತೊಡಕಿದರೆ, ಪ್ರತಿಯೊಂದು ಕೆಳಗಿನ ಹಂತಕ್ಕೆ ಗೊಂದಲ ಬರುವುದೆಂದು ಭಾವಿಸಿ.

ಮೂಲತತ್ತ್ವ ಪ್ಲಂಬಿಂಗ್: ಬಳಕೆದಾರರು ನಿಧಾನತೆ ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ತಪ್ಪಾದ ಉತ್ತರಗಳನ್ನು ಕ್ಷಮಿಸುತ್ತಾರೂ; ದೃಢೀಕರಿಸಲಾಗದ ಉತ್ತರಗಳನ್ನು ಕ್ಷಮಿಸುವುದಿಲ್ಲ.

ಕ್ಯಾಶ್‌ ಮತ್ತು ಹ್ಯಾಷಿಂಗ್: ನೀವು ಇದನ್ನು ಸರಿಯಾಗಿ ಮಾಡಿದರೆ ನಿಮ್ಮ ಕ್ಲೌಡ್ ಬಿಲ್ ಕ್ಷಮಿಸಲಿದೆ.

ವಿಚಾರ ವಾಸ್ತವಾಚರಣೆಯ ಭಾಗ: ನೀವು ನಿಜಕ್ಕೂ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಅಗತ್ಯವಿದೆಯೇ?

ಒಂದು ಹೊತ್ತಿನ ಆಲೋಚನೆ: ಕೆಲವೊಮ್ಮೆ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಕಡಿಮೆ retrieval ನ ಅಸಮರ್ಥತೆಯ ನೆರಳು. ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳು ಸರಳ ಮತ್ತು ನಿಶ್ಚಿತವಾದರೆ, ಉತ್ತಮ ಸೂಚ್ಯಂಕումով ಮತ್ತು ಸಣ್ಣ ಕಾಂಟೆಕ್ಸ್ಟ್‌ಗಳ ಮೂಲಕ ಹೂಡಿಕೆಗೆ ಆದ್ಯತೆ ನೀಡಿ. ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಬೆಳಕು ಕೊಡುವುದು ಪ್ರಶ್ನೆಗೆ ವಿಭಾಗಗಳ ನಡುವೆ ಸಂಶ್ಲೇಷಣೆಯ ಅಗತ್ಯವಿರುವಾಗ ಮಾತ್ರ—ನೀತಿ ಹೊರತುಪಡಿಸುವಿಕೆಗಳು, ಪರಸ್ಪರ ಉಲ್ಲೇಖಿಸಿದ ಸಲಹೆಗಳು, ಸಾಹಿತ್ಯ ವಿಮರ್ಶೆಗಳು. ಇಲ್ಲದಿದ್ದರೆ ನೀವು ಅನಗತ್ಯ ಗಮನಕ್ಕೆ ಹಣ ಕೊಡುತ್ತಿದ್ದೀರಿ.

ನೀವು ನಿಜವಾಗಿಯೂ “ಎಲ್ಲಾವುದನ್ನೂ ಓದಿ” ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬೇಕಿದ್ದರೆ? ಮಾದರಿಯನ್ನು ಮೂರ್ಖತನದಿಂದ ಸಕ್ರೀಯವಾಗಿ ಎಲ್ಲವನ್ನೂ ನೆನಪಿಕೊಂಡಿರಿಸಲು ಒತ್ತಾಯ ಮಾಡಬೇಡಿ. ಹಂತಗಳನ್ನು ಮಾಡಿ: ಸಂಗ್ರಹಿಸಿ → retrieval ಮಾಡಿ → ನ್ಯಾಯಯುತ ಮಾಡು. ಮಾನವರೂ ಕೂಡ ಹಾಗೆ ಮಾಡುತ್ತಾರೆ.

ಶೇಷ: ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಬರುವ ಅಥವಾ ಬಾರದ ಉತ್ತರ ಕೊಡಿ

DeepSeek-OCR ಅನ್ನು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್‌ಲೈನ್‌ನಲ್ಲಿ ಸೇರ್ಪಡೆ ಮಾಡುವುದು ದೊಡ್ಡ ವಿಂಡೋಗಳ ದೇವತೆಯನ್ನು ಪೂಜಿಸುವುದಲ್ಲ. ಅದು ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಅಂತರಗ್ರಹಗಳಂತೆ ಗೌರವಿಸುವುದು, ಸಾದೃಶ್ಯದಿಂದ ಸಂಕೋಚಿಸುವುದು, ಉದ್ದೇಶದಿಂದ retrieval ಮಾಡುವುದು ಮತ್ತು ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಉತ್ತರಿಸುವುದಾಗಿದೆ. ಹಾಗು ಮಾಡಿದ್ರೆ, ನಿಮ್ಮ ಪೈಪ್‌ಲೈನ್ ಪುಟ 47 ಅನ್ನು ನೆನಪಿಗೆ ತರೋದಾಗಿ ನಾಟಕವನ್ನ ಮಾಡುವುದು ನಿಲ್ಲಿಸಿ ಅದನ್ನು ಸಾಬೀತುಪಡಿಸುತ್ತದೆ.

Sider.AIವನ್ನು ವಿವೇಚನಾಶೀಲವಾಗಿ ಉಪಯೋಗಿಸಿದರೆ ಇದು ಪ್ರಾಯೋಗಿಕವಾಗುತ್ತದೆ: ಹಂತಗಳನ್ನು ಸಂಯೋಜಿಸಿ, ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ಸತ್ಯವಾಗಿರಿಸಿ ಮತ್ತು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಕೆಲಸಕ್ಕೆ ಅಗತ್ಯವಿರುವ ಶಿಸ್ತನ್ನು ಕಾಯ್ದುಕೊಳ್ಳಿ. ಇದು ಸೆಕ್ಸಿ ಅಲ್ಲದ ಕೆಲಸವಾಗಿದೆ ಎಂದು ತಿಳಿಸಿದರೆ ಸರಿ. ಸೆಕ್ಸಿ ಭಾಗವು ನೀವು ನಂಬಬಹುದಾದ ಉತ್ತರಗಳಾಗಿವೆ.

ಸೈಕಲ್ (FAQ)

Q1: DeepSeek-OCRನ್ನು ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಪೈಪ್‌ಲೈನ್‌ಗೆ ಸೇರಿಸುವ ವೇಗದ ಮಾರ್ಗವೇನು? OCR ಅನ್ನು ಬಿಗಿಯಾದ ಕ್ಯಾಶೆ ನಿಯಂತ್ರಣದ GPU ಬ್ಯಾಚ್ ಸೇವೆಯಾಗಿ ಪರಿಗಣಿಸಿ, ನಂತರ ವಿನ್ಯಾಸದಿಂದ ಸಂಕೋಚಿಸಿ (ತಲೆಬರಹಗಳು, ಪ್ಯಾರಾಗ್ರಾಫ್‌ಗಳು, ಟೇಬಲ್ಗಳು) retrievalಗೂ ಮುಂಚೆ. ಸಂಯೋಜಿತ ಸೂಚ್ಯಂಕ (ದಟ್ಟ + ವಿಷ್ಣ + ಟೇಬಲ್) ಸೇರಿಸಿ ಮತ್ತು ಸಂಪೂರ್ಣ ಡಾಕ್ಯುಮೆಂಟ್ ಬಿಟ್ಟು ತಕ್ಷಣ ಪ್ರಾಂಪ್ಟ್‌ಗಳನ್ನು ರಚಿಸಿ.

Q2: ನಾನು DeepSeek-OCR ಉಪಯೋಗಿಸುತ್ತಿದ್ದರೆ ನಿಜವಾಗಿಯೂ ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಮಾದರಿಗಳ ಅಗತ್ಯವಿದೆಯೇ? ಎಲ್ಲರೂ ಅಲ್ಲ. ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳು ನಿಖರವಾದರೆ, retrieval ಮತ್ತು ಉಲ್ಲೇಖಗಳು ಕಾಂಟೆಕ್ಸ್ಟ್ ಉದ್ದಕ್ಕಿಂತ ಮೇಲುಗೈ ಮಾಡುತ್ತವೆ. ಲಾಂಗ್-ಕಾಂಟೆಕ್ಸ್ಟ್ ಅವಶ್ಯಕತೆ ವಿಭಾಗಗಳ ಮಧ್ಯೆ ಸಂಶ್ಲೇಷಣೆಯ ಅಗತ್ಯವಿದ್ದಾಗ ಮಾತ್ರ.

Q3: ಟೇಬಲ್ಗಳನ್ನು ಟೋಕನ್ ಗಾತ್ರವನ್ನು ಹೆಚ್ಚಿಸದೇ ಹೇಗೆ ನಿರ್ವಹಿಸುವುದು? ಟೇಬಲ್ಗಳನ್ನು ರಚನೆಗೆ ಅನುಗುಣವಾಗಿ ತೆಗೆಯಿರಿ, ಹೆಡರ್‌ಗಳನ್ನೂ ಕೆಲವು ಪ್ರತ್ಯಿಷ್ಟ ಸಾಲುಗಳನ್ನೂ ಉಳಿಸಿ, ಮತ್ತು ಪೂರ್ಣ ಟೇಬಲ್ಗಳನ್ನು ಬಾಹ್ಯವಾಗಿ ಸಂಗ್ರಹಿಸಿ. ಟೇಬಲ್ ಪ್ರಶ್ನೆಗಳನ್ನು ಟೇಬಲ್ ಸೂಚ್ಯಂಕಕ್ಕೆ ಮಾರ್ಗನಿರ್ದೇಶ ಮಾಡಿ ಮತ್ತು ಪ್ರಾಂಪ್ಟ್ ನಲ್ಲಿ ಅಗತ್ಯವಿರುವ ಸೆಲ್‌ಗಳನ್ನಷ್ಟೆ ಸೇರಿಸಿ.

Q4: ಯಾವ ಸೂಚೆಗಳು ಪೈಪ್‌ಲೈನ್ ನಿಜವಾಗಿಯೂ ಕೆಲಸ ಮಾಡುತ್ತದೆಯೆಂದು ಸಾಬೀತುಪಡಿಸುತ್ತವೆ? ಉಲ್ಲೇಖ ನಿಖರತೆ, ಟೇಬಲ್ ಸೆಲ್ ನಿಖರತೆ, ವಿಭಾಗ ಪ್ರತಿ ಸಂಕೋಚನೆ ನಿಷ್ಠೆ, ಮತ್ತು P95 ಕೊನೆಯಲ್ಲಿ ತಡೆವಿರುವ ಲೇಟೆನ್ಸಿ. ಅತ್ಯಂತ ಪ್ರಭಾವಿ ಮಾನವ ನಂಬಿಕೆ ಅಂಕೆ—ಬಳಕೆದಾರರು ನಿರೀಕ್ಷೆಯ ಫಲಿತಾಂಶವನ್ನು ಮೊದಲ ನೋಡುವಾಗ ಸ್ವೀಕರಿಸುತ್ತಾರೆಯೇ ಇಲ್ಲವೇ ಎಂದು.

Q5: Sider.AI ಈ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ಎಲ್ಲಿ ಎಲ್ಲಿದೆ? ಅದು ಸಂಯೋಜನಾ ಹಂತ, OCR ಗಾಗಿ ಕಾರ್ಯವಿಚಾರಣೆಯನ್ನು ಸಮಯಪಡಿಸಿ, ಚಂಕಿಂಗ್ ಮತ್ತು retrieval ನೀತಿಗಳನ್ನು ಜಾರಿ ಮಾಡುತ್ತದೆ, ಮತ್ತು ಪ್ರಾಂಪ್ಟ್‌ಗಳಿಗೆ ಶಿಸ್ತನ್ನು ಕಾಯ್ದುಕೊಳ್ಳುತ್ತದೆ. ಅದನ್ನು ಮಾಯಾಜಾಲಿಗಿಂತ ಮುಂದೆ ಈತನೆಂದು ಭಾವಿಸಿ—ಎಲ್ಲಾ ಹಂತಗಳು ನಿಗದಿತ ಸಮಯದಲ್ಲಿ ಮತ್ತು ಖಾತರಿಪತ್ರಗಳೊಂದಿಗೆ ಸರಿಯಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಲು responsible.