“దీర్ఘ‑ప్రస్మరణ AI” గురించిన విషయం ఏమిటంటే ప్రతి ఒక్కరు అది కలిగి ఉన్నట్లు శపథం చేస్తారు—కాని మీరు పేజీ 47 గురించి సవివర ప్రశ్న అడిగితే. అప్పుడు, ఓడి గోల్డ్ఫిష్కి తలగాయం ఉన్నట్లాంటిది అది జ్ఞాపకం కలిగి ఉంటుంది. DeepSeek-OCR ఈ గందరగోళంలో మధ్యలో నిలబడుతుంది ఒక సాదా కానీ నిజమైన అభియోగంతో: మీరు ముఖ్యం అనుకుంటున్నవన్నీ సంకుచిత పరచండి, నిర్మాణం నిలుపుకోండి, మరియు టోకెన్లను 2023 సంవత్సరంలాగా వేసిపెట్టటం ఆపండి. వాగ్దానం “OCR కానీ మెరుగైనది” కాదు. అది నిర్మాణాన్ని గౌరవించే OCR మరియు మీ సందర్భ విండోని శబ్దంతో భరింపజేయదని.
అవును, ఇదే ఎక్కువగా పిలవబడే దీర్ఘ‑ప్రస్మరణ పైప్లైన్లు పొరపాటు చేసే విషయం. వారు మోడల్కి సRaw text పోసి దాన్ని అంతే అనుకుంటారు. రోజంతా అది హల్యూసినేషన్లతో ముగియుతుంది.
DeepSeek-OCRని ఒక వాస్తవ దీర్ఘ‑ప్రస్మరణ పైప్లైన్లో ఎలా సమ్మేళనం చేసుకోవాలో చూద్దాం—అది అసలు స్కేలవుతుంది, కంప్యూట్ బిల్లు కళ్ళవేసుకోకుండా చెల్లించడం సులభమవుతుంది, మరియు PDF టేబుల్స్, ఫుట్నోట్ల లేదా లీగల్ ఎగ్జిబిట్స్ వచ్చినపుడు కుప్పకూలదు.
ఎందుకు DeepSeek-OCR భిన్నంగా (మరియు ఉపయోగకరం)
- లేఅవుట్ అనేది డేటా: దీర్ఘమైన డాక్యుమెంట్లు కేవలం టెక్స్ట్ మాత్రమే కాదు; అవి స్థలీయ వాదనలు. హెడ్డింగ్స్, కాలమ్స్, టేబుల్స్, ఫిగర్ క్యాప్షన్లు—అన్నిది అర్ధం. DeepSeek-OCR ఆ నిర్మాణాన్ని మొదటి తరగతి పౌరుడు రూపంలో కాపాడాలని లక్ష్యం వుంటుంది, దీర్ఘ‑ప్రస్మరణ మోడల్స్ వందల పేజీల మీదుగా తార్కిక reasoning కోసం ఇదే అవసరం.
- లోబోటమీ లేకుండా సంకోచనం: ముఖ్య విషయం ఏంటంటే అన్నింటినీ 8K విండోలో ఒత్తుకోవడంలో కాదు. సంకేతం — సాంద్రంగా, నిర్మాణాత్మకంగా, నావిగటబుల్గా ఉంచడానికి; మిగిలిన భాగాన్ని ఖరీదును తగ్గిస్తూ.
- ఇది దిగువ దశలతో చక్కుగా కలిసిక worksవుతుంది: RAG, సమ్మరీ, దీర్ఘ‑ప్రస్మరణ ట్రాన్స్ఫార్మర్స్, ఇంవెన్ ఏజెంట్స్. మీ OCR పొర మెరుగ్గా ఉంటే, రిట్రీవల్ మరియు reasoning పొరలకు క్షమాపణ చేయాల్సిన అవసరం తగ్గిపోతుంది.
మీరు నిర్మించదలచుకున్నది: ఒక దీర్ఘ‑ప్రస్మరణ పైప్లైన్తో స్పైన్ ఉంది
పైప్లైన్ను ఐదు భాగాలుగా పరిగణించండి, ప్రతీ భాగం ఒక పని నాణ్యంగా చేస్తుంది:
- సేకరించండి మరియు సర్దుబాటు చేయండి
- ఇన్పుట్ రకాలలో PDFs (బోర్న్డిజిటల్ మరియు స్కాన్డ్), ఇమేజస్, స్కానర్ నుంచి TIFFలు, గందరగోళమైన ఆఫీస్ ఎగుమతులు ఉన్నాయి.
- ప్రీప్రాసెసింగ్: డి‑స్క్యూ, డినాయిస్, అవసరమైతే బినరైజ్ చేయండి, మరియు పేజీలను సక్రమంగా విడగొట్టి ఉంచండి. ప్రతి పేజీ మెటాడేటా ఉంచండి—పేజీ నంబర్లు, మూల ఫైల్, సెక్షన్ ఆంకర్లు.
- ఫలితం లక్ష్యం: పేజీ ఇమేజస్ లేదా కెన్వాసెస్ ఒక పొడచట్టు ఫార్మాట్లో (PNG లేదా JPEG) స్థిరమైన DPIతో.
- ప్రతి పేజీపై DeepSeek-OCR నడపండి మరియు తీసుకోండి:
- బౌండింగ్ బాక్స్లతో టెక్స్ట్ స్పాన్స్ (x, y, వెడల్పు, ఎత్తు)
- బ్లాక్ రకాలు: హెడ్డింగ్లు, పేరాగ్రాఫ్లు, జాబితాలు, టేబుల్స్, ఫిగర్లు, ఫుట్నోట్లు
- వాచన క్రమం మరియు హైరార్కికల్ నిర్మాణం (డాక్యుమెంట్ ట్రీ)
- రా టెక్స్ట్ మరియు లేఅవుట్ లక్షణాలను రెండింటినీ ఉంచండి. ఇది టోకెన్ స్థాయి మాప్ ఎగుమతి చేయగలిగితే, దాన్ని ఉంచండి. టేబుల్స్ నిర్మాణాత్మకంగా ఉండాలి (CSV/HTML) మరియు వాటి కోఆర్డినేట్లకు కూడా లింక్ చేయబడాలి.
- మంత్రం: బ్లాక్ ప్రాముఖ్యత ఆధారంగా సంకుచితం చేయండి, సరళమైన టోకెన్ తరిగి కట్టుకోకండి.
- ఖచ్చితంగా పనిచేసే heuristics:
- హెడ్డింగ్లు మరియు సెక్షన్ సమ్మరీలు: వరలక్షణంగా ఉంచండి.
- పేరాగ్రాఫ్లు: వాక్య స్థాయి ఎంపిక కోసం తక్కువ బరువు ఉన్న ర్యాంకర్ (BM25/ColBERT-శైలి లేదా చిన్న లోకల్ ఎంకోడర్) ఉపయోగించండి.
- టేబుల్స్: హెడ్డర్స్ మరియు టాప్-k గణాంకంగా భిన్నమైన వరుసలను ఉంచండి; సంఖ్యా కాలమ్స్ పూర్తిగా ఉంచండి; పూర్తి టేబుల్ను అవుట్-ఆఫ్-బాండ్ స్టాష్ చేయండి.
- క్యాప్షన్స్ మరియు ఫుట్నోట్లు: ఉంచండి; తక్కువ టోకెన్లు, అధిక అర్థం.
- రెండు ఆర్టిఫాక్ట్స్ ఉత్పత్తి చేయండి:
- కంపాక్ట్, లేఅవుట్-అధారిత కథన సంధర్భం: అసలైన టోకెన్లలో 10–20%, సహజంగా, నావిగబుల్.
- సైడ్కార్ ఇండెక్స్: సంకుచితం చేసిన స్పాన్స్ నుండి పూర్తి నైట్-ఫిడిలిటీ బ్లాక్స్కు సూచనలు.
- రిట్రీవల్ మరియు రౌటింగ్ (వయస్కులా RAG)
- సెంటెన్సులు / పేరాగ్రాఫ్లపై సెమన్టిక్ సెర్చ్ కోసం డెన్స్ వెక్టర్స్.
- ఖచ్చితమైన లుకప్ కోసం స్పార్స్ (BM25) — కోడ్స్, అంటియేషన్స్, ఐడెంటిఫైయర్స్.
- టేబుల్-అవేరై ఇండెక్స్: సంఖ్యా క్వెరీల కోసం వరుస మరియు సెల్ స్థాయి ఎంబెడ్డింగ్స్.
- కీవర్డ్ సమృద్ధి ప్రశ్నలు → మొదట స్పార్స్, తర్వాత డెన్స్ తో రీ-ర్యాంక్ చేయండి.
- విశ్లేషణాత్మక లేదా “ఎందుకు” ప్రశ్నలు → మొదట డెన్స్, తర్వాత స్పార్స్ యాంకర్లతో రీ-ర్యాంక్.
- టేబుల్ / గణిత ప్రశ్నలు → డైరెక్ట్గా టేబుల్ ఇండెక్స్, వరుస / కాలమ్ ప్రావెనెన్స్తో.
- లోల-ప్రస్మరణ LLM సమగ్ర ప్రాంప్ట్ల కోసం (పాలసీ డాక్స్, RFPలు, రీసర్చ్ పేపర్లు).
- స్టెప్వైజ్, టూల్-కాల్ చేసే ఏజెంట్ మల్టీ-హాప్ పనుల కోసం: రిట్రీవ్ → విశ్లేషించు → ధృవీకరించు → సూచించు.
- సంపూర్ణ కంపాక్ట్ కథనాన్ని మోడల్లో గుదిపొద్దు. తగిన సమయానికి కంటెక్స్ట్ను ఇబ్బంది పెట్టండి: ఉద్దేశ్యంతో టాప్ సెక్షన్లు, సంబంధిత టేబుల్స్, సమీప పేరాగ్రాఫ్లు. బ్రెడ్క్రంబ్స్ (సెక్షన్ పేర్లు, పేజీ సూచనలు, ఫిగర్ IDs) తో అనుసంధానం చేయండి.
ఫలితం: రసీట్లు ఉన్న సమాధానాలు. ప్రతి క్లెయిమ్ బ్లాక్ ID, పేజీ నంబర్, కోఆర్డినేట్ శ్రేణి కి లింక్ అవుతుంది, మీరు అసలు PDFలో హైలైట్ చేయవచ్చు. ఇదే మీరు నమ్మకం పొందే మార్గం.
ప్రాక్టికల్ బ్లూప్రింట్: రా PDFs నుంచి దీర్ఘ‑ప్రస్మరణ సమాధానాల వరకు
దశ 1: డాక్యుమెంట్ ఇంపుట్
- ఫైల్ను ధృవీకరించండి: పాస్వర్డ్‑ప్రొటెక్టెడ్ లేదా కరptionsగాపడినదైతే వెంటనే విఫలమవ్వండి.
- ఒక స్థిర DPI వద్ద పేజీ ఇమేజులను రేంsడర్ చేయండి (300 సరిపోతుంది; వేగం కోసం 200).
- పేజీ స్థాయి హాష్లను ఉంచండి తద్వారా OCR కాష్ చేయవచ్చు.
దశ 2: DeepSeek-OCR పాస్
- GPU throughput కోసం పేజీలను బ్యాచ్ చేయండి.
- బ్లాక్స్ మరియు వాచన క్రమాన్ని తీసుకోండి. కోఆర్డినేట్స్ ను స్థిరమైన పేజీ స్థలంలో సాధారణంగా మార్చండి.
- JSON: బ్లాక్ జాబితా రకం, టెక్స్ట్, bbox, పేజీ తో.
- టేబుల్స్ CSV/HTML గా మరియు ప్రతి సెల్కు bbox మ్యాప్ తో.
- ఒక ఐచ్ఛిక స్టిచ్ చేయబడిన మార్క్డౌన్ లేఅవుట్ హింట్స్ (## హెడ్డింగ్స్ కు, :::table టేబుల్స్ కు) తో.
దశ 3: పోస్ట్‑OCR శుభ్రపరచడం
- లైన్ బ్రేక్ల మధ్య హైఫెనేటెడ్ పదాలను విలీనం చేయండి.
- కాలమ్స్ను పరిష్కరించండి: ఒక పేజీకి రెండు కాలమ్స్ ఉన్నపుడు వాచన క్రమం కాలమ్స్ను గౌరవించాలని చూసుకోండి.
- ఫాంట్/సైజ్ heuristics ద్వారా హెడ్డింగ్స్ను కనుగొనండి, అందుబాటులో లేకపోతే; TOC ట్రీని నిర్మించండి.
- మారిన హెడ్డర్/ఫుటర్లను దొరుక్ఖడత చేయండి (సామాన్యంగా స్కాన్డ్ కాంట్రాక్ట్స్ లో).
దశ 4: నిర్మాణంతో సంకోచనం
- పేరాగ్రాఫ్లను వాక్యాలుగా విడగొట్టి ఉంచండి. మీ డొమైన్పై శిక్షణ పొందిన చవక ర్యాంకర్తో వాక్యాల స్కోర్ చెయ్యండి.
- అధిక-స్కోరు వాక్యాలను ఉంచండి; ప్రతి హెడ్డింగ్ క్రింద మొదటి వాక్యాన్ని ఎప్పుడూ ఉంచండి.
- టేబుల్స్ కోసం: హెడ్డర్ వరుస + variance/ప్రాముఖ్యత ద్వారా టాప్-k వరుసలను మరియు పూర్తి టేబుల్ కు సూచన ఉంచండి.
- కంపాక్ట్ కథనం మరియు సైడ్కార్ ఇండెక్స్ ఉత్పత్తి చేయండి, ప్రతి వాక్యం దాని అసలు ప్రతికిని సూచిస్తుంది.
దశ 5: ఇండెక్సింగ్
- వాక్యాలకు డెన్స్ ఎంబెడ్డింగ్స్ (అవసరమైతే బలమైన బహుభాషా మోడల్ వాడండి).
- మొత్తం కార్పస్ పై స sparse índex (శీర్షిక, హెడ్డింగ్స్, కోడ్స్, సూచనలు, ఐడెంటిఫైయర్స్, యూనిట్లు).
- టేబుల్ ఎంబెడ్డింగ్స్ వరుస మరియు సెల్ స్థాయిల్లో; వేగవంతమైన ఫిల్టర్లకు సంఖ్యా గణాంకాలు (కనిష్టం, గరిష్ఠం, సగటు) ఉంచండి.
- ప్రవెనెన్స్ నిల్వ చేయండి: doc_id, పేజీ, bbox, block_id.
దశ 6: క్వెరీ రౌటింగ్ మరియు రిట్రీవల్
- క్లుప్తి ఉద్దేశం వర్గీకరించండి: లుకప్ అటు, విశ్లేషణ, టేబుల్ గణితం, పోల్చు.
- అనుకూల రిట్రీవల్ వంటకం అమలు చేయండి:
- లుకప్: స sparse → డెన్స్ రీర్యాంక్.
- విశ్లేషణ: డెన్స్ → సెక్షన్ నెయిబర్స్.
- టేబుల్ గణితం: టేబుల్ ఇండెక్స్ + వరుస ఫిల్టర్స్; కంటెక్స్ట్ కోసం సమీప టెక్స్ట్ జత చేయండి.
- ప్రాంప్ట్ ప్యాక్ కంపైల్ చేయండి:
- 3–6 రిట్రీవ్ చేసిన ప్యాసేజెస్ (హెడ్డింగ్స్ మరియు పేజీ సూచనలతో)
- అవసరమైతే, 1–2 చిన్న టేబుల్స్ లేదా లెక్కించబడిన గణాంకాలు
- మోడల్-స్పెసిఫిక్ స్వీట్ స్పాట్ల కింద ప్రాంప్ట్లు ఉంచండి. దీర్ఘ‑ప్రస్మరణ అనేది అపరిమిత ప్రస్మరణ కాదు.
దశ 7: మూలాలను సూచిస్తూ సమాధాన సింథసిస్
- నిర్మాణాత్మక ఫలితం అడగండి: విభాగాల సమాధానం మరియు ఆన్లైన్ మూలాలు [Doc §2.3, p. 47, tbl A] లాగా.
- కఠినమైన క్లెయిమ్స్కు, ధృవీకరణ పాస్ ప్రారంభించండి: ఖచ్చితమైన స్పాన్స్లను తిరిగి రిట్రీవ్ చేయండి, లక్ష్యపూర్వక ప్రశ్న అడగండి, సంక్షోభాలను చర్చించండి.
- వినియోగదారులు క్లిక్ చేయగల provenance ట్రైల్తో సమాధానం అందించండి.
నిజమైన డబ్బు tiếtచే సేవా మిషన్లు
- GPUకు YOLO అల్లుకోకండి: OCR I/O బౌండ్ మరియు GPU బౌండ్గా విచిత్ర మార్పులతో ఉంటుంది. పేజీ కౌంట్ బ్యాచ్ చేయండి మరియు కర్నల్ పునర్వినియోగం కోసం ఇమేజ్ సైజులు సాధారణంగా ఉంచండి.
- గట్టిగాచ్లే కాష్ చేయండి: మూల డాక్ మార్చకపోతే OCR మళ్ళీ చేయద్దు. పేజీ బిట్మ్యాప్ కాంటెంట్ హాష్ చెయ్యండి, ఫైల్ కాదు.
- టేబుల్స్ ల్యాండ్మైన్లు: అవి టోకెన్ లెక్కలను పెంచుతూ నాణ్యత తగ్గిస్తాయి. వాటిని స్వచ్ఛంగా తీయండి మరియు సాధారణ కంటెక్స్ట్ లో ఉంచకండి ప్రాంతంలో ప్రశ్న అవసరం ఉంటే తప్ప.
- చంకింగ్ లోని ధర్మం లేదు: లేఅవుట్ ఆధారంగా (హెడ్డింగ్స్, పేరాగ్రాఫ్లు) చంక్ చేయండి, టోకెన్ పొడవు ఆధారంగా కాదు. టోకెన్ పొడవు ఆధారిత చంకింగ్ వలన వాదన నిర్మాణం కోల్పోతారు.
- సమ్మరీ చేసే ముందు ధృవీకరించండి: రిట్రీవల్ కంటెక్స్ట్ను గడపకుండSummarize చేయవద్దు; మీరు తప్పు వాటిని సంకుచితం చేస్తారు.
లోపాలు నిర్వాహణ: అసహ్యమైన భాగాలు కానీ ముఖ్యం
- బ్రోకెన్ PDFs: రాస్టర్ ఫాల్బ్యాక్ ప్రయత్నం చేయండి. ఇంకా బ్రోకెన్ అయితే, డయాగ్నోస్టిక్ ఆర్టిఫాక్ట్ని తిరిగి ఇవ్వండి. నిశ్శబ్ద విఫలం సమాధానం లేకపోవడంవంటే చెడు.
- అకారణ స్కాన్లు (ఫ్యాక్స్-గ్రేడ్): డినాయిస్/కాంట్రాస్ట్ పెంపుపై ప్రయతం చేయండి; విశ్వాసం స్థాయి అతి తక్కువైనా, మానవ సమీక్ష కోసం ఫ్లాగ్ చేయండి. తెలియని విషయాలను అంగీకరించండి.
- నాన్-లాటిన్ స్క్రిప్ట్స్: OCR మోడల్ మీ స్క్రిప్ట్ సెట్కు మద్దతు ఇస్తుందో లేదో చూసుకోండి; లేదంటే ప్రత్యేక OCR వేరియంట్కు రూట్ చేయండి.
- శిల్పంలా కనిపించే టేబుల్స్: టేబుల్ గుర్తింపు విఫలమైతే, నటించకండి. దాన్ని చిత్రంగా తీసుకుని క్యాప్షన్తో కలిపి “మాన్యువల్ ఎక్స్ట్రాక్షన్ అవసరమని” నోటీసుతో ఇచ్చండి.
డేటా మోడల్: భూభాగంతో మ్యాప్ను ఉంచండి
- రకం: హెడ్డింగ్/పేరాగ్రాఫ్/జాబితా/టేబుల్/ఫిగర్/ఫుట్నోట్
- టెక్స్ట్ (ఐచ్చికం), bbox, క్రమం, శైలీ సూచనలు
- వరుసలు, కాలమ్స్, సెల్ టెక్స్ట్లు, సెల్ bboxes, హెడ్డర్ ఫ్లాగ్స్
- doc_id, పేజీ, block_id, ఆకల_offsets, bbox
భద్రత మరియు అనుకూలత
- మీ విధానం అనుమతించకపోతే సున్నితమైన PDFsను మూడవ పక్ష APIలకు అప్లోడ్ చేయవద్దు. అవసరమైతే, రవాణా మరియు విశ్రాంతి సమయంలో ఎన్క్రిప్ట్ చేయండి.
- OCR దశలో PII ను రిడాక్ట్ చేయండి—బౌండింగ్-బాక్స్ రిడాక్షన్ పోస్ట్‑హోక్ స్ట్రింగ్ మాస్కింగ్ కన్నా బలమైనదిగా ఉంటుంది.
- అని రిట్రీవల్ మరియు సమాధాన రూపొందింపును లాగ్ చేయండి కానీ అనుమతి లేని చోట కంటెంట్ లాగ్ చేయవద్దు. హాష్లు మరియు IDలు ఉంచండి, రా టెక్స్ట్ కాదు.
దీర్ఘ‑ప్రస్మరణ మోడల్ ఎంపికలు (హైప్ లేకుండా)
- మీ ప్రశ్నలు ఎక్కువగా “X ఎక్కడ పుస్తకం చెప్పింది” అయితే, కేవలం ప్రస్మరణ పొడవు కంటే రిట్రీవల్ మరియు సూచనలని ప్రాధాన్యం ఇవ్వండి. చిన్న, ఖచ్చితమైన సందర్భం 1 మిలియన్ టోకెన్ హల్యూసినేషన్ కంటే మెరుగైనది.
- మీ డాక్యుమెంట్లు కథానాయకంగా (గবেষణ, నివేదికలు) అయితే, దీర్ఘ‑ప్రస్మరణ మోడల్స్ సహాయపడతాయి, కాని మీరు సెక్షన్ నిర్మాణం తో మార్గనిర్దేశం చేస్తే మాత్రమే.
- టేబుల్-భారమైన వర్క్ఫ్లోలు రెండు మెదడులు కోరుకుంటాయి: prose కోసం భాషా మోడల్, లెక్కలు మరియు ఫిల్టరింగ్ కోసం తేలికపాటి ప్రోగ్రామ్.
సంస్కరణ మరియు డ్రిఫ్ట్
- OCR మెరుగుపడుతుంది; డాక్యుమెంట్లు మారుతుంటాయి; ఎంబెడ్డింగ్స్ డ్రిఫ్ట్ అవుతుంటాయి. అన్ని సంస్కరణలను నిర్వహించండి:
- OCR ఇంజిన్ సంస్కరణ మరియు కాన్ఫిగరేషన్
- ఎంబెడ్డింగ్ మోడల్ సంస్కరణ
- ఏ సంస్కరణ మార్చితే, ఇన్క్రిమెంటల్ గా మళ్ళీ ఇండెక్స్ చేయండి. పాతగా మరియు కొత్తగా రెండింటినీ ఉంచండి గానీ పరిమాణాలను సమానం చేసేవరకు.
డెవలపర్ సమ్మేళనం స్కెచ్
- వర్కర్ 1: ఇంజెస్ట్ → పేజీలను రేండర్ చేయండి → ఎంక్యూ చేయండి.
- వర్కర్ 2 (GPU): ప్రతి పేజీకి DeepSeek-OCR → నిర్మాణాత్మక JSON → టేబుల్స్.
- వర్కర్ 3: శుభ్రపరచడం + లేఅవుట్ ట్రీ → సంకోచనం.
- వర్కర్ 4: ఇండెక్స్ నిర్మాణం (డెన్స్ + స sparse + టేబుల్స్) → ప్రచురణ.
- సేవ: క్వెరీ రౌటర్ → రిట్రీవల్ → ప్రాంప్ట్ అసెంబ్లీ → LLM → ధృవీకరణ → స్పందించండి.
- సంచితం: పేజీ ఇమేజులు మరియు సైడ్కార్లు కోసం ఆబ్జెక్ట్ స్టోర్; బ్లాకులు మరియు ప్రవెనెన్స్ కోసం DB; వెక్టర్ మరియు sparse ఇండెక్స్లు.
గందరగోళం చేయని టూల్స్ గురించి ఒక మాట
అతి ప్రకాశవంతంగా లేని భాగం ఎక్కువ సార్లు పైప్లైన్ను విజయవంతం చేస్తుంది. నిర్మాణాన్ని గౌరవించే సన్నటివంటి OCR, “నేను తెలియదు” అనగల ఇండెక్స్, మరియు మరింత పెట్టెపుబ్బరలేని ప్రాంప్ట్ బిల్డర్. అదే పని. మీరు దీన్ని ఒక ప్రాక్టికల్ వర్క్ఫ్లోలో చేర్చాలనుకుంటే—ఉదాహరణకు, కాంట్రాక్ట్స్ సమ్మరీ చేయడం, 300 పేజీల RFIలని సమీక్షించడం, లేదా SOP మాన్యువల్స్ ఆడిట్ చేయటం—Sider.AI నిజానికి OCR, రిట్రీవల్, మరియు దీర్ఘ‑ప్రస్మరణ ప్రాంప్టింగ్ మధ్య గ్లూ పొరగా పనిచేస్తుంది, ముఖ్యంగా మీరు దీన్ని నియమపాలన చేయగల ఫోర్మన్ లాగా వాడితే. దీనితో మీరు ఇంజెస్ట్ టాస్కులు, చంకింగ్ విధానాలు, మోడల్ ఎంపికలు, మరియు “నమ్మకానికి ముందు ధృవీకరించు” లూప్ నిర్వహించండి. ఈ పనులను బృందాల్లో స్కేలు చేయాలి, ఫలితాలను పునరుత్పాదించదగినదిగా ఉంచాలి అనుకుంటే ఇది మిక్కిలి పనికి వస్తుంది. శుక్ర వారం నాటికి మీరు ఎదుర్కొంటారు “గొడవలు”
- అతిగా సంకోచనం: మీరు చాలా తగ్గిస్తే సమాధానాలు సూక్ష్మత కోల్పోతాయి. సమాధాన- పొడవు / కవరేజ్ మెట్రిక్స్ చూడండి; నమ్మక స్థాయి పడినప్పుడు పూర్తి బ్లాక్ తీసుకునేందుకు fallback చేర్పండి.
- అతిగా రిట్రీవల్: మీరు 60 చంకులను ప్రాంప్ట్కు తీసుకెళ్లి సందర్భ పరిమితిని దాటి పోతారు. దాన్ని పరిమితం చేయండి మరియు పక్కరి సెక్షన్ల (పక్కన ఉండే భాగాలు బంగారు) వైపు జాగ్రత్తపడి bias చేయండి.
- టేబుల్ మాయాజాలాలు: మోడల్ సంఖ్యను ప్రభావవంతంగా కోట్ చేస్తుంది—కానీ తప్పు వరుస నుండి. ఎప్పుడూ టేబుల్ స్నిపెట్లను వరుస కీతో జతచేయండి ప్రాంప్ట్లో.
- పేజీ డూప్లికేట్లు: స్కానింగ్ వర్క్ఫ్లోలు పునరావృతానికి ఇష్టపడతాయి. పేజీలను హాష్ చేసి OCRకి డూప్లికేట్లు తొలగించండి ముందే.
- క్రాస్-రెఫ్స్ మరియు ఫుట్నోట్లు: ఇవి చట్టపరమైన అర్థంలో హెచ్చరికలను అందిస్తాయి. పాలసీ/లీగల్ డాక్స్లో ఫుట్నోట్లు ఎప్పుడూ మిస్ కాకూడదు; వాటిని తక్కువ టోకెన్ లైన్లో ఉంచండి.
సామగ్రి మెట్రిక్స్లు మోసగించవు
- టాప్-k సూచన ఖచ్చితత్వం: సూచించిన బ్లాక్ క్లెయిమ్ని నిజంగా మద్దతు ఇస్తుందా?
- టేబుల్ సెల్ ఖచ్చితత్వం: సంఖ్యా సమాధానాలలో సరైన సెల్ సూచనల శాతం.
- సంకోచన విశ్వాస్యత: సంకుచిత కథనం మరియు అసలు per సెక్షన్ ROUGE / LFQA-శైలి తో సమాంతరత.
- భారం ఉన్నా క్వెరీ దిగువ వేగం: P95 ఎండ్-టు-ఎండ్, కేవలం LLM సమయం కాదు.
- మానవ నమ్మకం స్కోర్: వినియోగదారులు ప్రథమ చూపుకే సమాధానాన్ని అంగీకరిస్తారా లేదా? ఇది అంగీకారానికి ఏకైక సూచిక.
సర్వసాధారణ పని ఉదాహరణ (సంకల్పనాత్మక)
- ఇన్పుట్: 180 పేజీల కొనుగోలు స్పెసిఫికేషన్, అనుబంధాలు మరియు ఐదు నష్టపరిహార టేబుల్స్.
- మీరు DeepSeek-OCR నడుపుతారు; ఇది నిర్మాణాత్మక బ్లాక్స్ బాక్సులతో మరియు విశ్వసనీయ TOC తో ఎమిట్ చేస్తుంది.
- సంకోచనం అన్ని హెడ్డింగ్స్, మొదటి వాక్యాలు, మరియు టేబుల్ల కీలక వరుసలను ఉంచుతుంది. సైడ్కార్ ప్రతీ వాటికీ తిరిగి సూచిస్తుంది.
- వినియోగదారుడు అడుగుతారు: “ఎలక్ట్రికల్ భాగాలకు వారంటీ వ్యవధిని ఏ సెక్షన్ లో చెప్పబడింది?”
- రౌటర్ స sparse → డెన్స్ ఎంచుకుంటుంది.
- రిట్రీవల్ రెండు సెక్షన్లు మరియు ఒక అనుబంధం తిరిగి ఇస్తోంది.
- ప్రాంప్ట్ హెడ్డింగ్+పేరాగ్రాఫ్స్ inline సూచనలతో అందిస్తుంది.
- మోడల్ సమాధానం: “సెక్షన్ 4.2.1, పేజీ 67: ‘ఎలక్ట్రికల్ భాగాలు కనీసం 36 నెలల వారంటీ కలిగి ఉంటాయి…’” సరైన ప్రసంగాన్ని హైలైట్ చేసే లింక్తో.
- వినియోగదారుడు అడుగుతారు: “రాక్స్ మొత్తం పవర్ బడ్జెట్ ఎంత?”
- రౌటర్ టేబుల్ ఇండెక్స్ ఎంపిక చేస్తుంది. సరైన వరుసలను తీసుకుని, రెండు కాలమ్లను సింపుల్ టూల్తో యథాతథంగా జత చేస్తుంది, మరియు టేబుల్ B-3ని వరుస కీలు తో సూచిస్తుంది. కల్పిత గణితం లేదు.
ఇది ఎందుకు పనిచేస్తుంది అయితే ఇతరులు చేయరు
ఎందుకంటే అది OCR, రిట్రీవల్, reasoning ను విడివిడిగా పనులుగా మరియు వాటి మధ్య ఒప్పందంతో చూస్తుంది. DeepSeek-OCR మీరు నిర్మాణం ఇస్తుంది; సంకోచనం అర్థాన్ని కాపాడుతుంది; రిట్రీవల్ సరైన సాక్ష్యాన్ని తెస్తుంది; దీర్ఘ‑ప్రస్మరణ మోడల్ fillerలో త drownపడకుండా వాటిని కలిపిస్తుంది. ఉధ్యమ పరిశ్రమ దాదాపుగా అన్నింటినీ పెద్ద విండోలో నింపి ప్రార్థిస్తూనే ఉంటుంది. ప్రార్థన విధానం కాదు.
మీరు శీఘ్రంగా పనులు పదేపదే తిరిగి చెయ్యాలనుకుంటే, చివరిగా వీటిని కట్ చేయండి
- టేబుల్ ఎక్స్ట్రాక్షన్: ఇక్కడ మీరు పొరపాటుపడితే, ప్రతి దిగువ దశ ఈ గందరగోళాన్ని వారసత్వంగా కలిగి ఉంటుంది.
- ప్రవెనెన్స్ ప్లంబింగ్: వినియోగదారులు నెమ్మదిగా లేదా కొన్నిసార్లు తప్పు సమాధానాలను మన్నిస్తారు; కానీ ధృవీకరించలేని సమాధానాలను మన్నించరు.
- కాష్ మరియు హాషింగ్: దీనిని సరియగా చేస్తే మీ క్లౌడ్ బిల్లు మన్నిస్తుంది.
వివాదాస్పద అంశం: మీరు నిజంగా దీర్ఘ‑ప్రస్మరణ అవసరమా?
ఏలాగంటే: కొన్నిసార్లు దీర్ఘ‑ప్రస్మరణ అనేది చెత్త రిట్రీవల్కు ఆసరేమీ. మీ ప్రశ్నలు సన్నగా, ఖచ్చితంగా ఉంటే, మెరుగైన ఇండెక్సింగ్ మరియు చిన్న కంటెక్స్ట్లపై పెట్టుబడి పెట్టండి. దీర్ఘ‑ప్రస్మరణ ఆ జ్ఞానం అర్థం పెట్టుకోవాల్సినప్పుడు మెరుగుపడుతుంది—పాలసీ మినహాయింపులు, క్రాస్-రెఫరెన్స్ చట్టాలు, సాహితీ సమీక్షలు. లేకపోతే, మీరు అజాహిర అవసరం లేని దృష్టి కోసం చెల్లిస్తున్నారు.
మరియు మీరు నిజంగా “అన్నీ చదవాలి” అర్ధం చేసుకోవాల్సిన అవసరం ఉంటే? మోడల్కి అన్ని విషయాలను వర్కింగ్ మెమరీలో ఉంచమని బలవంతం చేయవద్దు. దశల వారీగా చేయండి: అవుట్లైన్ → రిట్రీవ్ → న్యాయమిస్తున్నాను. మనుష్యులు కూడా అలాగే చేస్తారు.
సంక్షేపం: రసీట్లు తలపై లేదా పనికి రాదు
DeepSeek-OCRని దీర్ఘ‑ప్రస్మరణ పైప్లైన్లో సమ్మేళనం చేయడం అంటే పెద్ద విండోలు పట్ల పూజ చేయడం కాదు. డాక్యుమెంట్లను స్థలీయ వాదనలుగా గౌరవించడం, రుచికరంగా సంకుచితం చేయడం, ఉద్దేశాలతో రిట్రీవ్ చేయడం, మరియు రసీట్లతో సమాధానాలు ఇవ్వడం. ఇలా చేస్తే, మీ పైప్లైన్ పేజీ 47ని మరిచిపోయినట్టుగా నటించడం ఆపి, నిజంగా అది నిరూపిస్తుంది.
Sider.AI, సరైన విధంగా ఉపయోగిస్తే, దశలను సమన్వయ పరచటం, ప్రాంప్ట్లను నిజాయతీగా ఉంచటం, మరియు దీర్ఘ‑ప్రస్మరణ పనికి కచ్చితమైన నియమబద్ధత నిర్ధారించటం చేస్తుంది. ఇది అసహ్యంగా అనిపిస్తే మంచిది. అందమైన విషయం మీరు నమ్మే సమాధానాలు. FAQ
Q1: DeepSeek-OCRని దీర్ఘ‑ప్రస్మరణ పైప్లైన్లో త్వరగా ఎలా చేర్చాలి?
OCRని GPU బ్యాచ్ సర్వీస్గా అధిక కాషింగ్తో వ్యవహరించండి, తర్వాత లేఅవుట్ (హెడ్డింగ్స్, పేరాగ్రాఫ్లు, టేబుల్స్) ఆధారంగా సంకోచనం చేయండి. హైబ్రిడ్ ఇండెక్స్ (డెన్స్ + స sparse + టేబుల్) చేర్చండి మరియు మొత్తం డాక్యుమెంట్ డంప్ చేయకుండా తగిన సమయానికి ప్రాంప్ట్లను అసెంబుల్ చేయండి.
Q2: DeepSeek-OCR వాడుతున్నప్పుడు నేను నిజంగా దీర్ఘ‑ప్రస్మరణ మోడల్స్ అవసరమా?
అవసరం లేదు. మీ ప్రశ్నలు ఖచ్చితమైనవి అయితే మెరుగైన రిట్రీవల్ మరియు సూచనలు బలమైన కంటెక్స్ట్ కంటే మంచివి. దీర్ఘ‑ప్రస్మరణ సెక్షన్ల మధ్య సమ్మేళన అవసరమై ఉంటే ఉపయోగకరం, కేవలం ఒక సెక్షన్ 67లో క్లాజ్ కోసం పోయితే కాదు.
Q3: టేబుల్స్నిexplode చేయకుండా ఎలా నిర్వహించాలి?
టేబుల్స్ను నిర్మాణాత్మకంగా తీసుకోండి, హెడ్డర్లను మరియు కొన్ని అత్యంత సంకేతం కలిగిన వరుసలను ఉంచండి, పూర్తి టేబుల్ను అవుట్-ఆఫ్-బాండ్ స్టోర్ చేయండి. టేబుల్ ప్రశ్నలను టేబుల్ ఇండెక్స్కి పంపండి మరియు ప్రాంప్ట్లో మాత్రమే అవసరమైన సెల్స్ను చేర్చండి.
Q4: పైప్లైన్ నిజంగా పనిచేస్తుందనే ఆ ధృవీకరించే మెట్రిక్స్లు ఏమిటి?
సూచన ఖచ్చితత్వం, టేబుల్ సెల్ ఖచ్చితత్వం, సెక్షన్ ప్రకారం సంకోచన విశ్వాస్యత, మరియు P95 ఎండ్-టు-ఎండ్ లాటెన్సీని ట్రాక్ చేయండి. అత్యంత సూచిక మానవ నమ్మకం స్కోర్—వినియోగదారులు సాక్ష్యం కోసం గులికట దృష్టిగా సమాధానాన్ని అంగీకరిస్తారా?
Q5: ఈ సెటప్లో Sider.AI ఏ స్థానంలో ఉంటుంది?
అది సమన్వయ పొర: OCR షెడ్యూల్ చేస్తుంది, చంకింగ్ మరియు రిట్రీవల్ విధానాలను అమలు చేస్తుంది, ప్రాంప్టులను విధేయంగా ఉంచుతుంది. ఫోర్మన్ లాగా ఆలోచించండి, విజర్డ్ కాదు—ఇది ఇతర భాగాలు సమయానికి, రసీట్లు తో రావడానికి కారణం.