What is DeepSeek‑OCR and why use it to compress chat histories for LLMs?

DeepSeek‑OCR enables Context Optical Compression—encoding large text spans as visual tokens that VLMs can process efficiently. This can shrink token budgets and preserve structure better than text‑only summarization while maintaining high fidelity for long contexts.

How does visual token compression compare to text summarization?

Visual token compression often achieves higher effective compression while retaining layout and exact phrasing, which helps with quotations, code, and error strings. Summarization is faster and simpler but can omit rare details or introduce abstraction errors.

Can I mix DeepSeek‑OCR with RAG for logs and chats?

Yes. Use text summaries for fast recall and attach OCR‑validated visual cards for depth. A two‑stage retriever can fetch abstracts first, then the most relevant cards, balancing precision and context coverage.

What layouts work best for OCR‑compressed context cards?

Use clean HTML/CSS with a title bar, two‑column content, monospace blocks for code, and clear bullets for highlights. Keep 200–400 words per card, 11–12 pt fonts or larger, and validate readability with an OCR round‑trip.

How do I measure whether compression is losing important information?

Track Fidelity@K against a gold set of facts, evidence coverage via line‑number citations, and latency/cost metrics. Target ≥95% fact retention and ensure most answers cite a card line or anchor ID.

DeepSeek-OCR: شرح توضيحي: ضغط سجلات الدردشة، والسجلات، والبيانات لنماذج اللغات الكبيرة (LLMs)

مقدمة: لماذا أصبح الضغط الآن قوة عظمى للنماذج اللغوية الكبيرة (LLMs) إذا حاولت يومًا حشر سجلات دردشة لمدة أسبوع، أو بيانات تتبع الاستخدام، أو آثار تطبيقات متعددة الأنظمة في موجه واحد، فقد واجهت السقف الصلب لنوافذ السياق. إن الأسلوب المعتاد - التلخيص والتقليم والتقطيع - لا يوصلك إلا إلى حد معين قبل أن يتسلل فقدان الإشارة. يقدم DeepSeek-OCR منعطفًا لافتًا: ضغط النص إلى رموز رؤية باستخدام خط أنابيب OCR-VLM لتقليل السياق بشكل كبير دون التخلص من المعنى. تشير تقارير المجتمع المبكرة إلى كفاءة ضغط بترتيب الحجم من خلال الاستفادة من الرموز المرئية بدلاً من رموز النص الخام، وهو نموذج يصفه بعض التحليلات بأنه "ضغط بصري للسياق" و"آلاف الرموز النصية إلى بضع مئات من رموز الرؤية" لسير العمل ذي السياق الطويل.

في هذا البرنامج التعليمي العملي والخطوة بخطوة لـ DeepSeek-OCR، ستتعلم كيفية ضغط محفوظات الدردشة والسجلات والبيانات للنماذج اللغوية الكبيرة (LLMs) مع الحفاظ على دقة الاسترجاع - بالإضافة إلى كيفية دمج الضغط المستند إلى OCR مع التلخيص والتقطيع الهرمي و RAG للحصول على مطالبات قوية ومنخفضة زمن الوصول.

لمن هذا الدليل

بناة مساعدي الذكاء الاصطناعي الذين يجب عليهم استيعاب الدردشات الطويلة ومسارات النشاط

مهندسو البيانات الذين يتصارعون مع السجلات والآثار والمقاييس لمنطق النماذج اللغوية الكبيرة (LLM)

الباحثون الذين يقومون بنماذج أولية لسير العمل ذي السياق الطويل جدًا بميزانية محدودة

نقطة جذب في جملة واحدة: إذا كان بإمكانك تحويل النص المترامي الأطراف إلى تمثيلات مرئية مضغوطة يمكن للنماذج اللغوية الكبيرة (LLMs) قراءتها، فإنك تستعيد ميزانية السياق دون التضحية بفتات مسار التفكير.

ما هو ضغط DeepSeek-OCR؟ الفكرة الأساسية

ضغط رمز الرؤية: قم بتحويل امتدادات النص الكثيفة إلى تضمينات بصرية عالية المعلومات؛ يمكن أن تكون رموز الرؤية أرخص وأكثر إحكاما من الرموز النصية المكافئة.

ضغط بصري للسياق: استخدم OCR/VLM لترميز سياق نصي كبير كصور أو تخطيطات منظمة بصريًا، مع الحفاظ على البنية الدلالية مع تقليل عدد الرموز.

سير العمل ذو السياق الطويل: قم بضغط آلاف الرموز إلى مئات من رموز الرؤية، مما يتيح مجموعات عمل أكبر للتخطيط أو استخدام الأدوات أو التفكير متعدد الأدوار.

متى تستخدمه

محفوظات الدردشة ذات العبارات المتكررة أو البنية التي يمكن التنبؤ بها

سجلات النظام أو الآثار أو مخرجات البناء أو تفريغات التحليلات

لقطات توثيق أو لوحات معلومات أو تقارير شبه منظمة

ما ستقوم ببنائه في هذا البرنامج التعليمي ستقوم بتنفيذ خط أنابيب لـ:

تطبيع وتقسيم بيانات الدردشة/السجل.

اختر استراتيجيات الضغط (OCR-visual أو التلخيص النصي أو المختلط).

إنشاء تمثيلات مرئية مضغوطة عبر DeepSeek-OCR.

الفهرسة مع البيانات الوصفية للاسترجاع.

الاستعلام باستخدام موجه RAG مختلط يقبل كلاً من النص والصور.

تقييم الدقة والتكلفة.

القسم 1 - إعداد البيانات: اجعل المحفوظات الفوضوية صديقة للنموذج

تطبيع الطوابع الزمنية والأدوار: على سبيل المثال، {timestamp:"YYYY-MM-DD hh:mm:ss.sss", role:"user"}.

العيوب: يتطلب دعم VLM؛ يحتاج إلى العرض والإدخال/الإخراج للصور.

يستخدم عندما: تحتاج إلى دقة سياق طويل أو مخططات/جداول أو الاحتفاظ بالصياغة الدقيقة.

مختلط (موصى به)

احتفظ بملخص نصي "هيكلي" للتثبيت + إرفاق بطاقات مرئية مضغوطة للعمق.

هذا يوازن بين دقة الاسترجاع (النص) والاسترجاع/الدقة (الرؤية).

القسم 3 - بناء بطاقات السياق المرئي باستخدام DeepSeek-OCR الهدف: تحويل امتدادات النص 5-20 كيلوبايت إلى صور 512-1024 بكسل مُحسَّنة لقراءة OCR/VLM.

اقتراحات القوالب

شريط العنوان: معرف الجلسة والنطاق الزمني وتسمية الموضوع.

تخطيط من عمودين: العمود الأيسر للتحولات/السجلات الرئيسية؛ العمود الأيمن للإبرازات (الأخطاء والقرارات والأوامر والمقاييس).

كتل أحادية المسافة لسطور التعليمات البرمجية/السجل؛ ملخصات نقطية للسياق.

مظهر صديق للتباين؛ تجنب الخطوط الصغيرة جدًا (أقل من 11-12 نقطة بمقياس 1x).

نصائح العرض

استخدم HTML/CSS لإنتاج بطاقات نظيفة ومتسقة (على سبيل المثال، لقطات شاشة Puppeteer/Playwright).

قم بتضمين مثبتات ثابتة (أرقام الأسطر والمعرفات) للإشارة إلى عناصر محددة في المطالبات.

اقتصر على 200-400 كلمة تقريبًا لكل بطاقة؛ قم بإنشاء مجموعة من البطاقات لكل جلسة.

تمرير DeepSeek-OCR

قم بتشغيل DeepSeek-OCR لضمان دقة الذهاب والإياب: بطاقة → نص OCR. هذا يتحقق مرة أخرى من أن التخطيط والخطوط الخاصة بك يتم فك ترميزها بدقة.

إذا اختلف نص OCR، فقم بضبط الخطوط أو التباعد أو تقسيم التعليمات البرمجية الكثيفة إلى بطاقات متعددة.

لماذا هذا يعمل تشير كتابات المجتمع والجهات الخارجية إلى مكاسب كبيرة في الكفاءة عند ضغط السياق النصي في رموز رؤية مع الحفاظ على إمكانية القراءة.

القسم 4 - طبقات التلخيص: احتفظ بالهيكل العظمي، وخزن العضلات قم بتنفيذ ملخصات متعددة الطبقات حتى تتمكن من زيادة الدقة فقط عند الحاجة.

L0: علامات السطر/الدور الذري - الدور والطابع الزمني والنوع (خطأ، ملاحظة، رمز)، والتضمين.

L1: ملخص صغير (1-2 جمل) لكل 20-40 دورة أو 2-5 دقائق من السجلات.

L2: ملخص الجلسة (5-8 نقاط) مع القرارات والمعوقات والنتائج والروابط إلى البطاقات المرئية.

L3: سلسلة من سلاسل الرسائل - ملخصات أسبوعية أو على مستوى المشروع.

إرشادات عملية

قم دائمًا بتضمين مثبتات حرفية: رموز الخطأ ومعرفات SQL ومعرفات التتبع و SHAs commit.

استخدم الملخصات الاستخراجية قبل الملخصات التجريدية؛ ثم قم بتحسينها باستخدام الملخصات التجريدية لتحسين إمكانية القراءة.

أضف نقطة "ما الذي تغير منذ الجلسة الأخيرة" لتسريع المطالبة باللحاق بالركب.

القسم 5 - الفهرسة والاسترجاع لـ RAG المختلط مخطط البيانات الوصفية

doc_id، session_id، time_range، roles، topic labels

importance score، error severity، component/service

links: {previous_session, related_docs, external_refs}

ادمج الضغط المستند إلى OCR مع الملخصات متعددة الطبقات و RAG لتحقيق الدقة والعمق.

حسِّن التخطيطات والخطوط والفهرسة للحفاظ على الدقة عالية وزمن الوصول منخفضًا.

تعامل مع البطاقات المضغوطة كدليل من الدرجة الأولى واستشهد بها في المطالبات.

الخطوات التالية

قم بإنشاء نموذج أولي لخط الأنابيب الأدنى على مشروع دردشة واحد أو مجموعة بيانات سجل.

اختبر A/B الضغط النصي فقط مقابل الضغط المختلط لـ 10 استعلامات نموذجية.

اضبط تصميم البطاقة ومزيج المسترجع والميزانيات بناءً على مقاييس الدقة.

قم بالتوسع إلى سير عمل الفريق مع التخزين المؤقت و ACLs والمراقبة.

أسئلة شائعة

س1: ما هو DeepSeek-OCR ولماذا يتم استخدامه لضغط محفوظات الدردشة للنماذج اللغوية الكبيرة (LLMs)؟ يمكّن DeepSeek-OCR الضغط البصري للسياق - ترميز امتدادات نصية كبيرة كرموز مرئية يمكن لـ VLMs معالجتها بكفاءة. يمكن أن يؤدي ذلك إلى تقليل ميزانيات الرموز والحفاظ على البنية بشكل أفضل من التلخيص النصي فقط مع الحفاظ على دقة عالية للسياقات الطويلة.

س2: كيف تتم مقارنة ضغط الرموز المرئية بالتلخيص النصي؟ غالبًا ما يحقق ضغط الرموز المرئية ضغطًا فعالاً أعلى مع الاحتفاظ بالتخطيط والصياغة الدقيقة، مما يساعد في الاقتباسات والتعليمات البرمجية وسلاسل الأخطاء. التلخيص أسرع وأبسط ولكنه يمكن أن يحذف التفاصيل النادرة أو يقدم أخطاء التجريد.

س3: هل يمكنني دمج DeepSeek-OCR مع RAG للسجلات والدردشات؟ نعم. استخدم ملخصات نصية للاسترجاع السريع وإرفاق بطاقات مرئية تم التحقق من صحتها بواسطة OCR للعمق. يمكن لمسترجع ثنائي المرحلة جلب الملخصات أولاً، ثم البطاقات الأكثر صلة، مما يوازن بين الدقة وتغطية السياق.

س4: ما هي التخطيطات الأفضل لبطاقات السياق المضغوطة بواسطة OCR؟ استخدم HTML/CSS نظيفًا مع شريط عنوان ومحتوى من عمودين وكتل أحادية المسافة للتعليمات البرمجية ونقاط واضحة للإبرازات. احتفظ بـ 200-400 كلمة لكل بطاقة، وخطوط 11-12 نقطة أو أكبر، وتحقق من صحة إمكانية القراءة من خلال رحلة ذهاب وإياب OCR.

س5: كيف يمكنني قياس ما إذا كان الضغط يفقد معلومات مهمة؟ تتبع Fidelity@K مقابل مجموعة ذهبية من الحقائق وتغطية الأدلة عبر اقتباسات أرقام الأسطر ومقاييس زمن الوصول/التكلفة. استهدف الاحتفاظ بالحقائق بنسبة ≥95% وتأكد من أن معظم الإجابات تستشهد بسطر بطاقة أو معرف مثبت.