Sider.ai
  • Sohbet
  • Wisebase
  • Aletler
  • Eklenti
  • Müşteriler
  • Fiyatlandırma
Şimdi İndirin
Giriş yapmak

Sider ile daha hızlı öğrenin, daha derin düşünün ve daha akıllı büyüyün.

Ürünler
Uygulamalar
  • Uzantılar
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
Araçlar
  • Web OluşturucuNew
  • Yapay Zeka SlaytlarıNew
  • AI Makale Yazarı
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI Görüntü Üretici
  • İtalyan Beyin Çürütücü
  • Arka Plan Temizleyici
  • Arka Plan Değiştirici
  • Fotoğraf Silici
  • Metin Temizleyici
  • Boyama
  • Görüntü Yükseltici
  • Oluştur
  • AI Çevirici
  • Görüntü Çevirici
  • PDF Çevirici
Sider
  • Bize Ulaşın
  • Yardım Merkezi
  • İndir
  • Fiyatlandırma
  • Eğitim Planı
  • Yenilikler
  • Blog
  • Topluluk
  • Ortaklar
  • Ortaklık
  • Davet Et
©2026 Tüm Hakları Saklıdır
Kullanım Şartları
Gizlilik Politikası
  • Ana Sayfa
  • Blog
  • Yapay Zeka Araçları
  • DeepSeek‑OCR Eğitimi: LLM'ler için Sohbet Geçmişlerini, Logları ve Verileri Sıkıştırma

DeepSeek‑OCR Eğitimi: LLM'ler için Sohbet Geçmişlerini, Logları ve Verileri Sıkıştırma

Güncellendi: 23 Eki 2025

5 dk


Giriş: Sıkıştırma Neden Artık LLM'ler İçin Bir Süper Güç? Eğer bir haftalık sohbet kayıtlarını, telemetri verilerini veya çoklu sistem uygulama izlerini bir isteme sığdırmaya çalıştıysanız, bağlam pencerelerinin sert tavanıyla karşılaşmışsınızdır. Her zamanki oyun kitabı—özetleme, budama, parçalama—sinyal kaybı sızmadan önce sizi ancak bir yere kadar götürür. DeepSeek‑OCR çarpıcı bir yenilik sunuyor: metni bir OCR‑VLM hattı kullanarak görsel belirteçlere sıkıştırarak, anlamı atmadan bağlamı önemli ölçüde küçültmek. İlk topluluk raporları, ham metin belirteçleri yerine görsel belirteçlerden yararlanarak, uzun bağlam iş akışları için bazı analizlerin “Bağlam Optik Sıkıştırma” ve “binlerce metin belirtecini birkaç yüz görsel belirtece dönüştürme” olarak tanımladığı bir paradigmayla, büyüklük sırasına göre sıkıştırma verimliliğinden bahsediyor.
Bu pratik, adım adım DeepSeek‑OCR eğitiminde, LLM'ler için sohbet geçmişlerini, günlükleri ve verileri, elde etme hassasiyetini koruyarak nasıl sıkıştıracağınızı öğreneceksiniz—artı OCR tabanlı sıkıştırmayı, özetleme, hiyerarşik parçalama ve RAG ile birleştirerek güçlü, düşük gecikmeli istemeler için nasıl kullanacağınızı.
Bu kılavuz kimler için?
  • Uzun sohbetleri ve aktivite izlerini alması gereken AI yardımcı pilotlarının geliştiricileri
  • LLM akıl yürütmesi için günlükleri, izleri ve metrikleri yöneten veri mühendisleri
  • Kısıtlı bütçeyle ultra uzun bağlam iş akışları prototipleyen araştırmacılar
Tek cümlelik özet: Eğer geniş metinleri, LLM'lerin okuyabileceği kompakt görsel temsillerine dönüştürebilirseniz, akıl yürütme kırıntılarından ödün vermeden bağlam bütçesini geri kazanırsınız.
DeepSeek‑OCR Sıkıştırması Nedir? Temel Fikir
  • Görsel belirteç sıkıştırması: Yoğun metin aralıklarını, yüksek bilgi içeren görsel gömülere dönüştürün; görsel belirteçler, eşdeğer metin belirteçlerinden daha ucuz ve daha kompakt olabilir.
  • Bağlam Optik Sıkıştırma: Büyük metinsel bağlamı, resimler veya görsel olarak yapılandırılmış düzenler olarak kodlamak için OCR/VLM kullanın, belirteç sayılarını azaltırken semantik yapıyı koruyun.
  • Uzun bağlam iş akışları: Binlerce belirteci yüzlerce görsel belirtece sıkıştırın, planlama, araç kullanımı veya çok turlu akıl yürütme için daha büyük çalışma kümeleri sağlayın.
Ne Zaman Kullanılır?
  • Tekrarlayan ifadeler veya öngörülebilir yapıya sahip sohbet geçmişleri
  • Sistem günlükleri, izler, derleme çıktıları veya analiz dökümleri
  • Belgeleme anlık görüntüleri, panolar veya yarı yapılandırılmış raporlar
Bu Eğitimde Ne İnşa Edeceksiniz? Şu işlem hattını uygulayacaksınız:
  1. Sohbet/günlük verilerini normalleştirin ve segmentlere ayırın.
  1. Sıkıştırma stratejileri seçin (OCR‑görsel, metinsel özetleme veya hibrit).
  1. DeepSeek‑OCR aracılığıyla kompakt görsel temsiller oluşturun.
  1. Elde etme için meta verilerle indeksleyin.
  1. Hem metin hem de resimleri kabul eden hibrit bir RAG istemiyle sorgulayın.
  1. Doğruluğu ve maliyeti değerlendirin.
Bölüm 1 — Veri Hazırlığı: Dağınık Geçmişleri Model Dostu Hale Getirin
  • Zaman damgalarını ve rolleri normalleştirin: örneğin, {timestamp, role, message}.
  • Dezavantajları: VLM desteği gerektirir; oluşturma ve resim G/Ç'si gerekir.
  • Ne zaman kullanılır: uzun bağlam doğruluğuna, diyagramlara/tablolara veya kesin ifade korumasına ihtiyacınız olduğunda.
  • Hibrit (önerilir)
  • Sabitleme için “iskelet” metin özetini tutun + derinlik için sıkıştırılmış görsel kartlar ekleyin.
  • Bu, elde etme hassasiyetini (metin) ve geri çağırma/doğruluğu (görsel) dengeler.
Bölüm 3 — DeepSeek‑OCR ile Görsel Bağlam Kartları Oluşturma Amaç: 5–20 KB metin aralıklarını, OCR/VLM okuması için optimize edilmiş 512–1024 px görüntülere dönüştürmek.
Şablon önerileri
  • Başlık çubuğu: oturum kimliği, zaman aralığı, konu etiketi.
  • İki sütunlu düzen: sol sütun anahtar dönüşler/günlükler için; sağ sütun vurgular için (hatalar, kararlar, komutlar, metrikler).
  • Kod/günlük satırları için tek aralıklı bloklar; bağlam için madde işaretli özetler.
  • Kontrast dostu tema; küçük yazı tiplerinden kaçının (1x ölçekte <11–12 pt).
Oluşturma ipuçları
  • Temiz, tutarlı kartlar üretmek için HTML/CSS kullanın (örneğin, Puppeteer/Playwright ekran görüntüleri).
  • İstemlerde belirli öğelere başvurmak için kararlı bağlantılar (satır numaraları, kimlikler) ekleyin.
  • Kart başına ~200–400 kelimeyle sınırlayın; oturum başına bir kart yığını oluşturun.
DeepSeek‑OCR geçişi
  • Gidiş‑dönüş doğruluğunu sağlamak için DeepSeek‑OCR'yi çalıştırın: kart → OCR metni. Bu, düzeninizin ve yazı tiplerinizin doğru şekilde çözüldüğünü iki kez kontrol eder.
  • OCR metni farklılaşıyorsa, yazı tiplerini, aralığı ayarlayın veya yoğun kodu birden çok karta bölün.
Neden işe yarıyor? Topluluk ve üçüncü taraf yazıları, metinsel bağlamı okunabilirliği korurken görsel belirteçlere sıkıştırırken anlamlı verimlilik kazanımlarına işaret ediyor.
Bölüm 4 — Özetleme Katmanları: İskeleti Koruyun, Kası Saklayın Gerektiğinde çözünürlüğü artırabilmeniz için katmanlı özetler uygulayın.
  • L0: Atomik satır/dönüş etiketleri — rol, zaman damgası, tür (hata, not, kod), gömme.
  • L1: Her 20–40 dönüş veya 2–5 dakikalık günlük için mikro özet (1–2 cümle).
  • L2: Kararlar, engelleyiciler, sonuçlar ve görsel kartlara bağlantılar içeren oturum özeti (5–8 madde).
  • L3: İş parçacığı iş parçacığı — haftalık veya proje düzeyinde toplamalar.
Pratik sezgiseller
  • Her zaman aynen bağlantılar ekleyin: hata kodları, SQL kimlikleri, izleme kimlikleri, commit SHA'ları.
  • Soyutlamadan önce çıkarımsal özetler kullanın; daha sonra okunabilirlik için soyutlayıcı ile iyileştirin.
  • Hızlı yakalama istemi için “son oturumdan bu yana ne değişti” maddesi ekleyin.
Bölüm 5 — Hibrit RAG için İndeksleme ve Alma Meta veri şeması
  • doc_id, session_id, time_range, roles, topic labels
  • önem puanı, hata şiddeti, bileşen/hizmet
  • bağlantılar: {card_id, line_number, section_heading}.
  • Hassasiyet ve derinlik için OCR tabanlı sıkıştırmayı katmanlı özetler ve RAG ile birleştirin.
  • Doğruluğu yüksek ve gecikmeyi düşük tutmak için düzenleri, yazı tiplerini ve indekslemeyi optimize edin.
  • Sıkıştırılmış kartları birinci sınıf kanıt olarak ele alın ve bunları istemlerde belirtin.
Sonraki Adımlar
  • Minimum işlem hattını bir sohbet projesinde veya günlük veri kümesinde prototipleyin.
  • 10 tipik sorgu için yalnızca metin ve hibrit sıkıştırmayı A/B testi yapın.
  • Kart tasarımını, alıcı karışımını ve bütçeleri doğruluk metriklerine göre ayarlayın.
  • Önbelleğe alma, ACL'ler ve izleme ile ekip iş akışlarına ölçeklendirin.

SSS

S1:DeepSeek‑OCR nedir ve LLM'ler için sohbet geçmişlerini sıkıştırmak için neden kullanılır? DeepSeek‑OCR, Bağlam Optik Sıkıştırmasını sağlar—büyük metin aralıklarını, VLM'lerin verimli bir şekilde işleyebileceği görsel belirteçler olarak kodlar. Bu, belirteç bütçelerini küçültebilir ve uzun bağlamlar için yüksek doğruluğu korurken yalnızca metin özetlemesinden daha iyi bir yapı koruyabilir.
S2:Görsel belirteç sıkıştırması, metin özetlemesiyle nasıl karşılaştırılır? Görsel belirteç sıkıştırması genellikle düzeni ve tam ifadeyi korurken daha yüksek etkili sıkıştırma elde eder; bu da alıntılar, kod ve hata dizeleriyle yardımcı olur. Özetleme daha hızlı ve basittir, ancak nadir ayrıntıları atlayabilir veya soyutlama hataları getirebilir.
S3:Günlükler ve sohbetler için DeepSeek‑OCR'yi RAG ile karıştırabilir miyim? Evet. Hızlı geri çağırma için metin özetlerini kullanın ve derinlik için OCR ile doğrulanmış görsel kartlar ekleyin. İki aşamalı bir alıcı önce özetleri, ardından en alakalı kartları alabilir, bu da hassasiyeti ve bağlam kapsamını dengeler.
S4:OCR ile sıkıştırılmış bağlam kartları için hangi düzenler en iyi sonucu verir? Başlık çubuğu, iki sütunlu içerik, kod için tek aralıklı bloklar ve vurgular için net maddeler içeren temiz HTML/CSS kullanın. Kart başına 200–400 kelime, 11–12 pt veya daha büyük yazı tipleri kullanın ve bir OCR gidiş‑dönüşü ile okunabilirliği doğrulayın.
S5:Sıkıştırmanın önemli bilgileri kaybedip kaybetmediğini nasıl ölçerim? Gerçekler altın kümesine karşı Fidelity@K'yi, satır numarası alıntıları aracılığıyla kanıt kapsamını ve gecikme/maliyet metriklerini izleyin. %95'ten büyük gerçek tutmayı hedefleyin ve çoğu yanıtın bir kart satırını veya bağlantı kimliğini alıntıladığından emin olun.

Son Makaleler
ChatPDF'i Ustalaştırma Rehberi: Yoğun Belgelerden Daha Hızlı İçgörüler

ChatPDF'i Ustalaştırma Rehberi: Yoğun Belgelerden Daha Hızlı İçgörüler

Hızlı ve Doğru Dokümanlar İçin En İyi X Otomatik Çeviri Alternatifi

Hızlı ve Doğru Dokümanlar İçin En İyi X Otomatik Çeviri Alternatifi

Samsung AI Çeviri İran'da Kullanılamıyor mu? Pratik Çözümler

Samsung AI Çeviri İran'da Kullanılamıyor mu? Pratik Çözümler

Farsça Çeviri Araçları: Daha Hızlı ve Doğru Çalışma İçin Pratik Rehber

Farsça Çeviri Araçları: Daha Hızlı ve Doğru Çalışma İçin Pratik Rehber

Derin ve Kaynak Gösterimli Araştırmalar için En İyi Grok Alternatifi

Derin ve Kaynak Gösterimli Araştırmalar için En İyi Grok Alternatifi

Yapay Zeka Görsel Oluşturucunun Gerçekten Kullanacağınız En İyi 15 Özelliği

Yapay Zeka Görsel Oluşturucunun Gerçekten Kullanacağınız En İyi 15 Özelliği