İddialı sav: Anlam kaybı olmadan 20 kat daha az token
Uzun makbuzlar, faturalar veya taranmış PDF'ler nedeniyle LLM faturanızın arttığını gördüyseniz, 20 kat token azaltma vaadi neredeyse gerçek olamayacak kadar iyi geliyor. Ancak son ‑OCR işlem hatlarının görsel metni bir dil modeline vermeden önce yalın, semantik temsiller halinde sıkıştırarak başardığı tam olarak budur. Daha az token girişi, daha hızlı yanıtlar, önemli ölçüde daha düşük maliyet ve genellikle sonraki görevlerde daha iyi doğruluk.
Bu açıklamada, ‑OCR'nin bu azaltmalara nasıl ulaştığını, nerelerde başarılı olduğunu (ve olmadığını) ve verilerinizi bulamaç haline getirmeden belge QA, RAG ve form anlama gibi gerçek iş akışlarına nasıl bağlayacağınızı ayrıntılı olarak açıklıyoruz.
—
Hızlı bir özet: ‑OCR gerçekte nedir?
‑OCR'yi LLM çağı iş yükleri için optimize edilmiş, OCR öncelikli bir görüntü‑dil işlem hattı olarak düşünün. Ham metni veya görüntüleri doğrudan genel amaçlı bir modele dökmek yerine, ‑OCR şunları yapar:
- Sağlam düzen farkındalığı ile görüntü/PDF'lerden metni algılar ve tanır.
- Bu metni yapılandırılmış temsiller halinde normalleştirir ve sıkıştırır.
- Sonraki istemlerle uyumlu, token açısından verimli çıktılar üretir.
Sonuç? LLM'niz için sinyal‑gürültü oranını iyileştirirken sayfa başına çok daha az token harcarsınız.
—
Token'lar belgelerde neden kontrolden çıkar?
Çoğu ekip saf bir yaklaşımla başlar: PDF'leri metne dönüştürün ve her şeyi isteme atın. Maliyetlerin patladığı yer burasıdır. İşte nedeni:
- Düzen şişkinliği: Başlıklar, altbilgiler, sayfa numaraları, filigranlar ve yinelenen içerik token'ları tüketir.
- Gereksiz semantik: Aynı satıcı adı her sayfada görünür; satır öğeleri etiketleri yineler.
- Düşük değerli metin: Hukuki standart metin, tablo kenarlıkları veya OCR gürültüsü.
- İlgisiz bölgeler: Sorunuzu yanıtlamayan logolar, damgalar, imzalar.
‑OCR, bu katmanların her birine hedeflenmiş sıkıştırma ile saldırır.
—
20 kat token azaltmanın ardındaki beş kaldıraç
‑OCR, tek bir numara yerine birden fazla tekniği birleştirir. Tam yığın uygulamaya göre değişir, ancak bunlar iğneyi hareket ettiren temel kaldıraçlardır.
1) Bölgeye duyarlı çıkarma: Kullanmayacağınız şeyi okumayın
- Görsel segmentasyon, metin bloklarını, tabloları ve anahtar-değer bölgelerini yalıtır.
- İlgisiz bölgeler (logolar, dekoratif başlıklar) filtrelenir.
- Sonraki istemler yalnızca seçilen bölgeleri isteyebilir, örn. "öğeler tablosu", "fatura adresi", "toplamlar".
Sonuç: Yanıt olmayan bölgeleri hariç tutarak 2–5 kat azaltma.
2) Yapı öncelikli normalleştirme: Düzeni anlam haline sıkıştırın
- ‑OCR, ham çok satırlı metin yerine yapılandırılmış JSON veya kompakt şemalar çıkarır.
- Örnekler: anahtar‑değer eşlemeleri, dizi olarak tablo satırları, kimliklere sahip hiyerarşik bölümler.
- İsteğe bağlı kanonikleştirme (tarih biçimleri, para birimi kodları) token açısından yoğun varyasyonları kaldırır.
Sonuç: Düzeni öz bir şekilde temsil ederek 3–8 kat azaltma.
3) Yinelenmeyi giderme ve kanonik varlıklar: tek kimlik, birçok bahsetme
- Yinelenen varlıklar (şirket adı, adresler, poliçe tanımlayıcıları) tek bir kanonik girişe eşlenir.
- Referanslar, uzun dizeler yerine kısa kimlikler haline gelir.
Sonuç: Tekrarlayan belgelerde 1,5–3 kat azaltma.
4) İçeriğe duyarlı özetleme: gerçekleri saklayın, gereksiz ayrıntıları atın
- Alan düzeyinde özetleyiciler, uzun paragrafları olgusal ifadelere sıkıştırır.
- Alana özel ayarlanmış kalıplar (örn. sigorta, lojistik, finans) uyumluluk açısından kritik ayrıntıları korur.
Sonuç: Kelime yoğunluğuna bağlı olarak 2–6 kat azaltma.
5) Token açısından optimum serileştirme: LLM'lerin ucuza ayrıştırdığı biçimleri seçin
- Kısa anahtarlara sahip kompakt JSON veya şema kılavuzluğunda demetler.
- Ayrıntılı YAML'den, aşırı boşluktan ve uzun iç içe etiketlerden kaçının.
- Kararlı alan sırası, toplu işlerdeki istem yükünü azaltır.
Sonuç: Salt biçimlendirme disiplininden 1,2–2 kat azaltma.
Birlikte yığılmış bu kaldıraçlar, dağınık PDF'lerde rutin olarak 10 katı aşar ve özellikle tabloların baskın olduğu çok sayfalı formlarda, faturalarda ve yoğun raporlarda 20 kata ulaşabilir.
—
İşlem hattı pratikte nasıl görünüyor?
Pratik, çözüme yönelik bir akışı inceleyelim. ‑OCR'yi şirket içinde veya bir API aracılığıyla çalıştırmanız fark etmeksizin, bunu altyapınıza uyarlayabilirsiniz.
- Giriş: taranmış PDF, görüntü veya karma PDF.
- Adımlar: sayfa algılama → bölge önerileri → metin bloğu ve tablo algılama → gürültü filtreleme.
- Çıktı: koordinatlara ve türlere sahip bir bölge haritası (başlık/gövde/altbilgi, paragraf/tablo, logo/imza).
- Yazım yanlışı düzeltmesi için dil modelleriyle yüksek doğruluklu OCR.
- Satır birleştirme, sütun hizalama ve tablo hücresi ilişkilendirmesi.
- Çıktı: koordinatlara bağlı metin düğümleri + tablo yapıları.
- Belge sınıfı başına bir şema seçin: fatura, makbuz, konşimento, tıbbi not.
- Kenar durumlar için regex + sınıflandırıcı + LLM geri dönüşü ile alanları çıkarın.
- Çıktı: kısa, kararlı anahtarlara sahip kompakt JSON (örn. inv_id, issue_dt, due_dt, vendor_id, items[]).
- Yinelenmeyi gider ve kanonikleştir
- Satıcı adlarını/adreslerini kanonik kimliklere eşleyin.
- Para birimlerini, tarihleri, birimleri normalleştirin; standart metin bölümlerini kaldırın.
- İsteğe bağlı: uzun notlar için içeriğe duyarlı özetleme.
- Token açısından ucuz serileştirmeyi zorlayın (sıkı JSON, sıralı anahtarlar).
- Minimum, soruyla hizalanmış bir bağlam penceresi sağlayın.
- Bir işlev/araç şeması aracılığıyla yalnızca istemle ilgili alanları alın.
Token tasarruflarının birleştiği an budur, çünkü artık tüm belgeyi modele yeniden açıklamak için ödeme yapmıyorsunuz; yalnızca ihtiyacı olanı, mümkün olan en ucuz biçimde sunuyorsunuz.
—
Örnek: 5 sayfalık bir faturayı 20 kat daha az tokene dönüştürme
Temel (saf)
- 5 sayfa OCR'lenmiş metin → başlıklar, altbilgiler, tablolar, yasal notlar dahil ~9.000–12.000 token.
- İstem sorar: "Toplam tutar, yargı alanına göre vergiler ve gecikme ücretleri nelerdir?"
- Model, ilgisiz paragraflarda bağlamı boşa harcar.
‑OCR sıkıştırması ile
- Bölge filtreleme, başlık/altbilgi filigranlarını, standart metin terimlerini ve yinelenen satıcı ayrıntılarını kaldırır.
- Tablo çıkarma, items[]'ı 50 satır × 6 sütun → 300 kompakt hücre olarak çıkarır, 1.500'den fazla kelime değil.
- Kanonikleştirme, varlık dizelerini küçültür; yinelenen adresler bir kez başvurulur.
- Son bağlam: ~450–600 token.
Sonuç
- Gürültü kaldırıldığından hedeflenen sorularda daha hızlı gecikme süresi, daha düşük maliyet ve daha yüksek doğruluk.
—
‑OCR'nin nerelerde başarılı olduğu (ve olmadığı)
Güçlü yönler
- Yapılandırılmış ticari belgeler: faturalar, makbuzlar, siparişler, nakliye etiketleri, banka ekstreleri.
- Çok sayfalı tutarlılık: yinelenen bölümler iyi sıkıştırılır.
- Tablo ağırlıklı içerik: düzyazıya göre dizilerle en büyük token tasarrufları.
- RAG işlem hatları: önceden normalleştirilmiş parçalar, alım hassasiyetini artırır.
Sınırlamalar
- El yazısı, son derece stilize metin: tanıma kalitesi her şeyi yönlendirir.
- Hukuki görüşler/tıbbi anlatılar: ağır özetleme, nüans kaybı riski taşır; daha yüksek doğruluklu modları düşünün.
- Satır aralığı/sütun aralığına sahip karmaşık tablolar: dikkatli hücre eşlemesi ve QA'ya ihtiyaç vardır.
Hafifletmeler
- Emin olmadığınızda güven eşiklerini kullanın ve görüntü kırpmalarına geri dönün.
- Çift modları koruyun: kompakt bir semantik görünüm ve isteğe bağlı yüksek doğruluklu bir görünüm.
- İzlenebilirlik için şema alanları ve görsel koordinatlar arasındaki hizalamayı günlüğe kaydedin.
—
‑OCR'yi LLM yığınınızla nasıl entegre edersiniz
Bugün izleyebileceğiniz soru odaklı bir kılavuz.
Kullanıcı ne soruyor?
- Görev sınıflarını önceden tanımlayın: toplam çıkarma, satır‑öğesi QA, varlık eşleştirme.
- Her görevi minimum bağlama eşleyin: soruyu yanıtlayan birkaç alan.
OCR çıktısını nasıl saklıyoruz?
- Her ikisini de saklayın: (1) kompakt bir semantik JSON ve (2) doğrulama için isteğe bağlı ham metin veya sayfa kırpmaları.
- Her çağrıda token'ları en aza indirmek için kısa anahtarlar ve kararlı sıralama kullanın.
Yalnızca ihtiyaç duyulanı nasıl alırız?
- LLM çağrınızı bir araç/işlev şemasına sarın, böylece model yalnızca ilgili alanları alır.
- Örnek araç argümanları: toplamlar, bölgeye_göre_vergiler[], ödenmemiş_bakiye, son_ödeme_tarihi, öğeler[sku, miktar, birim_fiyat].
Kaliteyi nasıl yüksek tutarız?
- Alan başına güven puanları ekleyin; insan incelemesi için eşikler belirleyin.
- Denetlenebilirlik için sayfa koordinatlarına geri bağlantılar tutun.
- Diferansiyel testler çalıştırın: iki bağımsız çıkarıcıdan elde edilen toplamları karşılaştırın.
—
20 katı ölçme: neyi izlemeli
- Sayfa başına token (önce ve sonra): temel KPI'niz.
- Sorgu başına gecikme süresi: azaltmalar, token'larla doğrusal olmalıdır, daha az ayrıştırma nedeniyle genellikle daha iyidir.
- Hedef sorularda doğruluk: doğruluğu feda etmeyin.
- İnsan‑döngü oranı: güven arttıkça zamanla azaltmayı hedefleyin.
İpucu: En iyi üç şablonunuzda 100 belgeli bir kıyaslama çalıştırın. İş akışı başına bir bütçe oluşturun (örn. belge sorgusu başına <$0,01) ve ona ulaşana kadar yineleyin.
—
Maliyet modelleme: finans onayı için kabataslak matematik
- Temel: Belge başına 10.000 token, $X/1M token'da → 1.000 token başına $0,01 → belge başına $0,10.
- Sıkıştırmadan sonra: 500 token → belge başına $0,005.
- Ayda 100 bin belgede: 10.000 dolardan 500 dolara — gecikme süresi tasarrufları ve daha az yeniden deneme öncesinde %95'lik bir azalma.
Rakamlar sağlayıcıya göre değişecektir, ancak yön aynı kalır: önce sıkıştırın, sonra sorun.
—
Yaygın tuzaklar (ve hızlı düzeltmeler)
- Aşırı özetleme: düzenleyici terimleri kaybetme. Düzeltme: mutlaka tutulması gereken ifadeleri ve bölümleri beyaz listeye alın.
- Şema kayması: anahtarlar zamanla değişir. Düzeltme: şemanızın sürümünü oluşturun; bilinmeyen alanları reddedin.
- Tablo yanlış hizalaması: bir hücre hataları. Düzeltme: görsel çapraz kontroller ve toplamı yeniden hesaplama doğrulayıcıları.
- İstem şişkinliği: ayrıntılı sistem istemleri tasarruflarınızı dengeler. Düzeltme: şablon minimalizmi ve araç şemaları.
—
Bu hafta uygulayabileceğiniz gerçek dünya senaryoları
- Finans operasyonları: fatura toplamlarını ve vergilerini 20 kat daha az token ile otomatik olarak doğrulayın; inceleme için anormallikleri işaretleyin.
- Lojistik: konşimentolardan konteyner kimliklerini, limanları ve tarihleri çıkarın; ERP'ye göre mutabakat yapın.
- Sağlık hizmetleri yönetimi: talep kararı için EOB'leri standartlaştırılmış alanlara sıkıştırın.
- Perakende: sadakat ve iade iş akışları için makbuzlardan satır öğeleri çıkarın.
—
Belirtmekte fayda var: işlem hattını kullanıma sunmak için Sider.AI'yı kullanma
OCR'yi, normalleştirmeyi ve LLM çağrılarını bir araya getiriyorsanız, düzenleme ve yineleme hızı önemlidir. Bu arada, Sider.AI, ekiplerin bunu tekrarlanabilir bir iş akışına dönüştürmesine yardımcı olabilir: farklı OCR ayarlarında token kullanımını karşılaştırabilir, serileştirme biçimlerinde A/B testleri çalıştırabilir ve yapıştırıcı kodu yeniden yazmadan model maliyetlerini kıyaslayabilirsiniz. Bunun karşılığı, 20 kat token azaltma hedefine daha hızlı ulaşmaktır. —
Temel çıkarımlar
- ‑OCR'nin 20 kat token azaltması, bölge filtreleme, yapı öncelikli normalleştirme, yinelenmeyi giderme, akıllı özetleme ve token açısından optimum serileştirme yığınlamasından gelir.
- Tasarruflar en çok tablo ağırlıklı, çok sayfalı ticari belgelerde büyüktür.
- Çift görünümleri koruyun: ucuz LLM çağrıları için kompakt bir semantik katman ve denetimler için yüksek doğruluklu bir geri dönüş.
- Acımasızca ölçün: sayfa başına token, doğruluk ve gecikme süresi — ve şemanızı yineleyin.
- Ölçek için düzenleyin: alma ile hizalanmış istemler ve araç şemaları, tasarrufların kalıcı olmasını sağlar.
—
Sonraki adımlar: minimum bir uygulama planı
- En iyi üç belge türünüzü belirleyin ve kompakt şemalar tanımlayın.
- Bölge segmentasyonu ve tablo çıkarma ile ‑OCR'yi ayarlayın.
- Kanonikleştirme ve yinelenmeyi giderme ekleyin; alan başına güveni günlüğe kaydedin.
- Kısa anahtarlara sahip sıkı JSON'a serileştirin; kararlı sıralamayı zorlayın.
- LLM istemlerinizi yalnızca gerekli alanları tüketen işlev/araç şemalarına sarın.
- Token kullanımını ve doğruluğu kıyaslayın; 10–20 kata ulaşana kadar yineleyin.
SSS
S1:‑OCR pratikte 20 kat token azaltmayı nasıl başarıyor?
Bölge filtreleme, şema tabanlı normalleştirme, yinelenmeyi giderme, içeriğe duyarlı özetleme ve kompakt serileştirme birleştirerek. Bu adımlar ilgisiz ve gereksiz metni ortadan kaldırır, böylece LLM yalnızca token açısından verimli, görevle hizalanmış verileri görür.
S2:‑OCR ile token azaltma, faturalarda veya makbuzlarda doğruluğu etkiler mi?
Kritik alanları sağlam tutarsanız ve güven eşiklerini kullanırsanız etkilemez. Çoğu durumda, gürültü kaldırıldığı ve model yapılandırılmış, ilgili alanlara odaklandığı için doğruluk artar.
S3:‑OCR token sıkıştırmasından en çok hangi belge türleri yararlanır?
Faturalar, siparişler, nakliye belgeleri ve banka ekstreleri gibi tablo ağırlıklı, çok sayfalı ticari belgeler. Gereksiz başlıklar ve yinelenen varlıklar özellikle iyi sıkıştırılır.
S4:İstemleri patlatmadan ‑OCR'yi LLM'm ile nasıl entegre ederim?
Kompakt bir semantik JSON saklayın ve araç/işlev çağrılarını kullanarak soru başına yalnızca gerekli alanları alın. Token'ları en aza indirmek için kısa anahtarlara ve kararlı sıralamaya sahip sıkı JSON'u koruyun.
S5:Maliyet optimizasyonu için Sider.AI'yı ‑OCR ile kullanabilir miyim?
Evet. Sider.AI, OCR ayarları ve serileştirme biçimleri arasında deneyleri düzenleyebilir, token kullanımını ve doğruluğu kıyaslayabilir ve üretimde tutarlı 10–20 kat azaltmaya ulaşmanıza yardımcı olabilir.