How does DeepSeek‑OCR achieve 20× token reduction in practice?

By combining region filtering, schema‑based normalization, deduplication, content‑aware summarization, and compact serialization. These steps strip irrelevant and redundant text so the LLM sees only token‑efficient, task‑aligned data.

Will token reduction with DeepSeek‑OCR hurt accuracy on invoices or receipts?

Not if you keep critical fields intact and use confidence thresholds. In many cases, accuracy improves because noise is removed and the model focuses on structured, relevant fields.

What document types benefit most from DeepSeek‑OCR token compression?

Table‑heavy, multi‑page business documents like invoices, purchase orders, shipping documents, and bank statements. Redundant headers and repeated entities compress especially well.

How do I integrate DeepSeek‑OCR with my LLM without blowing up prompts?

Store a compact semantic JSON and retrieve only the fields needed per question using tool/function calls. Keep tight JSON with short keys and stable ordering to minimize tokens.

Can I use [Sider.AI](https://sider.ai) with DeepSeek‑OCR for cost optimization?

Yes. [Sider.AI](https://sider.ai) can orchestrate experiments across OCR settings and serialization formats, benchmark token usage and accuracy, and help you reach consistent 10–20× reductions in production.

DeepSeek-OCR이 20배 토큰 감소를 가능하게 하는 방법

주요 내용: 의미 손실 없이 토큰 20배 절감

긴 영수증, 송장 또는 스캔한 PDF 때문에 LLM 비용이 급증하는 것을 겪어보셨다면, 20배 토큰 절감이라는 약속이 거의 불가능하게 느껴질 수 있습니다. 하지만 최근의 DeepSeek-OCR 파이프라인은 시각적 텍스트를 언어 모델에 전달하기 전에 간결한 의미론적 표현으로 압축하여 정확히 그 결과를 달성하고 있습니다. 토큰 수가 줄어들고 응답 속도가 빨라지며 비용이 크게 절감되고 다운스트림 작업에서 정확도가 향상되는 경우가 많습니다.

이 설명에서는 DeepSeek-OCR이 어떻게 이러한 절감을 달성하는지, 어디에서 빛을 발하는지(그리고 어디에서 그렇지 않은지), 데이터를 엉망으로 만들지 않고 문서 QA, RAG 및 양식 이해와 같은 실제 워크플로에 연결하는 방법을 알아봅니다.

—

간단한 입문: DeepSeek-OCR이란 무엇인가?

DeepSeek-OCR을 LLM 시대 워크로드를 위해 최적화된 OCR 우선 비전-언어 파이프라인이라고 생각하십시오. 일반적인 목적의 모델에 원시 텍스트 또는 이미지를 직접 덤프하는 대신 DeepSeek-OCR은 다음과 같습니다.

강력한 레이아웃 인식으로 이미지/PDF에서 텍스트를 감지하고 인식합니다.

해당 텍스트를 구조화된 표현으로 정규화하고 압축합니다.

다운스트림 프롬프트에 맞춰 토큰 효율적인 출력을 생성합니다.

결과는 무엇일까요? LLM의 신호 대 잡음 비율을 개선하면서 페이지당 훨씬 적은 토큰을 소비하게 됩니다.

—

문서에서 토큰이 통제 불능 상태로 급증하는 이유

대부분의 팀은 PDF를 텍스트로 변환하여 모든 것을 프롬프트에 밀어넣는 순진한 접근 방식으로 시작합니다. 바로 그 지점에서 비용이 폭발합니다. 이유는 다음과 같습니다.

레이아웃 부풀림: 머리글, 바닥글, 페이지 번호, 워터마크 및 중복된 콘텐츠가 토큰을 소모합니다.

중복된 의미: 동일한 공급업체 이름이 모든 페이지에 나타납니다. 라인 항목이 레이블을 반복합니다.

낮은 가치의 텍스트: 법률 상투어, 표 테두리 또는 OCR 노이즈.

관련 없는 영역: 질문에 답하지 않는 로고, 스탬프, 서명.

DeepSeek-OCR은 대상 압축을 사용하여 이러한 각 레이어를 공격합니다.

—

20배 토큰 절감의 5가지 요소

단일 트릭이 아닌 DeepSeek-OCR은 여러 기술을 결합합니다. 정확한 스택은 구현에 따라 다르지만, 이는 결과를 움직이는 핵심 요소입니다.

1) 영역 인식 추출: 사용하지 않을 것은 읽지 마세요

시각적 분할은 텍스트 블록, 표 및 키-값 영역을 격리합니다.

관련 없는 영역(로고, 장식 머리글)은 필터링됩니다.

다운스트림 프롬프트는 "항목 표", "청구 주소", "총액"과 같이 선택한 영역만 요청할 수 있습니다. 결과: 응답하지 않는 영역을 제외하여 2~5배 절감됩니다.

2) 구조 우선 정규화: 레이아웃을 의미로 압축

원시 여러 줄 텍스트 대신 DeepSeek-OCR은 구조화된 JSON 또는 컴팩트한 스키마를 출력합니다.

예: 키-값 맵, 배열 형식의 표 행, ID가 있는 계층적 섹션.

선택적 정규화(날짜 형식, 통화 코드)는 토큰을 많이 사용하는 변형을 제거합니다. 결과: 레이아웃을 간결하게 표현하여 3~8배 절감됩니다.

3) 중복 제거 및 정규 엔터티: 하나의 ID, 여러 언급

반복되는 엔터티(회사 이름, 주소, 정책 식별자)는 단일 정규 항목에 매핑됩니다.

참조는 긴 문자열 대신 짧은 ID가 됩니다. 결과: 반복적인 문서에서 1.5~3배 절감됩니다.

4) 콘텐츠 인식 요약: 사실은 유지하고 불필요한 내용은 삭제

필드 수준 요약기는 장황한 단락을 사실적 설명으로 압축합니다.

도메인 조정 패턴(예: 보험, 물류, 금융)은 규정 준수에 중요한 세부 정보를 보존합니다. 결과: 장황함에 따라 2~6배 절감됩니다.

5) 토큰 최적 직렬화: LLM이 저렴하게 구문 분석하는 형식 선택

짧은 키가 있는 컴팩트한 JSON 또는 스키마 기반 튜플.

장황한 YAML, 과도한 공백 및 긴 중첩 레이블을 피합니다.

안정적인 필드 순서는 배치 간 프롬프트 오버헤드를 줄입니다. 결과: 순수한 형식 지정 규율로 1.2~2배 절감됩니다.

함께 쌓으면 이러한 요소는 일반적으로 지저분한 PDF에서 10배를 넘고 특히 표가 많은 경우 여러 페이지 양식, 송장 및 조밀한 보고서에서 20배에 도달할 수 있습니다.

—

실제로 파이프라인은 어떻게 보일까요?

실용적이고 솔루션 지향적인 흐름을 살펴보겠습니다. DeepSeek-OCR을 온프레미스로 실행하든 API를 통해 실행하든 인프라에 맞게 조정할 수 있습니다.

수집 및 분할

입력: 스캔한 PDF, 이미지 또는 하이브리드 PDF.

단계: 페이지 감지 → 영역 제안 → 텍스트 블록 및 표 감지 → 노이즈 필터링.

출력: 좌표 및 유형(머리글/본문/바닥글, 단락/표, 로고/서명)이 있는 영역 맵.

인식 및 정렬

맞춤법 바이어스 수정을 위한 언어 모델을 사용한 고정밀 OCR.

라인 병합, 열 정렬 및 표 셀 연결.

출력: 좌표에 고정된 텍스트 노드 + 표 구조.

스키마로 정규화

문서 클래스별 스키마 선택: 송장, 영수증, 선하 증권, 의료 기록.

정규식 + 분류기 + 엣지 케이스에 대한 LLM 폴백을 사용하여 필드 추출.

출력: 짧고 안정적인 키가 있는 컴팩트한 JSON(예: inv_id, issue_dt, due_dt, vendor_id, items[]).

중복 제거 및 정규화

공급업체 이름/주소를 정규 ID에 매핑합니다.

통화, 날짜, 단위를 정규화합니다. 상투적인 섹션을 제거합니다.

압축 및 직렬화

선택 사항: 긴 메모에 대한 콘텐츠 인식 요약.

토큰 저렴한 직렬화(타이트 JSON, 정렬된 키)를 적용합니다.

LLM 인터페이스

최소한의 질문에 맞춰진 컨텍스트 창을 제공합니다.

함수/도구 스키마를 통해 프롬프트와 관련된 필드만 검색합니다.

모델에 전체 문서를 다시 설명하는 데 비용을 지불하지 않고 가장 저렴한 형태로 필요한 것만 제공하므로 토큰 절감 효과가 복합적으로 나타나는 순간입니다.

—

예: 5페이지 송장을 20배 더 적은 토큰으로 전환

기준(순진)

OCR로 처리된 5페이지 텍스트 → 머리글, 바닥글, 표, 법적 참고 사항을 포함하여 ~9,000–12,000 토큰.

프롬프트 질문: "총액, 관할 구역별 세금 및 연체료는 얼마입니까?"

모델은 관련 없는 단락에서 컨텍스트를 낭비합니다.

DeepSeek-OCR 압축 사용

영역 필터링은 머리글/바닥글 워터마크, 상투적인 용어 및 중복된 공급업체 세부 정보를 제거합니다.

표 추출은 items[]를 50행 × 6열 → 300개의 컴팩트한 셀(1,500개 이상의 단어 아님)로 출력합니다.

정규화는 엔터티 문자열을 축소합니다. 중복 제거된 주소는 한 번 참조됩니다.

최종 컨텍스트: ~450–600 토큰.

결과

15–20배 더 적은 토큰.

노이즈가 제거되었으므로 대상 질문에 대한 대기 시간 단축, 비용 절감 및 정확도 향상.

—

DeepSeek-OCR이 빛나는 곳(그리고 그렇지 않은 곳)

강점

구조화된 비즈니스 문서: 송장, 영수증, PO, 배송 라벨, 은행 명세서.

여러 페이지의 일관성: 반복되는 섹션은 잘 압축됩니다.

표가 많은 콘텐츠: 산문보다 배열에서 가장 큰 토큰 절감 효과를 얻을 수 있습니다.

RAG 파이프라인: 사전 정규화된 청크는 검색 정확도를 높입니다.

제한 사항

손으로 쓴 매우 양식화된 텍스트: 인식 품질이 모든 것을 주도합니다.

법률 의견/의료 기록: 과도한 요약은 뉘앙스 손실의 위험이 있습니다. 더 높은 충실도 모드를 고려하십시오.

행-스팬/열-스팬이 있는 복잡한 표: 신중한 셀 매핑 및 QA가 필요합니다.

완화

확실하지 않은 경우 신뢰 임계값을 사용하고 이미지 자르기로 폴백합니다.

듀얼 모드를 유지하십시오. 컴팩트한 의미론적 보기와 주문형 고충실도 보기.

추적 가능성을 위해 스키마 필드와 시각적 좌표 간의 정렬을 기록합니다.

—

LLM 스택과 DeepSeek-OCR을 통합하는 방법

오늘 따라갈 수 있는 질문 주도 가이드.

사용자가 무엇을 묻고 있습니까?

총액 추출, 라인 항목 QA, 엔터티 매칭과 같은 작업 클래스를 미리 정의합니다.

각 작업을 최소 컨텍스트(질문에 답하는 몇 가지 필드)에 매핑합니다.

OCR 출력을 어떻게 저장합니까?

둘 다 저장하십시오. (1) 컴팩트한 의미론적 JSON 및 (2) 확인을 위한 선택적 원시 텍스트 또는 페이지 자르기.

모든 호출에서 토큰을 최소화하려면 짧은 키와 안정적인 순서를 사용하십시오.

필요한 것만 어떻게 검색합니까?

모델이 관련 필드만 수신하도록 도구/함수 스키마에 LLM 호출을 래핑합니다.

예제 도구 인수: 총액, taxes_by_region[], outstanding_balance, due_date, items[sku, qty, unit_price].

품질을 어떻게 높게 유지합니까?

필드당 신뢰도 점수를 추가합니다. 인적 검토에 대한 임계값을 설정합니다.

감사 가능성을 위해 페이지 좌표로 돌아가는 링크를 유지합니다.

차등 테스트를 실행합니다. 두 개의 독립적인 추출기에서 총액을 비교합니다.

—

20배 측정: 추적할 내용

페이지당 토큰(사전 vs. 사후): 핵심 KPI입니다.

쿼리당 대기 시간: 토큰과 선형적이어야 하며 구문 분석이 적기 때문에 종종 더 좋습니다.

대상 질문에 대한 정확도: 정확성을 떨어뜨리지 마십시오.

사람 참여율: 신뢰도가 향상됨에 따라 시간이 지남에 따라 줄이는 것을 목표로 합니다.

팁: 상위 3개 템플릿에서 100개 문서 벤치마크를 실행합니다. 워크플로당 예산(예: 문서 쿼리당 <$0.01)을 설정하고 예산에 도달할 때까지 반복합니다.

—

비용 모델링: 재무 승인을 위한 대략적인 계산

기준: 문서당 10,000 토큰, $X/1M 토큰 → 토큰 1,000개당 $0.01 → 문서당 $0.10.

압축 후: 500 토큰 → 문서당 $0.005.

월 10만 개의 문서: $10,000에서 $500로 — 대기 시간 절감 및 재시도 횟수 감소 전 95% 절감.

숫자는 공급업체에 따라 다르지만 방향은 유지됩니다. 먼저 압축하고 나중에 질문하십시오.

—

일반적인 함정(및 빠른 수정)

과도한 요약: 규제 용어 손실. 수정: 반드시 유지해야 하는 구문 및 섹션을 화이트리스트에 추가합니다.

스키마 드리프트: 시간이 지남에 따라 키가 변경됩니다. 수정: 스키마 버전을 지정합니다. 알 수 없는 필드를 거부합니다.

표 정렬 불량: 오프바이원 셀 오류. 수정: 시각적 교차 검사 및 총액 재계산 유효성 검사기.

프롬프트 부풀림: 장황한 시스템 프롬프트가 절감 효과를 상쇄합니다. 수정: 템플릿 최소화 및 도구 스키마.

—

이번 주에 구현할 수 있는 실제 시나리오

재무 운영: 20배 더 적은 토큰으로 송장 총액 및 세금을 자동 검증합니다. 검토를 위해 이상 징후를 표시합니다.

물류: 선하 증권에서 컨테이너 ID, 포트 및 날짜를 추출합니다. ERP와 대조합니다.

의료 관리: 청구 조정을 위해 EOB를 표준화된 필드로 압축합니다.

소매: 로열티 및 반품 워크플로를 위해 영수증에서 라인 항목을 추출합니다.

—

참고: Sider.AI를 사용하여 파이프라인을 운영하는 것

OCR, 정규화 및 LLM 호출을 함께 연결하는 경우 오케스트레이션 및 반복 속도가 중요합니다. 그런데 Sider.AI는 팀이 이를 반복 가능한 워크플로로 전환하는 데 도움이 될 수 있습니다. 다양한 OCR 설정에서 토큰 사용량을 비교하고 직렬화 형식에 대한 A/B 테스트를 실행하고 글루 코드를 다시 작성하지 않고도 모델 비용을 벤치마킹할 수 있습니다. 그 결과 20배 토큰 절감 목표에 더 빨리 도달할 수 있습니다.

—

주요 내용

DeepSeek-OCR의 20배 토큰 절감은 영역 필터링, 구조 우선 정규화, 중복 제거, 스마트 요약 및 토큰 최적 직렬화를 쌓아서 얻을 수 있습니다.

표가 많고 여러 페이지로 구성된 비즈니스 문서에서 절감 효과가 가장 큽니다.

듀얼 뷰를 유지하십시오. 저렴한 LLM 호출을 위한 컴팩트한 의미론적 레이어와 감사를 위한 고충실도 폴백.

페이지당 토큰, 정확도 및 대기 시간을 끊임없이 측정하고 스키마를 반복합니다.

규모에 맞게 오케스트레이션합니다. 검색 정렬된 프롬프트와 도구 스키마는 절감 효과를 유지합니다.

—

다음 단계: 최소 구현 계획

상위 3개 문서 유형을 식별하고 컴팩트한 스키마를 정의합니다.

영역 분할 및 표 추출을 사용하여 DeepSeek-OCR을 설정합니다.

정규화 및 중복 제거를 추가합니다. 필드당 신뢰도를 기록합니다.

짧은 키를 사용하여 타이트한 JSON으로 직렬화합니다. 안정적인 순서를 적용합니다.

필요한 필드만 소비하는 함수/도구 스키마에 LLM 프롬프트를 래핑합니다.

토큰 사용량과 정확도를 벤치마킹합니다. 10–20배에 도달할 때까지 반복합니다.

FAQ

Q1:DeepSeek-OCR은 실제로 어떻게 20배 토큰 절감을 달성합니까? 영역 필터링, 스키마 기반 정규화, 중복 제거, 콘텐츠 인식 요약 및 컴팩트한 직렬화를 결합하여 달성합니다. 이러한 단계를 통해 관련 없고 중복된 텍스트를 제거하여 LLM이 토큰 효율적이고 작업에 맞춰진 데이터만 볼 수 있습니다.

Q2:DeepSeek-OCR을 사용한 토큰 절감이 송장 또는 영수증의 정확도를 저해합니까? 중요한 필드를 그대로 유지하고 신뢰도 임계값을 사용하는 경우 그렇지 않습니다. 많은 경우 노이즈가 제거되고 모델이 구조화되고 관련성 있는 필드에 집중하므로 정확도가 향상됩니다.

Q3:DeepSeek-OCR 토큰 압축으로 가장 많은 이점을 얻을 수 있는 문서 유형은 무엇입니까? 송장, 구매 주문, 배송 문서 및 은행 명세서와 같이 표가 많고 여러 페이지로 구성된 비즈니스 문서입니다. 중복된 머리글과 반복되는 엔터티는 특히 잘 압축됩니다.

Q4:프롬프트를 날리지 않고 LLM과 DeepSeek-OCR을 통합하려면 어떻게 해야 합니까? 컴팩트한 의미론적 JSON을 저장하고 도구/함수 호출을 사용하여 질문당 필요한 필드만 검색합니다. 짧은 키와 안정적인 순서로 타이트한 JSON을 유지하여 토큰을 최소화합니다.

Q5:비용 최적화를 위해 DeepSeek-OCR과 함께 Sider.AI를 사용할 수 있습니까? 예. Sider.AI는 OCR 설정 및 직렬화 형식에서 실험을 오케스트레이션하고 토큰 사용량과 정확도를 벤치마킹하며 프로덕션에서 일관된 10–20배 절감을 달성하는 데 도움을 줄 수 있습니다.