What is DeepSeek‑OCR’s “text as image” approach in simple terms?

Instead of converting pages to long strings with OCR, DeepSeek‑OCR keeps content as images and uses a vision‑language model to reason over layout. This reduces input tokens and often cuts costs by up to 10×.

How does “text as image” reduce token costs compared to OCR?

Visual tokens (patches) summarize large regions of text and layout, replacing thousands of subword tokens. Region‑level retrieval and constrained decoding further slash both input and output tokens.

Is DeepSeek‑OCR more accurate than traditional OCR?

For layout understanding and targeted extraction, it often performs better because it reasons over structure. For exact, character‑perfect text, pairing it with selective OCR can yield the highest accuracy.

When should I prefer classic OCR over the “text as image” pipeline?

Use classic OCR if you need full, copyable text for search or accessibility. For cost‑efficient extraction, summaries, and QA on complex PDFs, the "text as image" approach is typically superior.

How can I pilot DeepSeek‑OCR to verify up to 10× savings?

Benchmark your current OCR + LLM pipeline on representative documents, then swap in a vision‑language model with region gating and schema‑constrained outputs. Compare token counts, latency, and task accuracy side‑by‑side.

DeepSeek-OCR의 '텍스트-이미지' 접근 방식이 토큰 비용을 최대 10배까지 절감하는 이유

조용한 혁명: 토큰을 절약하기 위해 텍스트를 픽셀로 변환

여기 직관에 반하는 진실이 있습니다. 텍스트를 이미지로 렌더링하면 언어 모델을 더 저렴하고 빠르게 만들 수 있습니다. DeepSeek‑OCR은 기존 OCR + LLM 설정과 비교하여 최대 10배의 토큰 비용 절감을 주장하는 '텍스트를 이미지로' 파이프라인을 대중화했습니다. 만약 이것이 이상하게 들린다면 - 왜 언어 문제에 컴퓨터 비전을 추가할까요? - 바로 이 설명이 시작되는 지점입니다.

이 심층 분석에서는 '텍스트를 이미지로' 접근 방식이 어떻게 작동하는지, 왜 토큰 수를 줄이는지, 그리고 언제 기존 OCR보다 나은지 살펴봅니다. 또한 에지 케이스, 정확도 절충, 실제 프로덕션 환경에 배포하는 실용적인 방법도 살펴봅니다.

간단한 소개: '텍스트를 이미지로' 접근 방식이란 무엇입니까?

기존 파이프라인: OCR (텍스트 추출) → 토큰으로 분할 → LLM으로 전송 → 토큰당 비용 지불.

DeepSeek‑OCR의 접근 방식: 콘텐츠를 이미지 (또는 비전에 친숙한 레이아웃)로 유지 → 비전 인코더 + LLM 사용 → 시각적 패치/특성 토큰당 비용 지불 → 선택적으로 디코딩.

페이지를 수천 개의 서브워드 토큰으로 확장하는 대신 모델은 압축된 시각적 패치 그리드를 소비합니다. 각 패치는 특히 조밀한 레이아웃 (테이블, 영수증, 양식, PDF)의 경우 서브워드 토큰보다 훨씬 더 많은 정보를 인코딩합니다. 이 인코딩 효율성이 DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식이 토큰 비용을 최대 10배까지 줄이는 핵심 이유입니다.

OCR + LLM 워크플로에서 토큰 비용이 급증하는 이유

중복된 공백 및 상용구: OCR은 모든 문자를 추출합니다. 청킹은 이를 많은 서브워드 토큰으로 확장합니다.

레이아웃 오버헤드: 머리글, 바닥글, 페이지 번호 및 반복되는 법적 텍스트는 모두 토큰 수를 부풀립니다.

서식 손실: 테이블은 장황한 시퀀스가 됩니다. 구조화된 10×10 테이블은 수천 개의 토큰으로 폭발할 수 있습니다.

컨텍스트 창: 긴 문서는 슬라이딩 창 또는 검색 파이프라인이 필요하며 컨텍스트를 반복적으로 다시 보냅니다.

대조적으로, 시각적 인코더는 원시 문자 수와 관계없이 페이지를 고정된 패치 세트 (예: 페이지당 768–2,048 토큰)로 처리합니다. 이것이 DeepSeek‑OCR 디자인의 기본 효율성 승리입니다.

DeepSeek‑OCR이 최대 10배의 절감을 달성하는 방법

'텍스트를 이미지로' 스택을 4개의 레이어로 생각하십시오.

서브워드 토큰화 대신 시각적 토큰화

PDF 페이지는 N개의 시각적 패치가 됩니다 (예: 영역당 14×14 = 196 패치; 또는 ~1–2k 토큰의 타일식 페이지).

각 패치는 비전-언어 모델이 추론할 수 있는 의미론적 힌트 (글리프 모양, 공간적 관계, 글꼴 큐)를 전달합니다.

레이아웃 인식 추론

모델은 긴 텍스트 설명으로 다시 만들지 않고도 문서 구조 (테이블, 제목, 콜아웃)를 '봅니다'.

검색을 위해 전체 페이지를 스트리밍하는 대신 관련 영역을 선택할 수 있습니다.

희소 디코딩 (더 적게 생성)

전체 문서 텍스트를 출력하는 대신 모델은 필요한 것만 추출할 수 있습니다. 필드, 테이블, 요약.

생성 감소 = 출력 토큰 감소.

패치 재사용을 통한 압축

반복되는 요소 (로고, 머리글)는 페이지마다 유사한 시각적 토큰으로 나타나 보다 효율적인 주의 및 캐싱을 가능하게 합니다.

종합적으로 이러한 선택은 DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식이 양식, 송장, 과학 PDF 및 긴 계약에서 토큰 비용을 최대 10배까지 줄이는 이유를 설명합니다.

수학적 계산을 보여주세요: 대략적인 비용 비교

시나리오: 20페이지 계약, ~7,500 단어 (~10,000–12,000 OCR + 서식 지정 후 서브워드 토큰).

기존 OCR + LLM

배치당 입력 토큰: 8,000+ (분할, 반복된 컨텍스트 필요)

출력 토큰 (요약, 추출): 500–1,000

총 비용: 높음, 청킹 및 재쿼리로 인한 지연 시간 추가

DeepSeek‑OCR '텍스트를 이미지로'

페이지당 시각적 토큰: ~1,000–2,000 (타일링/크기 축소로 인해 더 적은 경우가 많음)

대상 영역 쿼리: 한 번에 문서의 10–30%

출력: 작업당 200–500 토큰 (집중 디코딩)

총 비용: 종종 위의 일부이며 재전송 횟수 감소

수백 개의 문서에 걸쳐 확장하면 누적 절감액이 헤드라인 '최대 10배'의 비용 및 지연 시간에 접근합니다. 특히 반복적이고 레이아웃이 많은 콘텐츠의 경우.

'텍스트를 이미지로'가 기존 OCR보다 뛰어난 경우

조밀한 레이아웃: 테이블, 영수증, 송장, 배송 라벨, 의료 양식

다국어 또는 혼합 스크립트: 중국어 + 영어 + 수학 표기법, 여기서 OCR 조각화는 토큰을 부풀립니다.

노이즈가 많은 스캔: 스탬프, 워터마크, 기울어진 페이지—비전 모델은 깨지기 쉬운 OCR 파이프라인보다 노이즈에 대해 더 잘 추론합니다.

구조화된 추출: 특정 필드, 라인 항목 또는 테이블 셀 가져오기

컨텍스트 QA: 모든 텍스트를 다시 보내지 않고 페이지 전체에서 '어떤 조항이 종료를 다루는가?'

기존 OCR이 여전히 승리하는 경우

완벽한 충실도의 전체 텍스트 내보내기: 검색/인덱싱을 위해 깨끗하고 복사 가능한 텍스트가 필요합니다.

매우 낮은 리소스 장치: 비전 인코더 또는 대형 VLM을 실행할 수 없는 경우 간단한 OCR이 로컬에서 더 저렴할 수 있습니다.

접근성 워크플로: 화면 판독기에는 의미론적 텍스트 출력이 필요합니다. 텍스트 내보내기 단계를 추가하지 않으면 이미지 전용 흐름으로 충분하지 않습니다.

전문가 팁: 하이브리드화하십시오. 추론 및 필드 추출에는 '텍스트를 이미지로'를 사용하십시오. 최종 검색 가능한 아카이브 또는 접근성 레이어의 경우 OCR로 되돌립니다.

아키텍처 패턴: 실용적인 청사진

스택을 재구축하지 않고도 DeepSeek‑OCR 원칙을 채택하려면 이 모듈식 패턴을 사용하십시오.

수집

PDF, TIFF, 스캔을 허용합니다. 해상도를 정규화합니다 (예: 144–192 DPI).

패치 수를 제한하기 위해 긴 페이지를 타일링합니다.

시각적 임베딩

비전 인코더를 실행하여 타일/페이지당 조밀한 임베딩을 만듭니다.

반복된 쿼리에 대해 임베딩을 캐시합니다 (비용 상각).

영역 검색

레이아웃 감지를 사용하여 후보 영역 (제목, 테이블, 서명 블록)을 선택합니다.

시각적 임베딩 또는 경량 감지기에 대해 벡터 검색을 적용합니다.

VLM 추론

선택한 영역 + 작업 프롬프트로 VLM을 프롬프트합니다.

구조화된 출력에 대해 제약된 디코딩 (JSON 스키마)을 사용합니다.

후처리

필드 (날짜, 금액, 통화)를 정규화합니다.

필요한 경우 정확한 텍스트 문자열에 대한 선택적 OCR 패스

이 파이프라인은 시각적 토큰을 낮게 유지하고 모델의 초점을 좁히고 생성 길이를 줄입니다. 이는 주요 절감을 위해 결합되는 세 가지 레버입니다.

정확성, 신뢰성 및 에지 케이스

낮은 DPI의 미세 텍스트: 작은 글꼴이 잘못 읽힐 수 있습니다. 의심되는 작은 텍스트 영역에는 적응형 타일링 또는 더 높은 DPI를 사용하십시오.

손글씨: 비전 모델이 도움이 되지만 필드별 미세 조정 또는 특수 손글씨 인식기가 여전히 필요할 수 있습니다.

수학 및 코드 블록: 시각적 컨텍스트는 구조를 유지하는 데 도움이 되지만 정확한 구문 충실도를 위해 선택적 OCR을 고려하십시오.

병합된 셀이 있는 테이블: 레이아웃 주의가 일반적으로 도움이 되지만 사후 규칙은 신뢰성을 높일 수 있습니다 (예: 헤더 추론, 구분 기호 검사).

벤치마킹 팁: 원시 문자 오류율이 아닌 작업 수준 (필드 수준 F1, 테이블 정확도, QA 정확한 일치)에서 평가하십시오.

제어할 수 있는 비용 레버

다운샘플링: 낮은 DPI는 시각적 토큰을 줄입니다. 정확성을 유지하는 임계값을 테스트합니다.

영역 게이팅: 절 또는 테이블만 필요한 경우 전체 페이지를 보내지 마십시오.

출력 제약 조건: JSON 스키마 또는 regex 패턴은 장황한 생성을 줄입니다.

캐싱: 여러 질문에서 동일한 문서에 대해 시각적 임베딩을 재사용합니다.

혼합 정밀도/양자화: 자체 호스팅하는 경우 FP16/INT8은 계산 및 지연 시간을 줄일 수 있습니다.

구현 예 (시나리오)

송장 라인 항목 추출

라인 항목 블록과 공급업체 상자만 이미지로 보냅니다.

출력을 JSON 스키마 (날짜, 공급업체, 통화, 항목[])로 제한합니다.

정확한 문자열 일치를 보장하기 위해 송장 ID에 대한 선택적 OCR 폴백

계약 조항 QA

각 페이지를 시각적으로 한 번 임베딩합니다. 벡터 DB에 저장합니다.

쿼리와 관련된 1–3개 영역 ('종료', '할당', '준거법')을 검색합니다.

VLM에 영역 인덱스를 인용하고 ≤120 토큰으로 조항을 요약하도록 요청합니다.

과학 PDF 요약

제목, 요약, 그림 및 결론 영역에 집중합니다.

일반 요약 및 방법론 체크리스트를 생성합니다. 참고 문헌 섹션을 보내지 마십시오.

이러한 패턴은 정확성이 중요한 곳에서 정확성을 유지하면서 입력 및 출력 토큰을 모두 최소화합니다.

왜 최대 10배이고 항상 10배는 아닌가요?

토큰 절감액은 다음에 따라 다릅니다.

문서 밀도: 레이아웃이 무거울수록 더 많은 이점이 있습니다.

작업 범위: 대상 추출은 전체 텍스트 재생성을 능가합니다.

모델 가격: 비전 입력 가격과 텍스트 입력 가격은 공급자마다 다릅니다.

사전/사후 처리: 우수한 영역 선택 및 제약된 디코딩은 이득을 증폭시킵니다.

일반적으로 2–4배 + 복잡하고 다중 페이지이며 레이아웃이 많은 워크플로에서 ~10배까지 급증할 것으로 예상하십시오.

일반적인 오해

'이미지가 텍스트보다 무거우므로 비용이 더 많이 들어야 합니다.'

LLM 청구에서 비용은 원시 파일 크기가 아닌 모델 토큰을 추적합니다. 시각적 패치는 종종 수천 개의 서브워드 토큰을 대체합니다.

'OCR이 해결되었으므로 왜 복잡하게 만드나요?'

OCR은 레이아웃 의미론, 테이블, 스탬프 및 다국어 노이즈로 어려움을 겪습니다. 비전-언어 모델은 구조를 직접 추론합니다.

'이미지에서 정확한 텍스트를 얻을 수 없습니다.'

픽셀 완벽한 문자열의 경우에 해당합니다. 이것이 많은 팀이 정확성이 필요한 경우에만 선택적 OCR과 함께 이 접근 방식을 사용하는 이유입니다.

툴링 및 통합 참고 사항

검색 레이어: 레이아웃 감지기 (DocLayNet 스타일)를 사용하거나 양식/테이블에 대한 경량 영역 제안 모델을 훈련합니다.

스키마 제약된 디코딩: JSON 스키마 또는 Pydantic 스타일 제약 조건은 장황함과 오류를 줄입니다.

평가 하네스: 토큰 수뿐만 아니라 답변 시간, 문서당 비용 및 필드 수준 정확도를 측정합니다.

개인 정보 보호: 중요한 문서의 경우 온프레미스 VLM을 고려하고 시각적 임베딩의 암호화된 스토리지를 보장합니다.

언급할 가치가 있습니다. 다중 모드 워크플로를 탐색하는 경우 Sider.AI는 실험을 간소화할 수 있습니다. 텍스트 및 이미지 입력 모두에 대해 프롬프트를 반복하고, 모델 간의 비용/지연 시간을 나란히 비교하고, 평가 배치를 자동으로 생성할 수 있습니다. 이를 통해 DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식이 마이그레이션을 커밋하기 전에 실제로 자신의 데이터에서 토큰 비용을 최대 10배까지 줄이는지 확인할 수 있습니다.

실행 계획: 일주일 안에 파일럿

1–2일차: 현재 OCR + LLM 파이프라인을 계측합니다. 작업당 입력/출력 토큰, 지연 시간 및 정확도를 기록합니다.

3일차: 시각적 임베딩 단계와 영역 검색을 추가합니다. 페이지당 임베딩을 캐시합니다.

4일차: LLM 호출을 대상 영역에 대한 VLM으로 바꿉니다. 출력을 제한합니다.

5일차: 100–500개 문서에서 A/B 비교를 실행합니다. 비용 델타, 정확도 및 오류 모드를 추적합니다.

6–7일차: DPI, 타일링 및 영역 게이팅을 조정합니다. 선택적 OCR 폴백을 추가합니다.

숫자가 예상과 일치하면 전체 롤아웃으로 확장합니다. 그렇지 않은 경우 더 나은 영역 선택과 더 엄격한 디코딩에 집중하여 절감액을 실현하십시오.

주요 사항

DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식은 장황한 텍스트 토큰을 압축된 시각적 패치로 대체하고, 영역 수준 검색을 사용하고, 생성을 최소화하여 토큰 비용을 최대 10배까지 줄입니다.

조밀하고 지저분하거나 다국어 문서 및 구조화된 추출 작업에서 뛰어납니다.

추론을 위한 비전, 정확한 문자열을 위한 선택적 OCR과 같은 하이브리드 전략은 종종 최상의 정확도 대 비용 비율을 제공합니다.

엄격한 측정 및 엄격한 출력 제약 조건은 실제 절감으로 가는 가장 빠른 경로입니다.

앞으로: 간략한 미래 예측

다중 모드 LLM이 성숙함에 따라 문서 이해가 주문형 텍스트 복구와 함께 비전 우선 추론으로 수렴될 것으로 예상하십시오. 더 많은 레이아웃 인식 사전 훈련, 더 저렴한 시각적 토큰 및 표준 JSON 제약된 출력을 보게 될 것입니다. 오늘날 LLM 비용과 싸우는 팀에게 '텍스트를 이미지로' 전환하는 것이 가장 큰 영향을 미치는 레버가 될 수 있습니다. 특히 규모가 클 때.

FAQ

Q1:DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식은 간단히 말해서 무엇입니까? DeepSeek‑OCR은 페이지를 OCR로 긴 문자열로 변환하는 대신 콘텐츠를 이미지로 유지하고 비전-언어 모델을 사용하여 레이아웃을 추론합니다. 이렇게 하면 입력 토큰이 줄어들고 종종 비용이 최대 10배까지 절감됩니다.

Q2:'텍스트를 이미지로'가 OCR에 비해 토큰 비용을 어떻게 줄입니까? 시각적 토큰 (패치)은 텍스트와 레이아웃의 큰 영역을 요약하여 수천 개의 서브워드 토큰을 대체합니다. 영역 수준 검색 및 제약된 디코딩은 입력 및 출력 토큰을 더욱 줄입니다.

Q3:DeepSeek‑OCR이 기존 OCR보다 더 정확합니까? 레이아웃 이해 및 대상 추출의 경우 구조를 추론하기 때문에 더 나은 성능을 보이는 경우가 많습니다. 정확하고 문자 완벽한 텍스트의 경우 선택적 OCR과 함께 사용하면 가장 높은 정확도를 얻을 수 있습니다.

Q4:'텍스트를 이미지로' 파이프라인보다 기존 OCR을 선호해야 하는 경우는 언제입니까? 검색 또는 접근성을 위해 전체 복사 가능한 텍스트가 필요한 경우 기존 OCR을 사용하십시오. 복잡한 PDF에 대한 비용 효율적인 추출, 요약 및 QA의 경우 '텍스트를 이미지로' 접근 방식이 일반적으로 우수합니다.

Q5:DeepSeek‑OCR을 파일럿하여 최대 10배의 절감을 확인할 수 있는 방법은 무엇입니까? 대표 문서에서 현재 OCR + LLM 파이프라인을 벤치마킹한 다음 영역 게이팅 및 스키마 제약된 출력이 있는 비전-언어 모델로 바꿉니다. 토큰 수, 지연 시간 및 작업 정확도를 나란히 비교합니다.