조용한 혁명: 토큰을 절약하기 위해 텍스트를 픽셀로 변환
여기 직관에 반하는 진실이 있습니다. 텍스트를 이미지로 렌더링하면 언어 모델을 더 저렴하고 빠르게 만들 수 있습니다. DeepSeek‑OCR은 기존 OCR + LLM 설정과 비교하여 최대 10배의 토큰 비용 절감을 주장하는 '텍스트를 이미지로' 파이프라인을 대중화했습니다. 만약 이것이 이상하게 들린다면 - 왜 언어 문제에 컴퓨터 비전을 추가할까요? - 바로 이 설명이 시작되는 지점입니다.
이 심층 분석에서는 '텍스트를 이미지로' 접근 방식이 어떻게 작동하는지, 왜 토큰 수를 줄이는지, 그리고 언제 기존 OCR보다 나은지 살펴봅니다. 또한 에지 케이스, 정확도 절충, 실제 프로덕션 환경에 배포하는 실용적인 방법도 살펴봅니다.
간단한 소개: '텍스트를 이미지로' 접근 방식이란 무엇입니까?
- 기존 파이프라인: OCR (텍스트 추출) → 토큰으로 분할 → LLM으로 전송 → 토큰당 비용 지불.
- DeepSeek‑OCR의 접근 방식: 콘텐츠를 이미지 (또는 비전에 친숙한 레이아웃)로 유지 → 비전 인코더 + LLM 사용 → 시각적 패치/특성 토큰당 비용 지불 → 선택적으로 디코딩.
페이지를 수천 개의 서브워드 토큰으로 확장하는 대신 모델은 압축된 시각적 패치 그리드를 소비합니다. 각 패치는 특히 조밀한 레이아웃 (테이블, 영수증, 양식, PDF)의 경우 서브워드 토큰보다 훨씬 더 많은 정보를 인코딩합니다. 이 인코딩 효율성이 DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식이 토큰 비용을 최대 10배까지 줄이는 핵심 이유입니다.
OCR + LLM 워크플로에서 토큰 비용이 급증하는 이유
- 중복된 공백 및 상용구: OCR은 모든 문자를 추출합니다. 청킹은 이를 많은 서브워드 토큰으로 확장합니다.
- 레이아웃 오버헤드: 머리글, 바닥글, 페이지 번호 및 반복되는 법적 텍스트는 모두 토큰 수를 부풀립니다.
- 서식 손실: 테이블은 장황한 시퀀스가 됩니다. 구조화된 10×10 테이블은 수천 개의 토큰으로 폭발할 수 있습니다.
- 컨텍스트 창: 긴 문서는 슬라이딩 창 또는 검색 파이프라인이 필요하며 컨텍스트를 반복적으로 다시 보냅니다.
대조적으로, 시각적 인코더는 원시 문자 수와 관계없이 페이지를 고정된 패치 세트 (예: 페이지당 768–2,048 토큰)로 처리합니다. 이것이 DeepSeek‑OCR 디자인의 기본 효율성 승리입니다.
DeepSeek‑OCR이 최대 10배의 절감을 달성하는 방법
'텍스트를 이미지로' 스택을 4개의 레이어로 생각하십시오.
- PDF 페이지는 N개의 시각적 패치가 됩니다 (예: 영역당 14×14 = 196 패치; 또는 ~1–2k 토큰의 타일식 페이지).
- 각 패치는 비전-언어 모델이 추론할 수 있는 의미론적 힌트 (글리프 모양, 공간적 관계, 글꼴 큐)를 전달합니다.
- 모델은 긴 텍스트 설명으로 다시 만들지 않고도 문서 구조 (테이블, 제목, 콜아웃)를 '봅니다'.
- 검색을 위해 전체 페이지를 스트리밍하는 대신 관련 영역을 선택할 수 있습니다.
- 전체 문서 텍스트를 출력하는 대신 모델은 필요한 것만 추출할 수 있습니다. 필드, 테이블, 요약.
- 반복되는 요소 (로고, 머리글)는 페이지마다 유사한 시각적 토큰으로 나타나 보다 효율적인 주의 및 캐싱을 가능하게 합니다.
종합적으로 이러한 선택은 DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식이 양식, 송장, 과학 PDF 및 긴 계약에서 토큰 비용을 최대 10배까지 줄이는 이유를 설명합니다.
수학적 계산을 보여주세요: 대략적인 비용 비교
시나리오: 20페이지 계약, ~7,500 단어 (~10,000–12,000 OCR + 서식 지정 후 서브워드 토큰).
- 배치당 입력 토큰: 8,000+ (분할, 반복된 컨텍스트 필요)
- 출력 토큰 (요약, 추출): 500–1,000
- 총 비용: 높음, 청킹 및 재쿼리로 인한 지연 시간 추가
- 페이지당 시각적 토큰: ~1,000–2,000 (타일링/크기 축소로 인해 더 적은 경우가 많음)
- 대상 영역 쿼리: 한 번에 문서의 10–30%
- 출력: 작업당 200–500 토큰 (집중 디코딩)
- 총 비용: 종종 위의 일부이며 재전송 횟수 감소
수백 개의 문서에 걸쳐 확장하면 누적 절감액이 헤드라인 '최대 10배'의 비용 및 지연 시간에 접근합니다. 특히 반복적이고 레이아웃이 많은 콘텐츠의 경우.
'텍스트를 이미지로'가 기존 OCR보다 뛰어난 경우
- 조밀한 레이아웃: 테이블, 영수증, 송장, 배송 라벨, 의료 양식
- 다국어 또는 혼합 스크립트: 중국어 + 영어 + 수학 표기법, 여기서 OCR 조각화는 토큰을 부풀립니다.
- 노이즈가 많은 스캔: 스탬프, 워터마크, 기울어진 페이지—비전 모델은 깨지기 쉬운 OCR 파이프라인보다 노이즈에 대해 더 잘 추론합니다.
- 구조화된 추출: 특정 필드, 라인 항목 또는 테이블 셀 가져오기
- 컨텍스트 QA: 모든 텍스트를 다시 보내지 않고 페이지 전체에서 '어떤 조항이 종료를 다루는가?'
기존 OCR이 여전히 승리하는 경우
- 완벽한 충실도의 전체 텍스트 내보내기: 검색/인덱싱을 위해 깨끗하고 복사 가능한 텍스트가 필요합니다.
- 매우 낮은 리소스 장치: 비전 인코더 또는 대형 VLM을 실행할 수 없는 경우 간단한 OCR이 로컬에서 더 저렴할 수 있습니다.
- 접근성 워크플로: 화면 판독기에는 의미론적 텍스트 출력이 필요합니다. 텍스트 내보내기 단계를 추가하지 않으면 이미지 전용 흐름으로 충분하지 않습니다.
전문가 팁: 하이브리드화하십시오. 추론 및 필드 추출에는 '텍스트를 이미지로'를 사용하십시오. 최종 검색 가능한 아카이브 또는 접근성 레이어의 경우 OCR로 되돌립니다.
아키텍처 패턴: 실용적인 청사진
스택을 재구축하지 않고도 DeepSeek‑OCR 원칙을 채택하려면 이 모듈식 패턴을 사용하십시오.
- PDF, TIFF, 스캔을 허용합니다. 해상도를 정규화합니다 (예: 144–192 DPI).
- 패치 수를 제한하기 위해 긴 페이지를 타일링합니다.
- 비전 인코더를 실행하여 타일/페이지당 조밀한 임베딩을 만듭니다.
- 반복된 쿼리에 대해 임베딩을 캐시합니다 (비용 상각).
- 레이아웃 감지를 사용하여 후보 영역 (제목, 테이블, 서명 블록)을 선택합니다.
- 시각적 임베딩 또는 경량 감지기에 대해 벡터 검색을 적용합니다.
- 선택한 영역 + 작업 프롬프트로 VLM을 프롬프트합니다.
- 구조화된 출력에 대해 제약된 디코딩 (JSON 스키마)을 사용합니다.
- 필요한 경우 정확한 텍스트 문자열에 대한 선택적 OCR 패스
이 파이프라인은 시각적 토큰을 낮게 유지하고 모델의 초점을 좁히고 생성 길이를 줄입니다. 이는 주요 절감을 위해 결합되는 세 가지 레버입니다.
정확성, 신뢰성 및 에지 케이스
- 낮은 DPI의 미세 텍스트: 작은 글꼴이 잘못 읽힐 수 있습니다. 의심되는 작은 텍스트 영역에는 적응형 타일링 또는 더 높은 DPI를 사용하십시오.
- 손글씨: 비전 모델이 도움이 되지만 필드별 미세 조정 또는 특수 손글씨 인식기가 여전히 필요할 수 있습니다.
- 수학 및 코드 블록: 시각적 컨텍스트는 구조를 유지하는 데 도움이 되지만 정확한 구문 충실도를 위해 선택적 OCR을 고려하십시오.
- 병합된 셀이 있는 테이블: 레이아웃 주의가 일반적으로 도움이 되지만 사후 규칙은 신뢰성을 높일 수 있습니다 (예: 헤더 추론, 구분 기호 검사).
벤치마킹 팁: 원시 문자 오류율이 아닌 작업 수준 (필드 수준 F1, 테이블 정확도, QA 정확한 일치)에서 평가하십시오.
제어할 수 있는 비용 레버
- 다운샘플링: 낮은 DPI는 시각적 토큰을 줄입니다. 정확성을 유지하는 임계값을 테스트합니다.
- 영역 게이팅: 절 또는 테이블만 필요한 경우 전체 페이지를 보내지 마십시오.
- 출력 제약 조건: JSON 스키마 또는 regex 패턴은 장황한 생성을 줄입니다.
- 캐싱: 여러 질문에서 동일한 문서에 대해 시각적 임베딩을 재사용합니다.
- 혼합 정밀도/양자화: 자체 호스팅하는 경우 FP16/INT8은 계산 및 지연 시간을 줄일 수 있습니다.
구현 예 (시나리오)
- 라인 항목 블록과 공급업체 상자만 이미지로 보냅니다.
- 출력을 JSON 스키마 (날짜, 공급업체, 통화, 항목[])로 제한합니다.
- 정확한 문자열 일치를 보장하기 위해 송장 ID에 대한 선택적 OCR 폴백
- 각 페이지를 시각적으로 한 번 임베딩합니다. 벡터 DB에 저장합니다.
- 쿼리와 관련된 1–3개 영역 ('종료', '할당', '준거법')을 검색합니다.
- VLM에 영역 인덱스를 인용하고 ≤120 토큰으로 조항을 요약하도록 요청합니다.
- 제목, 요약, 그림 및 결론 영역에 집중합니다.
- 일반 요약 및 방법론 체크리스트를 생성합니다. 참고 문헌 섹션을 보내지 마십시오.
이러한 패턴은 정확성이 중요한 곳에서 정확성을 유지하면서 입력 및 출력 토큰을 모두 최소화합니다.
왜 최대 10배이고 항상 10배는 아닌가요?
토큰 절감액은 다음에 따라 다릅니다.
- 문서 밀도: 레이아웃이 무거울수록 더 많은 이점이 있습니다.
- 작업 범위: 대상 추출은 전체 텍스트 재생성을 능가합니다.
- 모델 가격: 비전 입력 가격과 텍스트 입력 가격은 공급자마다 다릅니다.
- 사전/사후 처리: 우수한 영역 선택 및 제약된 디코딩은 이득을 증폭시킵니다.
일반적으로 2–4배 + 복잡하고 다중 페이지이며 레이아웃이 많은 워크플로에서 ~10배까지 급증할 것으로 예상하십시오.
일반적인 오해
- '이미지가 텍스트보다 무거우므로 비용이 더 많이 들어야 합니다.'
- LLM 청구에서 비용은 원시 파일 크기가 아닌 모델 토큰을 추적합니다. 시각적 패치는 종종 수천 개의 서브워드 토큰을 대체합니다.
- 'OCR이 해결되었으므로 왜 복잡하게 만드나요?'
- OCR은 레이아웃 의미론, 테이블, 스탬프 및 다국어 노이즈로 어려움을 겪습니다. 비전-언어 모델은 구조를 직접 추론합니다.
- '이미지에서 정확한 텍스트를 얻을 수 없습니다.'
- 픽셀 완벽한 문자열의 경우에 해당합니다. 이것이 많은 팀이 정확성이 필요한 경우에만 선택적 OCR과 함께 이 접근 방식을 사용하는 이유입니다.
툴링 및 통합 참고 사항
- 검색 레이어: 레이아웃 감지기 (DocLayNet 스타일)를 사용하거나 양식/테이블에 대한 경량 영역 제안 모델을 훈련합니다.
- 스키마 제약된 디코딩: JSON 스키마 또는 Pydantic 스타일 제약 조건은 장황함과 오류를 줄입니다.
- 평가 하네스: 토큰 수뿐만 아니라 답변 시간, 문서당 비용 및 필드 수준 정확도를 측정합니다.
- 개인 정보 보호: 중요한 문서의 경우 온프레미스 VLM을 고려하고 시각적 임베딩의 암호화된 스토리지를 보장합니다.
언급할 가치가 있습니다. 다중 모드 워크플로를 탐색하는 경우 Sider.AI는 실험을 간소화할 수 있습니다. 텍스트 및 이미지 입력 모두에 대해 프롬프트를 반복하고, 모델 간의 비용/지연 시간을 나란히 비교하고, 평가 배치를 자동으로 생성할 수 있습니다. 이를 통해 DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식이 마이그레이션을 커밋하기 전에 실제로 자신의 데이터에서 토큰 비용을 최대 10배까지 줄이는지 확인할 수 있습니다. 실행 계획: 일주일 안에 파일럿
- 1–2일차: 현재 OCR + LLM 파이프라인을 계측합니다. 작업당 입력/출력 토큰, 지연 시간 및 정확도를 기록합니다.
- 3일차: 시각적 임베딩 단계와 영역 검색을 추가합니다. 페이지당 임베딩을 캐시합니다.
- 4일차: LLM 호출을 대상 영역에 대한 VLM으로 바꿉니다. 출력을 제한합니다.
- 5일차: 100–500개 문서에서 A/B 비교를 실행합니다. 비용 델타, 정확도 및 오류 모드를 추적합니다.
- 6–7일차: DPI, 타일링 및 영역 게이팅을 조정합니다. 선택적 OCR 폴백을 추가합니다.
숫자가 예상과 일치하면 전체 롤아웃으로 확장합니다. 그렇지 않은 경우 더 나은 영역 선택과 더 엄격한 디코딩에 집중하여 절감액을 실현하십시오.
주요 사항
- DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식은 장황한 텍스트 토큰을 압축된 시각적 패치로 대체하고, 영역 수준 검색을 사용하고, 생성을 최소화하여 토큰 비용을 최대 10배까지 줄입니다.
- 조밀하고 지저분하거나 다국어 문서 및 구조화된 추출 작업에서 뛰어납니다.
- 추론을 위한 비전, 정확한 문자열을 위한 선택적 OCR과 같은 하이브리드 전략은 종종 최상의 정확도 대 비용 비율을 제공합니다.
- 엄격한 측정 및 엄격한 출력 제약 조건은 실제 절감으로 가는 가장 빠른 경로입니다.
앞으로: 간략한 미래 예측
다중 모드 LLM이 성숙함에 따라 문서 이해가 주문형 텍스트 복구와 함께 비전 우선 추론으로 수렴될 것으로 예상하십시오. 더 많은 레이아웃 인식 사전 훈련, 더 저렴한 시각적 토큰 및 표준 JSON 제약된 출력을 보게 될 것입니다. 오늘날 LLM 비용과 싸우는 팀에게 '텍스트를 이미지로' 전환하는 것이 가장 큰 영향을 미치는 레버가 될 수 있습니다. 특히 규모가 클 때.
FAQ
Q1:DeepSeek‑OCR의 '텍스트를 이미지로' 접근 방식은 간단히 말해서 무엇입니까?
DeepSeek‑OCR은 페이지를 OCR로 긴 문자열로 변환하는 대신 콘텐츠를 이미지로 유지하고 비전-언어 모델을 사용하여 레이아웃을 추론합니다. 이렇게 하면 입력 토큰이 줄어들고 종종 비용이 최대 10배까지 절감됩니다.
Q2:'텍스트를 이미지로'가 OCR에 비해 토큰 비용을 어떻게 줄입니까?
시각적 토큰 (패치)은 텍스트와 레이아웃의 큰 영역을 요약하여 수천 개의 서브워드 토큰을 대체합니다. 영역 수준 검색 및 제약된 디코딩은 입력 및 출력 토큰을 더욱 줄입니다.
Q3:DeepSeek‑OCR이 기존 OCR보다 더 정확합니까?
레이아웃 이해 및 대상 추출의 경우 구조를 추론하기 때문에 더 나은 성능을 보이는 경우가 많습니다. 정확하고 문자 완벽한 텍스트의 경우 선택적 OCR과 함께 사용하면 가장 높은 정확도를 얻을 수 있습니다.
Q4:'텍스트를 이미지로' 파이프라인보다 기존 OCR을 선호해야 하는 경우는 언제입니까?
검색 또는 접근성을 위해 전체 복사 가능한 텍스트가 필요한 경우 기존 OCR을 사용하십시오. 복잡한 PDF에 대한 비용 효율적인 추출, 요약 및 QA의 경우 '텍스트를 이미지로' 접근 방식이 일반적으로 우수합니다.
Q5:DeepSeek‑OCR을 파일럿하여 최대 10배의 절감을 확인할 수 있는 방법은 무엇입니까?
대표 문서에서 현재 OCR + LLM 파이프라인을 벤치마킹한 다음 영역 게이팅 및 스키마 제약된 출력이 있는 비전-언어 모델로 바꿉니다. 토큰 수, 지연 시간 및 작업 정확도를 나란히 비교합니다.