How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

희소한 어텐션, 희소하지 않은 사고

“혁신적인” 어텐션 메커니즘에 대해 사람들은 마술쇼를 보는 것처럼 고개를 끄덕이지만, 속으로는 아무도 그 마법의 비법을 묻지 않기를 바랍니다. DeepSeek Sparse Attention (DSA)도 그런 마법 중 하나입니다. 영리하고 빠르며, 자세히 들여다보면 수백 페이지의 수학을 끙끙댈 필요 없이 실제로 이해할 수 있습니다. 약속은 이렇습니다. 지능은 유지하고, 컴퓨팅 비용은 줄인다. 현실은? 경우에 따라 다르지만, 이번에는 상쇄 관계가 꽤 합리적으로 보입니다.

핵심만 말하자면, DSA는 대규모 언어 모델이 중요한 것에만 집중할 수 있도록 하는 방법입니다. 어정쩡하게가 아니라, “아마도 관련 있을 거야” 정도가 아니라. 완전한 자기 주의 집중에서 발생하는 이차 함수의 폭발을 쳐내면서도 모델이 서 있는 가지를 톱질하지 않는 세분화된 희소 어텐션 체계입니다. 기존 모델의 어텐션이 모든 단어가 다른 모든 단어와 눈을 맞춰야 하는 방이었다면, DSA는 내향적인 사람들이 잘 지내는 파티로 바꿉니다. 직접적인 경로, 불필요한 잡담 우회 감소, 소음 감소.

DeepSeek Sparse Attention, 대체 뭔가?

DSA는 자기 주의 집중의 계산 복잡도를 O(L²)에서 O(Lk)로 줄이는 희소 어텐션 메커니즘입니다. 여기서 L은 시퀀스 길이이고 k는 토큰당 “유지되는” 연결 수, 즉 선택된 (추정컨대 관련된) 이웃입니다. 한 줄로 요약하면 이렇습니다. 수학은 줄이고, 의미는 더하고. 모든 토큰이 다른 모든 토큰과 비교하는 대신, DSA는 하위 집합(이웃, 헤드, 윈도우, “앵커”, 모델에 가장 적합한 휴리스틱 또는 학습된 정책)을 선택하여 불필요한 데 시간을 낭비하지 않도록 합니다.

이것이 낯설게 들리지 않는다면, 맞습니다. 희소 어텐션은 새로운 것이 아닙니다. Longformer, BigBird, 블록 희소 커널, 그리고 수많은 “로컬 + 글로벌” 하이브리드가 있었습니다. 일반적인 문제는 희소 패턴이 리콜을 누출하거나(건초 더미에서 바늘을 놓침), 효율적으로 구현하기가 너무 고통스러워서 이론적으로 절약되는 모든 것이 커널 오버헤드로 다시 나타난다는 것입니다. DSA의 가장 큰 특징은 두 가지입니다. 첫째, 희소 패턴이 일반적인 블록 희소성보다 더 세분화되고 적응력이 뛰어납니다. 둘째, 실제 추론 스택(vLLM 포함)에서 실제로 작동하는 방식으로 엔드 투 엔드로 구현되었습니다.

직관: 잔디 깎는 기계가 아닌 번개 인덱서

제가 본 가장 도움이 되는 비유는 DSA가 번개 인덱서처럼 작동한다는 것입니다. 전체 필드를 깎지 않고 중요한 부분으로 빠르게 이동합니다. 마치 세 단락을 지우고 노래하는 문장을 유지하는 훌륭한 편집자와 같습니다. 이 시스템은 토큰당 높은 신호 연결의 작은 집합(일부 관련성 점수에 따른 상위 k개라고 생각하십시오)과 장거리 일관성이 엉망이 되지 않도록 얇은 구조적 백본(로컬 윈도우, 주기적인 글로벌 토큰)을 유지합니다.

엔지니어는 비유 뒤의 부분에 관심을 가질 것입니다. “관련성”은 운영상 무엇을 의미합니까? 다양한 DSA 보고서에서는 근접성과 사전 중요도에 따라 후보 키를 선택하는 휴리스틱을 암시하고, 그 뒤에 해당 후보 간의 컴팩트한 어텐션이 이어집니다. 마법이 아니라 분류입니다. 명백한 이웃을 유지하고(로컬 컨텍스트는 언어에 거의 항상 유용함), 글로벌 “랜드마크”를 뿌리고, 유망한 창 밖 토큰으로 어텐션을 선택적으로 라우팅합니다. 순 효과: 리콜을 손상시키지 않고 검색 공간의 크기를 줄입니다. 제대로 수행되면 이는 가지치기보다는 괜찮은 매너처럼 느껴집니다.

수학, 최소주의자 에디션

완전한 자기 주의 집중: O(L²d), 여기서 d는 헤드 차원입니다.

DSA: O(Lkd). 고정된 k의 경우 L에 대해 선형에 가깝습니다. 이는 긴 컨텍스트에 중요합니다. 128K 토큰에서 GPU 비용에 감사할 것입니다.

모델은 토큰당 동적 후보 세트를 유지합니다. 후보 선택 비용과 그들 간의 실제 어텐션 비용을 지불합니다. 후보 선택이 벡터화되고 캐시를 인식하면 이깁니다. 그렇지 않으면 풍선을 쥐어짜는 것입니다.

이것이 모든 희소 방법의 긴장입니다. 점근선을 줄이되 데이터 이동 및 커널 시작 오버헤드에서 다시 도입하지 마십시오. DSA 주변의 구현은 커널 수준 지원 및 스케줄러 통합을 강조하고 최근 게시물은 vLLM 지원이 정확히 배포 설정에서 이를 실현하기 위해 시작되는 것을 보여줍니다.

왜 DSA가 지금 중요한가?

긴 컨텍스트가 새로운 화면 크기 전쟁이기 때문입니다. 모든 사람이 200K 토큰 이상을 원합니다. 스크립트, 코드베이스, 양심 크기의 PDF. 해당 길이에서의 이차 어텐션은 대기 시간, 처리량 및 비용에 대한 시작점이 아닙니다. 영리한 청킹 및 검색으로 속일 수 있지만 트렁크가 계속 채워지기 때문에 자동차에 책장을 설치하는 것과 같습니다. DSA의 주장은 더 간단합니다. 실제 주의 집중 단계를 어리석게 비싸게 만들지 마십시오.

부수적인 이점은 안정성입니다. 매우 긴 시퀀스에 대한 완전한 어텐션은 수치적으로 까다롭고 메모리 노이즈가 발생할 수 있습니다. 희소 어텐션은 작업 세트를 축소하고 모델이 약한 쌍별 점수에 빠져 “잊어버릴” 가능성을 줄입니다. 구조의 백본과 그 위에 작은 적응형 조각을 유지합니다. 한 번 엔지니어링 결정처럼 느껴지는 실용적인 절충안입니다.

희소 동물원에서 DSA의 위치

고정 패턴(로컬 윈도우, 팽창): 빠르지만 깨지기 쉽습니다. 운이 좋지 않으면 장거리 교차 참조를 놓칩니다.

글로벌 토큰: 앵커를 추가합니다. 더 좋지만 대충입니다. 모든 것에 “CLS”를 적용하고 리콜이라고 부를 수는 없습니다.

학습된 정책을 통한 라우팅: 잠재적으로 이상적이지만 운영상 복잡합니다. 훈련 복잡성과 깨지기 쉬운 추론.

DSA의 세분화된 하이브리드: 로컬리티, 구조화된 글로벌 및 높은 신호 선택을 혼합하는 토큰당 컴팩트한 후보 세트를 큐레이팅합니다. 요점은 영리한 것이 아니라 대기 시간과 품질이 모두 확장될 수 있을 만큼 일관되게 충분히 좋은 것입니다.

성능: O(L²) 세금 환급

지금까지의 보도에서는 상당한 비용 절감을 주장합니다. “절반으로 줄이는” 비용이 숨 가쁜 기사에 나타나지만 요점은 정확한 숫자가 아니라 확장 곡선이 더 긴 프롬프트와 더 높은 동시성에 대한 실행 가능성으로 다시 구부러진다는 것입니다. 워크로드가 다음과 같은 경우:

100페이지 이상의 RAG 및 문서 채팅,

다중 파일 코드 탐색,

긴 스크래치패드를 유지하는 도구 사용 에이전트,

…DSA는 토큰당 계산 및 메모리를 줄입니다. 창으로 구분된 해킹 퍼레이드를 준비하는 대신 컨텍스트를 실제로 유용한 곳으로 푸시할 수 있습니다. 초기 vLLM 지원은 이것이 단순한 벤치-블링이 아니라 사람들이 모델을 배포하는 곳에서 실행된다는 것을 시사합니다.

주의 사항 (일명 화요일에 아무도 승리를 선언해서는 안되는 이유)

후보 선택은 무료가 아닙니다. 선택 루틴이 캐시 라인에서 넘어지거나 CPU-GPU 핑퐁으로 충돌하면 희소성 승리가 증발합니다.

k는 예산이지 생득권이 아닙니다. 너무 작으면 중요한 교차 참조를 삭제합니다. 너무 크면 다시 조밀해집니다.

훈련과 추론 불일치. 모델이 조밀하게 훈련되고 추론 시 희소하게 실행하는 경우 품질 저하가 예상됩니다. DSA의 가장 강력한 결과는 희소성이 제공 시간 장식이 아니라 훈련 식단의 일부일 때 나타납니다.

긴 꼬리 이상함. 희소 패턴은 30K 토큰 후에 갑자기 나타나는 콜백에서 때때로 빗나갑니다. 좋은 하이브리드는 주기적인 글로벌 또는 학습된 앵커로 헤지합니다.

이 모든 것이 책에 좋은 색인을 만드는 것처럼 들린다면 맞습니다. 너무 짧으면 아무것도 찾을 수 없습니다. 너무 길면 다시 책일 뿐입니다.

DSA가 유지할 것을 선택하는 방법

세부 사항은 구현에 따라 다르지만 플레이북은 다음과 같습니다.

로컬 윈도우: 슬라이딩 윈도우 내에서 이웃을 유지합니다. 대부분의 언어 구조는 로컬입니다. 2) 주기적/글로벌 토큰: 항상 전역적으로 연결되는 일반적인 “비콘”을 삽입합니다. 3) 현저성 점수 매기기: 이전 레이어 활성화, 캐시된 중요도 또는 상위 k 유사성과 같은 근사값에서 가벼운 신호를 사용하여 추가 원격 토큰을 선택합니다. 4) 컴팩트 어텐션: 유지된 세트의 합집합에 대해서만 어텐션을 실행합니다. 5) 레이어당 반복하여 다른 헤드가 다른 구조를 선호하도록 허용합니다.

이것은 정통이 아닙니다. 작동할 수 있는 가장 놀라운 것입니다. 그리고 분명히 최신 추론 스택에 착륙하는 운영 지원이 제공된다는 점을 감안하면 그렇습니다.

DSA vs. 청킹 vs. 검색: 독을 선택하십시오

단순한 청킹: 빠르지만 멍청합니다. 컨텍스트 경계가 절벽이 됩니다. 처리량에는 좋지만 미묘한 것에는 나쁩니다.

검색 증강 생성: 더 똑똑하지만 깨지기 쉽습니다. 생성기가 나중에 필요할 것을 검색기가 기억하는 데 달려 있습니다.

DSA 스타일의 희소 어텐션: 전체 스레드를 컨텍스트에 유지하고 계산을 중요한 곳에 집중합니다. 검색을 대체하지 않습니다. 검색을 덜 의지하게 만듭니다.

정직한 솔루션은 혼합입니다. 관련 문서를 가져오기 위한 검색, 융해 없이 긴 시퀀스에 대해 추론하기 위한 희소 어텐션. 클라우드 비용을 싫어하지 않고도 둘 다 할 수 있습니다.

품질: 여전히 이해합니까?

가장 중요한 질문은 희소 어텐션이 문장 간의 의미를 조용히 떨어뜨리는지 여부입니다. DeepSeek 모델에 대한 초기 보고서에 따르면 모델이 무의미한 쌍별 점수에 확률 질량을 낭비하지 않기 때문에 긴 컨텍스트에서 품질이 유지되거나 향상됩니다. 비결은 모델이 프롬프트를 통해 안정적인 백본을 갖도록 k와 글로벌 구조를 조정하는 것입니다. 그리고 다시 말하지만 루프에서 희소성으로 훈련하는 것이 중요합니다. 모델이 적응합니다. 수동 변속기로 운전하는 법을 배우는 것과 같습니다. 일단 리듬을 잡으면 자동으로 그리워하지 않습니다.

배포 현실: 커널, 캐시, 스케줄러

vLLM 지원 참고 사항은 언급할 가치가 있습니다. DSA는 단순한 종이 트릭이 아닙니다. 산란 수집 연극으로 GPU를 중단시키지 않도록 커널 지원 및 스케줄링에 대한 실제 작업이 진행되고 있습니다. 블록 희소 커널, 융합된 작업 및 신중한 KV 캐시 레이아웃은 이것을 만들거나 망칩니다. 희소 어텐션의 최악의 결과는 완벽하게 합리적인 아이디어가 메모리 대역폭 및 시작 오버헤드와 충돌하는 데서 비롯됩니다. 이러한 문제가 처리되면 희소성이 빛을 발합니다.

DSA가 빛나는 곳

구조화된 문서에 대한 긴 컨텍스트 Q&A. 로컬 + 비콘 믹스는 어텐션을 넘치지 않고 섹션과 교차 참조를 추적합니다.

코드베이스 추론. 로컬 윈도우는 파일 내 컨텍스트를 캡처합니다. 주기적/글로벌 링크는 파일, 함수 호출 및 가져오기를 가로지릅니다.

스크래치패드가 있는 에이전트. 희소 어텐션을 통해 에이전트는 5페이지 후에 넌센스로 저하되지 않고 긴 작업 메모리를 유지할 수 있습니다.

DSA가 (아직) 없는 곳

작은 프롬프트. 조밀한 어텐션은 괜찮습니다. 희소 오버헤드가 상각되지 않을 수 있습니다.

명백한 구조적 신호 없이 건초 더미에서 바늘을 찾는 것과 같은 도약이 필요한 고도로 얽힌 시 또는 퍼즐 프롬프트. 여전히 k를 조정할 수 있지만 이 방법은 수수께끼보다 패턴을 더 좋아합니다.

Sider.AI는 어떻습니까?

다음은 이러한 기술에 대한 테스트입니다. 사용자를 무보수 QA 엔지니어로 만들지 않고 도구를 더 좋게 만듭니까? 내 실행에서 희소 어텐션을 잘 통합하는 도구, 특히 문서 및 코드 채팅의 경우 덜 변덕스럽게 느껴집니다. Sider.AI는 실제로 여기서 작동합니다. 80페이지 분량의 사양을 붙여넣거나 리포지토리를 힘들게 탐색할 때 멈추거나 47페이지에 대해 환각을 일으키지 않고 길고 일관된 스레드를 유지하는 기능이 중요합니다. 마케팅에서는 “세분화된 희소성”에 대해 자랑하지 않으며 괜찮습니다. 사용자는 응답성을 유지하고 컨텍스트를 똑바로 유지하며 라스베이거스에서 주말처럼 비용이 들지 않는다는 점에 관심을 갖습니다. 크고 지저분한 입력을 사용하는 경우 이러한 종류의 어텐션 트릭은 눈에 띄는 결점을 줄이고 더 빠른 답변으로 나타나는 숨겨진 변경 사항입니다.

실용적인 지침: DSA 사용 여부를 결정하는 경우

컨텍스트가 일상적으로 >32K 토큰인 경우: 예, 평가하십시오.

배포 스택(vLLM, Triton 커널, KV 캐시 튜닝)을 소유하고 있는 경우: 특히 그렇습니다.

조밀하게 훈련된 가중치로 갇혀 있고 재훈련할 수 없는 경우: 신중하게 테스트하십시오. 부분 희소성 또는 헤드별 희소성을 고려하십시오.

대기 시간에 민감한 높은 QPS 워크로드: 여기에서 곡선 구부림이 중요합니다. p95 및 p99를 측정합니다.

그리고 GPU의 모든 것을 사랑하는 마음으로 가상 텍스트가 아닌 실제 프롬프트로 벤치마크하십시오. 희소 방법은 현실적인 관련성 분포에서 살거나 죽습니다.

메타 포인트: 좋은 취향으로서의 희소성

여기에는 미학이 있습니다. 모든 것에 똑같이 주의를 기울이는 모델은 모든 사람이 말하는 회의와 같습니다. 민주적으로 보이지만 아무것도 달성하지 못합니다. DSA의 감성은 편집적입니다. 흥미로운 부분에 집중하고 백본을 유지하고 예산을 유지하십시오. 머신 러닝보다 더 넓은 교훈을 원한다면 거기에 있습니다. 좋은 시스템은 모든 것을 수행하지 않습니다. 그들은 올바른 일을 빨리합니다.

불가피한 미래: 희소 훈련, 희소 제공

희소 패턴이 구워진 엔드 투 엔드로 훈련된 모델이 더 많이 보일 것입니다. 그것이 품질과 안정성의 마지막 10~15%가 나오는 곳입니다. 모델의 귀납적 편향이 제공 경로와 일치하도록 허용합니다. 희소하게 제공하지만 조밀하게 훈련하는 경우 모델에 고속도로에서 기어를 전환하도록 요청하는 것입니다. 작동할 수 있지만 움찔할 때 충격을 받지 마십시오.

한편 프레임워크는 희소 패턴을 구성 가능하게 만듭니다. 로컬 윈도우 + 주기적 글로벌 + 학습된 앵커 + 검색 인식 토큰. 마지막 비트(검색기 현저성과 어텐션 현저성 간의 루프 닫기)는 다음 명백한 단계처럼 느껴집니다. 가져오는 것이 주의를 기울이는 것을 알려주면 두 개의 반맹 시스템 사이에서 핑퐁을 중지합니다.

DSA는 어떻게 작동합니까? 짧은 답변

각 토큰에 대해 관련성이 있을 가능성이 높은 컴팩트한 토큰 세트(대부분 로컬, 일부 글로벌, 일부 스마트 선택)를 선택합니다.

해당 세트에 대해서만 어텐션을 실행하여 계산을 이차에서 컨텍스트 길이에서 대략 선형으로 줄입니다.

이론적 절감이 실제 대기 시간 승리로 나타나도록 신중한 커널 및 캐시 레이아웃에 의존합니다.

장거리 참조가 손실되지 않도록 구조와 충분한 글로벌 연결을 유지하여 품질을 유지합니다.

그게 다입니다. 향도 주문도 없습니다. 무엇에 주의를 기울여야 하는지에 대한 강화된 좋은 취향입니다.

반전 결말 (항상 있기 때문에)

모든 AI 트릭은 결국 실망의 순간을 맞이합니다. 희소 어텐션은 중요한 것을 놓칠 것입니다. 아마도 모델이 기능 시그니처를 저글링하는 동안 언어를 가로질러 3연과 37연을 연결해야 한다고 주장하는 영리한 비평가가 만든 프롬프트에서. 좋습니다. 그러나 대부분의 실제 작업은 시-벤치마크가 아니라 텍스트, 코드 및 사실을 갈아엎는 것입니다. 이를 위해 DSA는 단순한 좋은 아이디어가 아닙니다. 컨텍스트를 읽는 척하는 모델과 실제로 읽을 수 있는 모델의 차이입니다.

그리고 클라우드 예산에 구멍을 내지 않고 그렇게 할 수 있다면? 그것은 트릭이 아닙니다. 그것은 진전입니다.

FAQ

Q1:DeepSeek Sparse Attention (DSA)은 평이한 영어로 어떻게 작동합니까? DSA는 중요한 토큰, 즉 대부분 가까운 텍스트, 몇 개의 글로벌 앵커, 그리고 짧은 신호 선택 목록에 주의를 좁힙니다. O(L²) 비교 대신 O(Lk)를 실행하여 계산을 줄이면서 구조를 유지하여 품질을 유지합니다.

Q2:긴 컨텍스트의 경우 DSA가 청킹 또는 검색보다 낫습니까? DSA는 계산을 중요한 곳에 집중하면서 모든 것을 하나의 스레드에 유지합니다. 청킹은 절벽을 만들고 검색은 잊어버릴 수 있습니다. 최상의 설정은 가져오기를 위한 검색과 이차 세금 없이 긴 컨텍스트에서 추론하기 위한 DSA를 혼합합니다.

Q3:DSA는 조밀한 어텐션에 비해 모델 품질을 저해합니까? 희소성을 염두에 두고 훈련하고 제공하는 경우(그리고 k를 합리적으로 설정하는 경우) 품질이 유지됩니다. 종종 모델이 낮은 값 쌍에 빠지지 않기 때문에 긴 컨텍스트에 더 좋습니다. 조밀하게 훈련된 가중치에 대해 희소하게 제공하면 저하될 수 있으므로 실제 프롬프트로 벤치마크하십시오.

Q4:어떤 워크로드가 DSA의 가장 큰 혜택을 받습니까? 긴 컨텍스트 문서 Q&A, 코드베이스 탐색 및 에이전트 스크래치패드. 시퀀스 길이가 부풀어 오르고 조밀한 어텐션이 대기 시간, 메모리 압력 및 증가하는 비용으로 바뀌는 모든 곳.

Q5:vLLM은 배포를 위해 DSA를 지원합니까? 예, 최근 게시물에서는 vLLM이 DeepSeek의 세분화된 희소 어텐션에 대한 지원을 통합하고 커널 및 스케줄러 작업을 통해 프로덕션 파이프라인에서 실용적으로 만들고 있음을 보여줍니다.