How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

Sparse Attention That Isn’t Sparse Thinking

สิ่งที่เกี่ยวกับกลไก Attention ที่ “ปฏิวัติวงการ” คือทุกคนพยักหน้าเห็นด้วยราวกับกำลังดูนักมายากล จากนั้นก็แอบหวังว่าคงไม่มีใครขอให้พวกเขาอธิบายกลไกนั้น DeepSeek Sparse Attention (DSA) ก็เป็นหนึ่งในกลไกเหล่านั้น ซึ่งฉลาด รวดเร็ว และถ้าคุณเพ่งมองรายละเอียด แล้วก็สามารถเข้าใจได้โดยไม่ต้องอ่านคณิตศาสตร์เป็นร้อยๆ หน้า คำมั่นสัญญา: คงไว้ซึ่งความฉลาด ลดภาระการคำนวณ ความเป็นจริง: ขึ้นอยู่กับสถานการณ์ แต่คราวนี้การแลกเปลี่ยนดูสมเหตุสมผลอย่างน่าชื่นชม

มาเข้าเรื่องกันเลย: DSA เป็นวิธีที่ Large Language Models จะให้ความสนใจเฉพาะสิ่งที่สำคัญเท่านั้น ไม่ใช่แค่กึ่งๆ ไม่ใช่แค่ “อาจจะเกี่ยวข้อง” แต่เป็นรูปแบบ Sparse Attention ที่ละเอียด ซึ่งจะตัดการขยายตัวแบบ Quadratic ที่คุณได้จาก Full Self-Attention โดยไม่ตัดกิ่งที่โมเดลยืนอยู่ หาก Attention ของโมเดลเก่าเป็นห้องที่ทุกคำต้องสบตากับทุกคำ DSA จะเปลี่ยนให้กลายเป็นปาร์ตี้ที่ Introvert สามารถอยู่รอดได้: เส้นทางตรง ลดการทักทายไร้สาระ และลดสัญญาณรบกวน

DeepSeek Sparse Attention คืออะไรกันแน่

DSA เป็นกลไก Sparse Attention ที่ลดความซับซ้อนในการคำนวณของ Self-Attention จาก O(L²) เป็น O(Lk) โดยที่ L คือความยาวของ Sequence และ k คือจำนวน Connections ที่ “เก็บไว้” ต่อ Token ซึ่งก็คือ Neighbors ที่ถูกเลือก ซึ่งน่าจะเกี่ยวข้อง นั่นคือแนวคิดหลักในบรรทัดเดียว ลดคณิตศาสตร์ เพิ่มความเข้าใจ: แทนที่จะให้ทุก Token เปรียบเทียบตัวเองกับทุก Token อื่นๆ DSA จะเลือก Subset ซึ่งก็คือ Neighbors, Heads, Windows, “Anchors” ไม่ว่าจะใช้ Heuristic หรือ Learned Policy แบบใดที่สมเหตุสมผลที่สุดสำหรับโมเดล เพื่อให้คุณไม่ต้องเสียเวลากับเรื่องไร้สาระ

หากคุณคิดว่าสิ่งนี้ฟังดูคุ้นเคย ก็เป็นเช่นนั้น: Sparse Attention ไม่ใช่เรื่องใหม่ เรามี Longformer, BigBird, Block-Sparse Kernels และ Hybrid แบบ “Local + Global” อีกมากมาย ปัญหาปกติคือรูปแบบ Sparse เหล่านั้นอาจทำให้ Recall รั่วไหล (พลาดเข็มในกองหญ้า) หรือใช้งานได้อย่างมีประสิทธิภาพยากมาก จนไม่ว่าคุณจะประหยัดอะไรได้ในทางทฤษฎี ก็จะกลับมาเป็น Kernel Overhead ทั้งหมด ข้อดีของ DSA มีสองประการ: ประการแรก รูปแบบ Sparsity มีความละเอียดและปรับเปลี่ยนได้มากกว่า Block Sparsity ทั่วไป ประการที่สอง ได้รับการ Implement แบบ End-to-End ในลักษณะที่ใช้งานได้จริงบน Inference Stacks จริงๆ ซึ่งรวมถึง vLLM ด้วย

สัญชาตญาณ: Lightning Indexer ไม่ใช่ Lawn Mower

อุปมาอุปไมยที่มีประโยชน์ที่สุดที่ฉันเคยเห็น: DSA ทำหน้าที่เหมือน Lightning Indexer ไม่ได้ตัดทั้งสนาม แต่พุ่งไปยังสิ่งที่สำคัญ เหมือนกับบรรณาธิการที่ดีที่ขีดฆ่าสามย่อหน้าและเก็บประโยคที่ไพเราะ ระบบจะรักษาส่วนน้อยของ Connections ที่มีสัญญาณสูงต่อ Token ซึ่งคิดว่าเป็น Top-k ตาม Relevance Scoring บางประเภท พร้อมด้วย Backbone ที่บางของ Structure (Local Windows, Periodic Global Tokens) เพื่อให้ Coherence ระยะยาวไม่กลายเป็นโคลนตม

สิ่งที่วิศวกรให้ความสนใจคือส่วนหลังอุปมาอุปไมย: “Relevance” หมายถึงอะไรในการปฏิบัติงาน? เอกสาร DSA ต่างๆ แนะนำ Heuristic ที่เลือก Candidate Keys ตามความใกล้ชิดและความสำคัญก่อนหน้า ตามด้วย Compact Attention ในหมู่ Candidates เหล่านั้น ไม่ใช่เวทมนตร์ แต่เป็นการคัดกรอง คุณเก็บ Neighbors ที่ชัดเจนไว้ (Local Context มีประโยชน์เกือบเสมอสำหรับภาษา) โรย “Landmarks” ทั่วโลก และกำหนดเส้นทาง Attention ไปยัง Tokens นอก Window ที่มีแนวโน้มดี ผลลัพธ์สุทธิ: คุณลด Search Space ให้มีขนาดเล็กลงโดยไม่ทำให้ Recall เป็นง่อย เมื่อทำได้อย่างถูกต้อง จะรู้สึกเหมือนมารยาทที่ดีมากกว่าการตัดแต่ง

คณิตศาสตร์ ฉบับมินิมอล

Full Self-Attention: O(L²d) โดยที่ d คือ Head Dimension

DSA: O(Lkd) สำหรับ k ที่คงที่ จะเป็น Linear-ish ใน L สิ่งนี้สำคัญสำหรับ Context ที่ยาว ที่ 128K Tokens ค่า GPU ของคุณจะขอบคุณ

โมเดลจะรักษา Dynamic Candidate Set ต่อ Token คุณต้องจ่ายสำหรับการเลือก Candidate รวมถึง Attention ที่เกิดขึ้นจริงในหมู่พวกเขา หากการเลือก Candidate เป็นแบบ Vectorized และ Cache-Aware คุณก็จะชนะ หากไม่ คุณกำลังบีบลูกโป่ง

นั่นคือความตึงเครียดในวิธี Sparse ทั้งหมด: ลด Asymptotics แต่ไม่ได้นำกลับมาใช้ใหม่ในการเคลื่อนย้ายข้อมูลและ Kernel Launch Overhead การ Implement รอบๆ DSA เน้นที่ Kernel-Level Support และ Scheduler Integration และ Posts ล่าสุดแสดงให้เห็นว่า vLLM Support กำลังเข้ามาเพื่อให้สิ่งนี้เป็นจริงในการตั้งค่า Deployment

ทำไม DSA ถึงสำคัญในตอนนี้

เพราะ Long Context คือ Screen Size War ครั้งใหม่ ทุกคนต้องการ 200K Tokens ขึ้นไป ทั้ง Scripts, Codebases, PDFs ขนาดเท่ามโนธรรมของคุณ Quadratic Attention ที่ความยาวเหล่านั้นไม่ใช่จุดเริ่มต้นสำหรับ Latency, Throughput และ Cost คุณสามารถหลอกมันได้ด้วย Chunking และ Retrieval ที่ชาญฉลาด แต่นั่นก็เหมือนกับการติดตั้งชั้นวางหนังสือในรถของคุณเพราะ Trunk ของคุณเต็มอยู่เสมอ ข้อโต้แย้งของ DSA นั้นง่ายกว่า: ทำให้ขั้นตอน Attention ที่เกิดขึ้นจริงไม่แพงอย่างโง่เขลา

ข้อดีอีกอย่างคือความเสถียร Full Attention ใน Sequence ที่ยาวมากอาจทำให้เกิดปัญหาทางตัวเลขและ Memory Noisy Sparse Attention จะลด Working Set และลดโอกาสที่โมเดลจะ “ลืม” โดยการจมอยู่ใน Pairwise Scores ที่อ่อนแอ คุณจะรักษากระดูกสันหลังของ Structure และ Adaptivity เล็กน้อยไว้ด้านบน เป็น Compromise ที่ใช้งานได้จริง ซึ่งให้ความรู้สึกเหมือนเป็นการตัดสินใจทางวิศวกรรมมากกว่า Paper Demo

DSA เหมาะสมกับ Sparse Zoo ตรงไหน

Fixed Patterns (Local Windows, Dilations): รวดเร็ว แต่เปราะ พลาด Long-Range Cross-References เว้นแต่ Stat โชคของคุณจะสูงสุด

Global Tokens: เพิ่ม Anchors ดีกว่า แต่ Hand-Wavy คุณไม่สามารถตบ “CLS” ลงบนทุกสิ่งแล้วเรียกว่า Recall ได้

Routing ผ่าน Learned Policies: อาจจะดีที่สุด แต่ในการปฏิบัติงานยุ่งเหยิง ความซับซ้อนในการ Training และ Inference ที่เปราะบาง

DSA's Fine-Grained Hybrid: จัด Candidate Set ขนาดกะทัดรัดต่อ Token ที่ผสมผสาน Locality, Structured Globals และ High-Signal Picks จุดประสงค์ไม่ใช่เพื่อความฉลาด แต่เพื่อให้ดีพออย่างสม่ำเสมอ จน Latency และ Quality ของคุณสามารถปรับขนาดได้

ประสิทธิภาพ: การคืนเงินภาษี O(L²)

Coverage จนถึงขณะนี้อ้างว่าลด Cost ได้อย่างมาก โดย “การลดลงครึ่งหนึ่ง” ของ Cost ปรากฏในบทความที่น่าตื่นเต้น แต่ประเด็นไม่ได้อยู่ที่ตัวเลขที่แน่นอน แต่อยู่ที่ Scaling Curve ที่โค้งงอกลับมาสู่ความเป็นไปได้สำหรับ Prompts ที่ยาวขึ้นและความพร้อมกันที่สูงขึ้น หาก Workloads ของคุณคือ:

RAG และ Document Chat ที่มีมากกว่า 100 หน้า

Multi-File Code Navigation

Tool-Using Agents ที่เก็บ Scratchpads ไว้นานๆ

…DSA จะลด Compute และ Memory ต่อ Token คุณสามารถ Push Context ไปยังที่ที่ใช้งานได้จริง แทนที่จะจัดการแห่ Windowed Hacks การรองรับ vLLM ในช่วงแรกๆ ชี้ให้เห็นว่านี่ไม่ใช่แค่ Bench-Bling แต่ทำงานในที่ที่ผู้คน Deploy Models

ข้อควรระวัง (หรือที่เรียกว่า ทำไมไม่ควรมีใครประกาศชัยชนะในวันอังคาร)

การเลือก Candidate ไม่ได้ฟรี หาก Routine การเลือกสะดุดกับ Cache Lines หรือชนคุณเข้าสู่ CPU-GPU Ping-Pong ชัยชนะด้าน Sparsity ของคุณก็จะระเหยไป

k คือ Budget ไม่ใช่ Birthright เล็กเกินไปและคุณจะ Drop Cross-References ที่สำคัญ ใหญ่เกินไปและคุณจะกลับไปเป็น Dense

ความไม่ตรงกันระหว่าง Training กับ Inference หากโมเดลของคุณ Trained Dense และคุณรัน Sparse ที่ Inference ให้คาดหวัง Quality Drift ผลลัพธ์ที่แข็งแกร่งที่สุดของ DSA จะปรากฏเมื่อ Sparsity เป็นส่วนหนึ่งของ Training Diet ไม่ใช่แค่ Garnish ในช่วง Serving-Time

Long-Tail Weirdness รูปแบบ Sparse บางครั้งก็พลาด Out-Of-Nowhere Callback ในอีก 30K Tokens ต่อมา Hybrids ที่ดีจะป้องกันความเสี่ยงด้วย Periodic Globals หรือ Learned Anchors

หากสิ่งเหล่านี้ฟังดูเหมือนการทำ Index ที่ดีสำหรับหนังสือ นั่นก็เพราะเป็นเช่นนั้น สั้นเกินไปและคุณหาอะไรไม่เจอ ยาวเกินไปและมันก็เป็นแค่หนังสืออีกครั้ง

DSA น่าจะเลือกสิ่งที่ต้องเก็บไว้อย่างไร

รายละเอียดจะแตกต่างกันไปตาม Implementation แต่ Playbook ดูเหมือน:

Local Window: เก็บ Neighbors ภายใน Sliding Window โครงสร้างภาษาส่วนใหญ่อยู่ใน Local 2) Periodic/Global Tokens: แทรก “Beacons” ปกติที่เชื่อมต่อทั่วโลกเสมอ 3) Salience Scoring: ใช้ Lightweight Signals จาก Prior Layer Activations, Cached Importance หรือ Approximations เช่น Top-k Similarity เพื่อเลือก Distant Tokens เพิ่มเติม 4) Compact Attention: รัน Attention เฉพาะใน Union ของ Kept Set 5) ทำซ้ำต่อ Layer โดยอนุญาตให้ Heads ที่แตกต่างกันชอบ Structures ที่แตกต่างกัน

นี่ไม่ใช่ Orthodoxy เป็นเพียงสิ่งที่น่าประหลาดใจน้อยที่สุดที่สามารถใช้งานได้ และเห็นได้ชัดว่าใช้งานได้จริง เมื่อพิจารณาจากการรองรับการปฏิบัติงานที่ลงจอดใน Modern Inference Stacks

DSA vs. Chunking vs. Retrieval: เลือกยาพิษของคุณ

Naive Chunking: รวดเร็ว แต่โง่ Context Boundaries กลายเป็น Cliffs เหมาะสำหรับ Throughput แต่ไม่ดีสำหรับอะไรที่ละเอียดอ่อน

Retrieval-Augmented Generation: ฉลาดกว่า แต่เปราะ ขึ้นอยู่กับ Retriever ที่จดจำสิ่งที่ Generator จะต้องการในภายหลัง

DSA-Style Sparse Attention: เก็บ Thread ทั้งหมดไว้ใน Context โดยมุ่งเน้น Compute ในที่ที่สำคัญ ไม่ได้แทนที่ Retrieval แต่ทำให้ Retrieval เป็น Crutch น้อยลง

วิธีแก้ปัญหาที่ซื่อสัตย์คือ Blend: Retrieval เพื่อดึง Docs ที่เกี่ยวข้อง Sparse Attention เพื่อให้เหตุผลเหนือ Sequence ที่ยาวโดยไม่ละลาย คุณสามารถทำทั้งสองอย่างได้โดยไม่เกลียด Cloud Bill ของคุณ

Quality: ยังเข้าใจอยู่ไหม

คำถามมูลค่าล้านดอลลาร์คือ Sparse Attention แอบ Drop ความหมายระหว่างประโยคหรือไม่ รายงานเบื้องต้นสำหรับ DeepSeek Models ชี้ให้เห็นว่า Quality ยังคงอยู่หรือดีขึ้นใน Long Context เพราะโมเดลไม่ได้เสีย Probability Mass ไปกับ Pairwise Scores ที่ไม่มีความหมาย เคล็ดลับคือการปรับ k และ Global Structure เพื่อให้โมเดลมี Backbone ที่เชื่อถือได้ผ่าน Prompt และอีกครั้ง การ Training ด้วย Sparsity ใน Loop Matters Models ปรับตัว เหมือนกับการเรียนรู้การขับรถด้วย Manual Transmission เมื่อคุณได้ Rhythm แล้ว คุณจะไม่พลาด Auto

Deployment Reality: Kernels, Caches, Schedulers

vLLM Support Note นั้นคุ้มค่าที่จะเรียกออกมา: DSA ไม่ใช่แค่ Paper Trick มีงานจริงที่ลงไปในการรองรับ Kernel และ Scheduling เพื่อไม่ให้ Stall GPU ด้วย Scatter-Gather Theatrics Block-Sparse Kernels, Fused Ops และ KV-Cache Layout ที่ระมัดระวังทำให้สิ่งนี้สำเร็จหรือล้มเหลว ผลลัพธ์ที่แย่ที่สุดใน Sparse Attention มาจากแนวคิดที่สมเหตุสมผลอย่างสมบูรณ์แบบที่ชนกับ Memory Bandwidth และ Launch Overhead เมื่อจัดการสิ่งเหล่านั้นแล้ว Sparsity ก็จะส่งเสียง

DSA Shine ตรงไหน

Long-Context Q&A เหนือ Structured Documents Local + Beacon Mix ติดตาม Sections และ Cross-References โดยไม่ท่วมท้น Attention

Codebase Reasoning Local Windows จับ Intra-File Context Periodic/Global Links ข้าม Files, Function Calls และ Imports

Agents ที่มี Scratchpads Sparse Attention ช่วยให้ Agent สามารถเก็บ Working Memory ไว้ได้นานๆ โดยไม่ลดระดับลงไปสู่เรื่องไร้สาระหลังจากหน้าที่ห้า

DSA ไม่ (ยัง) Shine ตรงไหน

Tiny Prompts Dense Attention ก็ใช้ได้ Sparse Overhead อาจไม่ Amortize

Highly Entangled Poetry หรือ Puzzle Prompts ที่ต้องใช้ Needle-In-Haystack Leaps โดยไม่มี Structural Cues ที่ชัดเจน คุณยังสามารถปรับ k ได้ แต่วิธีนี้ชอบ Patterns มากกว่า Riddles

เกี่ยวกับ Sider.AI ล่ะ?

นี่คือ Test สำหรับ Techniques เหล่านี้: พวกเขาทำให้ Tools ดีขึ้นโดยไม่เปลี่ยน Users ให้กลายเป็น QA Engineers ที่ไม่ได้รับค่าตอบแทนหรือไม่? ใน Runs ของฉัน Tools ที่รวม Sparse Attention เข้าด้วยกันได้ดี โดยเฉพาะอย่างยิ่งสำหรับ Document และ Code Chat ให้ความรู้สึก Temperamental น้อยกว่า Sider.AI มีบทบาทที่นี่จริงๆ: เมื่อคุณกำลังวาง Specs ขนาด 80 หน้า หรือเดินผ่าน Repo ความสามารถในการเก็บ Long, Coherent Thread โดยไม่ Stall หรือ Hallucinating เกี่ยวกับหน้าที่ 47 นั้นสำคัญ การตลาดไม่ได้โอ้อวดเกี่ยวกับ “Fine-Grained Sparsity” และนั่นก็ไม่เป็นไร Users สนใจว่ามันจะตอบสนองอยู่เสมอ เก็บ Context ให้ตรง และไม่แพงเหมือนสุดสัปดาห์ใน Vegas หากคุณกำลังทำงานกับ Big, Messy Inputs Attention Trick Class นี้คือการเปลี่ยนแปลง Under-The-Hood ที่แสดงให้เห็นว่ามี Warts น้อยลงและได้รับคำตอบที่เร็วขึ้น

Practical Guidance: หากคุณกำลังตัดสินใจว่าจะใช้ DSA หรือไม่

Context ของคุณมักจะ >32K Tokens: ใช่ ประเมินมัน

คุณเป็นเจ้าของ Deployment Stack (vLLM, Triton Kernels, KV-Cache Tuning): ใช่ โดยเฉพาะอย่างยิ่ง

คุณติดอยู่กับ Dense-Trained Weights และไม่สามารถ Retrain ได้: ทดสอบอย่างระมัดระวัง พิจารณา Partial Sparsity หรือ Head-Specific Sparsity

Latency-Sensitive, High-QPS Workloads: นี่คือที่ที่ Curve Bending สำคัญ วัด p95 และ p99

และได้โปรด เพื่อความรักในทุกสิ่ง GPU Benchmark ด้วย Real Prompts ไม่ใช่ Synthetic Lorem Ipsum วิธี Sparse มีชีวิตอยู่หรือตายบน Realistic Distributions of Relevance

Meta-Point: Sparsity ในฐานะ Good Taste

มีความสวยงามสำหรับสิ่งนี้ Models ที่ให้ความสนใจกับทุกสิ่งเท่าเทียมกันก็เหมือนกับการประชุมที่ทุกคนพูด ดูเป็นประชาธิปไตย ไม่สำเร็จอะไรเลย ความรู้สึกของ DSA คือ Editorial: มุ่งเน้นไปที่ส่วนที่น่าสนใจ รักษากระดูกสันหลัง และรักษางบประมาณ หากคุณต้องการบทเรียนที่กว้างกว่า Machine Learning นี่คือบทเรียนนั้น ระบบที่ดีไม่ได้ทำทุกอย่าง พวกเขาทำสิ่งที่ถูกต้องอย่างรวดเร็ว

อนาคตที่หลีกเลี่ยงไม่ได้: Train Sparse, Serve Sparse

เราจะได้เห็น Models ที่ Trained End-to-End ด้วย Sparse Patterns ที่ Baked In มากขึ้น นั่นคือที่มาของคุณภาพและความเสถียร 10–15% สุดท้าย: ปล่อยให้ Inductive Biases ของ Model สอดคล้องกับ Serving Path หากคุณ Serve Sparse แต่ Train Dense คุณกำลังขอให้ Model เปลี่ยน Gears บน Freeway มันใช้งานได้ แต่ไม่ต้องตกใจเมื่อมันเซ

ในขณะเดียวกัน Frameworks จะทำให้ Sparse Patterns สามารถ Compositable ได้: Local Windows + Periodic Globals + Learned Anchors + Retrieval-Aware Tokens Bit สุดท้าย การปิด Loop ระหว่าง Retriever Salience และ Attention Salience ให้ความรู้สึกเหมือนเป็นขั้นตอนที่ชัดเจนต่อไป เมื่อสิ่งที่คุณ Fetch แจ้งสิ่งที่คุณ Attend คุณจะหยุด Ping-Pong ระหว่างสองระบบที่กึ่งตาบอด

DSA ทำงานอย่างไร? คำตอบสั้นๆ

เลือก Compact Set ของ Tokens ที่น่าจะเกี่ยวข้องสำหรับแต่ละ Token ส่วนใหญ่เป็น Locals บางส่วนเป็น Globals และ Smart Picks บางส่วน

รัน Attention เฉพาะใน Set นั้น ลด Compute จาก Quadratic เป็น Linear โดยประมาณใน Context Length

อาศัย Kernels ที่ระมัดระวังและ Cache Layout เพื่อให้ Theoretical Savings แสดงเป็น Real Latency Wins

รักษาระดับ Quality โดยการรักษาระดับ Structure และ Global Connectivity ที่เพียงพอ เพื่อไม่ให้ Long-Range References หายไป

แค่นั้นแหละ ไม่มีธูป ไม่มีมนต์คาถา แค่บังคับ Good Taste ในสิ่งที่ต้อง Attend

The Twist Ending (เพราะมีอยู่เสมอ)

ทุก AI Trick จะมีช่วงเวลาแห่งความผิดหวังในที่สุด Sparse Attention จะพลาดสิ่งที่สำคัญ บางทีอาจจะเป็น Prompt ที่สร้างขึ้นโดยนักวิจารณ์ที่ฉลาดซึ่งยืนยันว่า Model ควรเชื่อมต่อ Stanza ที่สามกับ Stanza ที่สามสิบเจ็ดข้ามภาษาในขณะที่ Juggle Function Signature ไม่เป็นไร แต่งานจริงส่วนใหญ่ไม่ใช่ Poetry-Slash-Benchmarks แต่เป็นการ Grinding ผ่าน Text, Code และ Facts สำหรับสิ่งนั้น DSA ไม่ใช่แค่ Nice Idea เป็นความแตกต่างระหว่าง Model ที่แกล้งทำเป็นอ่าน Context ของคุณกับ Model ที่ทำได้จริงๆ

และถ้าคุณทำเช่นนั้นได้โดยไม่ทำให้ Cloud Budget ไหม้? นั่นไม่ใช่ Trick นั่นคือความก้าวหน้า

FAQ

Q1: DeepSeek Sparse Attention (DSA) ทำงานอย่างไรในภาษาอังกฤษง่ายๆ DSA จำกัด Attention ให้แคบลงเหลือ Tokens ที่มีความสำคัญ ซึ่งส่วนใหญ่เป็นข้อความใกล้เคียง, Global Anchors จำนวนเล็กน้อย พร้อมด้วย Short List ของ High-Signal Picks แทนที่จะเป็นการเปรียบเทียบ O(L²), จะรัน O(Lk) โดยรักษาระดับ Quality โดยการรักษาระดับ Structure ในขณะที่ลด Compute

Q2: DSA ดีกว่า Chunking หรือ Retrieval สำหรับ Long Context หรือไม่ DSA เก็บทุกสิ่งไว้ใน Thread เดียวในขณะที่มุ่งเน้น Compute ในที่ที่สำคัญ Chunking สร้าง Cliffs และ Retrieval อาจจะขี้ลืม การตั้งค่าที่ดีที่สุดผสมผสาน Retrieval สำหรับการ Fetch กับ DSA สำหรับการให้เหตุผลข้าม Long Context โดยไม่มี Quadratic Tax

Q3: DSA จะทำร้าย Model Quality เมื่อเทียบกับ Dense Attention หรือไม่ หากคุณ Train และ Serve โดยคำนึงถึง Sparsity (และตั้งค่า k อย่างสมเหตุสมผล) Quality จะยังคงอยู่ ซึ่งมักจะดีกว่าสำหรับ Long Context เพราะ Model ไม่ได้จมอยู่ใน Low-Value Pairs Serve-Sparse บน Dense-Trained Weights สามารถ Drift ได้ ดังนั้น Benchmark ด้วย Real Prompts

Q4: Workloads ใดได้รับประโยชน์มากที่สุดจาก DSA Long-Context Document Q&A, Codebase Navigation และ Agent Scratchpads ที่ใดก็ตามที่ Sequence Length บอลลูนและ Dense Attention กลายเป็น Latency, Memory Pressure และ Rising Costs

Q5: vLLM รองรับ DSA สำหรับ Deployment หรือไม่ ใช่ Posts ล่าสุดแสดงให้เห็นว่า vLLM กำลังรวมการรองรับ Fine-Grained Sparse Attention ของ DeepSeek โดยมี Kernel และ Scheduler Work เพื่อทำให้เป็นจริงใน Production Pipelines