How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

Sparse Attention That Isn’t Sparse Thinking

הקטע עם מנגנוני תשומת לב "מהפכניים" הוא שכולם מהנהנים כאילו הם צופים בקוסם, ואז מקווים בשקט שאף אחד לא יבקש מהם להסביר את הטריק. DeepSeek Sparse Attention ‏(DSA) הוא אחד מהטריקים האלה – חכם, מהיר, ואם מצמצמים עיניים לפרטים, הוא אפילו מובן בלי לשאוף מאה עמודים של מתמטיקה. ההבטחה: לשמור על האינטליגנציה, להיפטר ממס המחשוב. המציאות: זה תלוי, אבל הפעם נקודות האיזון נראות שפויות באופן מרענן.

בואו נדבר לעניין: DSA היא דרך עבור מודלים גדולים של שפה לשים לב רק לדברים שחשובים. לא בערך. לא "אולי זה רלוונטי". זוהי תוכנית תשומת לב דלילה ומדויקת שמקצצת את הפיצוץ הריבועי שמתקבל מתשומת לב עצמית מלאה – מבלי לנסר את הענף שהמודל עומד עליו. אם תשומת הלב של המודל הישן הייתה חדר שבו כל מילה חייבת ליצור קשר עין עם כל מילה אחרת, DSA הופך אותו למסיבה שבה מופנמים משגשגים: מסלולים ישירים, פחות עיקופים חסרי טעם של שיחות קלות, והרבה פחות רעש.

מה זה בעצם DeepSeek Sparse Attention?

DSA הוא מנגנון תשומת לב דליל שמצמצם את המורכבות החישובית של תשומת לב עצמית מ-O(L²)‎ ל-O(Lk)‎, כאשר L הוא אורך הרצף ו-k הוא מספר החיבורים ה"שמורים" לכל טוקן – השכנים הנבחרים, כנראה רלוונטיים. זה הפיץ' בשורה אחת. פחות מתמטיקה, יותר היגיון: במקום שכל טוקן ישווה את עצמו לכל טוקן אחר, DSA בוחר קבוצת משנה – שכנים, כותרות, חלונות, "עוגנים", כל היוריסטיקה או מדיניות נלמדת שהגיונית ביותר עבור המודל – כדי שלא תבזבזו זמן על קשקוש.

אם אתם חושבים שזה נשמע מוכר, זה נכון: תשומת לב דלילה היא לא דבר חדש. היו לנו Longformer, BigBird, גרעיני בלוקים דלילים ועשרות כלאיים של "מקומי + גלובלי". הבעיה הרגילה היא שהדפוסים הדלילים או שמדליפים היזכרות (הם מפספסים את המחט בערימת השחת), או שהם כל כך מסובכים ליישום ביעילות שכל מה שאתם חוסכים תיאורטית פשוט מופיע מחדש כעלויות תקורה של גרעין. הטענה לתהילה של DSA היא כפולה: ראשית, דפוס הדלילות הוא יותר מדויק ומסתגל מדלילות בלוקים סטנדרטית; שנית, הוא יושם מקצה לקצה בצורה שבאמת עובדת על מחסניות הסקה אמיתיות – כולל vLLM.

האינטואיציה: אינדקס ברקים, לא מכסחת דשא

האנלוגיה הכי מועילה שראיתי: DSA מתנהג כמו אינדקס ברקים. הוא לא מכסח את כל השדה; הוא מזנק למה שחשוב – כמו עורך טוב שחוצה שלושה פסקאות ושומר על המשפט ששר. המערכת שומרת על קבוצה קטנה של חיבורים בעלי אות גבוה לכל טוקן – תחשבו על top-k לפי ניקוד רלוונטיות כלשהו – בתוספת עמוד שדרה דק של מבנה (חלונות מקומיים, טוקנים גלובליים תקופתיים) כדי שלכידות ארוכת הטווח לא תהפוך לעיסה.

מהנדסים דואגים לגבי החלק שאחרי האנלוגיה: מה המשמעות של "רלוונטיות" מבחינה תפעולית? כתבות שונות על DSA רומזות ליוריסטיקות שבוחרות מפתחות מועמדים לפי קרבה וחשיבות קודמת, ואחריהן תשומת לב קומפקטית בין המועמדים האלה. זה לא קסם; זו מיון. אתם שומרים על השכנים הברורים (הקשר מקומי תמיד שימושי עבור שפה), מפזרים "ציוני דרך" גלובליים, ומנתבים באופן סלקטיבי תשומת לב לטוקנים מבטיחים מחוץ לחלון. השפעה נטו: אתם מצמצמים את מרחב החיפוש מבלי לפגוע בהיזכרות. כשעושים את זה נכון, זה מרגיש פחות כמו גיזום ויותר כמו נימוסים טובים.

המתמטיקה, מהדורה מינימליסטית

תשומת לב עצמית מלאה: O(L²d)‎, כאשר d הוא ממד הכותרת.

DSA: O(Lkd)‎. עבור k קבוע, זה ליניארי בערך ב-L. זה משנה עבור הקשרים ארוכים. ב-128K טוקנים, חשבון ה-GPU שלכם מודה לכם.

המודל שומר על קבוצת מועמדים דינמית לכל טוקן. אתם משלמים עבור בחירת מועמדים בתוספת תשומת הלב בפועל ביניהם. אם בחירת המועמדים היא וקטורית ומודעת למטמון, אתם מנצחים; אם לא, אתם סוחטים בלון.

זה המתח בכל השיטות הדלילות: צמצמו את האסימפטוטיקה, אבל אל תציגו אותה מחדש בתנועת הנתונים ובעלויות התקורה של השקת הגרעין. היישומים סביב DSA מדגישים תמיכה ברמת הגרעין ושילוב מתזמן, ופוסטים אחרונים מראים תמיכה ב-vLLM שנחתה בדיוק כדי להפוך את זה לאמיתי בהגדרות פריסה.

למה DSA חשוב עכשיו?

כי הקשר ארוך הוא מלחמת גודל המסך החדשה. כולם רוצים 200K טוקנים ומעלה – סקריפטים, בסיסי קוד, קובצי PDF בגודל המצפון שלכם. תשומת לב ריבועית באורכים האלה היא לא התחלה עבור השהיה, תפוקה ועלות. אתם יכולים לזייף את זה עם חלוקה לחלקים ושליפה חכמות, אבל זה כמו להתקין מדף ספרים במכונית שלכם כי תא המטען שלכם ממשיך להתמלא. הטיעון של DSA הוא פשוט יותר: הפכו את צעד תשומת הלב בפועל ללא יקר בצורה מטופשת.

יתרון צדדי הוא יציבות. תשומת לב מלאה על פני רצפים ארוכים מאוד יכולה להיות רגישה מבחינה מספרית ורועשת בזיכרון. תשומת לב דלילה מכווצת את קבוצת העבודה ומפחיתה את הסיכויים שהמודל "ישכח" בגלל טביעה בציונים חלשים של זוגות. אתם שומרים על עמוד שדרה של מבנה ופרוסה קטנה של הסתגלות מלמעלה. זה פשרה מעשית שמרגישה, ולו פעם אחת, כמו החלטה הנדסית ולא הדגמה של מאמר.

איפה DSA משתלב בגן החיות הדליל

דפוסים קבועים (חלונות מקומיים, הרחבות): מהיר, אבל שביר. מפספס הפניות צולבות ארוכות טווח אלא אם סטטיסטיקת המזל שלכם מוגדרת למקסימום.

טוקנים גלובליים: מוסיף עוגנים. יותר טוב, אבל מעורפל. אתם לא יכולים להדביק "CLS" על כל דבר ולקרוא לזה היזכרות.

ניתוב באמצעות מדיניות נלמדת: באופן פוטנציאלי אידיאלי, מבולגן מבחינה תפעולית. מורכבויות אימון והסקה שבירה.

הכלאה המדויקת של DSA: אוצרת קבוצת מועמדים קומפקטית לכל טוקן שמערבבת מקומיות, גלובליים מובנים ובחירות בעלות אות גבוה. הנקודה היא לא להיות חכם – זה להיות טוב מספיק באופן עקבי שהשהיה והאיכות שלכם יגדלו בקנה מידה.

ביצועים: החזר מס O(L²)

הכיסוי עד כה טוען לצמצום עלויות משמעותי – "חציית" עלויות מופיעה בקטעים חסרי נשימה – אבל הנקודה היא לא המספר המדויק, אלא שעקומת הגידול מתכופפת חזרה לכדאיות עבור הנחיות ארוכות יותר וריבוי משימות גבוה יותר.

RAG וצ'אט מסמכים על פני 100+ עמודים,

ניווט קוד מרובה קבצים,

סוכנים משתמשי כלים ששומרים על פנקסים ארוכים,

...DSA מצמצם את החישוב והזיכרון לכל טוקן. אתם יכולים לדחוף את ההקשר למקום שהוא באמת שימושי בו במקום לביים מצעד של פריצות חלונות. התמיכה המוקדמת ב-vLLM מצביעה על כך שזה לא רק קישוט ספסל – זה רץ במקום שאנשים פורסים מודלים.

אזהרות (או במילים אחרות, למה שאף אחד לא צריך להכריז על ניצחון ביום שלישי)

בחירת מועמדים היא לא בחינם. אם שגרת הבחירה מעדה על קווי מטמון או מקפיצה אתכם לפינג-פונג CPU-GPU, ניצחונות הדלילות שלכם מתאדים.

k הוא תקציב, לא זכות מלידה. קטן מדי ואתם מפילים הפניות צולבות שחשובות. גדול מדי ואתם חוזרים לצפוף.

אי התאמה בין אימון להסקה. אם המודל שלכם אומן בצפיפות ואתם מריצים אותו בדלילות בהסקה, צפו לסחף איכות. התוצאות החזקות ביותר של DSA מופיעות כאשר דלילות היא חלק מדיאטת האימון, לא רק קישוט בזמן ההגשה.

מוזרות ארוכת זנב. דפוסים דלילים לפעמים מתנפנפים על שיחת החזרה המשום מקום 30K טוקנים מאוחר יותר. כלאיים טובים מגדרים עם גלובליים תקופתיים או עוגנים נלמדים.

אם כל זה נשמע כמו יצירת אינדקס טוב לספר, זה בגלל שזה מה שזה. קצר מדי ואתם לא יכולים למצוא כלום; ארוך מדי וזה פשוט הספר שוב.

איך DSA כנראה בוחר מה לשמור

הפרטים משתנים בהתאם ליישום, אבל ספר ההדרכה נראה כך:

חלון מקומי: שמרו על שכנים בתוך חלון הזזה – רוב מבנה השפה הוא מקומי. 2) טוקנים תקופתיים/גלובליים: הכניסו "משואות" רגילות שתמיד מתחברות באופן גלובלי. 3) ניקוד בולטות: השתמשו באותות קלי משקל – מהפעלות שכבה קודמות, חשיבות במטמון או קירובים כמו דמיון top-k – כדי לבחור טוקנים רחוקים נוספים. 4) תשומת לב קומפקטית: הפעילו תשומת לב רק על האיחוד של הקבוצה השמורה. 5) חזרו על כך לכל שכבה, ואפשרו לכותרות שונות להעדיף מבנים שונים.

זה לא אורתודוקסיה; זה פשוט הדבר הכי פחות מפתיע שיכול לעבוד. וכנראה שזה כן, בהתחשב בתמיכה התפעולית שנחתת במחסניות הסקה מודרניות.

DSA לעומת חלוקה לחלקים לעומת שליפה: בחרו את הרעל שלכם

חלוקה לחלקים נאיבית: מהירה, אבל טיפשה – גבולות הקשר הופכים לצוקים. טוב לתפוקה, רע לכל דבר עדין.

יצירה מוגברת שליפה: חכמה יותר, אבל שבירה – תלויה בשולף שזוכר מה המחולל יצטרך בהמשך.

תשומת לב דלילה בסגנון DSA: שומרת על כל השרשור בהקשר, עם חישוב ממוקד במקום שזה חשוב. זה לא מחליף שליפה; זה הופך את השליפה לפחות מקביים.

הפתרון הכנה הוא תערובת: שליפה כדי למשוך מסמכים רלוונטיים, תשומת לב דלילה כדי להסיק מסקנות על פני רצפים ארוכים מבלי להתמוסס. אתם יכולים לעשות את שניהם בלי לשנוא את חשבון הענן שלכם.

איכות: האם זה עדיין מבין?

שאלת מיליון הדולר היא האם תשומת לב דלילה מפילה בשקט את המשמעות בין משפטים. דיווחים מוקדמים עבור מודלים של DeepSeek מצביעים על כך שהאיכות נשמרת או משתפרת בהקשר ארוך מכיוון שהמודל לא מבזבז מסת הסתברות על ציונים חסרי משמעות של זוגות. הטריק הוא כוונון k והמבנה הגלובלי כך שלמודל יהיה עמוד שדרה אמין דרך ההנחיה. ושוב, אימון עם דלילות בלולאה חשוב – מודלים מסתגלים. זה כמו ללמוד לנהוג עם תיבת הילוכים ידנית; ברגע שתפסתם את הקצב, אתם לא מתגעגעים לאוטומטי.

מציאות פריסה: גרעינים, מטמונים, מתזמנים

הערת התמיכה ב-vLLM שווה אזכור: DSA הוא לא רק טריק נייר; יש עבודה אמיתית שנכנסת לתמיכה בגרעין ותזמון כדי שזה לא יעצור את ה-GPU עם תיאטרון פיזור-איסוף. גרעינים דלילים בבלוקים, אופציות מאוחדות ופריסת מטמון KV זהירה יוצרים או שוברים את הדברים האלה. התוצאות הגרועות ביותר בתשומת לב דלילה מגיעות מרעיונות הגיוניים לחלוטין שמתנגשים עם רוחב פס זיכרון ועלויות תקורה של השקה. כשמטפלים באלה, דלילות שרה.

איפה DSA זורח

שאלות ותשובות בהקשר ארוך על פני מסמכים מובנים. השילוב המקומי + משואה עוקב אחר סעיפים והפניות צולבות מבלי להציף את תשומת הלב.

הסקת מסקנות מבסיס קוד. חלונות מקומיים לוכדים הקשר תוך קבצי; קישורים תקופתיים/גלובליים רוכבים על פני קבצים, קריאות פונקציה וייבוא.

סוכנים עם פנקסים. תשומת לב דלילה מאפשרת לסוכן לשמור על זיכרון עבודה ארוך מבלי להתדרדר לשטויות אחרי עמוד חמש.

איפה DSA לא (עדיין)

הנחיות זעירות. תשומת לב צפופה זה בסדר; עלויות תקורה דלילות עשויות לא לפצות.

שירה סבוכה מאוד או הנחיות פאזל הדורשות קפיצות מחט בערימת שחת ללא רמזים מבניים ברורים. אתם עדיין יכולים לכוונן את k, אבל השיטה אוהבת דפוסים יותר מחידות.

מה לגבי Sider.AI?

הנה המבחן עבור כל הטכניקות האלה: האם הן משפרות כלים מבלי להפוך משתמשים למהנדסי QA לא בתשלום? בהרצות שלי, כלים שמשלבים תשומת לב דלילה היטב – במיוחד עבור צ'אט מסמכים וקוד – מרגישים פחות הפכפכים. Sider.AI באמת משחק כאן: כשאתם מדביקים מפרטים בני 80 עמודים או צועדים דרך מאגר, היכולת לשמור על שרשור ארוך וקוהרנטי בלי לעצור או להזות לגבי עמוד 47 חשובה. השיווק לא מתפאר ב"דלילות מדויקת", וזה בסדר. למשתמשים אכפת שזה יישאר מגיב, ישמור על הקשר ישר ולא יעלה כמו סוף שבוע בלאס וגאס. אם אתם עובדים עם קלטים גדולים ומבולגנים, סוג זה של טריק תשומת לב הוא בדיוק סוג השינוי מתחת למכסה המנוע שמופיע כפחות יבלות ותשובות מהירות יותר.

הדרכה מעשית: אם אתם מחליטים אם להשתמש ב-DSA

ההקשר שלכם הוא באופן שגרתי >32K טוקנים: כן, העריכו את זה.

אתם הבעלים של מחסנית הפריסה שלכם (vLLM, גרעיני Triton, כוונון מטמון KV): כן, במיוחד.

אתם תקועים עם משקלים שאומנו בצפיפות ולא יכולים לאמן מחדש: בדקו בזהירות; שקלו דלילות חלקית או דלילות ספציפית לכותרת.

עומסי עבודה רגישים להשהיה, בעלי QPS גבוה: כאן הכיפוף של העקומה משנה. מדדו p95 ו-p99.

ובבקשה, למען כל דבר GPU, עשו בנצ'מרק עם הנחיות אמיתיות, לא לורם איפסום סינתטי. שיטות דלילות חיות או מתות על התפלגויות מציאותיות של רלוונטיות.

נקודת העל: דלילות כטעם טוב

יש אסתטיקה לזה. מודלים שמשתתפים בהכל באופן שווה הם כמו פגישות שבהן כולם מדברים. נראה דמוקרטי, לא משיג כלום. הרגישות של DSA היא מערכתית: התמקדו בחלקים המעניינים, שמרו על עמוד שדרה ושמרו על תקציב. אם אתם רוצים שיעור רחב יותר מלמידת מכונה, הנה הוא. מערכות טובות לא עושות הכל. הן עושות את הדברים הנכונים, במהירות.

העתיד הבלתי נמנע: אימון דליל, שירות דליל

נראה עוד מודלים שאומנו מקצה לקצה עם דפוסים דלילים אפויים בפנים. משם מגיעים 10-15% האחרונים של איכות ויציבות: לתת להטיות האינדוקטיביות של המודל להתיישר עם נתיב השירות. אם אתם משרתים דליל אבל מאמנים בצפיפות, אתם מבקשים מהמודל להחליף הילוכים בכביש המהיר. זה יכול לעבוד, אבל אל תהיו המומים כשזה מטלטל.

בינתיים, מסגרות יהפכו דפוסים דלילים לקומפוזיציוניים: חלונות מקומיים + גלובליים תקופתיים + עוגנים נלמדים + טוקנים מודעים לשליפה. החלק האחרון הזה – סגירת הלולאה בין בולטות השולף לבולטות תשומת הלב – מרגיש כמו הצעד הברור הבא. כשמה שאתם מושכים מודיע למה שאתם משתתפים בו, אתם מפסיקים לעשות פינג-פונג בין שתי מערכות חצי עיוורות.

אז איך DSA עובד? התשובה הקצרה

זה בוחר קבוצה קומפקטית של טוקנים סבירים שרלוונטיים לכל טוקן – בעיקר מקומיים, כמה גלובליים, כמה בחירות חכמות.

זה מפעיל תשומת לב רק על הקבוצה הזו, מצמצם את החישוב מריבועי לליניארי בערך באורך ההקשר.

זה מסתמך על גרעינים זהירים ופריסת מטמון כדי שהחיסכון התיאורטי יופיע כניצחונות השהיה אמיתיים.

זה שומר על איכות על ידי שימור מבנה וקישוריות גלובלית מספקת כדי שהפניות ארוכות הטווח לא יאבדו.

זה הכל. בלי קטורת, בלי לחשים. רק טעם טוב שנאכף במה להשתתף.

סיום הטוויסט (כי תמיד יש אחד)

לכל טריק AI יש בסופו של דבר רגע של אכזבה. תשומת לב דלילה תפספס משהו חשוב, כנראה בהנחיה שעוצבה על ידי מבקר חכם שמתעקש שהמודל יקשר את בית שלוש לבית שלושים ושבע על פני שפות תוך כדי להטוטנות עם חתימת פונקציה. בסדר. אבל רוב העבודה האמיתית היא לא שירה-סלאש-בנצ'מרקים – זה לטחון דרך טקסט, קוד ועובדות. בשביל זה, DSA הוא לא רק רעיון נחמד. זה ההבדל בין מודל שמדמה לקרוא את ההקשר שלכם לבין אחד שיכול באמת.

ואם אתם יכולים לעשות את זה בלי לשרוף חור בתקציב הענן? זה לא טריק. זו התקדמות.

שאלות נפוצות

ש1: איך DeepSeek Sparse Attention ‏(DSA) עובד בשפה פשוטה? DSA מצמצם את תשומת הלב לטוקנים שחשובים – בעיקר טקסט סמוך, כמה עוגנים גלובליים, בתוספת רשימה קצרה של בחירות בעלות אות גבוה. במקום השוואות O(L²), הוא מפעיל O(Lk), ושומר על איכות על ידי שימור מבנה תוך כדי צמצום חישוב.

ש2: האם DSA טוב יותר מחלוקה לחלקים או שליפה עבור הקשר ארוך? DSA שומר על הכל בשרשור אחד תוך כדי מיקוד חישוב במקום שזה חשוב; חלוקה לחלקים יוצרת צוקים ושליפה יכולה להיות שכחנית. ההגדרות הטובות ביותר מערבבות שליפה עבור אחזור עם DSA עבור הסקת מסקנות על פני הקשר ארוך ללא מס הריבועי.

ש3: האם DSA יפגע באיכות המודל בהשוואה לתשומת לב צפופה? אם אתם מאמנים ומשרתים עם דלילות בראש (ומגדירים את k בצורה שפויה), האיכות נשמרת – לעתים קרובות טובה יותר עבור הקשרים ארוכים מכיוון שהמודל לא טובע בזוגות בעלי ערך נמוך. שירות דליל על משקלים שאומנו בצפיפות יכול להיסחף, אז עשו בנצ'מרק עם הנחיות אמיתיות.

ש4: אילו עומסי עבודה מרוויחים הכי הרבה מ-DSA? שאלות ותשובות על מסמכים בהקשר ארוך, ניווט בבסיס קוד ופנקסים של סוכנים. בכל מקום שאורך רצף מתנפח ותשומת לב צפופה הופכת להשהיה, לחץ זיכרון ועלויות עולות.

ש5: האם vLLM תומך ב-DSA לפריסה? כן – פוסטים אחרונים מראים ש-vLLM משלב תמיכה בתשומת הלב הדלילה המדויקת של DeepSeek, עם עבודת גרעין ומתזמן כדי להפוך אותה למעשית בצינורות ייצור.