How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

ವಿರಳ ಗಮನವು ವಿರಳ ಚಿಂತನೆಯಲ್ಲ

“ಕ್ರಾಂತಿಕಾರಿ” ಗಮನ ಸೆಳೆಯುವ ತಂತ್ರಗಳ ಬಗ್ಗೆ ಒಂದು ವಿಷಯವಿದೆ, ಎಲ್ಲರೂ ಮಾಂತ್ರಿಕನನ್ನು ನೋಡುತ್ತಿರುವಂತೆ ತಲೆ ಅಲ್ಲಾಡಿಸುತ್ತಾರೆ, ನಂತರ ಯಾರೂ ತಂತ್ರವನ್ನು ವಿವರಿಸಲು ಕೇಳುವುದಿಲ್ಲ ಎಂದು ನಿಶ್ಯಬ್ದವಾಗಿ ಆಶಿಸುತ್ತಾರೆ. DeepSeek Sparse Attention (DSA) ಅಂತಹ ತಂತ್ರಗಳಲ್ಲಿ ಒಂದಾಗಿದೆ - ಚತುರ, ವೇಗದ ಮತ್ತು, ನೀವು ವಿವರಗಳನ್ನು ಸೂಕ್ಷ್ಮವಾಗಿ ಗಮನಿಸಿದರೆ, ನೂರಾರು ಪುಟಗಳ ಗಣಿತವನ್ನು ಬಳಸದೆ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದು. ಭರವಸೆ: ಬುದ್ಧಿವಂತಿಕೆಯನ್ನು ಉಳಿಸಿಕೊಳ್ಳಿ, ಕಂಪ್ಯೂಟ್-ತೆರಿಗೆಯನ್ನು ಬಿಟ್ಟುಬಿಡಿ. ವಾಸ್ತವ: ಇದು ಅವಲಂಬಿಸಿರುತ್ತದೆ, ಆದರೆ ಈ ಬಾರಿ ವಿನಿಮಯಗಳು ರಿಫ್ರೆಶ್ ಆಗಿ ಕಾಣುತ್ತವೆ.

ನಾವು ವಿಷಯಕ್ಕೆ ಬರೋಣ: ದೊಡ್ಡ ಭಾಷಾ ಮಾದರಿಗಳು ಮುಖ್ಯವಾದ ವಿಷಯಗಳ ಮೇಲೆ ಮಾತ್ರ ಗಮನ ಹರಿಸಲು DSA ಒಂದು ಮಾರ್ಗವಾಗಿದೆ. ಸ್ವಲ್ಪ ಮಟ್ಟಿಗೆ ಅಲ್ಲ. "ಬಹುಶಃ ಅದು ಸಂಬಂಧಿತವಾಗಿದೆ" ಎಂದು ಅಲ್ಲ. ಇದು ಉತ್ತಮವಾದ ವಿರಳ ಗಮನದ ಯೋಜನೆಯಾಗಿದ್ದು, ಪೂರ್ಣ ಸ್ವಯಂ-ಗಮನದಿಂದ ನೀವು ಪಡೆಯುವ ಕ್ವಾಡ್ರಾಟಿಕ್ ಸ್ಫೋಟವನ್ನು ಕತ್ತರಿಸುತ್ತದೆ - ಮಾದರಿಯು ನಿಂತಿರುವ ಕೊಂಬೆಯನ್ನು ಕತ್ತರಿಸದೆಯೇ. ಹಳೆಯ ಮಾದರಿಯ ಗಮನವು ಒಂದು ಕೋಣೆಯಾಗಿದ್ದರೆ, ಅಲ್ಲಿ ಪ್ರತಿಯೊಂದು ಪದವು ಇತರ ಪ್ರತಿಯೊಂದು ಪದದೊಂದಿಗೆ ಕಣ್ಣಿನ ಸಂಪರ್ಕವನ್ನು ಹೊಂದಿರಬೇಕು, DSA ಅದನ್ನು ಅಂತರ್ಮುಖಿಗಳು ಅಭಿವೃದ್ಧಿ ಹೊಂದುವ ಪಾರ್ಟಿಯಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ: ನೇರ ಮಾರ್ಗಗಳು, ಕಡಿಮೆ ಅರ್ಥವಿಲ್ಲದ ಸಣ್ಣ-ಮಾತುಕತೆಗಳ ದಾರಿ ಬದಲಿಸುವಿಕೆ ಮತ್ತು ಕಡಿಮೆ ಗದ್ದಲ..

DeepSeek Sparse Attention ಎಂದರೇನು, ನಿಜವಾಗಿಯೂ?

DSA ಒಂದು ವಿರಳ ಗಮನದ ಕಾರ್ಯವಿಧಾನವಾಗಿದ್ದು, ಸ್ವಯಂ-ಗಮನದ ಲೆಕ್ಕಾಚಾರದ ಸಂಕೀರ್ಣತೆಯನ್ನು O(L²) ನಿಂದ O(Lk) ಗೆ ಕಡಿಮೆ ಮಾಡುತ್ತದೆ, ಇಲ್ಲಿ L ಎಂಬುದು ಅನುಕ್ರಮದ ಉದ್ದ ಮತ್ತು k ಎಂಬುದು ಟೋಕನ್‌ಗೆ "ಇರಿಸಲಾದ" ಸಂಪರ್ಕಗಳ ಸಂಖ್ಯೆ - ಆಯ್ದ, ಬಹುಶಃ ಸಂಬಂಧಿತ ನೆರೆಹೊರೆಯವರು.. ಅದು ಒಂದು ಸಾಲಿನಲ್ಲಿರುವ ಪಿಚ್. ಕಡಿಮೆ ಗಣಿತ, ಹೆಚ್ಚು ಅರ್ಥ: ಪ್ರತಿ ಟೋಕನ್ ತನ್ನನ್ನು ಇತರ ಪ್ರತಿಯೊಂದು ಟೋಕನ್‌ಗೆ ಹೋಲಿಸುವ ಬದಲು, DSA ಉಪವಿಭಾಗವನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ - ನೆರೆಹೊರೆಯವರು, ಹೆಡ್‌ಗಳು, ವಿಂಡೋಗಳು, "ಆಂಕರ್‌ಗಳು," ಮಾದರಿಗೆ ಹೆಚ್ಚು ಅರ್ಥವನ್ನು ನೀಡುವ ಯಾವುದೇ ಹ್ಯೂರಿಸ್ಟಿಕ್ ಅಥವಾ ಕಲಿತ ನೀತಿ - ಆದ್ದರಿಂದ ನೀವು ವ್ಯರ್ಥ ಮಾಡುವುದಿಲ್ಲ. ತುಪ್ಪಳದ ಮೇಲೆ ಸಮಯ.

ಇದು ಪರಿಚಿತವೆಂದು ನೀವು ಭಾವಿಸಿದರೆ, ಅದು: ವಿರಳ ಗಮನ ಹೊಸದಲ್ಲ. ನಾವು Longformer, BigBird, ಬ್ಲಾಕ್-ವಿರಳ ಕರ್ನಲ್‌ಗಳು ಮತ್ತು ಡಜನ್ಗಟ್ಟಲೆ "ಸ್ಥಳೀಯ + ಜಾಗತಿಕ" ಹೈಬ್ರಿಡ್‌ಗಳನ್ನು ಹೊಂದಿದ್ದೇವೆ. ಸಾಮಾನ್ಯ ಸಮಸ್ಯೆಯೆಂದರೆ, ವಿರಳ ಮಾದರಿಗಳು ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ಸೋರಿಕೆ ಮಾಡುತ್ತವೆ (ಅವು ಹೇಗಾಡಿನಲ್ಲಿರುವ ಸೂಜಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತವೆ), ಅಥವಾ ಅವುಗಳನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಕಾರ್ಯಗತಗೊಳಿಸಲು ತುಂಬಾ ಕಷ್ಟವಾಗುತ್ತದೆ, ಸೈದ್ಧಾಂತಿಕವಾಗಿ ನೀವು ಉಳಿಸುವ ಯಾವುದೇ ಕರ್ನಲ್ ಓವರ್‌ಹೆಡ್‌ನಂತೆ ಮರುಕಳಿಸುತ್ತದೆ. DSA ಯ ಪ್ರಮುಖ ಲಕ್ಷಣವೆಂದರೆ ಎರಡು ಪಟ್ಟು: ಮೊದಲನೆಯದಾಗಿ, ವಿರಳ ಮಾದರಿಯು ತೋಟದ-ವಿಧದ ಬ್ಲಾಕ್ ವಿರಳತೆಗಿಂತ ಉತ್ತಮವಾದ ಮತ್ತು ಹೊಂದಾಣಿಕೆಯಾಗಿದೆ; ಎರಡನೆಯದಾಗಿ, ಇದನ್ನು ನೈಜ ಅನುಮಾನದ ಸ್ಟ್ಯಾಕ್‌ಗಳಲ್ಲಿ ನಿಜವಾಗಿಯೂ ಕೆಲಸ ಮಾಡುವ ರೀತಿಯಲ್ಲಿ ಕೊನೆಯಿಂದ ಕೊನೆಯವರೆಗೆ ಕಾರ್ಯಗತಗೊಳಿಸಲಾಗಿದೆ - vLLM ಒಳಗೊಂಡಿದೆ..

ಅಂತಃಪ್ರಜ್ಞೆ: ಮಿಂಚಿನ ಸೂಚ್ಯಂಕ, ಲಾನ್ ಮೊವರ್ ಅಲ್ಲ

ನಾನು ನೋಡಿದ ಅತ್ಯಂತ ಸಹಾಯಕವಾದ ಸಾದೃಶ್ಯ: DSA ಮಿಂಚಿನ ಸೂಚ್ಯಂಕದಂತೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಇದು ಇಡೀ ಜಮೀನನ್ನು ಕತ್ತರಿಸುವುದಿಲ್ಲ; ಅದು ಮುಖ್ಯವಾದ ವಿಷಯಕ್ಕೆ ಧಾವಿಸುತ್ತದೆ - ಮೂರು ಪ್ಯಾರಾಗಳನ್ನು ದಾಟಿ ಹಾಡುವ ವಾಕ್ಯವನ್ನು ಇಟ್ಟುಕೊಳ್ಳುವ ಉತ್ತಮ ಸಂಪಾದಕರಂತೆ. ಸಿಸ್ಟಮ್ ಪ್ರತಿ ಟೋಕನ್‌ಗೆ ಹೆಚ್ಚಿನ-ಸಿಗ್ನಲ್ ಸಂಪರ್ಕಗಳ ಒಂದು ಸಣ್ಣ ಸೆಟ್ ಅನ್ನು ಉಳಿಸಿಕೊಳ್ಳುತ್ತದೆ - ಕೆಲವು ಪ್ರಸ್ತುತತೆಯ ಸ್ಕೋರಿಂಗ್‌ನಿಂದ ಟಾಪ್-ಕೆ ಎಂದು ಭಾವಿಸಿ - ಜೊತೆಗೆ ರಚನೆಯ ತೆಳುವಾದ ಬೆನ್ನೆಲುಬು (ಸ್ಥಳೀಯ ವಿಂಡೋಗಳು, ಆವರ್ತಕ ಜಾಗತಿಕ ಟೋಕನ್‌ಗಳು) ಆದ್ದರಿಂದ ದೀರ್ಘ-ಶ್ರೇಣಿಯ ಸುಸಂಬದ್ಧತೆಯು ಮೃದುವಾಗುವುದಿಲ್ಲ..

ಅಭಿಯಂತರು ಸಾದೃಶ್ಯದ ನಂತರದ ಭಾಗದ ಬಗ್ಗೆ ಕಾಳಜಿ ವಹಿಸುತ್ತಾರೆ: ಕಾರ್ಯಾಚರಣೆಯಲ್ಲಿ "ಸಂಬಂಧಿತತೆ" ಎಂದರೆ ಏನು? ವಿಭಿನ್ನ DSA ಬರವಣಿಗೆಗಳು ಸಾಮೀಪ್ಯ ಮತ್ತು ಹಿಂದಿನ ಪ್ರಾಮುಖ್ಯತೆಯಿಂದ ಅಭ್ಯರ್ಥಿ ಕೀಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡುವ ಹ್ಯೂರಿಸ್ಟಿಕ್‌ಗಳನ್ನು ಸೂಚಿಸುತ್ತವೆ, ನಂತರ ಆ ಅಭ್ಯರ್ಥಿಗಳ ನಡುವೆ ಕಾಂಪ್ಯಾಕ್ಟ್ ಗಮನ. ಇದು ಮ್ಯಾಜಿಕ್ ಅಲ್ಲ; ಇದು ಟ್ರೈಯಾಜ್ ಆಗಿದೆ. ನೀವು ಸ್ಪಷ್ಟವಾದ ನೆರೆಹೊರೆಯವರನ್ನು ಇಟ್ಟುಕೊಳ್ಳುತ್ತೀರಿ (ಸ್ಥಳೀಯ ಸಂದರ್ಭವು ಭಾಷೆಗೆ ಬಹುತೇಕ ಯಾವಾಗಲೂ ಉಪಯುಕ್ತವಾಗಿದೆ), ಜಾಗತಿಕ "ಲ್ಯಾಂಡ್‌ಮಾರ್ಕ್‌ಗಳನ್ನು" ಸಿಂಪಡಿಸಿ ಮತ್ತು ಭರವಸೆಯ ವಿಂಡೋ-ಹೊರಗಿನ ಟೋಕನ್‌ಗಳಿಗೆ ಗಮನವನ್ನು ಆಯ್ದವಾಗಿ ತಿರುಗಿಸಿ. ನಿವ್ವಳ ಪರಿಣಾಮ: ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ದುರ್ಬಲಗೊಳಿಸದೆ ನೀವು ಹುಡುಕಾಟ ಜಾಗವನ್ನು ಗಾತ್ರಕ್ಕೆ ಇಳಿಸುತ್ತೀರಿ. ಸರಿಯಾಗಿ ಮಾಡಿದಾಗ, ಇದು ಕತ್ತರಿಸಿದಂತೆ ಅಲ್ಲ ಮತ್ತು ಸಭ್ಯ ನಡತೆಯಂತೆ ಭಾಸವಾಗುತ್ತದೆ.

ಗಣಿತ, ಕನಿಷ್ಠ ಆವೃತ್ತಿ

ಪೂರ್ಣ ಸ್ವಯಂ-ಗಮನ: O(L²d), ಇಲ್ಲಿ d ಎಂಬುದು ಹೆಡ್ ಡೈಮೆನ್ಶನ್ ಆಗಿದೆ.

DSA: O(Lkd). ಸ್ಥಿರ k ಗಾಗಿ, ಅದು L ನಲ್ಲಿ ರೇಖಾತ್ಮಕ-ish ಆಗಿದೆ. ಇದು ದೀರ್ಘ ಸಂದರ್ಭಗಳಿಗೆ ಮುಖ್ಯವಾಗಿದೆ. 128K ಟೋಕನ್‌ಗಳಲ್ಲಿ, ನಿಮ್ಮ GPU ಬಿಲ್ ನಿಮಗೆ ಧನ್ಯವಾದಗಳು ಹೇಳುತ್ತದೆ.

ಮಾದರಿಯು ಪ್ರತಿ ಟೋಕನ್‌ಗೆ ಡೈನಾಮಿಕ್ ಅಭ್ಯರ್ಥಿ ಸೆಟ್ ಅನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಅಭ್ಯರ್ಥಿ ಆಯ್ಕೆ ಮತ್ತು ಅವುಗಳ ನಡುವೆ ನಿಜವಾದ ಗಮನಕ್ಕಾಗಿ ನೀವು ಪಾವತಿಸುತ್ತೀರಿ. ಅಭ್ಯರ್ಥಿ ಆಯ್ಕೆಯನ್ನು ವೆಕ್ಟರೈಸ್ ಮಾಡಿದ್ದರೆ ಮತ್ತು ಸಂಗ್ರಹ-ಅರಿವಾಗಿದ್ದರೆ, ನೀವು ಗೆಲ್ಲುತ್ತೀರಿ; ಇಲ್ಲದಿದ್ದರೆ, ನೀವು ಬಲೂನ್ ಅನ್ನು ಹಿಂಡುತ್ತಿದ್ದೀರಿ.

ಎಲ್ಲಾ ವಿರಳ ವಿಧಾನಗಳಲ್ಲಿ ಅದು ಉದ್ವಿಗ್ನತೆಯಾಗಿದೆ: ಲಕ್ಷಣಗಳನ್ನು ಕಡಿಮೆ ಮಾಡಿ, ಆದರೆ ನಿಮ್ಮ ಡೇಟಾ ಚಲನೆ ಮತ್ತು ಕರ್ನಲ್ ಉಡಾವಣಾ ಓವರ್‌ಹೆಡ್‌ನಲ್ಲಿ ಅದನ್ನು ಮರುಪರಿಚಯಿಸಬೇಡಿ. DSA ಸುತ್ತಲಿನ ಅನುಷ್ಠಾನಗಳು ಕರ್ನಲ್-ಮಟ್ಟದ ಬೆಂಬಲ ಮತ್ತು ವೇಳಾಪಟ್ಟಿ ಏಕೀಕರಣವನ್ನು ಒತ್ತಿಹೇಳುತ್ತವೆ, ಮತ್ತು ಇತ್ತೀಚಿನ ಪೋಸ್ಟ್‌ಗಳು ನಿಯೋಜನೆ ಸೆಟ್ಟಿಂಗ್‌ಗಳಲ್ಲಿ ಇದನ್ನು ನೈಜವಾಗಿಸಲು ನಿಖರವಾಗಿ vLLM ಬೆಂಬಲವನ್ನು ತೋರಿಸುತ್ತವೆ..

DSA ಈಗ ಏಕೆ ಮುಖ್ಯ?

ಏಕೆಂದರೆ ದೀರ್ಘ ಸಂದರ್ಭವು ಹೊಸ ಪರದೆಯ ಗಾತ್ರದ ಯುದ್ಧವಾಗಿದೆ. ಪ್ರತಿಯೊಬ್ಬರೂ 200K ಟೋಕನ್‌ಗಳು ಮತ್ತು ಅದಕ್ಕಿಂತ ಹೆಚ್ಚಿನದನ್ನು ಬಯಸುತ್ತಾರೆ - ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳು, ಕೋಡ್‌ಬೇಸ್‌ಗಳು, ನಿಮ್ಮ ಆತ್ಮಸಾಕ್ಷಿಯ ಗಾತ್ರದ PDF ಗಳು. ಆ ಉದ್ದಗಳಲ್ಲಿ ಕ್ವಾಡ್ರಾಟಿಕ್ ಗಮನವು ಸುಪ್ತತೆ, ಥ್ರೋಪುಟ್ ಮತ್ತು ವೆಚ್ಚಕ್ಕೆ ನಾನ್-ಸ್ಟಾರ್ಟರ್ ಆಗಿದೆ. ನೀವು ಚತುರ ಚಂಕಿಂಗ್ ಮತ್ತು ಮರುಪಡೆಯುವಿಕೆಯೊಂದಿಗೆ ಅದನ್ನು ನಕಲಿ ಮಾಡಬಹುದು, ಆದರೆ ನಿಮ್ಮ ಟ್ರಂಕ್ ತುಂಬುತ್ತಲೇ ಇರುವುದರಿಂದ ನಿಮ್ಮ ಕಾರಿನಲ್ಲಿ ಪುಸ್ತಕದ ಕಪಾಟನ್ನು ಸ್ಥಾಪಿಸಿದಂತಿದೆ. DSA ವಾದವು ಸರಳವಾಗಿದೆ: ನಿಜವಾದ ಗಮನದ ಹೆಜ್ಜೆಯನ್ನು ಮೂರ್ಖತನದಿಂದ ದುಬಾರಿಯಾಗಿಸಬೇಡಿ.

ಒಂದು ಬದಿಯ ಪ್ರಯೋಜನವೆಂದರೆ ಸ್ಥಿರತೆ. ಬಹಳ ಉದ್ದವಾದ ಅನುಕ್ರಮಗಳ ಮೇಲೆ ಪೂರ್ಣ ಗಮನವು ಸಂಖ್ಯಾತ್ಮಕವಾಗಿ ಸೂಕ್ಷ್ಮ ಮತ್ತು ಮೆಮೊರಿ ಗದ್ದಲದಂತಾಗುತ್ತದೆ. ವಿರಳ ಗಮನವು ಕಾರ್ಯನಿರತ ಸೆಟ್ ಅನ್ನು ಕುಗ್ಗಿಸುತ್ತದೆ ಮತ್ತು ದುರ್ಬಲ ಜೋಡಿ ಅಂಕಗಳಲ್ಲಿ ಮುಳುಗುವ ಮೂಲಕ ಮಾದರಿಯು "ಮರೆಯುವ" ಸಾಧ್ಯತೆಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. ನೀವು ರಚನೆಯ ಬೆನ್ನೆಲುಬು ಮತ್ತು ಮೇಲೆ ಹೊಂದಾಣಿಕೆಯ ಸಣ್ಣ ಸ್ಲೈಸ್ ಅನ್ನು ಇಟ್ಟುಕೊಳ್ಳುತ್ತೀರಿ. ಇದು ಪ್ರಾಯೋಗಿಕ ರಾಜಿ, ಅದು ಒಂದು ಬಾರಿ, ಕಾಗದದ ಡೆಮೊಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ಎಂಜಿನಿಯರಿಂಗ್ ನಿರ್ಧಾರದಂತೆ ಭಾಸವಾಗುತ್ತದೆ.

ವಿರಳ ಮೃಗಾಲಯದಲ್ಲಿ DSA ಎಲ್ಲಿ ಹೊಂದಿಕೊಳ್ಳುತ್ತದೆ

ಸ್ಥಿರ ಮಾದರಿಗಳು (ಸ್ಥಳೀಯ ವಿಂಡೋಗಳು, ಹಿಗ್ಗುವಿಕೆಗಳು): ವೇಗ, ಆದರೆ ದುರ್ಬಲ. ನಿಮ್ಮ ಅದೃಷ್ಟದ ಅಂಕಿಅಂಶವು ಗರಿಷ್ಠವಾಗದ ಹೊರತು ದೀರ್ಘ-ಶ್ರೇಣಿಯ ಕ್ರಾಸ್-ರೆಫರೆನ್ಸ್‌ಗಳನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತದೆ.

ಜಾಗತಿಕ ಟೋಕನ್‌ಗಳು: ಆಂಕರ್‌ಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ. ಉತ್ತಮ, ಆದರೆ ಕೈ-ತೊಳೆದುಕೊಳ್ಳುವಿಕೆ. ನೀವು ಎಲ್ಲದರ ಮೇಲೆ "CLS" ಅನ್ನು ಥಳಿಸಿ ಅದನ್ನು ಮರುಪಡೆಯುವಿಕೆ ಎಂದು ಕರೆಯಲು ಸಾಧ್ಯವಿಲ್ಲ.

ಕಲಿತ ನೀತಿಗಳ ಮೂಲಕ ರೂಟಿಂಗ್: ಸಂಭಾವ್ಯವಾಗಿ ಆದರ್ಶ, ಕಾರ್ಯಾಚರಣೆಯಲ್ಲಿ ಗೊಂದಲಮಯ. ತರಬೇತಿ ಸಂಕೀರ್ಣತೆಗಳು ಮತ್ತು ದುರ್ಬಲ ಅನುಮಾನ.

DSA ಯ ಉತ್ತಮವಾದ ಹೈಬ್ರಿಡ್: ಸ್ಥಳೀಯತೆ, ರಚನಾತ್ಮಕ ಜಾಗತಿಕತೆ ಮತ್ತು ಹೆಚ್ಚಿನ-ಸಿಗ್ನಲ್ ಪಿಕ್ಸ್ ಅನ್ನು ಮಿಶ್ರಣ ಮಾಡುವ ಪ್ರತಿ ಟೋಕನ್‌ಗೆ ಕಾಂಪ್ಯಾಕ್ಟ್ ಅಭ್ಯರ್ಥಿ ಸೆಟ್ ಅನ್ನು ಕ್ಯುರೇಟ್ ಮಾಡಿ. ಬುದ್ಧಿವಂತರಾಗಿರಬಾರದು - ನಿಮ್ಮ ಸುಪ್ತತೆ ಮತ್ತು ಗುಣಮಟ್ಟ ಎರಡೂ ಸ್ಕೇಲ್ ಆಗುವಷ್ಟು ಸ್ಥಿರವಾಗಿ ಉತ್ತಮವಾಗಿರಬೇಕು ಎಂಬುದು ಇದರ ಉದ್ದೇಶ.

ಕಾರ್ಯಕ್ಷಮತೆ: O(L²) ತೆರಿಗೆ ಮರುಪಾವತಿ

ಇಲ್ಲಿಯವರೆಗಿನ ವ್ಯಾಪ್ತಿಯು ಗಣನೀಯ ವೆಚ್ಚ ಕಡಿತವನ್ನು ಹೇಳುತ್ತದೆ - "ಅರ್ಧದಷ್ಟು" ವೆಚ್ಚಗಳು ಉಸಿರುಕಟ್ಟುವ ತುಣುಕುಗಳಲ್ಲಿ ತೋರಿಸಲ್ಪಡುತ್ತವೆ - ಆದರೆ ನಿಖರವಾದ ಸಂಖ್ಯೆ ಮುಖ್ಯವಲ್ಲ, ದೀರ್ಘವಾದ ಪ್ರಾಂಪ್ಟ್‌ಗಳು ಮತ್ತು ಹೆಚ್ಚಿನ ಏಕಕಾಲಿಕತೆಗಾಗಿ ಸ್ಕೇಲಿಂಗ್ ಕರ್ವ್ ಮತ್ತೆ ಕಾರ್ಯಸಾಧ್ಯತೆಗೆ ಬಾಗುತ್ತದೆ.. ನಿಮ್ಮ ಕೆಲಸದ ಹೊರೆಗಳು ಹೀಗಿದ್ದರೆ:

100+ ಪುಟಗಳಲ್ಲಿ RAG ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್ ಚಾಟ್,

ಬಹು-ಫೈಲ್ ಕೋಡ್ ನ್ಯಾವಿಗೇಷನ್,

ಉದ್ದವಾದ ಸ್ಕ್ರಾಚ್‌ಪ್ಯಾಡ್‌ಗಳನ್ನು ಇಟ್ಟುಕೊಳ್ಳುವ ಟೂಲ್-ಯೂಸಿಂಗ್ ಏಜೆಂಟ್‌ಗಳು,

...DSA ಪ್ರತಿ-ಟೋಕನ್ ಕಂಪ್ಯೂಟ್ ಮತ್ತು ಮೆಮೊರಿಯನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ. ವಿಂಡೋಡ್ ಹ್ಯಾಕ್‌ಗಳ ಮೆರವಣಿಗೆಯನ್ನು ಏರ್ಪಡಿಸುವ ಬದಲು ಸಂದರ್ಭವನ್ನು ನಿಜವಾಗಿಯೂ ಉಪಯುಕ್ತವಾಗಿರುವ ಸ್ಥಳಕ್ಕೆ ನೀವು ತಳ್ಳಬಹುದು. ಆರಂಭಿಕ vLLM ಬೆಂಬಲವು ಇದು ಕೇವಲ ಬೆಂಚ್-ಬ್ಲಿಂಗ್ ಅಲ್ಲ ಎಂದು ಸೂಚಿಸುತ್ತದೆ - ಜನರು ಮಾದರಿಗಳನ್ನು ನಿಯೋಜಿಸುವಲ್ಲಿ ಇದು ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ..

ಎಚ್ಚರಿಕೆಗಳು (a.k.a. ಮಂಗಳವಾರ ಯಾರೂ ಏಕೆ ಗೆಲುವು ಘೋಷಿಸಬಾರದು)

ಅಭ್ಯರ್ಥಿ ಆಯ್ಕೆ ಉಚಿತವಲ್ಲ. ಆಯ್ಕೆ ದಿನಚರಿಯು ಸಂಗ್ರಹ ಸಾಲುಗಳ ಮೇಲೆ ಎಡವಿದರೆ ಅಥವಾ ನಿಮ್ಮನ್ನು CPU-GPU ಪಿಂಗ್-ಪಾಂಗ್‌ಗೆ ತಳ್ಳಿದರೆ, ನಿಮ್ಮ ವಿರಳತೆಯ ಗೆಲುವುಗಳು ಆವಿಯಾಗುತ್ತದೆ.

k ಒಂದು ಬಜೆಟ್, ಜನ್ಮಸಿದ್ಧ ಹಕ್ಕಲ್ಲ. ತುಂಬಾ ಚಿಕ್ಕದಾಗಿದ್ದರೆ ಮತ್ತು ನೀವು ಮುಖ್ಯವಾದ ಕ್ರಾಸ್-ರೆಫರೆನ್ಸ್‌ಗಳನ್ನು ಬಿಡುತ್ತೀರಿ. ತುಂಬಾ ದೊಡ್ಡದಾಗಿದ್ದರೆ ಮತ್ತು ನೀವು ಮತ್ತೆ ದಟ್ಟಣೆಗೆ ಮರಳುತ್ತೀರಿ.

ತರಬೇತಿ ಮತ್ತು ಅನುಮಾನದ ಹೊಂದಾಣಿಕೆಯಾಗದಿರುವುದು. ನಿಮ್ಮ ಮಾದರಿಯು ದಟ್ಟಣೆಯಿಂದ ತರಬೇತಿ ಪಡೆದಿದ್ದರೆ ಮತ್ತು ನೀವು ಅನುಮಾನದಲ್ಲಿ ವಿರಳವಾಗಿ ಚಲಾಯಿಸಿದರೆ, ಗುಣಮಟ್ಟದ ಡ್ರಿಫ್ಟ್ ಅನ್ನು ನಿರೀಕ್ಷಿಸಿ. DSA ಯ ಬಲವಾದ ಫಲಿತಾಂಶಗಳು ವಿರಳತೆಯು ತರಬೇತಿ ಆಹಾರದ ಭಾಗವಾದಾಗ ತೋರಿಸಲ್ಪಡುತ್ತವೆ, ಕೇವಲ ಬಡಿಸುವ ಸಮಯದ ಅಲಂಕಾರವಲ್ಲ.

ದೀರ್ಘ-ಬಾಲದ ವಿಚಿತ್ರತೆ. ವಿರಳ ಮಾದರಿಗಳು ಕೆಲವೊಮ್ಮೆ ಎಲ್ಲಿಂದಲೋ ಬಂದ ಕಾಲ್‌ಬ್ಯಾಕ್ ಅನ್ನು 30K ಟೋಕನ್‌ಗಳ ನಂತರ ವಾಸನೆ ಮಾಡುತ್ತವೆ. ಉತ್ತಮ ಹೈಬ್ರಿಡ್‌ಗಳು ಆವರ್ತಕ ಜಾಗತಿಕ ಅಥವಾ ಕಲಿತ ಆಂಕರ್‌ಗಳೊಂದಿಗೆ ಹೆಡ್ಜ್ ಮಾಡುತ್ತವೆ.

ಇದೆಲ್ಲವೂ ಪುಸ್ತಕಕ್ಕೆ ಉತ್ತಮ ಸೂಚ್ಯಂಕವನ್ನು ಮಾಡುವಂತೆ ತೋರುತ್ತಿದ್ದರೆ, ಅದಕ್ಕಾಗಿಯೇ ಅದು. ತುಂಬಾ ಚಿಕ್ಕದಾಗಿದ್ದರೆ ಮತ್ತು ನೀವು ಏನನ್ನೂ ಹುಡುಕಲು ಸಾಧ್ಯವಿಲ್ಲ; ತುಂಬಾ ಉದ್ದವಿದ್ದರೆ ಮತ್ತು ಅದು ಮತ್ತೆ ಪುಸ್ತಕವೇ.

DSA ಏನು ಇಟ್ಟುಕೊಳ್ಳಬೇಕೆಂದು ಹೇಗೆ ಆರಿಸುತ್ತದೆ

ವಿವರಗಳು ಅನುಷ್ಠಾನದ ಮೂಲಕ ಬದಲಾಗುತ್ತವೆ, ಆದರೆ ಪ್ಲೇಬುಕ್ ಹೀಗಿದೆ:

ಸ್ಥಳೀಯ ವಿಂಡೋ: ಸ್ಲೈಡಿಂಗ್ ವಿಂಡೋದಲ್ಲಿ ನೆರೆಹೊರೆಯವರನ್ನು ಇಟ್ಟುಕೊಳ್ಳಿ - ಹೆಚ್ಚಿನ ಭಾಷಾ ರಚನೆಯು ಸ್ಥಳೀಯವಾಗಿದೆ. 2) ಆವರ್ತಕ/ಜಾಗತಿಕ ಟೋಕನ್‌ಗಳು: ನಿಯಮಿತ "ಬೀಕನ್‌ಗಳನ್ನು" ಸೇರಿಸಿ ಅದು ಯಾವಾಗಲೂ ಜಾಗತಿಕವಾಗಿ ಸಂಪರ್ಕಿಸುತ್ತದೆ. 3) ಪ್ರಾಮುಖ್ಯತೆಯ ಸ್ಕೋರಿಂಗ್: ಲೈಟ್‌ವೇಟ್ ಸಿಗ್ನಲ್‌ಗಳನ್ನು ಬಳಸಿ - ಹಿಂದಿನ ಲೇಯರ್ ಸಕ್ರಿಯಗೊಳಿಸುವಿಕೆಗಳು, ಸಂಗ್ರಹಿಸಲಾದ ಪ್ರಾಮುಖ್ಯತೆ ಅಥವಾ ಟಾಪ್-ಕೆ ಹೋಲಿಕೆಯಂತಹ ಅಂದಾಜುಗಳಿಂದ - ಹೆಚ್ಚುವರಿ ದೂರದ ಟೋಕನ್‌ಗಳನ್ನು ಆಯ್ಕೆ ಮಾಡಲು. 4) ಕಾಂಪ್ಯಾಕ್ಟ್ ಗಮನ: ಇರಿಸಲಾದ ಸೆಟ್‌ನ ಒಕ್ಕೂಟದ ಮೇಲೆ ಮಾತ್ರ ಗಮನವನ್ನು ಚಲಾಯಿಸಿ. 5) ಪ್ರತಿ ಲೇಯರ್‌ಗೆ ಪುನರಾವರ್ತಿಸಿ, ವಿಭಿನ್ನ ಹೆಡ್‌ಗಳು ವಿಭಿನ್ನ ರಚನೆಗಳನ್ನು ಆದ್ಯತೆ ನೀಡಲು ಅವಕಾಶ ನೀಡುತ್ತದೆ.

ಇದು ಸಂಪ್ರದಾಯವಲ್ಲ; ಅದು ಕೆಲಸ ಮಾಡುವ ಕನಿಷ್ಠ ಆಶ್ಚರ್ಯಕರ ವಿಷಯವಾಗಿದೆ. ಮತ್ತು ಆಧುನಿಕ ಅನುಮಾನದ ಸ್ಟ್ಯಾಕ್‌ಗಳಲ್ಲಿ ಕಾರ್ಯಾಚರಣಾ ಬೆಂಬಲ ಲ್ಯಾಂಡಿಂಗ್ ಅನ್ನು ನೀಡಿದರೆ, ಅದು ಸ್ಪಷ್ಟವಾಗಿ ಮಾಡುತ್ತದೆ..

DSA vs. ಚಂಕಿಂಗ್ vs. ಮರುಪಡೆಯುವಿಕೆ: ನಿಮ್ಮ ವಿಷವನ್ನು ಆರಿಸಿ

наївне ಚಂಕಿಂಗ್: ವೇಗ, ಆದರೆ ಮೂರ್ಖ - ಸಂದರ್ಭದ ಗಡಿಗಳು ಬಂಡೆಗಳಾಗುತ್ತವೆ. ಥ್ರೋಪುಟ್‌ಗೆ ಒಳ್ಳೆಯದು, ಯಾವುದಕ್ಕೂ ಸೂಕ್ಷ್ಮವಲ್ಲ.

ಮರುಪಡೆಯುವಿಕೆ-ವರ್ಧಿತ ಉತ್ಪಾದನೆ: ಚುರುಕಾದ, ಆದರೆ ದುರ್ಬಲ - ಜನರೇಟರ್‌ಗೆ ನಂತರ ಏನು ಬೇಕು ಎಂಬುದನ್ನು ಮರುಪಡೆಯುವವನು ನೆನಪಿಟ್ಟುಕೊಳ್ಳುವುದನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ.

DSA-ಶೈಲಿಯ ವಿರಳ ಗಮನ: ಇಡೀ ಥ್ರೆಡ್ ಅನ್ನು ಸಂದರ್ಭದಲ್ಲಿ ಇರಿಸುತ್ತದೆ, ಕಂಪ್ಯೂಟ್ ಎಲ್ಲಿ ಎಣಿಸುತ್ತದೆಯೋ ಅಲ್ಲಿ ಕೇಂದ್ರೀಕರಿಸಲಾಗುತ್ತದೆ. ಇದು ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ಬದಲಿಸುವುದಿಲ್ಲ; ಇದು ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ಕಡಿಮೆ ಊರುಗೋಲು ಮಾಡುತ್ತದೆ.

ಪ್ರಾಮಾಣಿಕ ಪರಿಹಾರವೆಂದರೆ ಮಿಶ್ರಣ: ಸಂಬಂಧಿತ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಎಳೆಯಲು ಮರುಪಡೆಯುವಿಕೆ, ಕರಗದೆ ದೀರ್ಘ ಅನುಕ್ರಮಗಳ ಮೇಲೆ ತರ್ಕಿಸಲು ವಿರಳ ಗಮನ. ನಿಮ್ಮ ಕ್ಲೌಡ್ ಬಿಲ್ ಅನ್ನು ದ್ವೇಷಿಸದೆ ನೀವು ಎರಡನ್ನೂ ಮಾಡಬಹುದು.

ಗುಣಮಟ್ಟ: ಅದು ಇನ್ನೂ ಅರ್ಥಮಾಡಿಕೊಳ್ಳುತ್ತದೆಯೇ?

ವಿರಳ ಗಮನವು ವಾಕ್ಯಗಳ ನಡುವಿನ ಅರ್ಥವನ್ನು ನಿಶ್ಯಬ್ದವಾಗಿ ಬಿಡುತ್ತದೆಯೇ ಎಂಬುದು ಮಿಲಿಯನ್ ಡಾಲರ್ ಪ್ರಶ್ನೆ. DeepSeek ಮಾದರಿಗಳಿಗೆ ಆರಂಭಿಕ ವರದಿಗಳು ದೀರ್ಘ ಸಂದರ್ಭದಲ್ಲಿ ಗುಣಮಟ್ಟವು ಹೆಚ್ಚಾಗುತ್ತದೆ ಅಥವಾ ಸುಧಾರಿಸುತ್ತದೆ ಎಂದು ಸೂಚಿಸುತ್ತದೆ ಏಕೆಂದರೆ ಮಾದರಿಯು ಅರ್ಥವಿಲ್ಲದ ಜೋಡಿ ಅಂಕಗಳಲ್ಲಿ ಸಂಭವನೀಯ ದ್ರವ್ಯರಾಶಿಯನ್ನು ವ್ಯರ್ಥ ಮಾಡುತ್ತಿಲ್ಲ. ಪ್ರಾಂಪ್ಟ್ ಮೂಲಕ ಮಾದರಿಯು ವಿಶ್ವಾಸಾರ್ಹ ಬೆನ್ನೆಲುಬನ್ನು ಹೊಂದಿರುವಂತೆ k ಮತ್ತು ಜಾಗತಿಕ ರಚನೆಯನ್ನು ಟ್ಯೂನ್ ಮಾಡುವುದು ತಂತ್ರವಾಗಿದೆ. ಮತ್ತು ಮತ್ತೆ, ಲೂಪ್ನಲ್ಲಿ ವಿರಳತೆಯೊಂದಿಗೆ ತರಬೇತಿ ಮುಖ್ಯವಾಗಿದೆ - ಮಾದರಿಗಳು ಹೊಂದಿಕೊಳ್ಳುತ್ತವೆ. ಇದು ಮ್ಯಾನುಯಲ್ ಟ್ರಾನ್ಸ್‌ಮಿಷನ್‌ನೊಂದಿಗೆ ಚಾಲನೆ ಮಾಡಲು ಕಲಿಯುವಂತಿದೆ; ಒಮ್ಮೆ ನೀವು ಲಯವನ್ನು ಪಡೆದರೆ, ನೀವು ಸ್ವಯಂ ಅನ್ನು ಕಳೆದುಕೊಳ್ಳುವುದಿಲ್ಲ.

ನಿಯೋಜನೆ ವಾಸ್ತವ: ಕರ್ನಲ್‌ಗಳು, ಸಂಗ್ರಹಗಳು, ವೇಳಾಪಟ್ಟಿಗಳು

vLLM ಬೆಂಬಲ ಟಿಪ್ಪಣಿಯನ್ನು ಕರೆಯುವುದು ಯೋಗ್ಯವಾಗಿದೆ: DSA ಕೇವಲ ಕಾಗದದ ತಂತ್ರವಲ್ಲ; ಕರ್ನಲ್ ಬೆಂಬಲ ಮತ್ತು ವೇಳಾಪಟ್ಟಿಯಲ್ಲಿ ನೈಜ ಕೆಲಸ ನಡೆಯುತ್ತಿದೆ, ಆದ್ದರಿಂದ ಇದು ಸ್ಕ್ಯಾಟರ್-ಸಂಗ್ರಹ ರಂಗಭೂಮಿಯೊಂದಿಗೆ GPU ಅನ್ನು ಸ್ಥಗಿತಗೊಳಿಸುವುದಿಲ್ಲ.. ಬ್ಲಾಕ್-ವಿರಳ ಕರ್ನಲ್‌ಗಳು, ಫ್ಯೂಸ್ಡ್ ಆಪ್‌ಗಳು ಮತ್ತು ಎಚ್ಚರಿಕೆಯಿಂದ KV-ಸಂಗ್ರಹ ಲೇಔಟ್ ಈ ವಿಷಯವನ್ನು ಮಾಡುತ್ತದೆ ಅಥವಾ ಮುರಿಯುತ್ತದೆ. ವಿರಳ ಗಮನದಲ್ಲಿನ ಕೆಟ್ಟ ಫಲಿತಾಂಶಗಳು ಸ್ಮರಣೀಯ ಬ್ಯಾಂಡ್‌ವಿಡ್ತ್ ಮತ್ತು ಉಡಾವಣಾ ಓವರ್‌ಹೆಡ್‌ನೊಂದಿಗೆ ಸಂಪೂರ್ಣವಾಗಿ ಸಮಂಜಸವಾದ ವಿಚಾರಗಳನ್ನು ಘರ್ಷಿಸುವುದರಿಂದ ಬರುತ್ತವೆ. ಅವುಗಳನ್ನು ನಿರ್ವಹಿಸಿದಾಗ, ವಿರಳತೆಯು ಹಾಡುತ್ತದೆ.

DSA ಎಲ್ಲಿ ಬೆಳಗುತ್ತದೆ

ರಚನಾತ್ಮಕ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳ ಮೇಲೆ ದೀರ್ಘ-ಸಂದರ್ಭದ ಪ್ರಶ್ನೋತ್ತರ. ಸ್ಥಳೀಯ + ಬೀಕನ್ ಮಿಶ್ರಣವು ಗಮನವನ್ನು ತುಂಬದೆಯೇ ವಿಭಾಗಗಳು ಮತ್ತು ಕ್ರಾಸ್-ರೆಫರೆನ್ಸ್‌ಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡುತ್ತದೆ.

ಕೋಡ್‌ಬೇಸ್ ತಾರ್ಕಿಕ ಕ್ರಿಯೆ. ಸ್ಥಳೀಯ ವಿಂಡೋಗಳು ಇಂಟ್ರಾ-ಫೈಲ್ ಸಂದರ್ಭವನ್ನು ಸೆರೆಹಿಡಿಯುತ್ತವೆ; ಆವರ್ತಕ/ಜಾಗತಿಕ ಲಿಂಕ್‌ಗಳು ಫೈಲ್‌ಗಳು, ಕಾರ್ಯ ಕರೆಗಳು ಮತ್ತು ಆಮದುಗಳಾದ್ಯಂತ ಸವಾರಿ ಮಾಡುತ್ತವೆ.

ಸ್ಕ್ರಾಚ್‌ಪ್ಯಾಡ್‌ಗಳನ್ನು ಹೊಂದಿರುವ ಏಜೆಂಟ್‌ಗಳು. ಐದನೇ ಪುಟದ ನಂತರ ಅರ್ಥಹೀನತೆಗೆ ಅವನತಿ ಹೊಂದದೆ ದೀರ್ಘವಾದ ಕೆಲಸದ ಸ್ಮರಣೆಯನ್ನು ಇಟ್ಟುಕೊಳ್ಳಲು ವಿರಳ ಗಮನವು ಏಜೆಂಟ್‌ಗೆ ಅನುಮತಿಸುತ್ತದೆ.

DSA ಎಲ್ಲಿ (ಇನ್ನೂ) ಇಲ್ಲ

ಚಿಕ್ಕ ಪ್ರಾಂಪ್ಟ್‌ಗಳು. ದಟ್ಟಣೆಯ ಗಮನವು ಉತ್ತಮವಾಗಿದೆ; ವಿರಳ ಓವರ್‌ಹೆಡ್ ಸವಕಳಿಯಾಗದಿರಬಹುದು.

ಸ್ಪಷ್ಟವಾದ ರಚನಾತ್ಮಕ ಸೂಚನೆಗಳಿಲ್ಲದೆ ಹೇಗಾಡಿನಲ್ಲಿರುವ ಸೂಜಿಯನ್ನು ಹುಡುಕುವ ಅಗತ್ಯವಿರುವ ಹೆಚ್ಚು ಸಿಕ್ಕಿಬಿದ್ದ ಕವನ ಅಥವಾ ಒಗಟು ಪ್ರಾಂಪ್ಟ್‌ಗಳು. ನೀವು ಇನ್ನೂ k ಅನ್ನು ಟ್ಯೂನ್ ಮಾಡಬಹುದು, ಆದರೆ ವಿಧಾನವು ಒಗಟುಗಳಿಗಿಂತ ಹೆಚ್ಚಾಗಿ ಮಾದರಿಗಳನ್ನು ಇಷ್ಟಪಡುತ್ತದೆ.

Sider.AI ಬಗ್ಗೆ ಏನು?

ಯಾವುದೇ ತಂತ್ರಗಳಿಗೆ ಇಲ್ಲಿ ಪರೀಕ್ಷೆ ಇದೆ: ಅವರು ಬಳಕೆದಾರರನ್ನು ಸಂಬಳವಿಲ್ಲದ QA ಇಂಜಿನಿಯರ್‌ಗಳಾಗಿ ಪರಿವರ್ತಿಸದೆ ಪರಿಕರಗಳನ್ನು ಉತ್ತಮಗೊಳಿಸುತ್ತಾರೆಯೇ? ನನ್ನ ರನ್‌ಗಳಲ್ಲಿ, ವಿರಳ ಗಮನವನ್ನು ಚೆನ್ನಾಗಿ ಸಂಯೋಜಿಸುವ ಪರಿಕರಗಳು - ವಿಶೇಷವಾಗಿ ಡಾಕ್ಯುಮೆಂಟ್ ಮತ್ತು ಕೋಡ್ ಚಾಟ್‌ಗಾಗಿ - ಕಡಿಮೆ ಉಗ್ರ ಸ್ವಭಾವದವು ಎಂದು ಭಾವಿಸುತ್ತೇನೆ. Sider.AI ನಿಜವಾಗಿಯೂ ಇಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ: ನೀವು 80-ಪುಟಗಳ ವಿಶೇಷಣಗಳನ್ನು ಅಂಟಿಸುತ್ತಿರುವಾಗ ಅಥವಾ ರೆಪೊದ ಮೂಲಕ ಸಾಗುತ್ತಿರುವಾಗ, ಪುಟ 47 ರ ಬಗ್ಗೆ ನಿಲ್ಲಿಸದೆ ಅಥವಾ ಭ್ರಮೆಗೊಳಿಸದೆ ಉದ್ದವಾದ, ಸುಸಂಬದ್ಧ ಥ್ರೆಡ್ ಅನ್ನು ಇಟ್ಟುಕೊಳ್ಳುವ ಸಾಮರ್ಥ್ಯವು ಮುಖ್ಯವಾಗಿದೆ. ಮಾರುಕಟ್ಟೆಯು "ಉತ್ತಮವಾದ ವಿರಳತೆ" ಬಗ್ಗೆ ಹೆಮ್ಮೆಪಡುವುದಿಲ್ಲ, ಮತ್ತು ಅದು ಉತ್ತಮವಾಗಿದೆ. ಬಳಕೆದಾರರು ಅದು ಸ್ಪಂದಿಸುವಂತಿರಬೇಕು, ಸಂದರ್ಭವನ್ನು ನೇರವಾಗಿ ಇಟ್ಟುಕೊಳ್ಳಬೇಕು ಮತ್ತು ವೆಗಾಸ್‌ನಲ್ಲಿ ವಾರಾಂತ್ಯದಂತೆ ವೆಚ್ಚವಾಗಬಾರದು ಎಂದು ಕಾಳಜಿ ವಹಿಸುತ್ತಾರೆ. ನೀವು ದೊಡ್ಡದಾದ, ಗೊಂದಲಮಯ ಇನ್‌ಪುಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತಿದ್ದರೆ, ಈ ರೀತಿಯ ಗಮನ ತಂತ್ರವು ಹುಡ್‌ನ ಕೆಳಗಿನ ಬದಲಾವಣೆಯಾಗಿದ್ದು ಅದು ಕಡಿಮೆ ಗುಳ್ಳೆಗಳು ಮತ್ತು ವೇಗವಾದ ಉತ್ತರಗಳಾಗಿ ತೋರಿಸುತ್ತದೆ.

ಪ್ರಾಯೋಗಿಕ ಮಾರ್ಗದರ್ಶನ: ನೀವು DSA ಅನ್ನು ಬಳಸಬೇಕೆ ಎಂದು ನೀವು ನಿರ್ಧರಿಸುತ್ತಿದ್ದರೆ

ನಿಮ್ಮ ಸಂದರ್ಭವು ವಾಡಿಕೆಯಂತೆ >32K ಟೋಕನ್‌ಗಳು: ಹೌದು, ಅದನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡಿ.

ನೀವು ನಿಮ್ಮ ನಿಯೋಜನೆ ಸ್ಟಾಕ್ ಅನ್ನು ಹೊಂದಿದ್ದೀರಿ (vLLM, Triton ಕರ್ನಲ್‌ಗಳು, KV-ಸಂಗ್ರಹ ಟ್ಯೂನಿಂಗ್): ಹೌದು, ವಿಶೇಷವಾಗಿ.

ನೀವು ದಟ್ಟಣೆಯಿಂದ ತರಬೇತಿ ಪಡೆದ ತೂಕದೊಂದಿಗೆ ಸಿಲುಕಿಕೊಂಡಿದ್ದೀರಿ ಮತ್ತು ಮರುತರಬೇತಿ ನೀಡಲು ಸಾಧ್ಯವಿಲ್ಲ: ಎಚ್ಚರಿಕೆಯಿಂದ ಪರೀಕ್ಷಿಸಿ; ಭಾಗಶಃ ವಿರಳತೆ ಅಥವಾ ಹೆಡ್-ನಿರ್ದಿಷ್ಟ ವಿರಳತೆಯನ್ನು ಪರಿಗಣಿಸಿ.

ಸುಪ್ತತೆಗೆ ಸೂಕ್ಷ್ಮವಾದ, ಹೆಚ್ಚಿನ-QPS ಕೆಲಸದ ಹೊರೆಗಳು: ಇದು ಕರ್ವ್ ಬಾಗುವುದು ಮುಖ್ಯವಾಗಿದೆ. p95 ಮತ್ತು p99 ಅನ್ನು ಅಳೆಯಿರಿ.

ಮತ್ತು ದಯವಿಟ್ಟು, GPU ಯ ಎಲ್ಲಾ ವಿಷಯಗಳ ಪ್ರೀತಿಗಾಗಿ, ನೈಜ ಪ್ರಾಂಪ್ಟ್‌ಗಳೊಂದಿಗೆ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮಾಡಿ, ಸಂಶ್ಲೇಷಿತ ಲೋರೆಮ್ ಇಪ್ಸಮ್ ಅಲ್ಲ. ವಿರಳ ವಿಧಾನಗಳು ಪ್ರಸ್ತುತತೆಯ ವಾಸ್ತವಿಕ ವಿತರಣೆಗಳಲ್ಲಿ ಬದುಕುತ್ತವೆ ಅಥವಾ ಸಾಯುತ್ತವೆ.

ಮೆಟಾ-ಪಾಯಿಂಟ್: ಉತ್ತಮ ರುಚಿಯಾಗಿ ವಿರಳತೆ

ಇದಕ್ಕೆ ಒಂದು ಸೌಂದರ್ಯವಿದೆ. ಎಲ್ಲದರಲ್ಲೂ ಸಮಾನವಾಗಿ ಗಮನಹರಿಸುವ ಮಾದರಿಗಳು ಎಲ್ಲರೂ ಮಾತನಾಡುವ ಸಭೆಗಳಂತೆ ಇವೆ. ಪ್ರಜಾಪ್ರಭುತ್ವವಾಗಿ ಕಾಣುತ್ತದೆ, ಏನನ್ನೂ ಸಾಧಿಸುವುದಿಲ್ಲ. DSA ಯ ಸಂವೇದನೆಯು ಸಂಪಾದಕೀಯವಾಗಿದೆ: ಆಸಕ್ತಿದಾಯಕ ಭಾಗಗಳ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸಿ, ಬೆನ್ನೆಲುಬನ್ನು ನಿರ್ವಹಿಸಿ ಮತ್ತು ಬಜೆಟ್ ಅನ್ನು ಇಟ್ಟುಕೊಳ್ಳಿ. ನೀವು ಯಂತ್ರ ಕಲಿಕೆಗಿಂತ ವಿಶಾಲವಾದ ಪಾಠವನ್ನು ಬಯಸಿದರೆ, ಅದು ಇಲ್ಲಿದೆ. ಉತ್ತಮ ವ್ಯವಸ್ಥೆಗಳು ಎಲ್ಲವನ್ನೂ ಮಾಡುವುದಿಲ್ಲ. ಅವರು ಸರಿಯಾದ ಕೆಲಸಗಳನ್ನು ತ್ವರಿತವಾಗಿ ಮಾಡುತ್ತಾರೆ.

ಅನಿವಾರ್ಯ ಭವಿಷ್ಯ: ವಿರಳವಾಗಿ ತರಬೇತಿ ನೀಡಿ, ವಿರಳವಾಗಿ ಬಡಿಸಿ

ವಿರಳ ಮಾದರಿಗಳೊಂದಿಗೆ ಕೊನೆಯಿಂದ ಕೊನೆಯವರೆಗೆ ತರಬೇತಿ ಪಡೆದ ಹೆಚ್ಚಿನ ಮಾದರಿಗಳನ್ನು ನಾವು ನೋಡುತ್ತೇವೆ. ಗುಣಮಟ್ಟ ಮತ್ತು ಸ್ಥಿರತೆಯ ಕೊನೆಯ 10-15% ಅಲ್ಲಿಂದ ಬರುತ್ತದೆ: ಮಾದರಿಯ ಇಂಡಕ್ಟಿವ್ ಪಕ್ಷಪಾತಗಳು ಸೇವಾ ಮಾರ್ಗದೊಂದಿಗೆ ಹೊಂದಾಣಿಕೆ ಮಾಡಲು ಅವಕಾಶ ನೀಡುತ್ತದೆ. ನೀವು ವಿರಳವಾಗಿ ಬಡಿಸಿದರೆ ಆದರೆ ದಟ್ಟಣೆಯಿಂದ ತರಬೇತಿ ನೀಡಿದರೆ, ನೀವು ಹೆದ್ದಾರಿಯಲ್ಲಿ ಗೇರ್ಗಳನ್ನು ಬದಲಾಯಿಸಲು ಮಾದರಿಯನ್ನು ಕೇಳುತ್ತಿದ್ದೀರಿ. ಇದು ಕೆಲಸ ಮಾಡಬಹುದು, ಆದರೆ ಅದು ತಡವರಿಸಿದಾಗ ಆಶ್ಚರ್ಯಪಡಬೇಡಿ.

ಏತನ್ಮಧ್ಯೆ, ಚೌಕಟ್ಟುಗಳು ವಿರಳ ಮಾದರಿಗಳನ್ನು ಸಂಯೋಜಿಸಬಲ್ಲವು: ಸ್ಥಳೀಯ ವಿಂಡೋಗಳು + ಆವರ್ತಕ ಜಾಗತಿಕ + ಕಲಿತ ಆಂಕರ್‌ಗಳು + ಮರುಪಡೆಯುವಿಕೆ-ಅರಿವು ಟೋಕನ್‌ಗಳು. ಕೊನೆಯ ಬಿಟ್ - ಮರುಪಡೆಯುವವರ ಪ್ರಾಮುಖ್ಯತೆ ಮತ್ತು ಗಮನದ ಪ್ರಾಮುಖ್ಯತೆಯ ನಡುವೆ ಲೂಪ್ ಅನ್ನು ಮುಚ್ಚುವುದು - ಮುಂದಿನ ಸ್ಪಷ್ಟ ಹೆಜ್ಜೆಯಂತೆ ಭಾಸವಾಗುತ್ತದೆ. ನೀವು ಏನು ತರುತ್ತೀರೋ ಅದು ನೀವು ಏನು ಗಮನಹರಿಸುತ್ತೀರಿ ಎಂಬುದನ್ನು ತಿಳಿಸಿದಾಗ, ನೀವು ಅರ್ಧ-ಕುರುಡ ವ್ಯವಸ್ಥೆಗಳ ನಡುವೆ ಪಿಂಗ್-ಪಾಂಗ್ ಮಾಡುವುದನ್ನು ನಿಲ್ಲಿಸುತ್ತೀರಿ.

ಹಾಗಾದರೆ DSA ಹೇಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ? ಸಣ್ಣ ಉತ್ತರ

ಇದು ಪ್ರತಿ ಟೋಕನ್‌ಗೆ ಸಂಭವನೀಯವಾಗಿ ಸಂಬಂಧಿತ ಟೋಕನ್‌ಗಳ ಕಾಂಪ್ಯಾಕ್ಟ್ ಸೆಟ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ - ಹೆಚ್ಚಾಗಿ ಸ್ಥಳೀಯರು, ಕೆಲವು ಜಾಗತಿಕರು, ಕೆಲವು ಸ್ಮಾರ್ಟ್ ಪಿಕ್ಸ್.

ಇದು ಆ ಸೆಟ್‌ನಲ್ಲಿ ಮಾತ್ರ ಗಮನವನ್ನು ಚಲಾಯಿಸುತ್ತದೆ, ಕ್ವಾಡ್ರಾಟಿಕ್‌ನಿಂದ ಸರಿಸುಮಾರು ಸಂದರ್ಭದ ಉದ್ದದಲ್ಲಿ ರೇಖಾತ್ಮಕವಾಗಿ ಕಂಪ್ಯೂಟ್ ಅನ್ನು ಕತ್ತರಿಸುತ್ತದೆ.

ಸೈದ್ಧಾಂತಿಕ ಉಳಿತಾಯವು ನೈಜ ಸುಪ್ತತೆಯ ಗೆಲುವುಗಳಾಗಿ ತೋರಿಸುವಂತೆ ಇದು ಎಚ್ಚರಿಕೆಯಿಂದ ಕರ್ನಲ್‌ಗಳು ಮತ್ತು ಸಂಗ್ರಹ ಲೇಔಟ್ ಅನ್ನು ಅವಲಂಬಿಸಿದೆ.

ದೀರ್ಘ-ಶ್ರೇಣಿಯ ಉಲ್ಲೇಖಗಳು ಕಳೆದುಹೋಗದಂತೆ ರಚನೆ ಮತ್ತು ಸಾಕಷ್ಟು ಜಾಗತಿಕ ಸಂಪರ್ಕವನ್ನು ಸಂರಕ್ಷಿಸುವ ಮೂಲಕ ಇದು ಗುಣಮಟ್ಟವನ್ನು ಹೊಂದಿದೆ.

ಅಷ್ಟೇ. ಧೂಪವಿಲ್ಲ, ಮಂತ್ರಗಳಿಲ್ಲ. ಏನನ್ನು ಗಮನಹರಿಸಬೇಕೆಂದು ಬಲವಂತದ ಉತ್ತಮ ರುಚಿ.

ಟ್ವಿಸ್ಟ್ ಎಂಡಿಂಗ್ (ಏಕೆಂದರೆ ಯಾವಾಗಲೂ ಒಂದು ಇರುತ್ತದೆ)

ಪ್ರತಿ AI ತಂತ್ರವು ಅಂತಿಮವಾಗಿ ನಿರಾಶೆಯ ಕ್ಷಣವನ್ನು ಹೊಂದಿರುತ್ತದೆ. ವಿರಳ ಗಮನವು ಪ್ರಮುಖವಾದುದನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತದೆ, ಬಹುಶಃ ಮೂರನೇ ಶ್ಲೋಕವನ್ನು ಮೂವತ್ತೇಳನೇ ಶ್ಲೋಕಕ್ಕೆ ಭಾಷೆಗಳಾದ್ಯಂತ ಕಾರ್ಯ ಸಹಿಯನ್ನು ಜಗ್ಲಿಂಗ್ ಮಾಡುವಾಗ ಸಂಪರ್ಕಿಸಬೇಕು ಎಂದು ಒತ್ತಾಯಿಸುವ ಚತುರ ವಿಮರ್ಶಕರಿಂದ ರಚಿಸಲಾದ ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ. ಸರಿ. ಆದರೆ ಹೆಚ್ಚಿನ ನೈಜ ಕೆಲಸವು ಕವನ-ಸ್ಲ್ಯಾಷ್-ಬೆಂಚ್‌ಮಾರ್ಕ್‌ಗಳಲ್ಲ - ಇದು ಪಠ್ಯ, ಕೋಡ್ ಮತ್ತು ಸತ್ಯಗಳ ಮೂಲಕ ರುಬ್ಬುವುದು. ಅದಕ್ಕಾಗಿ, DSA ಕೇವಲ ಉತ್ತಮ ಕಲ್ಪನೆಯಲ್ಲ. ನಿಮ್ಮ ಸಂದರ್ಭವನ್ನು ಓದುವುದನ್ನು ನಟಿಸುವ ಮಾದರಿ ಮತ್ತು ನಿಜವಾಗಿಯೂ ಓದಬಲ್ಲ ಮಾದರಿಯ ನಡುವಿನ ವ್ಯತ್ಯಾಸವಿದು.

ಮತ್ತು ನೀವು ಮೋಡದ ಬಜೆಟ್ ಮೂಲಕ ರಂಧ್ರವನ್ನು ಸುಡದೆ ಅದನ್ನು ಮಾಡಲು ಸಾಧ್ಯವಾದರೆ? ಅದು ತಂತ್ರವಲ್ಲ. ಅದು ಪ್ರಗತಿ..

FAQ

Q1:DeepSeek Sparse Attention (DSA) ಸರಳ ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ? DSA ಮುಖ್ಯವಾದ ಟೋಕನ್‌ಗಳಿಗೆ ಗಮನವನ್ನು ಕಿರಿದುಗೊಳಿಸುತ್ತದೆ - ಹೆಚ್ಚಾಗಿ ಹತ್ತಿರದ ಪಠ್ಯ, ಕೆಲವು ಜಾಗತಿಕ ಆಂಕರ್‌ಗಳು, ಜೊತೆಗೆ ಹೆಚ್ಚಿನ-ಸಿಗ್ನಲ್ ಪಿಕ್ಸ್‌ನ ಒಂದು ಸಣ್ಣ ಪಟ್ಟಿ. O(L²) ಹೋಲಿಕೆಗಳ ಬದಲು, ಇದು O(Lk) ಅನ್ನು ಚಲಾಯಿಸುತ್ತದೆ, ಕಂಪ್ಯೂಟ್ ಅನ್ನು ಕಡಿತಗೊಳಿಸುವಾಗ ರಚನೆಯನ್ನು ಸಂರಕ್ಷಿಸುವ ಮೂಲಕ ಗುಣಮಟ್ಟವನ್ನು ಕಾಪಾಡಿಕೊಳ್ಳುತ್ತದೆ.

Q2:ದೀರ್ಘ ಸಂದರ್ಭಕ್ಕಾಗಿ DSA ಚಂಕಿಂಗ್ ಅಥವಾ ಮರುಪಡೆಯುವಿಕೆಗಿಂತ ಉತ್ತಮವಾಗಿದೆಯೇ? DSA ಎಲ್ಲವನ್ನೂ ಒಂದೇ ಥ್ರೆಡ್‌ನಲ್ಲಿ ಇರಿಸುತ್ತದೆ ಆದರೆ ಎಲ್ಲಿ ಎಣಿಸುತ್ತದೆಯೋ ಅಲ್ಲಿ ಕಂಪ್ಯೂಟ್ ಅನ್ನು ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ; ಚಂಕಿಂಗ್ ಬಂಡೆಗಳನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ ಮತ್ತು ಮರುಪಡೆಯುವಿಕೆ ಮರೆತುಹೋಗಬಹುದು. ಅತ್ಯುತ್ತಮ ಸೆಟಪ್‌ಗಳು ದ್ವಿಗುಣ ತೆರಿಗೆಯಿಲ್ಲದೆ ದೀರ್ಘ ಸಂದರ್ಭದಾದ್ಯಂತ ತಾರ್ಕಿಕ ಕ್ರಿಯೆಗಾಗಿ DSA ನೊಂದಿಗೆ ತರುವಾಯವಾಗಿ ಪಡೆಯಲು ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ಮಿಶ್ರಣ ಮಾಡುತ್ತವೆ.

Q3:ದಟ್ಟಣೆಯ ಗಮನಕ್ಕೆ ಹೋಲಿಸಿದರೆ DSA ಮಾದರಿಯ ಗುಣಮಟ್ಟವನ್ನು ನೋಯಿಸುತ್ತದೆಯೇ? ನೀವು ವಿರಳತೆಯನ್ನು ಗಮನದಲ್ಲಿಟ್ಟುಕೊಂಡು ತರಬೇತಿ ಮತ್ತು ಸೇವೆ ಮಾಡಿದರೆ (ಮತ್ತು k ಅನ್ನು ವಿವೇಕದಿಂದ ಹೊಂದಿಸಿದರೆ), ಗುಣಮಟ್ಟವು ಹೆಚ್ಚಾಗುತ್ತದೆ - ದೀರ್ಘ ಸಂದರ್ಭಗಳಿಗೆ ಹೆಚ್ಚಾಗಿ ಉತ್ತಮವಾಗಿರುತ್ತದೆ ಏಕೆಂದರೆ ಮಾದರಿಯು ಕಡಿಮೆ-ಮೌಲ್ಯದ ಜೋಡಿಗಳಲ್ಲಿ ಮುಳುಗುತ್ತಿಲ್ಲ. ದಟ್ಟಣೆಯಿಂದ ತರಬೇತಿ ಪಡೆದ ತೂಕದ ಮೇಲೆ ಸೇವೆ-ವಿರಳತೆಯು ಡ್ರಿಫ್ಟ್ ಆಗಬಹುದು, ಆದ್ದರಿಂದ ನೈಜ ಪ್ರಾಂಪ್ಟ್‌ಗಳೊಂದಿಗೆ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮಾಡಿ.

Q4:ಯಾವ ಕೆಲಸದ ಹೊರೆಗಳು DSA ಯಿಂದ ಹೆಚ್ಚು ಪ್ರಯೋಜನ ಪಡೆಯುತ್ತವೆ? ದೀರ್ಘ-ಸಂದರ್ಭದ ಡಾಕ್ಯುಮೆಂಟ್ ಪ್ರಶ್ನೋತ್ತರ, ಕೋಡ್‌ಬೇಸ್ ನ್ಯಾವಿಗೇಷನ್ ಮತ್ತು ಏಜೆಂಟ್ ಸ್ಕ್ರಾಚ್‌ಪ್ಯಾಡ್‌ಗಳು. ಎಲ್ಲಿ ಅನುಕ್ರಮದ ಉದ್ದವು ಉಬ್ಬಿಕೊಳ್ಳುತ್ತದೆಯೋ ಮತ್ತು ದಟ್ಟಣೆಯ ಗಮನವು ಸುಪ್ತತೆ, ಮೆಮೊರಿ ಒತ್ತಡ ಮತ್ತು ಹೆಚ್ಚುತ್ತಿರುವ ವೆಚ್ಚಗಳಾಗಿ ಬದಲಾಗುತ್ತದೆಯೋ ಅಲ್ಲಿ.

Q5:ನಿಯೋಜನೆಗಾಗಿ vLLM DSA ಅನ್ನು ಬೆಂಬಲಿಸುತ್ತದೆಯೇ? ಹೌದು - ಇತ್ತೀಚಿನ ಪೋಸ್ಟ್‌ಗಳು DeepSeek ನ ಉತ್ತಮವಾದ ವಿರಳ ಗಮನಕ್ಕಾಗಿ vLLM ಏಕೀಕರಣ ಬೆಂಬಲವನ್ನು ತೋರಿಸುತ್ತವೆ, ಕರ್ನಲ್ ಮತ್ತು ವೇಳಾಪಟ್ಟಿ ಕೆಲಸದೊಂದಿಗೆ ಉತ್ಪಾದನಾ ಪೈಪ್‌ಲೈನ್‌ಗಳಲ್ಲಿ ಅದನ್ನು ಪ್ರಾಯೋಗಿಕವಾಗಿಸುತ್ತದೆ.