How does DeepSeek Sparse Attention (DSA) work in plain English?

DSA narrows attention to the tokens that matter—mostly nearby text, a few global anchors, plus a short list of high-signal picks. Instead of O(L²) comparisons, it runs O(Lk), keeping quality by preserving structure while cutting compute.

Is DSA better than chunking or retrieval for long context?

DSA keeps everything in one thread while focusing compute where it counts; chunking creates cliffs and retrieval can be forgetful. The best setups mix retrieval for fetching with DSA for reasoning across long context without the quadratic tax.

Will DSA hurt model quality compared to dense attention?

If you train and serve with sparsity in mind (and set k sanely), quality holds up—often better for long contexts because the model isn’t drowning in low-value pairs. Serve-sparse on dense-trained weights can drift, so benchmark with real prompts.

What workloads benefit most from DSA?

Long-context document Q&A, codebase navigation, and agent scratchpads. Anywhere sequence length balloons and dense attention turns into latency, memory pressure, and rising costs.

Does vLLM support DSA for deployment?

Yes—recent posts show vLLM integrating support for DeepSeek’s fine-grained sparse attention, with kernel and scheduler work to make it practical in production pipelines.

"Sparse Attention That Isn’t Sparse Thinking"

বিপ্লবী অ্যাটেনশন মেকানিজম (Attention mechanism) এর বিষয় হলো, সবাই এমনভাবে মাথা নাড়ে যেনো তারা কোনো জাদু দেখছে, তারপর চুপচাপ আশা করে যে কেউ তাদের কৌশলটি ব্যাখ্যা করতে বলবে না। DeepSeek Sparse Attention (DSA) তেমনই একটি কৌশল—বুদ্ধিদীপ্ত, দ্রুত এবং আপনি যদি মনোযোগ দিয়ে দেখেন তবে কয়েকশ' পৃষ্ঠার অঙ্ক ছাড়াই আসলে বোধগম্য। প্রতিশ্রুতি: বুদ্ধিমত্তা বজায় রাখুন, কম্পিউটেশনাল ট্যাক্স (computational tax) পরিহার করুন। বাস্তবতা: এটা নির্ভর করে, তবে এইবার ট্রেড-অফগুলো (trade-offs) বেশ স্বাভাবিক মনে হয়।

আসুন সরাসরি কথায় আসি: DSA হলো লার্জ ল্যাঙ্গুয়েজ মডেলের (large language model) জন্য শুধুমাত্র গুরুত্বপূর্ণ বিষয়গুলোর দিকে মনোযোগ দেওয়ার একটি উপায়। অনেকটা এইরকম নয়। অথবা “হয়তো এটা প্রাসঙ্গিক” এমনও নয়। এটা ফাইন-গ্রেইনড স্পার্স অ্যাটেনশন স্কিম (fine-grained sparse attention scheme), যা ফুল সেল্ফ-অ্যাটেনশন (full self-attention) থেকে প্রাপ্ত কোয়াড্রেটিক এক্সপ্লোশনকে (quadratic explosion) ছাঁটাই করে—মডেলটি যে শাখার উপর দাঁড়িয়ে আছে তা না কেটে। যদি পুরাতন মডেলের অ্যাটেনশন (attention) এমন একটি ঘর হতো যেখানে প্রতিটি শব্দকে অন্য প্রতিটি শব্দের সাথে চোখের সংযোগ করতে হতো, তবে DSA এটিকে এমন একটি পার্টিতে পরিণত করে যেখানে অন্তর্মুখীরা উন্নতি লাভ করে: সরাসরি পথ, কম অর্থহীন ছোটোখাটো কথার ঝামেলা এবং অনেক কম গোলমাল।

ডিপসিক স্পার্স অ্যাটেনশন (DeepSeek Sparse Attention) আসলে কী?

DSA হলো একটি স্পার্স অ্যাটেনশন মেকানিজম (sparse attention mechanism) যা সেল্ফ-অ্যাটেনশনের (self-attention) কম্পিউটেশনাল জটিলতা O(L²) থেকে কমিয়ে O(Lk) করে, যেখানে L হলো সিকোয়েন্সের দৈর্ঘ্য (sequence length) এবং k হলো প্রতি টোকেনে (token) “রাখা” সংযোগের সংখ্যা—নির্বাচিত, সম্ভবত প্রাসঙ্গিক প্রতিবেশী। এক লাইনে এটাই হলো বক্তব্য। কম অঙ্ক, বেশি বোধগম্যতা: প্রতিটি টোকেনকে (token) অন্য প্রতিটি টোকেনের (token) সাথে তুলনা করার পরিবর্তে, DSA একটি উপসেট বেছে নেয়— প্রতিবেশী, হেড, উইন্ডো, “অ্যাঙ্কর”, অথবা হিউরিস্টিক বা লার্নেড পলিসি (learned policy) মডেলের জন্য যা সবচেয়ে বেশি বোধগম্য হয়—যাতে আপনি ফালতু বিষয়ে সময় নষ্ট না করেন।

যদি আপনার মনে হয় এটা পরিচিত শোনাচ্ছে, তাহলে ঠিকই ভাবছেন: স্পার্স অ্যাটেনশন (sparse attention) নতুন কিছু নয়। আমাদের কাছে Longformer, BigBird, ব্লক-স্পার্স কার্নেল (block-sparse kernel) এবং এক ডজন “লোকাল + গ্লোবাল” হাইব্রিড রয়েছে। সাধারণ সমস্যা হলো স্পার্স প্যাটার্নগুলো (sparse pattern) হয় রিকল (recall) লিক করে (তারা খড়ের গাদায় সুই খুঁজে পায় না), অথবা এগুলো এত কঠিনভাবে কার্যকরী করা হয় যে তাত্ত্বিকভাবে আপনি যা বাঁচান তা কার্নেলের (kernel) অতিরিক্ত বোঝা হিসাবে পুনরায় দেখা যায়। DSA এর প্রধান কৃতিত্ব হলো দুটি: প্রথমত, স্পার্সিটি প্যাটার্ন (sparsity pattern) সাধারণ ব্লক স্পার্সিটির (block sparsity) চেয়ে আরও সূক্ষ্ম এবং অভিযোজিত; দ্বিতীয়ত, এটিকে এন্ড-টু-এন্ড (end-to-end) পদ্ধতিতে কার্যকরী করা হয়েছে যা বাস্তব ইনফারেন্স স্ট্যাকে (inference stack) কাজ করে—vLLM সহ।

ইনটুইশন: লাইটনিং ইন্ডেক্সার, নট লন মোয়ার (Lightning Indexer, Not Lawn Mower)

সবচেয়ে সহায়ক উপমা যা আমি দেখেছি: DSA একটি লাইটনিং ইন্ডেক্সারের (lightning indexer) মতো কাজ করে। এটি পুরো মাঠ পরিষ্কার করে না; এটি গুরুত্বপূর্ণ বিষয়ের দিকে ছুটে যায়—একজন ভালো সম্পাদকের মতো, যিনি তিনটি প্যারাগ্রাফ কেটে দেন এবং যে বাক্যটি সবচেয়ে ভালো, সেটি রাখেন। সিস্টেমটি প্রতি টোকেনের (token) জন্য উচ্চ-সংকেত সংযোগের একটি ছোটো সেট সংরক্ষণ করে—কিছু প্রাসঙ্গিকতা স্কোরিংয়ের (relevance scoring) মাধ্যমে টপ-কে (top-k) মনে করুন—সাথে কাঠামোর একটি পাতলা মেরুদণ্ড (লোকাল উইন্ডো, পর্যায়ক্রমিক গ্লোবাল টোকেন) যাতে দীর্ঘ-পরিসরের সংলগ্নতা নষ্ট না হয়।

প্রকৌশলীরা উপমার পরের অংশটি নিয়ে চিন্তা করেন: কার্যকরীভাবে “প্রাসঙ্গিকতা” মানে কী? বিভিন্ন DSA রাইট-আপ প্রক্সিমিটি (proximity) এবং পূর্ববর্তী গুরুত্ব অনুসারে প্রার্থী কী (candidate key) নির্বাচন করার ইঙ্গিত দেয়, এরপর সেই প্রার্থীদের মধ্যে সংক্ষিপ্ত অ্যাটেনশন (attention) কাজ করে। এটা কোনো জাদু নয়; এটা হলো বাছাই করা। আপনি সুস্পষ্ট প্রতিবেশীদের রাখেন (স্থানীয় প্রসঙ্গ ভাষার জন্য প্রায় সবসময়ই দরকারি), গ্লোবাল “ল্যান্ডমার্ক” ছিটিয়ে দেন এবং প্রতিশ্রুতিশীল আউট-অফ-উইন্ডো টোকেনগুলোর (out-of-window token) দিকে মনোযোগ দেন। এর ফলস্বরূপ: আপনি রিকলকে (recall) দুর্বল না করে অনুসন্ধানের স্থান কমিয়ে আনেন। সঠিকভাবে করা হলে, এটি ছাঁটাই করার চেয়ে শালীন ব্যবহারের মতো মনে হয়।

গণিত, সংক্ষিপ্ত সংস্করণ

ফুল সেল্ফ-অ্যাটেনশন (Full self-attention): O(L²d), যেখানে d হলো হেড ডাইমেনশন (head dimension)।

DSA: O(Lkd)। ফিক্সড k এর জন্য, এটি L এর মধ্যে লিনিয়ার-ইশ (linear-ish)। এটা দীর্ঘ প্রসঙ্গের জন্য গুরুত্বপূর্ণ। 128K টোকেনে (token), আপনার GPU বিল আপনাকে ধন্যবাদ জানাবে।

মডেলটি প্রতি টোকেনের (token) জন্য একটি ডাইনামিক ক্যান্ডিডেট সেট (dynamic candidate set) বজায় রাখে। আপনি ক্যান্ডিডেট (candidate) নির্বাচন এবং তাদের মধ্যেকার আসল অ্যাটেনশনের (attention) জন্য অর্থ প্রদান করেন। যদি ক্যান্ডিডেট (candidate) নির্বাচন ভেক্টরাইজড (vectorized) এবং ক্যাশ-অ্যাওয়ার (cache-aware) হয়, তাহলে আপনি জিতবেন; যদি না হয়, তবে আপনি একটি বেলুন চেপে ধরছেন।

সমস্ত স্পার্স পদ্ধতির মধ্যে এটাই হলো চাপ: অ্যাসিম্পটোটিক্স (asymptotics) কমানো, তবে আপনার ডেটা মুভমেন্ট (data movement) এবং কার্নেল লঞ্চ ওভারহেডে (kernel launch overhead) এটিকে পুনরায় চালু করবেন না। DSA এর আশেপাশের বাস্তবায়নগুলি কার্নেল-লেভেল সাপোর্ট (kernel-level support) এবং শিডিউলার ইন্টিগ্রেশনের (scheduler integration) উপর জোর দেয় এবং সাম্প্রতিক পোস্টগুলি দেখায় যে vLLM সাপোর্ট (support) অবতরন করছে, যাতে এটিকে স্থাপন সেটিংসে বাস্তব করা যায়।

DSA এখন কেন গুরুত্বপূর্ণ?

কারণ দীর্ঘ প্রসঙ্গ হলো নতুন স্ক্রিন সাইজের যুদ্ধ। সবাই 200K টোকেন (token) এবং তার বেশি চায়—স্ক্রিপ্ট, কোডবেস, আপনার বিবেকের আকারের PDF। এই দৈর্ঘ্যে কোয়াড্রেটিক অ্যাটেনশন (quadratic attention) লেটেন্সি (latency), থ্রুপুট (throughput) এবং খরচের জন্য একটি অকার্যকর বিষয়। আপনি চালাকি করে চঙ্কিং (chunking) এবং রিট্রিভাল (retrieval) দিয়ে এটা নকল করতে পারেন, কিন্তু সেটা আপনার গাড়িতে একটি বইয়ের তাক লাগানোর মতো, কারণ আপনার ট্রাঙ্ক ভরে যাচ্ছে। DSA এর যুক্তি সহজ: আসল অ্যাটেনশন (attention) পদক্ষেপটিকে বোকার মতো ব্যয়বহুল করে তুলবেন না।

একটি অতিরিক্ত সুবিধা হলো স্থিতিশীলতা। খুব দীর্ঘ সিকোয়েন্সের (sequence) উপর ফুল অ্যাটেনশন (full attention) সংখ্যাগতভাবে স্পর্শকাতর এবং মেমরি নয়েজি (memory noisy) হতে পারে। স্পার্স অ্যাটেনশন (sparse attention) ওয়ার্কিং সেটকে (working set) সঙ্কুচিত করে এবং দুর্বল জোড়া স্কোরগুলিতে ডুবে গিয়ে মডেলের “ভুলে যাওয়া”র সম্ভাবনা হ্রাস করে। আপনি কাঠামোর একটি মেরুদণ্ড এবং উপরে অভিযোজনযোগ্যতার একটি ছোটো অংশ রাখেন। এটি একটি বাস্তবসম্মত আপস, যা একবারের জন্য কাগজের ডেমোর (demo) চেয়ে প্রকৌশলগত সিদ্ধান্তের মতো মনে হয়।

স্পার্স চিড়িয়াখানায় DSA কোথায় ফিট করে

ফিক্সড প্যাটার্ন (স্থানীয় উইন্ডো, ডিলেশন): দ্রুত, কিন্তু ভঙ্গুর। আপনার ভাগ্যের পরিসংখ্যান সর্বাধিক না হলে, দীর্ঘ-পরিসরের ক্রস-রেফারেন্স (cross-reference) মিস করে।

গ্লোবাল টোকেন: অ্যাঙ্কর যোগ করে। ভালো, কিন্তু হাতে তৈরি। আপনি সবকিছুর উপর একটি “CLS” বসিয়ে রিকল (recall) বলতে পারেন না।

লার্নেড পলিসির (learned policy) মাধ্যমে রাউটিং: সম্ভাব্যভাবে আদর্শ, কার্যত অগোছালো। জটিল প্রশিক্ষণ এবং ভঙ্গুর ইনফারেন্স (inference)।

DSA এর ফাইন-গ্রেইনড হাইব্রিড: প্রতিটি টোকেনের (token) জন্য একটি সংক্ষিপ্ত ক্যান্ডিডেট সেট (candidate set) তৈরি করুন যা লোকালিটি (locality), স্ট্রাকচারড গ্লোবাল (structured global) এবং উচ্চ-সংকেত বাছাইয়ের সংমিশ্রণ ঘটায়। উদ্দেশ্য চতুর হওয়া নয়—এটি হলো ধারাবাহিকভাবে যথেষ্ট ভালো হওয়া যাতে আপনার লেটেন্সি (latency) এবং গুণমান উভয়ই বৃদ্ধি পায়।

কর্মক্ষমতা: O(L²) ট্যাক্স রিফান্ড

এতোক্ষণের কভারেজ (coverage) যথেষ্ট খরচ কমানোর দাবি করে— “অর্ধেক” খরচ হওয়ার বিষয়টি বেশ উত্তেজনাপূর্ণ অংশে দেখানো হয়েছে—তবে আসল বিষয় হলো সঠিক সংখ্যাটি নয়, বরং স্কেলিং কার্ভ (scaling curve) দীর্ঘ প্রম্পট (prompt) এবং উচ্চতর কনকারেন্সির (concurrency) জন্য সম্ভাবনার দিকে ফিরে আসে। যদি আপনার কাজের চাপগুলো এমন হয়:

RAG এবং 100+ পৃষ্ঠার উপরে ডকুমেন্ট চ্যাট,

মাল্টি-ফাইল কোড নেভিগেশন,

টুল-ইউজিং এজেন্ট (tool-using agent) যা দীর্ঘ স্ক্র্যাচপ্যাড (scratchpad) রাখে,

…DSA প্রতি টোকেনের (token) কম্পিউট (compute) এবং মেমরি হ্রাস করে। আপনি উইন্ডোড হ্যাকের (windowed hack) প্যারেড (parade) করার পরিবর্তে প্রসঙ্গটিকে সেখানে নিয়ে যেতে পারেন যেখানে এটি আসলে দরকারি। প্রাথমিক vLLM সমর্থন থেকে বোঝা যায় যে এটি কেবল বেঞ্চ-ব্লিং (bench-bling) নয়—এটি সেখানে চলে যেখানে লোকেরা মডেল স্থাপন করে।

সতর্কতা (অন্যভাবে বললে মঙ্গলবার কেউ কেন জয় ঘোষণা করবে না)

ক্যান্ডিডেট (candidate) নির্বাচন বিনামূল্যে নয়। যদি সিলেকশন রুটিন (selection routine) ক্যাশ লাইন (cache line) বা CPU-GPU পিং-পং এর (ping-pong) উপরে চলে যায়, তবে আপনার স্পার্স জয়ের আশা শেষ।

k হলো একটি বাজেট, কোনো জন্মগত অধিকার নয়। খুব ছোটো হলে আপনি গুরুত্বপূর্ণ ক্রস-রেফারেন্স (cross-reference) বাদ দেবেন। খুব বড়ো হলে আপনি আবার ডেন্সে (dense) ফিরে যাবেন।

প্রশিক্ষণ বনাম ইনফারেন্সের (inference) অমিল। যদি আপনার মডেল ডেন্স (dense) প্রশিক্ষণপ্রাপ্ত হয় এবং আপনি এটিকে ইনফারেন্সে (inference) স্পার্স (sparse) চালান, তাহলে গুণগত মানের পার্থক্য আশা করতে পারেন। DSA এর শক্তিশালী ফলাফলগুলো তখনই পাওয়া যায় যখন স্পার্সিটি (sparsity) প্রশিক্ষণের একটি অংশ হয়, শুধুমাত্র পরিবেশনের সময়ের অলঙ্কার নয়।

লং-টেইল অদ্ভূততা। স্পার্স প্যাটার্নগুলি (sparse pattern) মাঝে মাঝে 30K টোকেন (token) পরে অপ্রত্যাশিত কলব্যাকের (callback) উপর ব্যর্থ হয়। ভালো হাইব্রিড পর্যায়ক্রমিক গ্লোবাল (periodic global) বা লার্নেড অ্যাঙ্করের (learned anchor) সাথে সুরক্ষিত থাকে।

যদি এই সবকিছু শুনে একটি বইয়ের জন্য ভালো ইন্ডেক্স (index) তৈরির মতো মনে হয়, কারণ এটি আসলে তাই। খুব ছোটো হলে আপনি কিছুই খুঁজে পাবেন না; খুব বড়ো হলে এটি আবার সেই বই হয়ে যাবে।

DSA সম্ভবত কী রাখবে তা কীভাবে নির্বাচন করে

বাস্তবায়ন অনুসারে বিস্তারিত ভিন্ন হতে পারে, তবে প্লেবুকটি (playbook) দেখতে অনেকটা এইরকম:

লোকাল উইন্ডো: একটি স্লাইডিং উইন্ডোর (sliding window) মধ্যে প্রতিবেশীদের রাখুন—বেশিরভাগ ভাষার গঠন স্থানীয়। ২) পর্যায়ক্রমিক/গ্লোবাল টোকেন: নিয়মিত “বিকন” প্রবেশ করান যা সবসময় বিশ্বব্যাপী সংযোগ স্থাপন করে। ৩) স্যালিয়েন্স স্কোরিং: অতিরিক্ত দূরবর্তী টোকেন (token) নির্বাচন করার জন্য হালকা সংকেত ব্যবহার করুন—পূর্ববর্তী লেয়ার অ্যাক্টিভেশন (layer activation), ক্যাশ করা গুরুত্ব অথবা টপ-কে (top-k) সিমিলারিটির (similarity) মতো আনুমানিক হিসাব থেকে। ৪) কম্প্যাক্ট অ্যাটেনশন: শুধুমাত্র রাখা সেটের (set) ইউনিয়নের (union) উপর অ্যাটেনশন (attention) চালান। ৫) প্রতিটি লেয়ারের (layer) জন্য পুনরাবৃত্তি করুন, বিভিন্ন হেডকে (head) বিভিন্ন কাঠামো পছন্দ করার অনুমতি দিন।

এটা কোনো গোঁড়ামি নয়; এটা সম্ভবত সবচেয়ে কম আশ্চর্যজনক জিনিস যা কাজ করতে পারে। এবং দৃশ্যত এটি কাজ করে, আধুনিক ইনফারেন্স স্ট্যাকে (inference stack) কার্যকরী সমর্থন আসার কারণে।

DSA বনাম চঙ্কিং বনাম রিট্রিভাল: আপনার বিষ বেছে নিন

ন্যাইভ চঙ্কিং: দ্রুত, কিন্তু বোকা—প্রসঙ্গের সীমানাগুলো ক্লিফে (cliff) পরিণত হয়। থ্রুপুটের (throughput) জন্য ভালো, কিন্তু কোনো সূক্ষ্ম বিষয়ের জন্য খারাপ।

রিট্রিভাল-অগমেন্টেড জেনারেশন: স্মার্টার, কিন্তু ভঙ্গুর—রিট্রিভারের (retriever) উপর নির্ভর করে যে জেনারেটরের (generator) পরে কী প্রয়োজন হবে তা মনে রাখতে পারবে কিনা।

DSA-স্টাইল স্পার্স অ্যাটেনশন: পুরো থ্রেডটিকে (thread) প্রসঙ্গের মধ্যে রাখে, কম্পিউটকে (compute) সেখানে ফোকাস করে যেখানে এটি গণনা করা হয়। এটি রিট্রিভালকে (retrieval) প্রতিস্থাপন করে না; এটি রিট্রিভালকে (retrieval) কম সহায়ক করে তোলে।

সৎ সমাধান হলো একটি মিশ্রণ: প্রাসঙ্গিক ডকুমেন্ট টানার জন্য রিট্রিভাল (retrieval), গলে যাওয়া ছাড়াই দীর্ঘ সিকোয়েন্সের (sequence) উপর যুক্তি দেওয়ার জন্য স্পার্স অ্যাটেনশন (sparse attention)। আপনার ক্লাউড বিলকে ঘৃণা না করেও আপনি দুটোই করতে পারেন।

গুণমান: এটি কি এখনও বুঝতে পারে?

মিলিয়ন ডলারের প্রশ্ন হলো স্পার্স অ্যাটেনশন (sparse attention) বাক্যগুলোর মধ্যেকার অর্থকে চুপচাপ বাদ দেয় কিনা। ডিপসিক মডেলের (DeepSeek model) জন্য প্রাথমিক প্রতিবেদনগুলো থেকে বোঝা যায় যে দীর্ঘ প্রসঙ্গে গুণমান বজায় থাকে বা উন্নত হয়, কারণ মডেলটি অর্থহীন জোড়া স্কোরগুলির উপর সম্ভাব্যতা ভর নষ্ট করে না। কৌশল হলো k এবং গ্লোবাল স্ট্রাকচারকে (global structure) এমনভাবে টিউন (tune) করা যাতে মডেলের প্রম্পটের (prompt) মাধ্যমে একটি নির্ভরযোগ্য মেরুদণ্ড থাকে। এবং আবারও, লুপে স্পার্সিটি (sparsity) সহ প্রশিক্ষণ গুরুত্বপূর্ণ—মডেলগুলি খাপ খাইয়ে নেয়। এটা ম্যানুয়াল ট্রান্সমিশন (manual transmission) দিয়ে গাড়ি চালানো শেখার মতো; একবার আপনি ছন্দ পেয়ে গেলে, আপনি অটো (auto) মিস করবেন না।

স্থাপনার বাস্তবতা: কার্নেল, ক্যাশ, শিডিউলার

vLLM সাপোর্ট (support) নোটটি উল্লেখ করার মতো: DSA কেবল একটি কাগজের কৌশল নয়; কার্নেল সাপোর্ট (kernel support) এবং শিডিউলিংয়ের (scheduling) জন্য প্রচুর কাজ করা হচ্ছে, যাতে এটি বিক্ষিপ্ত-সংগ্রহের নাটকের সাথে GPU কে থামিয়ে না দেয়। ব্লক-স্পার্স কার্নেল (block-sparse kernel), ফিউজড অপস (fused ops) এবং সতর্ক KV-ক্যাশ লেআউট (KV-cache layout) এই জিনিসগুলোকে তৈরি বা নষ্ট করে দেয়। স্পার্স অ্যাটেনশনের (sparse attention) সবচেয়ে খারাপ ফলাফলগুলো স্মৃতি ব্যান্ডউইথ (memory bandwidth) এবং লঞ্চ ওভারহেডের (launch overhead) সাথে সংঘর্ষের কারণে হয়। যখন এগুলো সমাধান করা হয়, তখন স্পার্সিটি (sparsity) ভালো ফল দেয়।

DSA কোথায় উজ্জ্বল

স্ট্রাকচারড ডকুমেন্টের (structured document) উপর দীর্ঘ-প্রসঙ্গ Q&A। লোকাল (local) + বিকন মিশ্রণ কোনো মনোযোগ না সরিয়ে বিভাগ এবং ক্রস-রেফারেন্স (cross-reference) ট্র্যাক করে।

কোডবেস যুক্তি। লোকাল উইন্ডো আন্তঃ-ফাইল প্রসঙ্গ ক্যাপচার (capture) করে; পর্যায়ক্রমিক/গ্লোবাল লিঙ্ক ফাইল, ফাংশন কল এবং ইম্পোর্টের (import) মধ্যে চলাচল করে।

স্ক্র্যাচপ্যাড (scratchpad) সহ এজেন্ট। স্পার্স অ্যাটেনশন (sparse attention) এজেন্টকে পাঁচ নম্বর পৃষ্ঠার পরে বাজে কথা না বাড়িয়ে দীর্ঘ ওয়ার্কিং মেমরি (working memory) রাখতে দেয়।

DSA কোথায় (এখনও) নয়

ছোটো প্রম্পট (prompt)। ডেন্স অ্যাটেনশন (dense attention) ভালো; স্পার্স ওভারহেড পরিশোধ নাও হতে পারে।

অত্যন্ত জটিল কবিতা অথবা ধাঁধা বিষয়ক প্রম্পট (prompt), যার জন্য সুস্পষ্ট কাঠামোগত সূত্র ছাড়াই খড়ের গাদায় সুই খোঁজার মতো লাফানোর প্রয়োজন। আপনি এখনও k টিউন (tune) করতে পারেন, তবে পদ্ধতিটি ধাঁধার চেয়ে প্যাটার্ন বেশি পছন্দ করে।

Sider.AI সম্পর্কে কী?

এই কৌশলগুলোর জন্য এখানে পরীক্ষা হলো: তারা ব্যবহারকারীদের বেতনবিহীন QA ইঞ্জিনিয়ারে (QA engineer) পরিণত না করে সরঞ্জামগুলোকে আরও ভালো করে কিনা? আমার মতে, যে সরঞ্জামগুলো ভালোভাবে স্পার্স অ্যাটেনশনকে (sparse attention) একত্রিত করে—বিশেষত ডকুমেন্ট (document) এবং কোড চ্যাটের (code chat) জন্য—সেগুলো কম খিটখিটে মনে হয়। Sider.AI এখানে আসলে কাজ করে: যখন আপনি ৮০ পৃষ্ঠার স্পেসিফিকেশন (specification) পেস্ট (paste) করছেন অথবা একটি রেপোর (repo) মাধ্যমে কষ্ট করে যাচ্ছেন, তখন ৪৭ নম্বর পৃষ্ঠা সম্পর্কে হলুসিনেট (hallucinate) না করে অথবা থমকে না গিয়ে দীর্ঘ, সংলগ্ন থ্রেড (thread) রাখার ক্ষমতা গুরুত্বপূর্ণ। মার্কেটিং “ফাইন-গ্রেইনড স্পার্সিট” (fine-grained sparsity) নিয়ে বড়াই করে না এবং সেটি ভালো। ব্যবহারকারীরা চিন্তা করেন যে এটি যেন প্রতিক্রিয়াশীল থাকে, প্রসঙ্গ সোজা রাখে এবং ভ্যাকেশনে (vacation) একটি উইকেন্ডের (weekend) মতো খরচ না হয়। আপনি যদি বড়ো, অগোছালো ইনপুট (input) নিয়ে কাজ করেন, তবে এই শ্রেণির অ্যাটেনশন কৌশল হলো সেই আন্ডার-দ্য-হুড (under-the-hood) পরিবর্তনের মতো, যা কম খুঁত এবং দ্রুত উত্তর হিসাবে দেখায়।

ব্যবহারিক নির্দেশনা: আপনার DSA ব্যবহার করা উচিত কিনা, সেই বিষয়ে সিদ্ধান্ত নেওয়ার জন্য

আপনার প্রসঙ্গ নিয়মিতভাবে >32K টোকেন (token) হয়: হ্যাঁ, এটি মূল্যায়ন করুন।

আপনার নিজের স্থাপনা স্ট্যাক (vLLM, Triton kernels, KV-cache tuning) আছে: হ্যাঁ, অবশ্যই।

আপনি ডেন্স-প্রশিক্ষণপ্রাপ্ত ওয়েটের (weight) সাথে আটকে আছেন এবং পুনরায় প্রশিক্ষণ দিতে পারছেন না: সাবধানে পরীক্ষা করুন; আংশিক স্পার্সিটি (sparsity) অথবা হেড-স্পেসিফিক স্পার্সিটি (head-specific sparsity) বিবেচনা করুন।

লেটেন্সি (latency) সংবেদনশীল, উচ্চ-QPS ওয়ার্কলোড (workload): এখানেই কার্ভ বেন্ডিং (curve bending) গুরুত্বপূর্ণ। p95 এবং p99 পরিমাপ করুন।

এবং দয়া করে, GPU এর জন্য সবকিছু বেঞ্চমার্ক (benchmark) করার সময় সিনথেটিক লরেম ইপসাম (synthetic lorem ipsum) ব্যবহার না করে বাস্তব প্রম্পট (prompt) ব্যবহার করুন। স্পার্স পদ্ধতি প্রাসঙ্গিকতার বাস্তবসম্মত বিতরণে টিকে থাকে অথবা মরে যায়।

মেটা-পয়েন্ট: ভালো রুচি হিসাবে স্পার্সিটি

এটির একটি নান্দনিকতা আছে। যে মডেলগুলো সমানভাবে সবকিছুর প্রতি মনোযোগ দেয়, সেগুলো এমন মিটিংয়ের (meeting) মতো যেখানে সবাই কথা বলে। দেখতে গণতান্ত্রিক, কিন্তু কিছুই অর্জন হয় না। DSA এর সংবেদনশীলতা হলো সম্পাদকীয়: আগ্রহজনক অংশের উপর মনোযোগ দিন, একটি মেরুদণ্ড বজায় রাখুন এবং একটি বাজেট রাখুন। আপনি যদি মেশিন লার্নিংয়ের (machine learning) চেয়েও বড়ো কোনো শিক্ষা চান, তবে সেটি এখানে রয়েছে। ভালো সিস্টেম সবকিছু করে না। তারা দ্রুত সঠিক কাজগুলো করে।

অনিবার্য ভবিষ্যৎ: স্পার্স প্রশিক্ষণ দিন, স্পার্স পরিবেশন করুন

আমরা স্পার্স প্যাটার্নের (sparse pattern) সাথে এন্ড-টু-এন্ড (end-to-end) প্রশিক্ষণপ্রাপ্ত আরও মডেল দেখতে পাবো। শেষ ১০-১৫% গুণমান এবং স্থিতিশীলতা সেখান থেকেই আসে: মডেলের ইন্ডাক্টিভ বায়াসকে (inductive bias) পরিবেশন পথের সাথে সারিবদ্ধ করতে দেওয়া। আপনি যদি স্পার্স পরিবেশন করেন তবে ডেন্স (dense) প্রশিক্ষণ দেন, তাহলে আপনি মডেলকে ফ্রিওয়েতে (freeway) গিয়ার (gear) পরিবর্তন করতে বলছেন। এটি কাজ করতে পারে, তবে যখন এটি টলমল করে তখন অবাক হবেন না।

এদিকে, ফ্রেমওয়ার্কগুলো (framework) স্পার্স প্যাটার্নকে (sparse pattern) কম্পোজযোগ্য (composable) করে তুলবে: লোকাল উইন্ডো + পর্যায়ক্রমিক গ্লোবাল + লার্নেড অ্যাঙ্কর + রিট্রিভাল-অ্যাওয়ার টোকেন (retrieval-aware token)। শেষ অংশটি—রিট্রিভার স্যালিয়েন্স (retriever salience) এবং অ্যাটেনশন স্যালিয়েন্সের (attention salience) মধ্যে লুপ বন্ধ করা—পরবর্তী সুস্পষ্ট পদক্ষেপের মতো মনে হয়। আপনি যা ফেচ (fetch) করেন তা যদি আপনি যা মনোযোগ দেন তা জানায়, তাহলে আপনি দুটি অর্ধ-অন্ধ সিস্টেমের মধ্যে পিং-পং করা বন্ধ করে দেবেন।

তাহলে DSA কীভাবে কাজ করে? সংক্ষিপ্ত উত্তর

এটি প্রতিটি টোকেনের (token) জন্য সম্ভাব্য প্রাসঙ্গিক টোকেনের (token) একটি সংক্ষিপ্ত সেট বেছে নেয়—বেশিরভাগ স্থানীয়, কিছু গ্লোবাল, কিছু স্মার্ট বাছাই।

এটি শুধুমাত্র সেই সেটের (set) উপর অ্যাটেনশন (attention) চালায়, কম্পিউটকে (compute) কোয়াড্রেটিক (quadratic) থেকে কমিয়ে মোটামুটিভাবে প্রসঙ্গের দৈর্ঘ্যের মধ্যে লিনিয়ার (linear) করে।

এটি সতর্ক কার্নেল (kernel) এবং ক্যাশ লেআউটের (cache layout) উপর নির্ভর করে, যাতে তাত্ত্বিক সাশ্রয়গুলো বাস্তব লেটেন্সি (latency) জয় হিসাবে দেখাতে পারে।

এটি কাঠামো এবং যথেষ্ট গ্লোবাল কানেক্টিভিটি (global connectivity) বজায় রেখে গুণমান ধরে রাখে, যাতে দীর্ঘ-পরিসরের রেফারেন্স (reference) হারিয়ে না যায়।

এইটুকুই। কোনো ধূপ, কোনো মন্ত্র নেই। শুধুমাত্র মনোযোগ দেওয়ার বিষয়ে ভালো রুচি চাপানো হয়েছে।

টুইস্ট এন্ডিং (কারণ সবসময় একটি থাকে)

প্রত্যেক AI কৌশলের শেষ পর্যন্ত হতাশ হওয়ার মুহূর্ত আসে। স্পার্স অ্যাটেনশন (sparse attention) সম্ভবত গুরুত্বপূর্ণ কিছু মিস (miss) করবে, সম্ভবত কোনো চতুর সমালোচক কর্তৃক তৈরি করা কোনো প্রম্পটে (prompt), যিনি জোর দিয়ে বলেন যে মডেলটিকে একটি ফাংশন সিগনেচার (function signature) চালানোর সময় ভাষাগুলোর মধ্যে স্তবক তিনকে স্তবক সাইত্রিশের সাথে সংযোগ স্থাপন করা উচিত। ঠিক আছে। তবে বেশিরভাগ বাস্তব কাজ কবিতা-স্ল্যাশ-বেঞ্চমার্ক (poetry-slash-benchmark) নয়—এটি হলো টেক্সট, কোড এবং তথ্যের মাধ্যমে কঠিন কাজ করা। সেজন্য DSA কেবল একটি ভালো ধারণা নয়। এটি এমন একটি মডেলের মধ্যে পার্থক্য তৈরি করে যা আপনার প্রসঙ্গ পড়ার ভান করে এবং অন্যটি যা আসলে পড়তে পারে।

এবং আপনি যদি ক্লাউড বাজেটে গর্ত না করে সেটি করতে পারেন? তাহলে সেটা কোনো কৌশল নয়। সেটাই হলো অগ্রগতি।

FAQ

Q1: ডিপসিক স্পার্স অ্যাটেনশন (DeepSeek Sparse Attention) (DSA) কীভাবে কাজ করে? DSA সেই টোকেনগুলোর (token) প্রতি মনোযোগ কমিয়ে দেয় যা গুরুত্বপূর্ণ—বেশিরভাগ কাছাকাছি টেক্সট, কয়েকটি গ্লোবাল অ্যাঙ্কর (global anchor), সাথে উচ্চ-সংকেত বাছাইয়ের একটি ছোটো তালিকা। O(L²) তুলনার পরিবর্তে, এটি O(Lk) চালায়, কাঠামো বজায় রেখে এবং কম্পিউট (compute) কমিয়ে গুণমান রক্ষা করে।

Q2: দীর্ঘ প্রসঙ্গের জন্য চঙ্কিং (chunking) অথবা রিট্রিভালের (retrieval) চেয়ে DSA কি ভালো? DSA সবকিছু একটি থ্রেডে (thread) রাখে এবং কম্পিউটকে (compute) সেখানে ফোকাস করে যেখানে এটি গণনা করা হয়; চঙ্কিং (chunking) ক্লিফ (cliff) তৈরি করে এবং রিট্রিভাল (retrieval) ভুলে যেতে পারে। সেরা সেটআপ (setup) হলো ফেচ (fetch) করার জন্য রিট্রিভালকে (retrieval) একত্রিত করা এবং কোয়াড্রেটিক ট্যাক্স (quadratic tax) ছাড়াই দীর্ঘ প্রসঙ্গের উপর যুক্তি দেওয়ার জন্য DSA ব্যবহার করা।

Q3: ডেন্স অ্যাটেনশনের (dense attention) তুলনায় DSA কি মডেলের গুণমান কমিয়ে দেবে? আপনি যদি স্পার্সিটিকে (sparsity) মাথায় রেখে প্রশিক্ষণ দেন এবং পরিবেশন করেন (এবং k যুক্তিসঙ্গতভাবে সেট (set) করেন), তাহলে গুণমান বজায় থাকে—প্রায়শই দীর্ঘ প্রসঙ্গের জন্য আরও ভালো, কারণ মডেলটি কম-মূল্যের জোড়ায় ডুবে যায় না। ডেন্স-প্রশিক্ষণপ্রাপ্ত ওয়েটের (weight) উপর স্পার্স (sparse) পরিবেশন করলে পার্থক্য দেখা যেতে পারে, তাই বাস্তব প্রম্পট (prompt) দিয়ে বেঞ্চমার্ক (benchmark) করুন।

Q4: কোন ওয়ার্কলোড (workload) DSA থেকে সবচেয়ে বেশি উপকৃত হয়? দীর্ঘ-প্রসঙ্গ ডকুমেন্ট (document) Q&A, কোডবেস নেভিগেশন এবং এজেন্ট স্ক্র্যাচপ্যাড (scratchpad)। যেখানে সিকোয়েন্সের (sequence) দৈর্ঘ্য বেড়ে যায় এবং ডেন্স অ্যাটেনশন (dense attention) লেটেন্সি (latency), মেমরির চাপ এবং ক্রমবর্ধমান খরচে পরিণত হয়।

Q5: স্থাপনার জন্য vLLM কি DSA সমর্থন করে? হ্যাঁ—সাম্প্রতিক পোস্টগুলো থেকে জানা যায় যে vLLM ডিপসিকের (DeepSeek) ফাইন-গ্রেইনড স্পার্স অ্যাটেনশনের (fine-grained sparse attention) জন্য সমর্থন একত্রিত করছে, কার্নেল (kernel) এবং শিডিউলারের (scheduler) কাজের মাধ্যমে এটিকে প্রোডাকশন পাইপলাইনে (production pipeline) ব্যবহারিক করে তোলা হচ্ছে।

"Sparse Attention That Isn’t Sparse Thinking" (স্পার্স অ্যাটেনশন যা স্পার্স থিংকিং নয়)

FAQ