【焦點(diǎn)熱聞】一文讀懂DeepSeek-V3.2核心技術(shù)DSA：API瘋狂降價(jià)性能不減的背后

2025-09-30 11:37:52 來源： AI寒武紀(jì)

一文讀懂DeepSeek-V3.2核心技術(shù)DSA：API瘋狂降價(jià)性能不減的背后,瘋狂,k

DeepSeek 剛剛發(fā)布的實(shí)驗(yàn)?zāi)Ｐ?DeepSeek V3.2 引入了自研的稀疏注意力機(jī)制DSA，雖然是一個(gè)小版本的更新，但API價(jià)格最高降幅高達(dá)75%，這簡(jiǎn)直太殘暴了

(資料圖片僅供參考)

據(jù)DS官方的公眾號(hào)發(fā)布，DeepSeek-V3.2-Exp 是一個(gè)實(shí)驗(yàn)性的版本。是一個(gè)邁向新一代架構(gòu)的中間步驟，V3.2-Exp 在 V3.1-Terminus 的基礎(chǔ)上引入了 DeepSeek Sparse Attention，說明deepseek還在憋大招，而這個(gè)DSA是非常關(guān)鍵的，deepseek也在公眾號(hào)說了，作為一個(gè)實(shí)驗(yàn)性的版本，DeepSeek-V3.2-Exp 雖然已經(jīng)在公開評(píng)測(cè)集上得到了有效性驗(yàn)證，但仍然需要在用戶的真實(shí)使用場(chǎng)景中進(jìn)行范圍更廣、規(guī)模更大的測(cè)試，以排除在某些場(chǎng)景下效果欠佳的可能，誠(chéng)摯希望廣大用戶在對(duì)比測(cè)試中提供寶貴的反饋意見，反饋鏈接：

https://feedback.deepseek.com/dsa

DSA首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制，在幾乎不影響模型輸出效果的前提下，實(shí)現(xiàn)了長(zhǎng)文本訓(xùn)練和推理效率的大幅提升

那么DSA究竟是如何工作的？

DSA 的兩大核心組件

DSA 的設(shè)計(jì)思想是先篩選，后計(jì)算。它將復(fù)雜的注意力計(jì)算分解為兩個(gè)協(xié)同工作的核心組件：

1.閃電索引器 (Lightning Indexer)：一個(gè)輕量級(jí)的篩選器。它的任務(wù)是快速掃描整個(gè)上下文，為每個(gè)查詢（Query）找出最相關(guān)的少數(shù)關(guān)鍵信息（Key）。為了追求極致的速度，它使用了非常小的鍵緩存（每個(gè) token 僅 128 維）

2.稀疏多潛在注意力 (Sparse Multi-Latent Attention, MLA)：一個(gè)重量級(jí)的計(jì)算器。它只對(duì)索引器篩選出的關(guān)鍵信息進(jìn)行完整維度的注意力計(jì)算，從而避免了對(duì)海量無關(guān)信息的無效計(jì)算。它的鍵緩存更大（每個(gè) token 512 維），以保證計(jì)算的精確性

DSA 的四步工作流程

DSA 的整個(gè)計(jì)算過程可以分解為以下四個(gè)步驟：

第一步：查詢與鍵的投影 (Query & Key Projection)

與標(biāo)準(zhǔn) Transformer 模型類似，輸入的隱藏狀態(tài)（hidden states）首先會(huì)被投影到查詢（Query）和鍵（Key）空間，并融入旋轉(zhuǎn)位置編碼（rotary embeddings）來保留位置信息

創(chuàng)新之處在于：DSA 在這一步還會(huì)從隱藏狀態(tài)中為每個(gè)注意力頭（per-head）額外投影出一組權(quán)重。這組權(quán)重將在后續(xù)步驟中用于重新調(diào)整注意力得分（logits），讓模型可以動(dòng)態(tài)地為不同頭分配不同的重要性

第二步：索引器評(píng)分 (Indexer Scoring)

閃電索引器開始工作。它使用輕量級(jí)的鍵緩存，快速計(jì)算查詢（Q）與所有鍵（K）的點(diǎn)積得分（Q·K），并進(jìn)行掩碼（mask）和縮放（scale）

隨后，它會(huì)用第一步生成的逐頭權(quán)重來乘以這些得分。這一步的目的是讓模型自主學(xué)習(xí)并放大那些在當(dāng)前上下文中更重要的注意力頭的信號(hào)

為了最大化硬件效率，這個(gè)評(píng)分過程運(yùn)行在 DeepSeek 自研的DeepGEMM上，該算子為英偉達(dá)的 Hopper 和 Blackwell 架構(gòu) GPU 提供了深度優(yōu)化

第三步：Top-k 選擇 (Top-k Selection)

評(píng)分完成后，索引器會(huì)為每個(gè)查詢，從整個(gè)上下文的所有 token 中，選出得分最高的 2048個(gè) token。這些被選中的 token 被認(rèn)為是與當(dāng)前查詢最相關(guān)的部分

（一個(gè)特殊情況：如果上下文的總長(zhǎng)度本身就小于或等于 2048，那么索引器會(huì)選中所有 token，此時(shí) DSA 的行為等同于全注意力）

第四步：執(zhí)行稀疏 MLA (Sparse MLA)

最后，輪到重量級(jí)的稀疏多潛在注意力（MLA）登場(chǎng)。它會(huì)獲取第三步篩選出的 2048 個(gè) token 的索引，然后調(diào)用高效的 FlashMLA 稀疏計(jì)算核（sparse kernel），只在這部分優(yōu)中選優(yōu)的數(shù)據(jù)上執(zhí)行注意力計(jì)算

由于計(jì)算范圍被大幅縮小，它可以跳過所有不相關(guān)的上下文位置，從而極大地提升了計(jì)算速度和內(nèi)存效率

DSA 的設(shè)計(jì)精髓在于其完美的權(quán)衡：

精確性：通過 Top-k 篩選機(jī)制，確保了注意力計(jì)算集中在最相關(guān)的信息上，避免了在無用信息上分散注意力，從而保持了極高的精度

高速度：通過閃電索引器、專門優(yōu)化的稀疏計(jì)算核（FlashMLA）以及更小的緩存設(shè)計(jì)，極大地降低了計(jì)算復(fù)雜度和內(nèi)存占用，實(shí)現(xiàn)了閃電般的速度

正如網(wǎng)友@teortaxesTex所評(píng)論的：“AGI 將是稀疏的”。DeepSeek 的 DSA 機(jī)制，用一個(gè)微型的全注意力索引器作為導(dǎo)航，精準(zhǔn)地指導(dǎo)了后續(xù)的大規(guī)模稀疏計(jì)算，這無疑是通往高效通用人工智能的一條極具前景的技術(shù)路徑。DeepSeek 在注意力機(jī)制上的不斷探索和果斷迭代，也展現(xiàn)了其強(qiáng)大的技術(shù)創(chuàng)新能力