一文讀懂DeepSeek-V3.2核心技術(shù)DSA:API瘋狂降價(jià)性能不減的背后,瘋狂,k
DeepSeek 剛剛發(fā)布的實(shí)驗(yàn)?zāi)P?DeepSeek V3.2 引入了自研的稀疏注意力機(jī)制DSA,雖然是一個(gè)小版本的更新,但API價(jià)格最高降幅高達(dá)75%,這簡(jiǎn)直太殘暴了
(資料圖片僅供參考)
據(jù)DS官方的公眾號(hào)發(fā)布,DeepSeek-V3.2-Exp 是一個(gè)實(shí)驗(yàn)性的版本。是一個(gè)邁向新一代架構(gòu)的中間步驟,V3.2-Exp 在 V3.1-Terminus 的基礎(chǔ)上引入了 DeepSeek Sparse Attention,說明deepseek還在憋大招,而這個(gè)DSA是非常關(guān)鍵的,deepseek也在公眾號(hào)說了,作為一個(gè)實(shí)驗(yàn)性的版本,DeepSeek-V3.2-Exp 雖然已經(jīng)在公開評(píng)測(cè)集上得到了有效性驗(yàn)證,但仍然需要在用戶的真實(shí)使用場(chǎng)景中進(jìn)行范圍更廣、規(guī)模更大的測(cè)試,以排除在某些場(chǎng)景下效果欠佳的可能,誠(chéng)摯希望廣大用戶在對(duì)比測(cè)試中提供寶貴的反饋意見,反饋鏈接:
https://feedback.deepseek.com/dsa
DSA首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制,在幾乎不影響模型輸出效果的前提下,實(shí)現(xiàn)了長(zhǎng)文本訓(xùn)練和推理效率的大幅提升
那么DSA究竟是如何工作的?
DSA 的兩大核心組件
DSA 的設(shè)計(jì)思想是先篩選,后計(jì)算。它將復(fù)雜的注意力計(jì)算分解為兩個(gè)協(xié)同工作的核心組件:
1.閃電索引器 (Lightning Indexer):一個(gè)輕量級(jí)的篩選器。它的任務(wù)是快速掃描整個(gè)上下文,為每個(gè)查詢(Query)找出最相關(guān)的少數(shù)關(guān)鍵信息(Key)。為了追求極致的速度,它使用了非常小的鍵緩存(每個(gè) token 僅 128 維)
2.稀疏多潛在注意力 (Sparse Multi-Latent Attention, MLA):一個(gè)重量級(jí)的計(jì)算器。它只對(duì)索引器篩選出的關(guān)鍵信息進(jìn)行完整維度的注意力計(jì)算,從而避免了對(duì)海量無關(guān)信息的無效計(jì)算。它的鍵緩存更大(每個(gè) token 512 維),以保證計(jì)算的精確性
DSA 的四步工作流程
DSA 的整個(gè)計(jì)算過程可以分解為以下四個(gè)步驟:
第一步:查詢與鍵的投影 (Query & Key Projection)
與標(biāo)準(zhǔn) Transformer 模型類似,輸入的隱藏狀態(tài)(hidden states)首先會(huì)被投影到查詢(Query)和鍵(Key)空間,并融入旋轉(zhuǎn)位置編碼(rotary embeddings)來保留位置信息
創(chuàng)新之處在于:DSA 在這一步還會(huì)從隱藏狀態(tài)中為每個(gè)注意力頭(per-head)額外投影出一組權(quán)重。這組權(quán)重將在后續(xù)步驟中用于重新調(diào)整注意力得分(logits),讓模型可以動(dòng)態(tài)地為不同頭分配不同的重要性
第二步:索引器評(píng)分 (Indexer Scoring)
閃電索引器開始工作。它使用輕量級(jí)的鍵緩存,快速計(jì)算查詢(Q)與所有鍵(K)的點(diǎn)積得分(Q·K),并進(jìn)行掩碼(mask)和縮放(scale)
隨后,它會(huì)用第一步生成的逐頭權(quán)重來乘以這些得分。這一步的目的是讓模型自主學(xué)習(xí)并放大那些在當(dāng)前上下文中更重要的注意力頭的信號(hào)
為了最大化硬件效率,這個(gè)評(píng)分過程運(yùn)行在 DeepSeek 自研的DeepGEMM上,該算子為英偉達(dá)的 Hopper 和 Blackwell 架構(gòu) GPU 提供了深度優(yōu)化
第三步:Top-k 選擇 (Top-k Selection)
評(píng)分完成后,索引器會(huì)為每個(gè)查詢,從整個(gè)上下文的所有 token 中,選出得分最高的 2048個(gè) token。這些被選中的 token 被認(rèn)為是與當(dāng)前查詢最相關(guān)的部分
(一個(gè)特殊情況:如果上下文的總長(zhǎng)度本身就小于或等于 2048,那么索引器會(huì)選中所有 token,此時(shí) DSA 的行為等同于全注意力)
第四步:執(zhí)行稀疏 MLA (Sparse MLA)
最后,輪到重量級(jí)的稀疏多潛在注意力(MLA)登場(chǎng)。它會(huì)獲取第三步篩選出的 2048 個(gè) token 的索引,然后調(diào)用高效的 FlashMLA 稀疏計(jì)算核(sparse kernel),只在這部分優(yōu)中選優(yōu)的數(shù)據(jù)上執(zhí)行注意力計(jì)算
由于計(jì)算范圍被大幅縮小,它可以跳過所有不相關(guān)的上下文位置,從而極大地提升了計(jì)算速度和內(nèi)存效率
DSA 的設(shè)計(jì)精髓在于其完美的權(quán)衡:
精確性:通過 Top-k 篩選機(jī)制,確保了注意力計(jì)算集中在最相關(guān)的信息上,避免了在無用信息上分散注意力,從而保持了極高的精度
高速度:通過閃電索引器、專門優(yōu)化的稀疏計(jì)算核(FlashMLA)以及更小的緩存設(shè)計(jì),極大地降低了計(jì)算復(fù)雜度和內(nèi)存占用,實(shí)現(xiàn)了閃電般的速度
正如 網(wǎng)友@teortaxesTex所評(píng)論的:“AGI 將是稀疏的”。DeepSeek 的 DSA 機(jī)制,用一個(gè)微型的全注意力索引器作為導(dǎo)航,精準(zhǔn)地指導(dǎo)了后續(xù)的大規(guī)模稀疏計(jì)算,這無疑是通往高效通用人工智能的一條極具前景的技術(shù)路徑。DeepSeek 在注意力機(jī)制上的不斷探索和果斷迭代,也展現(xiàn)了其強(qiáng)大的技術(shù)創(chuàng)新能力