国产综合色产在线精品,国产欧美一区二区精品性色 ,国产精品美女久久久免费,国产精品久久久久精品a级,国产欧美日韩亚洲更新

您的位置:首頁 > 行業(yè) >

【焦點(diǎn)熱聞】一文讀懂DeepSeek-V3.2核心技術(shù)DSA:API瘋狂降價(jià)性能不減的背后

2025-09-30 11:37:52 來源: AI寒武紀(jì)

一文讀懂DeepSeek-V3.2核心技術(shù)DSA:API瘋狂降價(jià)性能不減的背后,瘋狂,k

DeepSeek 剛剛發(fā)布的實(shí)驗(yàn)?zāi)P?DeepSeek V3.2 引入了自研的稀疏注意力機(jī)制DSA,雖然是一個(gè)小版本的更新,但API價(jià)格最高降幅高達(dá)75%,這簡(jiǎn)直太殘暴了


(資料圖片僅供參考)

據(jù)DS官方的公眾號(hào)發(fā)布,DeepSeek-V3.2-Exp 是一個(gè)實(shí)驗(yàn)性的版本。是一個(gè)邁向新一代架構(gòu)的中間步驟,V3.2-Exp 在 V3.1-Terminus 的基礎(chǔ)上引入了 DeepSeek Sparse Attention,說明deepseek還在憋大招,而這個(gè)DSA是非常關(guān)鍵的,deepseek也在公眾號(hào)說了,作為一個(gè)實(shí)驗(yàn)性的版本,DeepSeek-V3.2-Exp 雖然已經(jīng)在公開評(píng)測(cè)集上得到了有效性驗(yàn)證,但仍然需要在用戶的真實(shí)使用場(chǎng)景中進(jìn)行范圍更廣、規(guī)模更大的測(cè)試,以排除在某些場(chǎng)景下效果欠佳的可能,誠(chéng)摯希望廣大用戶在對(duì)比測(cè)試中提供寶貴的反饋意見,反饋鏈接:

https://feedback.deepseek.com/dsa

DSA首次實(shí)現(xiàn)了細(xì)粒度稀疏注意力機(jī)制,在幾乎不影響模型輸出效果的前提下,實(shí)現(xiàn)了長(zhǎng)文本訓(xùn)練和推理效率的大幅提升

那么DSA究竟是如何工作的?

DSA 的兩大核心組件

DSA 的設(shè)計(jì)思想是先篩選,后計(jì)算。它將復(fù)雜的注意力計(jì)算分解為兩個(gè)協(xié)同工作的核心組件:

1.閃電索引器 (Lightning Indexer):一個(gè)輕量級(jí)的篩選器。它的任務(wù)是快速掃描整個(gè)上下文,為每個(gè)查詢(Query)找出最相關(guān)的少數(shù)關(guān)鍵信息(Key)。為了追求極致的速度,它使用了非常小的鍵緩存(每個(gè) token 僅 128 維)

2.稀疏多潛在注意力 (Sparse Multi-Latent Attention, MLA):一個(gè)重量級(jí)的計(jì)算器。它只對(duì)索引器篩選出的關(guān)鍵信息進(jìn)行完整維度的注意力計(jì)算,從而避免了對(duì)海量無關(guān)信息的無效計(jì)算。它的鍵緩存更大(每個(gè) token 512 維),以保證計(jì)算的精確性

DSA 的四步工作流程

DSA 的整個(gè)計(jì)算過程可以分解為以下四個(gè)步驟:

第一步:查詢與鍵的投影 (Query & Key Projection)

與標(biāo)準(zhǔn) Transformer 模型類似,輸入的隱藏狀態(tài)(hidden states)首先會(huì)被投影到查詢(Query)和鍵(Key)空間,并融入旋轉(zhuǎn)位置編碼(rotary embeddings)來保留位置信息

創(chuàng)新之處在于:DSA 在這一步還會(huì)從隱藏狀態(tài)中為每個(gè)注意力頭(per-head)額外投影出一組權(quán)重。這組權(quán)重將在后續(xù)步驟中用于重新調(diào)整注意力得分(logits),讓模型可以動(dòng)態(tài)地為不同頭分配不同的重要性

第二步:索引器評(píng)分 (Indexer Scoring)

閃電索引器開始工作。它使用輕量級(jí)的鍵緩存,快速計(jì)算查詢(Q)與所有鍵(K)的點(diǎn)積得分(Q·K),并進(jìn)行掩碼(mask)和縮放(scale)

隨后,它會(huì)用第一步生成的逐頭權(quán)重來乘以這些得分。這一步的目的是讓模型自主學(xué)習(xí)并放大那些在當(dāng)前上下文中更重要的注意力頭的信號(hào)

為了最大化硬件效率,這個(gè)評(píng)分過程運(yùn)行在 DeepSeek 自研的DeepGEMM上,該算子為英偉達(dá)的 Hopper 和 Blackwell 架構(gòu) GPU 提供了深度優(yōu)化

第三步:Top-k 選擇 (Top-k Selection)

評(píng)分完成后,索引器會(huì)為每個(gè)查詢,從整個(gè)上下文的所有 token 中,選出得分最高的 2048個(gè) token。這些被選中的 token 被認(rèn)為是與當(dāng)前查詢最相關(guān)的部分

(一個(gè)特殊情況:如果上下文的總長(zhǎng)度本身就小于或等于 2048,那么索引器會(huì)選中所有 token,此時(shí) DSA 的行為等同于全注意力)

第四步:執(zhí)行稀疏 MLA (Sparse MLA)

最后,輪到重量級(jí)的稀疏多潛在注意力(MLA)登場(chǎng)。它會(huì)獲取第三步篩選出的 2048 個(gè) token 的索引,然后調(diào)用高效的 FlashMLA 稀疏計(jì)算核(sparse kernel),只在這部分優(yōu)中選優(yōu)的數(shù)據(jù)上執(zhí)行注意力計(jì)算

由于計(jì)算范圍被大幅縮小,它可以跳過所有不相關(guān)的上下文位置,從而極大地提升了計(jì)算速度和內(nèi)存效率

DSA 的設(shè)計(jì)精髓在于其完美的權(quán)衡:

精確性:通過 Top-k 篩選機(jī)制,確保了注意力計(jì)算集中在最相關(guān)的信息上,避免了在無用信息上分散注意力,從而保持了極高的精度

高速度:通過閃電索引器、專門優(yōu)化的稀疏計(jì)算核(FlashMLA)以及更小的緩存設(shè)計(jì),極大地降低了計(jì)算復(fù)雜度和內(nèi)存占用,實(shí)現(xiàn)了閃電般的速度

正如 網(wǎng)友@teortaxesTex所評(píng)論的:“AGI 將是稀疏的”。DeepSeek 的 DSA 機(jī)制,用一個(gè)微型的全注意力索引器作為導(dǎo)航,精準(zhǔn)地指導(dǎo)了后續(xù)的大規(guī)模稀疏計(jì)算,這無疑是通往高效通用人工智能的一條極具前景的技術(shù)路徑。DeepSeek 在注意力機(jī)制上的不斷探索和果斷迭代,也展現(xiàn)了其強(qiáng)大的技術(shù)創(chuàng)新能力

關(guān)鍵詞: 瘋狂 key 上下文 索引器 dsa 深度思考

精選 導(dǎo)讀

百合花語 百合的花語是什么

百合花的花語是純潔、熱烈的愛和永遠(yuǎn)幸福。因其外貌的潔白純凈,故有著

發(fā)布時(shí)間: 2023-06-19 10:35
互聯(lián)網(wǎng)   2023-06-19

古代的剔骨之刑是指什么 古代的剔骨之刑是指什么刑法_微動(dòng)態(tài)

劊子手把重要的骨頭直接拔出來,血肉還在身上,比如蝴蝶骨、鎖骨、頸椎

發(fā)布時(shí)間: 2023-06-19 10:57
互聯(lián)網(wǎng)   2023-06-19

當(dāng)前資訊!王漫妮結(jié)局是跟誰在一起了 王漫妮結(jié)局介紹

1、王漫妮結(jié)局離開了梁正賢,她去留學(xué)了,她并不因?yàn)槟挲g而焦慮,三十

發(fā)布時(shí)間: 2023-06-19 10:45
互聯(lián)網(wǎng)   2023-06-19

焦點(diǎn)熱門:veromoda是什么牌子 veromoda中文叫什么

知名女裝品牌。veromoda中文名字是維莎曼。來自丹麥的北歐風(fēng)情,曾經(jīng)奢

發(fā)布時(shí)間: 2023-06-19 10:45
互聯(lián)網(wǎng)   2023-06-19

豹房是干什么用的 何謂豹房|天天速看

1、豹房就是供皇帝驕奢淫欲的場(chǎng)所,勞民傷財(cái)。2、明朝的朱厚照(正德皇

發(fā)布時(shí)間: 2023-06-19 10:47
互聯(lián)網(wǎng)   2023-06-19

fat32和ntfs的區(qū)別 fat32和ntfs有什么不同

?fat32和ntfs的區(qū)別主要有:1 安全屬性,ntfs安全屬性更高;2 推出時(shí)

發(fā)布時(shí)間: 2023-06-19 10:55
互聯(lián)網(wǎng)   2023-06-19

焦點(diǎn)速看:環(huán)肥燕瘦的意思 詞語環(huán)肥燕瘦的意思

1、這則成語意思是形容美人有不同的體態(tài)而各擅其美,也借喻藝術(shù)作品風(fēng)

發(fā)布時(shí)間: 2023-06-19 10:45
互聯(lián)網(wǎng)   2023-06-19

形容高興的成語有哪些 形容高興的成語有哪些? 環(huán)球聚焦

形容高興的成語有:1、囅然而笑:高興地笑起來。2、得意忘形:形容高興

發(fā)布時(shí)間: 2023-06-19 10:54
互聯(lián)網(wǎng)   2023-06-19

飛字組詞 飛字組詞有哪些 世界播報(bào)

1、飛鷹走馬[fēiyīngzǒumǎ]:放鷹追捕和騎馬追逐鳥獸。指打獵。2、

發(fā)布時(shí)間: 2023-06-19 10:33
互聯(lián)網(wǎng)   2023-06-19

獴是什么動(dòng)物 獴的生活習(xí)性

1、獴是一種小型的哺乳動(dòng)物,而且獴也是一些長(zhǎng)身、長(zhǎng)尾而四肢短的動(dòng)物

發(fā)布時(shí)間: 2023-06-19 10:48
互聯(lián)網(wǎng)   2023-06-19

熱門TAG

more
中國(guó)外貿(mào)網(wǎng)簡(jiǎn)介 重磅突發(fā)!王思聰在上海打人?警方剛剛通報(bào) 女子隨手捐10元4個(gè)月后收到還款道謝 看到回復(fù)破防 國(guó)內(nèi)豬肉價(jià)格開啟新一輪周期?專家:國(guó)家調(diào)控政策正在起作用 彩電市場(chǎng)價(jià)格持續(xù)走低:50英寸千元輕松購還會(huì)降價(jià)嗎? 鶴崗中介談1.5萬全款買房:別沖動(dòng) 詳情曝光系40年房齡的老房子價(jià)格自然便 穩(wěn)外貿(mào) 福建拓“新”途 福建也積極開辟國(guó)際物流新通道 這條名為BarMar的能源運(yùn)輸路線以幫助緩解歐洲所面臨的能源危機(jī) 寧波銀行:聚焦主責(zé)主業(yè),更好服務(wù)實(shí)體經(jīng)濟(jì) 重磅利好!涉房企業(yè)A股融資審核放寬,“白名單”浮出水面 能源是經(jīng)濟(jì)發(fā)展的動(dòng)力源泉 美國(guó)經(jīng)濟(jì)蕭條對(duì)汽車和電力市場(chǎng)的沖擊力有多 多頭醞釀更大爆發(fā)!美元有望再大漲近百點(diǎn) 廣西北部灣畔崛起國(guó)際大港 商企耕耘十年等來春暖花開時(shí) 中國(guó)A股半導(dǎo)體板塊周四大漲 十年時(shí)間增長(zhǎng)超1200億元 2021年創(chuàng)造天津市進(jìn)出口歷史最高紀(jì)錄 天津口岸完成進(jìn)出口貿(mào)易值2381億美元 較2012年增長(zhǎng)16.6% 深圳機(jī)場(chǎng)口岸通過發(fā)揮東南亞航線優(yōu)勢(shì) 不斷豐富進(jìn)口水果品類 國(guó)際航線(含港澳臺(tái))日均執(zhí)行客運(yùn)航班量達(dá)143班次 創(chuàng)今年新高 待中吉烏鐵路建成后 將高效聯(lián)通中歐班列的中通道與南通道線路 中國(guó)與RCEP成員國(guó)經(jīng)過陸海新通道進(jìn)出口總量52068標(biāo)箱 國(guó)航已率先在空客、波音機(jī)型上開展可持續(xù)航空燃料應(yīng)用 中國(guó)制造業(yè)屢創(chuàng)奇跡 牢牢站穩(wěn)世界“C位” 今年新疆不斷加大能源增產(chǎn)增供力度 新疆煤炭產(chǎn)量增長(zhǎng)31.1%、排全國(guó)第2位 陶悅?cè)河?jì)劃圍繞大健康等產(chǎn)業(yè)進(jìn)行增資擴(kuò)產(chǎn) 光伏電站位于Kharsaa地區(qū) 是卡塔爾首個(gè)太陽能發(fā)電廠 過去十年,重慶工業(yè)增加值總額由2012年的4291.4億元提高至2021年的7888.7億元 2021年鹽湖化工產(chǎn)業(yè)實(shí)現(xiàn)產(chǎn)值331.8億元 增長(zhǎng)46.2% 切入儲(chǔ)能賽道的消費(fèi)電池頭部玩家德賽電池近兩日連續(xù)打板漲停 6個(gè)二線城市首套房貸款利率跌破4% 低至3.8% 倡議項(xiàng)目將由德國(guó)聯(lián)邦經(jīng)濟(jì)和氣候保護(hù)部的能源研究預(yù)算提供資金