亚洲欧美日本一区二区_免费裸体美女网站_日本中文字幕高清_亚洲天堂2018av_日韩视频免费在线播放_僵尸世界大战2 在线播放_二级片在线观看_av视屏在线播放_精品人妻大屁股白浆无码_久久99国产精品一区_爱爱爱爱免费视频_一区二区在线播放视频

首頁(yè) > 科技活動(dòng) > 每日活動(dòng) > DeepSeek V4借實(shí)習(xí)生獲獎(jiǎng)?wù)撐?ldquo;起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準(zhǔn)確率

DeepSeek V4借實(shí)習(xí)生獲獎(jiǎng)?wù)撐?ldquo;起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準(zhǔn)確率

發(fā)布時(shí)間:2025-07-31 21:22:38

7 月 30 日,ACL(國(guó)際計(jì)算語(yǔ)言學(xué)年會(huì))公布了 2025 年的獲獎(jiǎng)?wù)撐摹A钊梭@喜的是,這些論文里的中國(guó)作者比例超過(guò) 51%,排在第二的美國(guó)僅為 14%

其中,一篇由 DeepSeek 梁文鋒作為通訊作者、與北京大學(xué)等聯(lián)合發(fā)表的論文不僅拿下 Best Paper 獎(jiǎng),相關(guān)成果也引發(fā)熱議。

現(xiàn)場(chǎng)講座中,該論文的第一作者袁境陽(yáng)透露,這項(xiàng)技術(shù)可以把上下文長(zhǎng)度擴(kuò)展到 100 萬(wàn) tokens,并將應(yīng)用在他們的下一個(gè)前沿模型中。據(jù)了解,袁境陽(yáng)當(dāng)時(shí)寫(xiě)這篇論文時(shí)還只是 Deepseek 的實(shí)習(xí)生。

圖片

引入兩大核心技術(shù)創(chuàng)新

長(zhǎng)上下文建模對(duì)于下一代語(yǔ)言模型至關(guān)重要,但標(biāo)準(zhǔn)注意力機(jī)制的高計(jì)算成本帶來(lái)了顯著的計(jì)算挑戰(zhàn)。隨著序列長(zhǎng)度的增加,延遲瓶頸問(wèn)題愈發(fā)凸顯。理論估算表明,在解碼 64k 長(zhǎng)度的上下文時(shí),采用 softmax 架構(gòu)的注意力計(jì)算占總延遲的 70%–80%,這凸顯了對(duì)更高效注意力機(jī)制的迫切需求。

為解決這些局限性,有效的稀疏注意力機(jī)制在實(shí)際應(yīng)用中必須應(yīng)對(duì)兩項(xiàng)關(guān)鍵挑戰(zhàn):與硬件適配的推理加速,要將理論上的計(jì)算量減少轉(zhuǎn)化為實(shí)際的速度提升,就需要在預(yù)填充和解碼階段都采用硬件友好型的算法設(shè)計(jì),以緩解內(nèi)存訪問(wèn)和硬件調(diào)度方面的瓶頸;兼顧訓(xùn)練的算法設(shè)計(jì),通過(guò)可訓(xùn)練算子實(shí)現(xiàn)端到端計(jì)算,在維持模型性能的同時(shí)降低訓(xùn)練成本。

綜合考慮這兩個(gè)方面,現(xiàn)有方法仍存在明顯差距。該團(tuán)隊(duì)認(rèn)為,稀疏注意力為在保持模型能力的同時(shí)提高效率提供了一個(gè)很有前景的方向。

在獲獎(jiǎng)?wù)撐闹校麄兲岢隽?NSA,這是一種可原生訓(xùn)練的稀疏注意力(Natively trainable Sparse Attention)機(jī)制。它將算法創(chuàng)新與硬件對(duì)齊優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長(zhǎng)上下文建模。據(jù)介紹,NSA 采用動(dòng)態(tài)分層稀疏策略,結(jié)合粗粒度的 token 壓縮和細(xì)粒度的 token 選擇,以同時(shí)保留全局上下文感知和局部精度。

圖片

具體來(lái)說(shuō),NSA 引入了兩項(xiàng)核心創(chuàng)新。

通過(guò)算術(shù)強(qiáng)度平衡的算法設(shè)計(jì)實(shí)現(xiàn)了顯著的加速,并針對(duì)現(xiàn)代硬件進(jìn)行了實(shí)現(xiàn)優(yōu)化:優(yōu)化塊式稀疏注意力,以提高張量核利用率和內(nèi)存訪問(wèn),確保均衡的算術(shù)強(qiáng)度。

通過(guò)高效算法和反向算子實(shí)現(xiàn)穩(wěn)定的端到端訓(xùn)練,在不犧牲模型性能的情況下減少了預(yù)訓(xùn)練計(jì)算量。

上下文處理速度狂飆,

準(zhǔn)確率堪稱(chēng)“完美”

在真實(shí)世界語(yǔ)言語(yǔ)料庫(kù)上進(jìn)行綜合實(shí)驗(yàn)評(píng)估后,NSA 由于稀疏性過(guò)濾掉更多噪聲,在基準(zhǔn)測(cè)試中產(chǎn)生更好的準(zhǔn)確率。據(jù)悉,該團(tuán)隊(duì)在一個(gè)擁有 270 億參數(shù)的 Transformer 骨干網(wǎng)絡(luò)(其中激活參數(shù)為 30 億)上,使用 2600 億個(gè) token 進(jìn)行預(yù)訓(xùn)練,并從通用語(yǔ)言評(píng)估、長(zhǎng)上下文評(píng)估和思維鏈推理評(píng)估三個(gè)方面評(píng)估了 NSA 的性能,還在 A100 GPU 上將其內(nèi)核速度與經(jīng)過(guò)優(yōu)化的 Triton 實(shí)現(xiàn)作了進(jìn)一步比較。

實(shí)驗(yàn)結(jié)果表明,NSA 的整體性能與全注意力模型相當(dāng)甚至更優(yōu)。在 9 項(xiàng)指標(biāo)中的 7 項(xiàng)上,NSA 均超過(guò)了包括全注意力模型在內(nèi)的所有基線。這表明,盡管 NSA 在較短序列上可能無(wú)法充分發(fā)揮其效率優(yōu)勢(shì),但它展現(xiàn)出了強(qiáng)勁的性能。

值得注意的是,NSA 在推理相關(guān)的基準(zhǔn)測(cè)試中取得了顯著提升(DROP:+0.042,GSM8K:+0.034),這說(shuō)明該團(tuán)隊(duì)的預(yù)訓(xùn)練有助于模型發(fā)展出專(zhuān)門(mén)的注意力機(jī)制。這種稀疏注意力預(yù)訓(xùn)練機(jī)制迫使模型聚焦于最重要的信息,通過(guò)過(guò)濾無(wú)關(guān)注意力路徑中的噪聲,可能會(huì)提升性能。在各類(lèi)評(píng)估中表現(xiàn)出的一致性,也驗(yàn)證了 NSA 作為通用架構(gòu)的穩(wěn)健性。

在 64k 上下文的“大海撈針”測(cè)試中,NSA 在所有位置都實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。此外,與全注意力相比,NSA 在解碼、前向傳播和反向傳播方面都實(shí)現(xiàn)了顯著的速度提升,且序列越長(zhǎng),提速比例越大。

圖片

據(jù)該團(tuán)隊(duì)稱(chēng),這一性能正是得益于其分層稀疏注意力設(shè)計(jì),該設(shè)計(jì)結(jié)合了用于高效全局上下文掃描的 token 壓縮和用于精確局部信息檢索的 token 選擇。粗粒度的 token 壓縮以較低的計(jì)算成本識(shí)別相關(guān)的上下文塊,而對(duì) token 選擇的標(biāo)記級(jí)注意力則確保保留關(guān)鍵的細(xì)粒度信息。

同時(shí),NSA 優(yōu)于多種現(xiàn)有的稀疏注意力方法,包括 H2O、infLLM、Quest 以及 Exact-Top。

圖片

值得注意的是,NSA 在需要對(duì)長(zhǎng)上下文進(jìn)行復(fù)雜推理的任務(wù)上表現(xiàn)出色,在多跳問(wèn)答任務(wù)(HPQ 和 2Wiki)上比全注意力模型分別提升 0.087 和 0.051,在代碼理解任務(wù)(LCC)上超出基線模型 0.069,在段落檢索任務(wù)(PassR-en)上優(yōu)于其他方法 0.075。這些結(jié)果也驗(yàn)證了 NSA 處理各種長(zhǎng)上下文挑戰(zhàn)的能力,其原生預(yù)訓(xùn)練的稀疏注意力在學(xué)習(xí)任務(wù)最優(yōu)模式方面帶來(lái)了額外優(yōu)勢(shì)。

為評(píng)估 NSA 與先進(jìn)下游訓(xùn)練范式的兼容性,該團(tuán)隊(duì)研究了其通過(guò)后期訓(xùn)練獲得思維鏈數(shù)學(xué)推理能力的潛力。鑒于強(qiáng)化學(xué)習(xí)在較小規(guī)模模型上的效果有限,其采用來(lái)自 DeepSeek-R1 的知識(shí)蒸餾,使用 100 億個(gè) 32k 長(zhǎng)度的數(shù)學(xué)推理軌跡進(jìn)行有監(jiān)督微調(diào)(SFT)。這產(chǎn)生了兩個(gè)可比較的模型:全注意力 - R(全注意力基線模型)和 NSA-R(稀疏變體)。

接著,他們?cè)诰哂刑魬?zhàn)性的美國(guó)數(shù)學(xué)邀請(qǐng)賽(AIME 24)基準(zhǔn)上對(duì)這兩個(gè)模型進(jìn)行了評(píng)估,使用 0.7 的采樣溫度和 0.95 的核采樣值,為每個(gè)問(wèn)題生成 16 個(gè)回答并取平均分。并且,為驗(yàn)證推理深度的影響,他們?cè)趦煞N生成上下文序列下進(jìn)行了實(shí)驗(yàn)。結(jié)果顯示,NSA-R 在 8k 和 16k 序列長(zhǎng)度下的表現(xiàn)均優(yōu)于全注意力 - R。

圖片

這些結(jié)果驗(yàn)證了原生稀疏注意力的兩項(xiàng)關(guān)鍵優(yōu)勢(shì):(1)預(yù)訓(xùn)練的稀疏注意力模式能夠高效捕捉復(fù)雜數(shù)學(xué)推導(dǎo)所必需的長(zhǎng)程邏輯依賴(lài)關(guān)系;(2)我們架構(gòu)的硬件對(duì)齊設(shè)計(jì)保持了足夠的上下文密度,以支持推理深度的增加,同時(shí)避免災(zāi)難性遺忘。在不同上下文長(zhǎng)度下的持續(xù)優(yōu)異表現(xiàn)證實(shí),當(dāng)稀疏注意力被原生整合到訓(xùn)練流程中時(shí),其在高級(jí)推理任務(wù)中具有切實(shí)可行性。

計(jì)算效率方面,該團(tuán)隊(duì)將基于 Triton 實(shí)現(xiàn)的 NSA 注意力機(jī)制和全注意力機(jī)制,與基于 Triton 的 FlashAttention-2 在 8-GPU A100 系統(tǒng)進(jìn)行了比較,以確保在相同后端下進(jìn)行公平的速度對(duì)比。

結(jié)果表明,隨著上下文長(zhǎng)度的增加,NSA 實(shí)現(xiàn)了越來(lái)越顯著的速度提升。在 64k 上下文長(zhǎng)度下,前向速度提升高達(dá) 9.0 倍,反向速度提升高達(dá) 6.0 倍。值得注意的是,序列越長(zhǎng),速度優(yōu)勢(shì)就越明顯。隨著解碼長(zhǎng)度的增加,NSA 的方法延遲顯著降低,在 64k 上下文長(zhǎng)度下提速高達(dá) 11.6 倍,且這種內(nèi)存訪問(wèn)效率方面的優(yōu)勢(shì)也會(huì)隨著序列變長(zhǎng)而進(jìn)一步擴(kuò)大。

圖片

值得一提的是,這篇論文早在今年 2 月就對(duì)外公布,而相關(guān)研究成果至今還沒(méi)有出現(xiàn)在任何 DeepSeek 模型中。不過(guò),根據(jù)論文一作袁境陽(yáng)的說(shuō)法,DeepSeek 下一代模型就將應(yīng)用這項(xiàng)技術(shù),這也讓許多網(wǎng)友對(duì) DeepSeek V4 的發(fā)布更加期待,畢竟其與 DeepSeek R2 的發(fā)布計(jì)劃似乎也有很大關(guān)聯(lián)。

早在今年 4 月,就有“DeepSeek R2 提前泄露”的傳言在 AI 圈刷屏。源頭是來(lái)自 Hugging Face CEO 發(fā)布的一條耐人尋味的帖子,配圖是 DeepSeek 在 Hugging Face 的倉(cāng)庫(kù)鏈接,接著引發(fā)不少關(guān)于 R2 發(fā)布時(shí)間和技術(shù)細(xì)節(jié)的各類(lèi)傳播。但對(duì)此,DeepSeek 官方一直未作出回應(yīng)。

前不久,有外媒報(bào)道稱(chēng),DeepSeek R2 可能繼續(xù)推遲。遲遲未發(fā)布的內(nèi)部原因是 DeepSeek 創(chuàng)始人梁文鋒對(duì)該模型當(dāng)前的性能不滿(mǎn)意,工程師團(tuán)隊(duì)仍在優(yōu)化和打磨。與此同時(shí),也有人這樣推測(cè):R2 好歹要等 V4 出來(lái)再說(shuō),V3 可能已經(jīng)到達(dá)極限了。

每日活動(dòng)更多>>

廣汽將繼續(xù)以科技向心為方向,依托番禺行動(dòng)釋放的體系效能,聚焦用戶(hù)真實(shí)需求,持續(xù)打磨技術(shù)與產(chǎn)品 最大續(xù)航里程440km 2026款五菱揚(yáng)光售價(jià)6.98萬(wàn)元起 定價(jià)區(qū)間16-21萬(wàn),別克至境E7為什么敢說(shuō)自己更懂中國(guó)家庭? 備戰(zhàn)2026北京車(chē)展,廣汽發(fā)布新技術(shù),到底有多少干貨? 比亞迪一項(xiàng)數(shù)據(jù),把日媒給鎮(zhèn)住了:它們一年有200次,豐田才8次 廣汽這次科技日,讓我重新思考什么叫“科技向心” “海外賣(mài)高價(jià)、國(guó)內(nèi)定良心價(jià)” 瑞虎7L和瑞虎5真的值嗎? 長(zhǎng)安啟源旗下新款A(yù)06、Q05雙車(chē)正式同步上市,憑借激光雷達(dá)高階智駕配置與親民定價(jià)迎合市場(chǎng) 2026款樂(lè)道L90確定4月21日正式上市,沿用900V高壓平臺(tái)、340kW高性能電驅(qū),支持換電與快充,六座大空間 預(yù)售13.98萬(wàn)元起,搭載1.5L插混動(dòng)力,吉利銀河M7開(kāi)啟預(yù)售 揭秘領(lǐng)克900的成功密碼,領(lǐng)克CO:TALK智享會(huì)啟幕! 740Li頂配版尊享型確認(rèn)停產(chǎn)!現(xiàn)款寶馬7系即將全面停產(chǎn) 6.89 萬(wàn)起 + 后驅(qū)獨(dú)立懸架!全新奇瑞 QQ3 預(yù)售,經(jīng)典 IP 煥新登場(chǎng) 紐北燃油車(chē)記錄,6分15秒,福特GT竟不是福特生產(chǎn)的? 從“出口冠軍”到“全球化樣本”,奇瑞一季度成績(jī)單值得重新再看一遍 “出塵入畫(huà)”亮相新色,凱迪拉克XT5春季煥新升級(jí) 對(duì)標(biāo)豐田,長(zhǎng)安HEV如何撬動(dòng)“新燃油時(shí)代” 21年的堅(jiān)守, 長(zhǎng)城汽車(chē)以“信”鑄基助力中國(guó)汽車(chē)強(qiáng)國(guó)建設(shè) 硬派進(jìn)化,現(xiàn)代Boulder概念車(chē):跨界越野車(chē)+未來(lái)皮卡一網(wǎng)打盡 凱迪拉克XT5具象中式色彩:東方漓水映灰韻 豪華SUV變聰明了?新一代奔馳GLE/GLS:豪華開(kāi)始講AI Freelander神行者首秀,你要重新認(rèn)識(shí)這個(gè)品牌 軸距3005mm,續(xù)航900km 寶馬iX3長(zhǎng)軸版來(lái)了 一汽大眾“有史以來(lái)規(guī)模最大”的春季新品發(fā)布會(huì),改寫(xiě)了車(chē)市競(jìng)爭(zhēng)規(guī)則? 場(chǎng)地試駕吉利銀河M7:以極致操控,加冕A級(jí)SUV操控之王 當(dāng)智能電動(dòng)成了“顯學(xué)”,全新奧迪A6L如何定義豪華? 7.98萬(wàn)起售,一汽-大眾全新速騰S重塑A級(jí)家轎價(jià)值標(biāo)桿 樂(lè)道轎車(chē)真的要來(lái)了?最新渲染圖曝光,就等廠家正式官宣 五菱華為高管對(duì)話:聊透了“國(guó)民好車(chē)”該長(zhǎng)什么樣 官車(chē)余暉散盡:奧迪A6L的結(jié)構(gòu)性潰敗與代際拋棄
亚洲欧美日本一区二区_免费裸体美女网站_日本中文字幕高清_亚洲天堂2018av_日韩视频免费在线播放_僵尸世界大战2 在线播放_二级片在线观看_av视屏在线播放_精品人妻大屁股白浆无码_久久99国产精品一区_爱爱爱爱免费视频_一区二区在线播放视频
福利在线免费视频| 亚洲精品影院在线观看| 成人午夜在线| 欧美日韩在线网站| 亚洲欧洲专区| 亚洲国产日韩欧美在线| 国产高潮在线| 久久精品97| 日韩三区四区| 国产精品88久久久久久| 久久视频一区| 国产欧美日韩免费观看| 三级久久三级久久久| 国产亚洲精品久久久久婷婷瑜伽| 中文字幕成在线观看| 精品丝袜久久| 红杏一区二区三区| 日韩高清一区| 91在线成人| 亚洲精品美女| 亚洲免费影视| 久久亚洲国产精品一区二区| 99国产精品私拍| 久久久噜噜噜| 国内精品99| 亚洲精品123区| 午夜在线精品偷拍| 日韩一区二区三免费高清在线观看| 9国产精品视频| 伊人国产精品| 午夜亚洲福利| 嫩草伊人久久精品少妇av杨幂| 久久精品国产999大香线蕉| 18国产精品| 国产精品蜜月aⅴ在线| 国产精品激情电影| 青青在线精品| 国产精品对白| 日韩国产一区二区| 国产精品99免费看| 伊人久久成人| 日韩精品亚洲专区| 精品欠久久久中文字幕加勒比| 精品伊人久久| 亚洲精品午夜av福利久久蜜桃| 蜜桃视频一区二区三区在线观看| 亚洲久久在线| av资源中文在线| 99成人在线| 日韩av成人高清| 啪啪国产精品| 亚洲欧美网站在线观看| 国产日韩一区| 不卡av一区二区| 久久国内精品自在自线400部| 欧美亚洲日本精品| 亚洲久久在线| 中国字幕a在线看韩国电影| 91久久国产| 久久精品国产999大香线蕉| 婷婷成人在线| 国产欧美一区二区三区米奇| 日韩久久精品| 欧美片网站免费| 久久中文字幕二区| 国产精品久久免费视频| 精品91久久久久| 精品三区视频| 少妇精品久久久| 999国产精品视频| 国产精品亚洲综合色区韩国| 午夜av一区| 日韩成人三级| 国产精品久久久久久久久久白浆| 蜜桃视频欧美| 国内精品伊人| 国产日韩三级| 亚洲最新av| 午夜欧美精品| 久久久久久夜| 国产精品毛片久久久| 中文字幕日韩欧美精品高清在线| 精品亚洲美女网站| 四虎8848精品成人免费网站| 日本精品久久| 日韩精品一级| 综合激情在线| 免费观看在线综合色| 欧美一区二区三区激情视频| 91一区二区| 国产成人精品一区二区三区免费| 日本久久一区| 日本视频一区二区| 日本va欧美va欧美va精品| 好吊日精品视频| 国产精品7m凸凹视频分类| 日韩毛片视频| 亚洲欧洲美洲av| av中文资源在线资源免费观看| 国产精品亚洲欧美一级在线| 日韩高清不卡在线| 欧美日韩a区| 美女久久99| 久久久久久自在自线| 国产传媒在线观看| 日本国产精品| 亚洲精品网址| 亚州欧美在线| 欧美片网站免费| 欧美a在线观看| 不卡专区在线| 免费视频亚洲| 亚洲精选91| 免费在线日韩av| 久久婷婷一区| 亚洲欧美日韩综合国产aⅴ| 每日更新成人在线视频| 日韩在线麻豆| 韩日一区二区| 黄色亚洲在线| 国产伦乱精品| 999国产精品视频| 亚洲五月综合| 久久一区视频| 欧美~级网站不卡| 日本一区免费网站| 国产aⅴ精品一区二区四区| 久久蜜桃av| 日韩不卡在线观看日韩不卡视频| 国产精品久一| 日韩视频在线一区二区三区 | 韩日一区二区| 欧美日韩在线网站| 亚洲人成在线影院| 精品欠久久久中文字幕加勒比| 久久中文字幕av| 日韩福利视频导航| 日韩美女一区二区三区在线观看| 国产视频一区免费看| 久久精品一本| 亚洲男人在线| 欧美丝袜一区| 精品三级在线观看视频| 国产精品毛片| 日产精品一区| 欧美精品99| 婷婷亚洲成人| 亚洲二区免费| 精品国产成人| 一区二区三区四区在线观看国产日韩| 精品久久中文| 亚洲欧美在线综合| 精品一区在线| 蜜桃成人精品| 麻豆视频久久| 国产探花在线精品| 丝袜a∨在线一区二区三区不卡| а√天堂8资源在线| 91亚洲精品在看在线观看高清| 久久精品免费一区二区三区| 国产亚洲精品美女久久 | 亚洲资源av| www成人在线视频| 久久超碰99| 欧美日本一区| 亚洲欧美一级| 日韩一区欧美二区| 亚洲在线免费| 91精品亚洲| 99视频精品全部免费在线视频| 国产aa精品| 精品欧美日韩精品| 欧美日韩亚洲国产精品| 日韩中文字幕无砖| 日韩一区中文| 日本午夜精品| 国产情侣久久| 国产精品白丝久久av网站| 天海翼亚洲一区二区三区| 最新国产精品| 欧美久久一区二区三区| 日韩高清中文字幕一区| 日韩一区二区三区免费视频 | 久久精品国内一区二区三区水蜜桃| 免费一级欧美在线观看视频| 国产精品久久久一区二区| 欧美激情福利| 97精品在线| 亚洲高清二区| 在线精品视频一区| 天堂久久一区| 日韩av中文字幕一区二区| 日韩av一区二| 国产传媒在线| 国产综合欧美| 日韩精品1区2区3区| 国产精品蜜月aⅴ在线| 国产一区国产二区国产三区| 九九精品调教| 综合国产在线|