亚洲欧美日本一区二区_免费裸体美女网站_日本中文字幕高清_亚洲天堂2018av_日韩视频免费在线播放_僵尸世界大战2 在线播放_二级片在线观看_av视屏在线播放_精品人妻大屁股白浆无码_久久99国产精品一区_爱爱爱爱免费视频_一区二区在线播放视频

首頁 > 原創知識 > 原創知識 > 比GPT-5還準?AIME25飆到99.9%刷屏,開源模型首次

比GPT-5還準?AIME25飆到99.9%刷屏,開源模型首次

發布時間:2025-08-24 11:55:03

DeepConf由Meta AI與加州大學圣地亞哥分校提出,核心思路是讓大模型在推理過程中實時監控置信度,低置信度路徑被動態淘汰,高置信度路徑則加權投票,從而兼顧準確率與效率。在AIME 2025上,它首次讓開源模型無需外部工具便實現99.9%正確率,同時削減85%生成token。

如何讓模型在思考時更聰明、更高效,還能對答案有把握?

最近,Meta AI與加州大學圣地亞哥分校的研究團隊給出了一個令人振奮的答案——Deep Think with Confidence(DeepConf),讓模型自信的深度思考。

論文地址:https://arxiv.org/pdf/2508.15260

項目主頁:https://jiaweizzhao.github.io/deepconf

這項新方法通過并行思考與「置信度篩選」,不僅讓模型在國際頂尖數學競賽AIME 2025上拿下了高達99.9%的正確率。

可以說,這是首次利用開源模型在AIME 2025上實現99.9%的準確率,并且不使用任何工具!

并且在保持高質量推理的同時,將生成的token數量削減了84.7%

DeepConf還為并行思考(parallel thinking)帶來了多項硬核優勢:

性能飆升:在各類模型與數據集上,準確率平均提升約10%

極致高效:生成token數量銳減高達85%

即插即用:兼容任何現有模型——無需額外訓練(也無需進行超參數微調!)

輕松部署:在vLLM中僅需約50行代碼即可集成

以DeepConf在HMMT 25(哈佛–麻省理工數學競賽)的第11道題目上的推理過程為例。

核心思想是DeepConf通過「置信度信號」篩選推理路徑,從而得到高質量答案,并在效率與準確率之間取得平衡。

橫軸(token index):表示模型生成的推理步驟(隨著token逐步增加)。

縱軸(confidence):表示每條推理路徑在該步驟上的置信度水平。

綠色曲線:表示不同推理路徑的置信度軌跡,越深的綠色表示置信度越高。

紅色叉叉:低于置信度閾值的推理路徑,被動態篩除。

綠色對勾:最終被保留下來的高置信度路徑。

最終表決:這些路徑在基于置信度加權的多數表決下,最終得出統一答案:29。

DeepConf在生成過程中,會持續監控推理路徑的置信度,低置信度路徑被及時淘汰,只保留「更有把握」的路徑,提升整體準確性。

通過準確率對比曲線,上圖可以看出縱軸是accuracy(準確率),黃色曲線(DeepConf)比藍色曲線(標準方法)明顯更高。

表明DeepConf在相同投票規模下能達到更高的準確率。

下圖橫軸是token數量(推理所需的計算成本),黃色曲線在準確率保持較高的同時,token消耗明顯更少。

表明DeepConf大幅減少了無效token的生成,推理效率更優。

DeepConf讓模型不再「胡思亂想」,而是高效地走在高置信度的推理軌道上。

DeepConf支持兩種工作模式:

離線模式:根據置信度篩選已完成的推理路徑,然后根據質量對投票進行加權。

在線模式:當置信度實時降至閾值以下時,立即停止生成。

DeepConf的秘訣是什么?

其實,LLM知道自己何時開始不確定的,只是大家一直沒有認真關注過他們的「思考過程」。

之前的方法在完整生成之后使用置信度/熵用于測試時和強化學習(RL)。

DeepConf的方法不同,不是在完成后,而是在生成過程中捕捉推理錯誤。

DeepConf實時監控「局部置信度」,在錯誤的推理路徑消耗數千個token之前及時終止。

只有高質量、高置信度的推理路徑才能保留下來!

DeepConf是怎樣「用置信度篩選、用置信度投票」?

這張圖展示了DeepConf在離線思考時的核心機制:

它先判斷哪些推理路徑值得信賴,把不靠譜的路徑提前剔除,再讓靠譜的路徑進行加權投票,從而得到一個更準確、更高效的最終答案。

首先是每一token「有多確定」。

當模型在寫推理步驟時,其實每個詞(token)背后都有一個「信心值」。

如果模型覺得「這一步答案很靠譜」,信心值就高。如果它自己都拿不準,這個信心值就會低。

上圖里用不同深淺的綠色和紅色標出來:綠色=更自信,紅色=不自信。

其次,不光要看單token,還要看整體趨勢。

DeepConf不只看某一個詞,而是會滑動窗口:看看一小段話里的平均信心值,衡量「這段話整體是否靠譜」。

重點看看最后幾句話的信心值,因為最終答案、最終結論往往決定于結尾。

DeepConf也會記下這條推理鏈里最差的一步,如果中間有明顯「翻車」,這條路徑就不太可靠。

這樣一來,每條完整的推理鏈路都會得到一個綜合的「置信度分數」。

最后,是先淘汰,再投票。

當模型并行生成很多條不同的推理路徑時:

第一步:過濾,把「置信度分數」排序,最差的10%直接丟掉,避免浪費。

第二步:投票,在剩下的推理鏈里,不是簡單數票,而是按照置信度加權投票。

也就是說:一條高置信度的路徑,它的意見分量更大;低置信度的路徑,即便答案一樣,也不會拉高太多票重。

最后看一下結果,在圖的右邊可以看到:有的路徑說「答案是109」,有的說「答案是103、104、98」。

但由于支持「109」的路徑更多、而且置信度更高,所以最終投票選出了109作為答案。

成績刷爆99.9%

比GPT-5還高

離線模式結果:在AIME 2025上達到99.9%的準確率(基線為97%)!

在5個模型×5個數據集上實現普適性增益。

在所有設置下均取得約10%的穩定準確率提升。

在線模式結果:在所有基準測試中節省33%-85%的token!

在AIME 2025基準測試中,使用GPT-OSS-120B,在減少85%的token消耗下,仍達到97.9%的準確率。

該方法適用于從8B到120B的各類開源模型——在不犧牲質量的前提下實現實時高效。

在離線環境中對置信度度量進行基準測試。報告的數值為準確率(%)。

Cons@512和mean@512分別表示使用512條推理軌跡進行的多數投票結果,以及平均置信度的均值。所有實驗均重復進行了64次。

在在線環境中對DeepConf進行基準測試。

在投票規模預算為512的條件下,報告多數投票方法與DeepConf(高/低)的方法的準確率(%)以及生成的token數量(×10?)。

基于置信度的深度思考

研究者的思考是:到底怎么把「置信度」用得更巧妙,讓模型既想得更準,又想得更快呢?

正如前文所述,這里可以分成兩個使用場景:

離線思考:等模型把一整條推理路徑都寫完了,再回頭去評估每條路徑的置信度,把靠譜的結果聚合在一起。這樣做的好處是能最大化提升答案的準確性。

在線思考:在模型一步步生成推理的過程中,就實時參考置信度。如果發現某條思路不靠譜,可以及時停掉,避免浪費算力。這樣能邊走邊篩選,提升效率甚至精度。

離線思考

在離線思考模式下,每個問題的所有推理路徑均已生成。

此時的核心挑戰是:如何聚合來自多條路徑的信息,從而更準確地確定最終答案。

針對這一點,研究人員采用了標準的多數投票(majority voting)方法。

多數投票(Majority Voting)

在標準的多數投票中,每條推理路徑得出的最終答案對最終決策的貢獻是均等的。

設T為所有已生成路徑的集合,對于任意路徑t∈T,設answer(t)為從該路徑中提取的答案文本。

那么,每個候選答案a的票數為:

置信度加權多數投票

這個方法不再均等對待每條路徑的投票,而是依據其關聯路徑的置信度,為每個最終答案賦予權重。

對于每個候選答案a,它的總投票權會被重定義為:

置信度過濾

在加權多數投票的基礎上,還需要應用置信度過濾,才能在將投票更集中于高置信度的推理路徑。

具體來說就是,通過路徑的置信度分數,篩選出排序前η%的路徑,從而確保只有最可靠的路徑參與最終答案的決定。

選擇前10%:專注于置信度最高的少數路徑。適用于少數路徑就能解決問題的場景,但風險是如果模型存在偏見,容易選錯答案。

選擇前90%:納入更廣泛的路徑。這種方法能保持多樣性、減少模型偏見,在各路徑置信度相差不大時尤其穩健。

圖3闡釋了各種置信度度量方法以及基于置信度的離線思考的工作原理。

算法1則提供了該算法的詳細實現。

在線思考

在線思考模式通過在生成過程中實時評估推理路徑的質量,來動態終止低質量的路徑,進而確保其在后續的置信度過濾階段大概率能被排除。

對此,研究人員提出了兩種基于最低分組置信度,并會自適應地中止生成過程并調整推理路徑的預算的方法:DeepConf-low和DeepConf-high。

其中,共包含兩大核心組件:離線預熱與自適應采樣。

離線預熱(Offline Warmup)

DeepConf需要一個離線預熱階段,以便為在線決策過程建立停止閾值s。

對于每個新的提示詞,首先生成Ninit條推理路徑(例如,Ninit=16)。

停止閾值s定義為:

在所有配置下,DeepConf-low均統一采用前η=10%的策略,而DeepConf-high則統一采用前η=90%的策略。

在在線生成過程中,一旦某條推理路徑的置信度低于預熱階段的數據所設定的、能夠篩選出置信度排序前η%路徑的最低門檻,生成過程就會被終止。

自適應采樣(Adaptive Sampling)

在DeepConf中,所有方法都采用了自適應采樣,如此就可以根據問題難度動態調整所生成推理路徑的數量。

問題難度通過已生成路徑之間的一致性程度來評估,其量化方式為多數投票權重與總投票權重的比值:

若β

由于采用的是最低分組置信度,一個足夠大的預熱集便能產生對停止閾值s的精確估計。

因此,任何被在線終止的路徑,其分組置信度必然低于s,也就會被離線過濾器所排除。

這樣,在線流程便能近似于離線的最低分組置信度策略,并且隨著Ninit的增加,其準確率會逼近離線策略的準確率。

圖4中闡釋了在線生成的過程。

算法2則提供了該算法的詳細實現。

具體過程,我們就用上圖里的這道「勾股三元組計數」問題舉個例子。

DeepConf要在生成推理的同時判斷:哪條思路靠譜、該繼續;哪條思路不靠譜、該盡早停,從而少花token、又更準。

兩個階段:先定閾值,再在線篩

1. Offline Warm-up(上圖右側,離線預熱)

先離線跑幾條完整的推理軌跡(Trace 1~5),給每條算一個「整體有多靠譜」的分數。

按分數做一次置信度過濾,好的軌跡在上方(綠色),差的在下方(紅色)。

據此確定一個停止閾值s(圖中綠色箭頭標注)。

簡單來說就是低于 s 的,通常是不值得繼續的推理。

這一步就像「熱身+標定」,模型把「該不該?!沟拈T檻先定好。

2. Online Generation(上圖中間,在線生成)

正式解題時,同時展開多條并行思路(多行的方塊序列)。

對每條思路,系統滾動地評估「這段話最近一小段的可靠度」(圖中方塊從左到右代表一步步的生成)。

左下 & 右下的小曲線各自表示模型的「把握」程度。

左下綠曲線表示模型對接下來的詞更「有把握」,示例文本是正經的數學推理(如「勾股三元組公式…」),這類內容通常被保留。

右下紅曲線表示模型在猶豫或「自我懷疑」,示例文本是「讓我再想想、回頭檢查一下…」,這類猶豫/兜圈子的片段常被判為低置信度,從而觸發在線早停。

先離線確定「可靠度閾值s」,再在線用s給并行思路「邊走邊檢查」。

不靠譜就當場叫停,靠譜的繼續前進。這樣就能做到既快又準了。

作者介紹

Yichao Fu

論文一作Yichao Fu是加州大學圣地亞哥分校(UC San Diego)計算機科學與工程系的博士生,師從張昊教授,也就是老朋友Hao AI Lab的負責人。

此前,他在浙江大學獲得計算機科學學士學位。

他的研究興趣主要為分布式系統、機器學習系統以及高效機器學習算法,近期專注于為LLM的推理過程設計并優化算法與系統。

他參與的項目包括:Lookahead Decoding、vllm-ltr和Dynasor。

原創知識更多>>

韓三楚:大眾建成本土研發體系,以CEA架構支撐智能化與智駕布局 長安汽車海外工廠陸續投產,疊加固態電池、高階智駕等技術落地應用 比亞迪“閃充”技術深度解讀:5分鐘400公里 真能干掉加油? 2026款五菱揚光6.98萬起正式上市 以三大技術引領高效創富新時代 智界V9首發智能交互式側門光毯,用“光”鋪就尊崇儀式感 共贏智電新時代,日產汽車出席智能電動汽車發展高層論壇 大眾背水一戰,ID.又推全新序列,AURA T6成色怎么樣? 歐洲成奇瑞最快增長出口地!新能源出口增250% 李斌的ES9脫口秀,終于讓蔚來像個豪華品牌了 長安啟源A06與全新Q05越級上新 8萬多入手500km續航+寧王電芯 別克至境E7要拓家用?是大五座新能源SUV沒故事可講了嗎 國產方盒子看膩了?來看看韓系的硬派越野 華境S首發亮相:安全、智能、空間三重旗艦實力拉滿 蓮花For Me:不卷馬力,只造駕趣? 上汽集團宣布,將在智己、榮威、MG等旗下全品牌中,推動半固態電池車型量產落地 20萬級方盒子增程SUV新選項,iCAR V27起售價16.98萬元 奕境汽車核心管理層公布:頂配團隊強勢入局高端新能源 上汽大通:7天免費試用是營銷返璞歸真 中國皮卡產品力不輸國外品牌 3月超24萬輛進前三,奇瑞海內外齊高技術落地快電車占比加重 新款奔馳C級夏季亮相,線條很美,內飾不變? 吳迎秋:中國也應該有自己的經典車 比亞迪海豹上新,不到13萬的閃充閉眼沖? 油菜花開了,奕派008/零跑C16/銀河M9,誰才是家庭春游的好搭子? 尚界Z7為啥會在假期意外爆紅,這代年輕人不愛SUV了? 奕境汽車兩大核心人物到位,2026年首戰在即 896線4激光雷達+全身熱石理療,嵐圖泰山X8亮相,預計4月上市 3月賣了3.8萬輛!昊鉑埃安這波“暴力反彈”,到底做對了什么? 20萬以內,iCAR V27用硬核實力拒絕做選擇題 不到9萬元,就配備激光雷達,零跑A10有沒有虧本賣車? 奔馳GLS中期改款,48V主動懸架真能蹦跶
亚洲欧美日本一区二区_免费裸体美女网站_日本中文字幕高清_亚洲天堂2018av_日韩视频免费在线播放_僵尸世界大战2 在线播放_二级片在线观看_av视屏在线播放_精品人妻大屁股白浆无码_久久99国产精品一区_爱爱爱爱免费视频_一区二区在线播放视频
欧美日韩精品一本二本三本 | 日本在线视频一区二区| 91精品高清| 亚洲精品婷婷| 国产99亚洲| 国产精品日韩| 成人精品久久| 高清不卡一区| 中文字幕一区二区三区日韩精品 | 日韩一区二区在线免费| 久久99精品久久久久久园产越南| 日韩精品一区第一页| 免费精品视频| 四虎精品永久免费| 亚洲少妇诱惑| 色爱av综合网| 日本欧美韩国一区三区| 亚洲精品影院在线观看| 国产精品xxx| 天堂8中文在线最新版在线| 成人国产精选| 亚洲欧美网站| 色婷婷色综合| 久久精品国产一区二区| 精品在线99| 福利一区二区三区视频在线观看| 黄在线观看免费网站ktv| 亚欧洲精品视频在线观看| 免费亚洲一区| re久久精品视频| 欧美日韩国产一区二区在线观看| 国产乱人伦精品一区| 91综合视频| 日本少妇一区二区| 国产欧美亚洲一区| 国产精品亚洲片在线播放| 欧美1区2区3| 激情久久五月| 91精品啪在线观看国产爱臀| 亚洲精品中文字幕乱码| 国产亚洲精品美女久久| 婷婷成人综合| 色婷婷色综合| 日本欧美国产| 美腿丝袜在线亚洲一区| 欧美日韩精品免费观看视频完整| 日韩成人在线看| 爽好久久久欧美精品| 亚洲视频综合| 欧美va天堂| 99香蕉国产精品偷在线观看 | 国产精品久久观看| 亚洲女同一区| 亚洲第一区色| 99视频+国产日韩欧美| 亚洲人成在线影院| 中文字幕一区二区三区日韩精品| 美女精品在线| 欧美色综合网| 国产毛片久久久| 久久蜜桃精品| 欧美精品中文| 日韩手机在线| 麻豆精品网站| 日本中文字幕视频一区| 国产亚洲精品精品国产亚洲综合 | 99国产精品久久久久久久成人热 | 国产欧美91| 精品国产不卡一区二区| 国产精品精品| 日韩av中文字幕一区二区三区| 欧美激情视频一区二区三区免费 | 捆绑调教美女网站视频一区| 伊人久久婷婷| 国产一区日韩| 日韩专区精品| 中文字幕在线官网| 欧美日韩国产观看视频| 国产在视频一区二区三区吞精| 精品免费在线| 精品视频97| 亚洲三级av| 久久人人99| 免费日韩一区二区三区| 99成人在线| 在线精品亚洲| 国产精品日本欧美一区二区三区| 久久男女视频| 亚洲风情在线资源| 蜜桃久久久久久| 国产欧美日韩精品一区二区三区| 成人国产综合| 日本不卡在线视频| 欧美日韩1区2区3区| 成人国产综合| 日韩av电影一区| 人在线成免费视频| 黄色欧美日韩| 日本欧美一区二区在线观看| 国模精品一区| 毛片在线网站| 国产一区二区三区不卡av| 综合国产视频| 日产精品一区| 四虎国产精品免费久久| 蜜桃久久久久久| 国产综合精品一区| 国产毛片久久久| 国产精品一区毛片| 欧美一区二区三区久久精品| 久久精品99国产精品日本| 欧美性感美女一区二区| 日韩视频二区| 在线手机中文字幕| 亚洲精品字幕| 日韩精品a在线观看91| 国产亚洲毛片在线| 欧美午夜不卡| 高清日韩欧美| 欧美精品aa| 精品视频在线观看网站| 日韩久久一区二区三区| 日韩欧美在线精品| 日韩中文字幕不卡| 亚洲精品一区二区妖精| 在线精品亚洲欧美日韩国产| 久久久久久久久丰满| 日韩成人三级| 国产日韩一区二区三区在线播放| 欧美午夜精彩| 国产精品毛片久久| 亚洲欧美日韩高清在线| 青青青国产精品| 国产精品a久久久久| 亚洲久久一区| 国产精品一区二区美女视频免费看 | 国产成人黄色| 国产亚洲毛片| 欧美亚洲三级| 日本午夜精品久久久| 中文字幕在线高清| 精品视频亚洲| 久久aⅴ国产紧身牛仔裤| 在线一区免费| 久久成人av| 日本91福利区| 国产精品久久久网站| 日韩高清二区| 成人在线视频区| 国产在线观看91一区二区三区| 影音先锋久久精品| 蜜桃免费网站一区二区三区| 国产精品嫩模av在线| 国产高清视频一区二区| 捆绑调教日本一区二区三区| 免费看黄色91| 日韩一区二区三区免费| 日本国产欧美| 中文字幕亚洲在线观看| 日韩精品久久久久久久软件91| 亚洲精品.com| 久久精品电影| 日韩av黄色在线| 国产精品极品在线观看| 美国欧美日韩国产在线播放| 国产精品极品| 卡一精品卡二卡三网站乱码| 红杏一区二区三区| 国产毛片精品| 免费久久99精品国产自在现线| 日韩三级精品| 亚洲少妇一区| 黄色在线网站噜噜噜| 精品一区免费| 麻豆精品在线播放| 免费亚洲婷婷| 精品三级在线观看视频| 久久91导航| 中文字幕一区二区三区在线视频| 欧美粗暴jizz性欧美20| 国产日韩一区| 在线观看一区| 日韩avvvv在线播放| 日韩精品欧美精品| 亚洲在线电影| 欧美中文字幕| 视频一区欧美精品| 成人免费网站www网站高清| 精品欧美日韩精品| 日韩三区四区| 日本精品在线播放| 亚洲另类av| 久久精品97| 精品久久久网| 国产午夜久久| 99pao成人国产永久免费视频| 久久亚州av| 久久香蕉精品| 91久久久久| 日韩av成人高清|