上海AI實驗室打破數(shù)學推理極限,不蒸餾R1也能超越DeepSeek,RL新突破引爆業(yè)界

上海AI實驗室:強化學習引領數(shù)學推理新突破

在人工智能領域,強化學習作為一種機器學習技術,近年來取得了顯著的進展。尤其是在深度學習模型如 Transformer、BERT 等的加持下,強化學習在自然語言處理、計算機視覺等任務中展現(xiàn)出了強大的潛力。近日,上海AI實驗室的一項研究成功打破了數(shù)學推理的極限,他們通過強化學習,無需蒸餾超大模型如 DeepSeek-R1,便超越了 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列。這一突破性的成果引起了業(yè)界和學術界的廣泛關注。

一、強化學習的新范式

上海AI實驗室提出了基于結(jié)果獎勵的強化學習新范式。他們從 Qwen2.5-32B-Base 模型出發(fā),通過微調(diào)和基于結(jié)果反饋的強化學習,實現(xiàn)了對 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超強數(shù)學推理性能的超越。這一成果展示了強化學習在處理復雜任務上的優(yōu)勢,尤其是對于需要深度思考和推理的任務。

二、破解數(shù)學推理的“三重門”

團隊發(fā)現(xiàn),當前大模型數(shù)學推理任務面臨“三重門”困局:稀疏獎勵困境、局部正確陷阱和規(guī)模依賴魔咒。傳統(tǒng)的強化學習算法在處理這些復雜任務時,往往難以應對稀疏獎勵和局部正確難題。然而,上海AI實驗室的研究團隊通過重新審視當前基于結(jié)果獎勵的強化學習算法,成功地解決了這些問題。

他們通過理論創(chuàng)新和嚴格的推導,提出了一種新的結(jié)果獎勵強化學習算法。該算法能夠根據(jù)正負樣本重塑獎勵,以維護策略優(yōu)化目標的一致性。同時,他們還發(fā)現(xiàn)不同的序列部分對結(jié)果的貢獻不同,因此需要更細粒度的獎勵分配函數(shù)。這一發(fā)現(xiàn)為強化學習在數(shù)學推理任務中的應用提供了新的思路和方法。

三、強化學習的突破與超越

通過強化學習,上海AI實驗室成功地超越了 DeepSeek-R1,實現(xiàn)了驚人的效果。他們發(fā)現(xiàn),通過對正確樣本模仿學習,錯誤樣本偏好學習,關鍵步驟重點學習,無需依賴超大規(guī)模的模型,僅通過強化學習即可達到驚人的效果。這一成果不僅為基于 RL 的方法樹立了新的里程碑,還超越了更大參數(shù)量的模型,包括 QWQ-32B-Preview 和 OpenAI-O1-Mini。這一突破性的進展為強化學習在自然語言處理和計算機視覺領域的應用開辟了新的道路。

四、結(jié)語

上海AI實驗室的這項研究展示了強化學習在數(shù)學推理任務中的巨大潛力。他們的成果不僅為學術界提供了新的研究思路和方法,也為業(yè)界提供了新的技術手段和工具。未來,我們期待看到更多的研究者們利用強化學習來探索更多的應用領域,推動人工智能技術的進一步發(fā)展。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2025-02-17
上海AI實驗室打破數(shù)學推理極限,不蒸餾R1也能超越DeepSeek,RL新突破引爆業(yè)界
上海AI實驗室通過強化學習成功引領數(shù)學推理新突破,無需依賴超大模型,已超越DeepSeek-R1等系列。這一成果為強化學習在自然語言處理和計算機視覺領域的應用開辟了新的道路。

長按掃碼 閱讀全文