研究發(fā)現(xiàn),Qwen天生擅長驗證、回溯等推理行為,而Llama需通過訓練誘導這些習慣,才能在強化學習中實現(xiàn)自我提升。
想象一下,當你面對一個棘手的數(shù)學題時,會怎么做?可能會多花點時間,仔細推敲每一步,甚至在走不通時退回去重來。這種深思熟慮的能力,如今也開始在語言模型身上顯現(xiàn)。近年來,通過強化學習(RL),一些模型學會了在復雜問題上“慢下來思考”,就像人類專家那樣。然而,有趣的是,有些模型進步神速,有些卻很快停滯。比如,在《倒計時》游戲的相同訓練下,Qwen-2.5-3B遠遠甩開Llama-3.2-3B。這不禁讓人好奇:是什么讓某些模型能不斷自我提升?
為了解開這個謎團,研究者們聚焦于四種關鍵的認知行為:驗證、回溯、設定子目標和逆向推理。這些習慣在人類解決問題時很常見——一位數(shù)學家會檢查證明的每一步,遇到矛盾時放棄死胡同,把大問題拆成小塊,從結果反推起因。研究發(fā)現(xiàn),Qwen天生就帶有這些特質,尤其擅長驗證和回溯,而Llama起初幾乎完全欠缺。正是這些行為,讓Qwen能在強化學習中如魚得水。
那么,能不能讓Llama也學會這些本領呢?實驗給出了一線希望。通過給Llama提供一些包含這些推理行為的示例,比如回溯的思考痕跡,它在強化學習中的表現(xiàn)突飛猛進,甚至追平了Qwen。更令人驚訝的是,即便這些示例的答案是錯的,只要推理模式正確,效果依然顯著。這說明,關鍵不在于答案對錯,而在于模型是否掌握了這些認知習慣。
研究并未止步于此。研究者們還嘗試從OpenWebMath數(shù)據(jù)中篩選出強調推理行為的內容,繼續(xù)預訓練Llama。結果令人振奮:Llama的進步軌跡逐漸與Qwen看齊。這表明,一個模型的初始推理能力,決定了它能否有效利用額外的計算資源。Qwen這樣的“天賦選手”自然占優(yōu),而Llama則需要后天培養(yǎng)。
回想人類解題的場景,我們往往會反復驗證,分解任務,甚至從目標倒推回去。語言模型也是如此。在《倒計時》游戲中,回溯和驗證成了制勝法寶。研究者用這個游戲設計了初始實驗,發(fā)現(xiàn)Llama只要稍加引導,就能展現(xiàn)潛力。后來,他們用更豐富的數(shù)據(jù)集進一步訓練,證明這種提升并非偶然,而是可以通過精心挑選訓練素材實現(xiàn)的。
這些發(fā)現(xiàn)揭示了一個簡單卻深刻的道理:模型的自我提升,取決于它最初的推理習慣。Qwen之所以能脫穎而出,是因為它自帶驗證和回溯的“天賦”;而Llama通過訓練,也能迎頭趕上。更有趣的是,即便用錯誤答案引導,只要保留正確的推理模式,效果依然不減。這讓人不禁思考:在編程、游戲或寫作等其他領域,又需要哪些特定的認知行為呢?
人類的智慧積累了無數(shù)解題的妙招,而AI正在這條路上越走越遠。未來,它或許不僅能學會我們的習慣,還能創(chuàng)造出全新的推理方式。就像Qwen和Llama的故事告訴我們的,進步的關鍵不在于起點多高,而在于能否找到適合自己的成長路徑。
本文譯自 arxiv.org,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )