字節(jié)跳動 Seed-Thinking-v1.5 技術(shù)揭秘:顛覆式創(chuàng)新重塑未來
在科技領(lǐng)域,創(chuàng)新始終是推動行業(yè)發(fā)展的核心動力。近日,字節(jié)跳動公開了最新思考模型 Seed-Thinking-v1.5 的技術(shù)細(xì)節(jié),這一模型將于4月17日通過火山引擎開放接口供用戶體驗(yàn)。作為一款在數(shù)學(xué)、編程、科學(xué)推理等專業(yè)領(lǐng)域及創(chuàng)意寫作等通用任務(wù)中表現(xiàn)突出的模型,Seed-Thinking-v1.5 的公開無疑將引發(fā)業(yè)界和公眾的廣泛關(guān)注。
首先,從專業(yè)領(lǐng)域來看,Seed-Thinking-v1.5 在數(shù)學(xué)推理、編程競賽和科學(xué)推理等方面均表現(xiàn)出色。在 AIME 2024 數(shù)學(xué)競賽中,模型得分高達(dá) 86.7 分,與 OpenAI 的 o3-mini-high 持平。而在編程競賽方面,Codeforces 的 pass@8 達(dá)到 55.0%,接近 Gemini 2.5 Pro。至于科學(xué)推理,GPQA 得分達(dá)到了 77.3%,接近 o3-mini-high,這表明該模型在專業(yè)領(lǐng)域的表現(xiàn)已經(jīng)達(dá)到了業(yè)界第一梯隊(duì)的水平。
而在通用任務(wù)方面,Seed-Thinking-v1.5 的表現(xiàn)更是令人矚目。據(jù)公開數(shù)據(jù),該模型在通用任務(wù)中的表現(xiàn)優(yōu)于 DeepSeek R1 8%,覆蓋了多場景的需求。這一突破性的表現(xiàn)不僅展示了模型在專業(yè)領(lǐng)域的強(qiáng)大能力,同時也揭示了其在通用任務(wù)中的廣泛應(yīng)用前景。
值得一提的是,Seed-Thinking-v1.5 還具備顯著的推理成本優(yōu)勢。相比 DeepSeek R1,其單位推理成本降低了 50%,實(shí)現(xiàn)了性能與效率的完美平衡。這一創(chuàng)新性的技術(shù)優(yōu)化,無疑將為行業(yè)提供了一種全新的解決思路,為未來的技術(shù)發(fā)展開辟了新的道路。
為了應(yīng)對推理與生成任務(wù)的不同需求,團(tuán)隊(duì)對數(shù)據(jù)處理策略進(jìn)行了優(yōu)化。對于可驗(yàn)證數(shù)據(jù)(如數(shù)學(xué)、代碼題),通過百萬級數(shù)據(jù)三重清洗、人工篩選、模型過濾以及多模型驗(yàn)證等機(jī)制,確保了模型輸出真實(shí)、準(zhǔn)確的推理過程。而對于非可驗(yàn)證數(shù)據(jù)(如創(chuàng)意寫作),則基于豆包 1.5 Pro 訓(xùn)練集,剔除低價值樣本,采用兩兩對比獎勵法,優(yōu)化了生成質(zhì)量。
為了更好地評估模型的性能,團(tuán)隊(duì)構(gòu)建了超難數(shù)學(xué)數(shù)據(jù)集 BeyondAIME(100 道無答案題干題目)。這一全新評測基準(zhǔn)解決了現(xiàn)有測試區(qū)分度不足的問題,為模型性能的準(zhǔn)確評估提供了有力支持。
在獎勵模型方面,Seed-Thinking-v1.5 采用了雙軌獎勵機(jī)制,兼顧了“對錯分明”與“見仁見智”的任務(wù)。通過開發(fā)兩代驗(yàn)證器以及引入 pairwise 對比訓(xùn)練,團(tuán)隊(duì)捕捉了人類對創(chuàng)意、情感等的隱性偏好,避免了“眾口難調(diào)”。這一創(chuàng)新性的設(shè)計(jì),使得模型能夠在不同任務(wù)中靈活調(diào)整,適應(yīng)各種場景需求。
為了實(shí)現(xiàn) Seed-Thinking-v1.5 的全鏈路訓(xùn)練,團(tuán)隊(duì)采用了“監(jiān)督精調(diào) + 強(qiáng)化學(xué)習(xí)”的雙階段優(yōu)化策略?;诟哔|(zhì)量實(shí)例的數(shù)據(jù)集,結(jié)合人工與模型協(xié)同篩選,構(gòu)建了長思考鏈數(shù)據(jù)集,確保了模型“像人類一樣思考”。而在強(qiáng)化學(xué)習(xí)方面,團(tuán)隊(duì)通過三重?cái)?shù)據(jù)引擎、算法創(chuàng)新以及在線數(shù)據(jù)適配技術(shù),解決了訓(xùn)練不穩(wěn)定、長鏈推理斷層等問題,動態(tài)調(diào)整數(shù)據(jù)分布以保持最佳訓(xùn)練狀態(tài)。
最后,值得一提的是,Seed-Thinking-v1.5 的訓(xùn)練框架支撐了 20B MoE(量化)的底層架構(gòu)。通過優(yōu)化 HybridFlow 編程模型、流式推理系統(tǒng)以及三層并行架構(gòu),團(tuán)隊(duì)實(shí)現(xiàn)了對模型的高效訓(xùn)練和推理。這些創(chuàng)新性的技術(shù)手段不僅提升了模型的性能,也為未來的技術(shù)研究提供了新的思路和方向。
總的來說,字節(jié)跳動 Seed-Thinking-v1.5 技術(shù)的公開無疑是一項(xiàng)具有顛覆性的創(chuàng)新。其強(qiáng)大的專業(yè)領(lǐng)域和通用任務(wù)表現(xiàn)、顯著的推理成本優(yōu)勢以及創(chuàng)新的訓(xùn)練策略和框架設(shè)計(jì),都為未來的技術(shù)發(fā)展提供了新的可能性和機(jī)遇。未來,我們期待 Seed-Thinking-v1.5 在更多領(lǐng)域的應(yīng)用和探索,為人類社會的發(fā)展帶來更多的驚喜和改變。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )