2020中文字字幕在线不卡,综合久久

小米開(kāi)源"小米MiMo"大模型：挑戰(zhàn)OpenAI o1-mini，7B參數(shù)碾壓，推理能力矚目

人閱讀

2025-04-30 10:45:24

作者：極客AI
相關(guān)關(guān)鍵詞
- [db:關(guān)鍵字]

小米開(kāi)源"小米MiMo"大模型：挑戰(zhàn)OpenAI o1-mini，7B參數(shù)碾壓，推理能力矚目

隨著人工智能的快速發(fā)展，大模型已成為業(yè)界研究的熱點(diǎn)。小米公司也不甘示弱，其大模型團(tuán)隊(duì)通過(guò)小米MiMo公眾號(hào)宣布，他們開(kāi)源了首個(gè)“為推理而生”的大模型MiMo。這款模型在數(shù)學(xué)推理和代碼競(jìng)賽公開(kāi)測(cè)評(píng)集上展現(xiàn)出了強(qiáng)大的實(shí)力，超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規(guī)模的開(kāi)源推理模型QwQ-32B-Preview。

MiMo是小米大模型Core團(tuán)隊(duì)的一次初步嘗試，他們通過(guò)聯(lián)動(dòng)預(yù)訓(xùn)練到后訓(xùn)練的全面提升，使得MiMo的推理能力得到了顯著提升。在數(shù)據(jù)和算法等多層面的創(chuàng)新驅(qū)動(dòng)下，MiMo的推理能力得到了質(zhì)的飛躍。

預(yù)訓(xùn)練階段的核心是讓模型見(jiàn)過(guò)更多推理模式，而數(shù)據(jù)層面則著重挖掘富推理語(yǔ)料，并合成約200B tokens的推理數(shù)據(jù)。經(jīng)過(guò)三階段的訓(xùn)練，逐步提升訓(xùn)練難度，總訓(xùn)練達(dá)到25T tokens。這些工作為MiMo的后訓(xùn)練階段打下了堅(jiān)實(shí)的基礎(chǔ)。

后訓(xùn)練階段的核心是高效穩(wěn)定的強(qiáng)化學(xué)習(xí)算法和框架。為了解決困難算法問(wèn)題中的獎(jiǎng)勵(lì)稀疏問(wèn)題，團(tuán)隊(duì)提出了Test Difficulty Driven Reward策略。此外，他們還引入了Easy Data Re-Sampling策略，以穩(wěn)定RL訓(xùn)練。在框架方面，他們?cè)O(shè)計(jì)了Seamless Rollout系統(tǒng)，使得RL訓(xùn)練加速2.29倍，驗(yàn)證加速1.96倍。這些創(chuàng)新性的方法大大提升了MiMo模型的性能。

開(kāi)源地址和相關(guān)技術(shù)報(bào)告的鏈接也已附在文章中。小米MiMo大模型的開(kāi)源行為展現(xiàn)了小米公司對(duì)技術(shù)共享和社區(qū)合作的重視，這也是小米在人工智能領(lǐng)域積極布局的一部分。

MiMo的推理能力提升不僅體現(xiàn)在參數(shù)規(guī)模上，更體現(xiàn)在其在實(shí)際應(yīng)用中的表現(xiàn)。在數(shù)學(xué)推理和代碼競(jìng)賽公開(kāi)測(cè)評(píng)集上，MiMo僅用7B的參數(shù)規(guī)模，就超越了OpenAI的閉源推理模型o1-mini和阿里Qwen更大規(guī)模的開(kāi)源推理模型QwQ-32B-Preview。這一成績(jī)無(wú)疑證明了MiMo的強(qiáng)大實(shí)力和廣闊的應(yīng)用前景。

小米MiMo大模型的出現(xiàn)，無(wú)疑給業(yè)界帶來(lái)了新的思考和啟示。它不僅展示了小米在人工智能領(lǐng)域的實(shí)力和決心，也為學(xué)術(shù)界和工業(yè)界提供了寶貴的經(jīng)驗(yàn)和參考。隨著小米MiMo大模型的進(jìn)一步發(fā)展，我們期待它在更多領(lǐng)域展現(xiàn)出卓越的性能和價(jià)值。

總的來(lái)說(shuō)，小米MiMo大模型以挑戰(zhàn)OpenAI o1-mini為目標(biāo)，憑借7B參數(shù)的規(guī)模碾壓對(duì)手，其推理能力令人矚目。小米MiMo的開(kāi)源行為和其在技術(shù)上的創(chuàng)新性舉措，都值得我們肯定和贊賞。我們期待小米MiMo大模型在未來(lái)能夠取得更多的突破和成就，為人工智能的發(fā)展做出更大的貢獻(xiàn)。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）