阿里發(fā)布國(guó)內(nèi)首個(gè)“混合推理模型”Qwen3:顛覆式創(chuàng)新,支持兩種思考模式,預(yù)訓(xùn)練規(guī)模創(chuàng)紀(jì)錄!

阿里發(fā)布國(guó)內(nèi)首個(gè)“混合推理模型”Qwen3:顛覆式創(chuàng)新,支持兩種思考模式,預(yù)訓(xùn)練規(guī)模創(chuàng)紀(jì)錄!

近日,阿里巴巴發(fā)布了新一代通義千問(wèn) Qwen3 模型,一舉登頂全球最強(qiáng)開(kāi)源模型,這一消息無(wú)疑在人工智能領(lǐng)域引起了巨大的震動(dòng)。Qwen3 作為國(guó)內(nèi)首個(gè)“混合推理模型”,將“快思考”與“慢思考”集成進(jìn)同一個(gè)模型,大大節(jié)省算力消耗,無(wú)疑是一次顛覆式的創(chuàng)新。

首先,我們來(lái)了解一下Qwen3模型的特點(diǎn)。Qwen3模型支持兩種思考模式,這是其最大的亮點(diǎn)之一。思考模式是指模型在處理問(wèn)題時(shí),通過(guò)逐步推理,經(jīng)過(guò)深思熟慮后給出最終答案的方式。這種方法非常適合需要深入思考的復(fù)雜問(wèn)題。而另一種模式則是非思考模式,這種方式下,模型能夠提供快速、近乎即時(shí)的響應(yīng),適用于那些對(duì)速度要求高于深度的簡(jiǎn)單問(wèn)題。這種靈活性使用戶能夠根據(jù)具體任務(wù)控制模型進(jìn)行“思考”的程度。

Qwen3模型的預(yù)訓(xùn)練規(guī)模創(chuàng)下了紀(jì)錄。相比于前一代模型Qwen2.5,Qwen3的數(shù)據(jù)集有了顯著擴(kuò)展,使用的數(shù)據(jù)量幾乎是其兩倍。這一大規(guī)模的訓(xùn)練數(shù)據(jù)為模型提供了更豐富的知識(shí)儲(chǔ)備,使模型在處理各種任務(wù)時(shí)都能夠表現(xiàn)出色。

另外,Qwen3模型還采用了多種新技術(shù),如多語(yǔ)言支持、Dense基礎(chǔ)模型和MoE基礎(chǔ)模型等,這些技術(shù)大大提高了模型的性能和泛化能力。尤其是Qwen3-30B-A3B這個(gè)小型的MoE模型,其激活參數(shù)數(shù)量是QwQ-32B的10%,表現(xiàn)更勝一籌,甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

阿里云在訓(xùn)練Qwen3模型時(shí)實(shí)施了一個(gè)四階段的訓(xùn)練流程,主要包括長(zhǎng)思維鏈冷啟動(dòng)、長(zhǎng)思維鏈強(qiáng)化學(xué)習(xí)、思維模式融合和通用強(qiáng)化學(xué)習(xí)等步驟。這些步驟確保了模型在各種任務(wù)中都能夠表現(xiàn)出色,無(wú)論是復(fù)雜的數(shù)學(xué)問(wèn)題、代碼推理,還是簡(jiǎn)單的指令遵循,Qwen3都能夠應(yīng)對(duì)自如。

此外,為了開(kāi)發(fā)能夠同時(shí)具備思考推理和快速響應(yīng)能力的混合模型,阿里云還提供了一種軟切換機(jī)制,允許用戶在對(duì)話中動(dòng)態(tài)控制模型的行為。通過(guò)添加指令如“請(qǐng)思考一下”或“無(wú)需思考”來(lái)逐輪切換模型的思考模式,用戶可以輕松地調(diào)整模型的推理和快速響應(yīng)能力,以滿足不同任務(wù)的需求。

總的來(lái)說(shuō),阿里發(fā)布的Qwen3模型無(wú)疑是一次顛覆式的創(chuàng)新。它將“快思考”與“慢思考”集于一體,大大節(jié)省了算力消耗;大規(guī)模的訓(xùn)練數(shù)據(jù)為模型提供了豐富的知識(shí)儲(chǔ)備;多種新技術(shù)的應(yīng)用提高了模型的性能和泛化能力;四階段的訓(xùn)練流程則確保了模型在各種任務(wù)中都能夠表現(xiàn)出色。此外,軟切換機(jī)制和多語(yǔ)言支持等功能為用戶提供了更多的靈活性和便利性。

面對(duì)未來(lái),我們有理由相信,Qwen3模型的推出將為人工智能領(lǐng)域帶來(lái)更多的可能性,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。我們期待著Qwen3在未來(lái)能夠展現(xiàn)出更加出色的表現(xiàn),為人類社會(huì)的發(fā)展做出更大的貢獻(xiàn)。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )

贊助商
2025-04-29
阿里發(fā)布國(guó)內(nèi)首個(gè)“混合推理模型”Qwen3:顛覆式創(chuàng)新,支持兩種思考模式,預(yù)訓(xùn)練規(guī)模創(chuàng)紀(jì)錄!
阿里發(fā)布國(guó)內(nèi)首個(gè)“混合推理模型”Qwen3:顛覆式創(chuàng)新,支持兩種思考模式,預(yù)訓(xùn)練規(guī)模創(chuàng)紀(jì)錄! 近日,阿里巴巴發(fā)布了新一代通義千問(wèn) Qwen3...

長(zhǎng)按掃碼 閱讀全文