7月25日消息,中文通用大模型綜合性基準SuperClue發(fā)布了最新中文大語言模型排行榜。榜單結(jié)果顯示,百度文心一言總分超GPT-3.5-Turbo,領(lǐng)跑國內(nèi)大模型。
SuperCLUE-Opt評測基準是SuperCLUE綜合性三大基準之一,每期有3700+道客觀題(選擇題),由基礎(chǔ)能力(10個子任務(wù))、中文特性能力(10個子任務(wù))、學(xué)術(shù)專業(yè)能力(50+子任務(wù))組成,用于考察大模型在70余個任務(wù)上的綜合表現(xiàn)。
此次SuperCLUE從基礎(chǔ)能力、專業(yè)能力、中文特性能力三個維度70余項子能力,選取國內(nèi)外20個有代表性的可用大模型進行測評,兼具綜合能力考量與中文特定任務(wù)理解積累的考察,并通過自動化測評以相對客觀形式進行效果測評。在總分榜中,文心一言緊隨GPT-4,總分超GPT-3.5及國內(nèi)其他大模型,模型效果最佳。
從榜單結(jié)果可以看出,雖然國外GPT-4效果較領(lǐng)先,但國內(nèi)GPT模型也有不俗表現(xiàn)。在中文領(lǐng)域,國內(nèi)研發(fā)的大模型在部分維度表現(xiàn)突出,整體在逐步縮小與國際先進模型的差距。整體來看,國內(nèi)大模型中百度文心一言表現(xiàn)最優(yōu)。文心一言v2.2.0版背后搭載的是文心大模型3.5,文心大模型自2019年3月發(fā)布1.0版后,現(xiàn)已升級到3.5版。新版本模型效果提升50%,訓(xùn)練速度提升2倍,推理速度提升30倍。
據(jù)了解,這次評榜的SuperClue是一個由國內(nèi)發(fā)起的大模型榜單,是中文領(lǐng)域權(quán)威測評社區(qū)。相較于國外的UC伯克利LLM排行榜和斯坦福排行榜AlpacaEval兩個流行榜單,多了一些國內(nèi)大模型,更加適合國內(nèi)用戶來橫向比較。作為針對中文可用的通用大模型測評標準,SuperCLUE使用多個維度能力對一系列國內(nèi)外代表性模型進行測試,因其為封閉式問題,對大模型來說是“閉卷考試”,測評更難。
評測基準中,基礎(chǔ)能力包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色扮演、代碼、生成與創(chuàng)作等10項能力;專業(yè)能力包括了中學(xué)、大學(xué)與專業(yè)考試,涵蓋了從數(shù)學(xué)、物理、地理到社會科學(xué)等50多項能力;中文特性能力包括了中文成語、詩歌、文學(xué)、字形等10項多種能力。
值得一提的是,全球領(lǐng)先的IT市場研究和咨詢公司IDC最新發(fā)布《AI大模型技術(shù)能力評估報告,2023》顯示,百度文心大模型3.5拿下12項指標的7個滿分,綜合評分第一,算法模型第一,行業(yè)覆蓋第一,其中也是算法模型維度的唯一一個滿分 。
另據(jù)近期多個公開測評顯示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4的表現(xiàn);綜合能力在評測中超過ChatGPT,遙遙領(lǐng)先于其他大模型,穩(wěn)居國內(nèi)第一。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 阿里獨家合作,亞馬遜“親測”代言,雷鳥創(chuàng)新打造 AI 眼鏡新標桿,媲美 Meta !
- CES 2025 搶先揭秘:XR領(lǐng)域新品爆料,AI眼鏡成焦點
- 2024 XR年度大事件TOP 10
- 先誅蘋果,再滅Meta?三星、谷歌、高通組“失敗者聯(lián)盟”,能否贏得XR領(lǐng)域終局之戰(zhàn)?
- Meta高端AR眼鏡Orion全揭秘:五年內(nèi)上市,或無緣國內(nèi)市場,大概率撞車蘋果
- 庫克進軍游戲圈?蘋果Vision Pro與索尼達成合作 后者發(fā)行游戲剛拿下TGA年度最佳
- 2024年VR/AR行業(yè)年終盤點之融資篇
- 三星首款A(yù)R眼鏡全揭秘:目前我們所了解的一切
- 萬花筒 | 2025年AI/AR眼鏡這些看點值得期待:Android XR商用、羅永浩入局
- 萬花筒 | 這七大特性,有望出現(xiàn)在Meta明年發(fā)布的頭顯產(chǎn)品上
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。