“從5月6日發(fā)布到今天,剛好是我們認知大模型100天的‘百日會戰(zhàn)’。”在8月15日的科大訊飛星火認知大模型V2.0發(fā)布會上,訊飛董事長劉慶峰說道。而在星火V2.0發(fā)布后,全世界的目光再次聚焦到新一輪的大模型競技潮來。
近日,《麻省理工科技評論》中國對訊飛星火、百度文心一言、商湯商量和阿里通義千問四款主流中國大模型進行了深度評測,結果顯示訊飛星火以總分第一的成績榮登榜首。
△四款大模型一級分類測試結果(部分)
《麻省理工科技評論》是享譽世界的麻省理工學院全資擁有的媒體平臺,在業(yè)界擁有很強的權威性,也被視為學術界的泰山北斗。此次它采用百分制計量,可參照60%得分率作為“及格線”,除兩款參測大模型剛過“及格線”外,百度文心一言獲得75.2%得分率,而訊飛星火斬獲81.5%最高分,四款大模型的平均得分率為72.6%??梢?,訊飛星火一己之力“拉高”的中國大模型的平均水平。
根據(jù)《麻省理工科技評論》設計的600道題目,本次橫評重點考察大模型語言、數(shù)學、理科、文科、邏輯、編程、綜合知識和安全性共計8大類能力(一級分類),并涵蓋126個二級分類和290個三級標簽。通過擬人考試般的單選、多選、填空、簡答四種題型,旨在評出“最聰明”的中國大模型。
作為中文語言大模型,《麻省理工科技評論》將語文專項測試放在了首測,題目是生成一份不同高校畢業(yè)大學生首份工作內容和薪資的調研問卷。結果商湯商量和通義千問都采取了“堆砌式”回答,只有訊飛星火與文心一言給出了思路清晰,條理順暢的問卷結構,雙方僅以0.63%得分率不分伯仲。
在隨后的數(shù)學與邏輯思維等測試項中,訊飛星火開啟了“狂飆模式”?!堵槭±砉た萍荚u論》先采用了一道“求解不等式”的數(shù)學題,唯有訊飛給出了解題邏輯和正確答案,并以77.54%得分率遠高于56%的平均值,大幅高出21.75%。而在邏輯思維測試中,訊飛完美地解答了“池塘與水壺”的彎彎繞題目,展現(xiàn)了其在空間方位、演繹推理、邏輯謬誤檢測等方面的優(yōu)勢,并以81.2%得分率高出72.6%的平均值。
當測試來到了代碼編程能力階段,真正的好戲才剛剛開始。在8月15日,訊飛才對星火V2.0的代碼能力進行了突破性提升,只因代碼能力是支撐認知大模型“智慧涌現(xiàn)”的關鍵維度,代碼能力與“聰明度”直接相關?!堵槭±砉た萍荚u論》出具的題型是——用Python生成以下代碼:def assertBbs(num : int, pow:int):"""實現(xiàn)一個函數(shù),快速冪計算"""。這對于不懂計算機編程的人來說,無異于有字天書,但對于四款大模型來說,它們的答案卻各有不同。
直接看結果吧,訊飛星火不僅生成了正確代碼,還給出了“這個函數(shù)需要實現(xiàn)快速冪計算,即計算x的y次方”的詳細解析。最終訊飛星火以80%得分率明顯高于71%的平均值,《麻省理工科技評論》用“表現(xiàn)頗為亮眼”來形容訊飛的代碼能力。此外星火在綜合知識測試中也以80.61%的得分率遠高于71.6%平均率,這并不令人意外,因為綜合知識測試涵蓋了以上多項能力,在單項中只要獲得領先,在綜合測試中也不會有太大懸念。
△四款大模型綜合得分率
最終《麻省理工科技評論》一錘定音,訊飛星火以81.5分的成績在本次橫評拔得頭籌,成為“最聰明”的中國大模型,在綜合實力上位列第一梯隊。2023年,隨著中國人工智能研究在世界版圖中占據(jù)愈發(fā)重要的地位,中國大模型的集體繁榮昭示著AI大航海時代的來臨,以訊飛星火為代表的中國大模型佼佼者,正深入產業(yè)鏈上下游共創(chuàng)共建,已成為大模型時代照亮前路的“燈塔”。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )