在技術(shù)迸發(fā)、智慧涌現(xiàn)的AI時代,中國企業(yè)從不會缺席!如果說ChatGPT是生成式AI爆發(fā)的“導(dǎo)火索”,那么接連而來的國產(chǎn)大模型就像裝滿火藥的戰(zhàn)船,在奮勇沖鋒中炸開了一道又一道關(guān)口,整體縮短甚至局部超越了與ChatGPT的航距。目前為止,業(yè)界比較認可的國產(chǎn)大模型分別有訊飛星火、文心一言、通義千問和360智腦等,而令大家好奇的是,這些國產(chǎn)大模型之間孰強孰弱?近期,老牌知名科技媒體IT之家重磅推出了四款主流大模型的橫向測評,其中諸多測試結(jié)果令人意想不到。
此次IT之家對國產(chǎn)大模型進行了10個維度的評測,每個維度單項得分10分,累計總分100分。這樣的打分機制非常公平,10個維度也依次體現(xiàn)了大模型的場景應(yīng)用。根據(jù)測試結(jié)果,訊飛星火以總分93分的成績一騎絕塵,并且在“終端支持”、“語言理解能力”、“代碼編寫能力”、“多輪對話能力”“AI助手功能”等單項獲滿分。百度的文心一言則以84分的總成績緊隨其后,360智腦和通義千問總分與訊飛星火有較大的差距。
具體到測試單項,在終端支持能力上,訊飛星火是目前唯一“五端全覆蓋”的國產(chǎn)大模型,五端分別指安卓、iOS、小程序、PC和H5,幾乎涵蓋了移動端和桌面端的所有設(shè)備。用戶既可以在上班的時候,將訊飛星火當(dāng)成AI輔助工具,又可以在移動辦公或出差的時候,隨時打開訊飛星火尋求“支援”,隨時隨地獲得大模型能力的加持。
在語言理解能力測試上,這向來就是訊飛星火的“主戰(zhàn)場”,自AI語音起家,訊飛背靠認知智能全國重點實驗室與五大聲學(xué)實驗室,在自然語言理解技術(shù)上擁有深厚沉淀。在IT之家的測試中,多次采用“一語雙關(guān)”或“一語多意”的詞匯來檢測理解能力,結(jié)果訊飛星火都深度理解了語言背后的深層意圖,并給出了很有邏輯性且精煉的回答。
在多輪對話能力測試中,IT之家采用唐詩宋詞來“考”大模型,結(jié)果360智腦把白居易描寫草原的詩強行說成描寫月亮,犯了“張冠李戴”的錯誤。而訊飛星火不僅能識別描寫月亮的詩詞,還自行創(chuàng)作了兩首描寫月亮的詩,創(chuàng)作水平真不賴。而在代碼編寫能力上,訊飛星火更展現(xiàn)了極高的“天賦”,生成的代碼不僅規(guī)范簡潔,還直接通過了程序運行工具的檢測,可以完美執(zhí)行。訊飛星火也成為了IT之家在測試中四款大模型中唯一一款生成代碼“可用”的大模型,表現(xiàn)突出。
據(jù)了解,訊飛星火自5月首發(fā)以來,歷經(jīng)6月9日的V1.5迭代,又將要在8月15日迎來新一輪迭代,其官方宣布8月15日將升級代碼能力、開放多模態(tài)能力,并在知識問答能力等方面持續(xù)提升。即便目前訊飛星火在代碼能力上已經(jīng)非常出色,但依然有巨大的向上空間,未來或許人人都可以借助AI之力化身“碼農(nóng)”,這不禁讓人們充滿了期待。
通過IT之家對四大國產(chǎn)AI模型的橫評,幾乎可以肯定地說,訊飛星火是目前最好用、最聰明的國產(chǎn)大模型之一,并且未來還有巨大的提升空間,最終要跟ChatGPT“掰一掰”手腕。
如今,國內(nèi)大模型發(fā)展局面已經(jīng)逐漸明朗,國產(chǎn)大模型梯隊也漸漸形成,很高興看到企業(yè)在大模型賽道呈現(xiàn)你追我趕的態(tài)勢,因為這也成為了實現(xiàn)中國“智慧涌現(xiàn)”的強大引擎。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )