近日,全球著名開源平臺(tái)HuggingFace(笑臉)聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem在社交平臺(tái)宣布,阿里最新開源的Qwen2-72B指令微調(diào)版本衛(wèi)冕冠軍,繼續(xù)位列全球開源模型排行榜第一名。
在OpenAI拒絕中國開發(fā)者的當(dāng)口,這個(gè)“第一名”來得非常及時(shí)。
第一,中國開發(fā)者從OpenAI集體“回家”,國內(nèi)大模型供應(yīng)商紛紛推出遷移方案迎接。雷科技在《OpenAI拒絕中國開發(fā)者,“百模大戰(zhàn)”全面進(jìn)入下半場》一文已盤點(diǎn),超過10家大模型供應(yīng)商推出各種服務(wù)來“搶客”。
不過,在很多人固有印象中,中國大模型供應(yīng)商只是“平替版本”,是實(shí)在沒得用了,勉強(qiáng)能用的。甚至還有人說GPT是高鐵,國產(chǎn)大模型就是拖拉機(jī),雖然都能跑,但其實(shí)不一樣。
其實(shí)這是偏見,在很多領(lǐng)域,國內(nèi)大模型都已經(jīng)具有世界級競爭力了,特別是開源大模型。
什么叫具備世界級競爭力的大模型?這里分兩種:
一種是每次發(fā)布會(huì)都號稱全面碾壓GPT4的玩家,參數(shù)沒輸過,評測沒贏過,這是自賣自夸,自吹自擂。
還有一類,是在權(quán)威榜單上拿到名次的。HuggingFace是全球最權(quán)威的開源模型榜單,它給阿里云的Qwen2“正名”,或者說給了“權(quán)威認(rèn)證”。
第二,為什么HuggingFace能做全球最權(quán)威的開源模型榜單?
為什么HuggingFace能做全球最權(quán)威的開源模型榜單?這個(gè)定義不是隨便給的,而是跟這個(gè)平臺(tái)的背景有關(guān)系。HuggingFace不是大模型供應(yīng)商,而是全球最受歡迎的大模型和數(shù)據(jù)集開源社區(qū),開發(fā)者可以在這里獲取大模型開源代碼、獲取數(shù)據(jù)集進(jìn)行訓(xùn)練。可以說,做AI開發(fā),基本繞不過HuggingFace,因此它也被稱為大模型/機(jī)器學(xué)習(xí)的GitHub。
也就是說,HuggingFace更像是一個(gè)大模型的應(yīng)用、分發(fā)、發(fā)布平臺(tái)。包括微軟、Facebook、特斯拉等等巨頭的大模型,都會(huì)在HuggingFace主發(fā)布。比如在前段時(shí)間的微軟Build大會(huì),納德拉就宣布微軟在 Huggingface 上發(fā)布了 Phi-3-medium,Phi-3-small,以及 Phi-3-vision 系列模型。其中 Phi-3-medium-128k-instruct 是目前消費(fèi)級硬件上可用的最好模型。
有海量開源大模型以及數(shù)據(jù)集,有海量AI開發(fā)者以及使用數(shù)據(jù),因此HuggingFace可以做出行業(yè)最權(quán)威的開源模型榜單。這跟媒體或者專門的第三方評測機(jī)構(gòu)做的榜單有本質(zhì)不同。很多評測榜單源自這樣的“第三方”,姑且不說權(quán)威性、客觀性、中立性,恐怕專業(yè)性也會(huì)大打折扣。
好了,說清楚HuggingFace榜單的權(quán)威性后,我們再看阿里云的Qwen2有多強(qiáng)?
第三,為什么HuggingFace 6月兩次發(fā)榜?榜單V2意義在哪里?
其實(shí)今年6月7日,HuggingFace也發(fā)過一次榜單,當(dāng)時(shí)第一也是Qwen2。為什么要更新榜單到V2呢?HuggingFace說是,“榜單內(nèi)的測試集,更難、更好、更快、更強(qiáng)(Harder, better, faster, stronger)?!币虼?,對模型的考察也更有說服力。
其實(shí)對大模型基于測試數(shù)據(jù)集進(jìn)行評測的過程,形象點(diǎn)說就是“做題考分”,跟我們考試一樣。但問題是,這個(gè)題目是開放的。因此就出現(xiàn)了一種情況:很多大模型會(huì)“刷題”,就是讓大模型先訓(xùn)練幾波,進(jìn)而拿到好的評測分?jǐn)?shù),有的公司會(huì)雇傭人類“數(shù)據(jù)標(biāo)注員”來做題將答案給到大模型,還有的公司會(huì)讓GPT-4來答題再將答案用來訓(xùn)練自家大模型,大模型做題就可以“滿分”了。許多大模型剛推出就可以拿滿分“排第一”碾壓GPT-4,玄妙正在于這里。
也就是說,開源評測數(shù)據(jù)集相當(dāng)于高考搞“開卷考試”一樣,除非是特別開放的問題(如職場面試),否則被試者完全可以提前針對性地刷題背答案,最終得分自然完全無法反映出其真實(shí)水平。
HuggingFace也在技術(shù)博文指出,“過去一年,Open LLM Leaderboard的基準(zhǔn)指標(biāo)已經(jīng)被過度使用,出現(xiàn)幾個(gè)問題:題目對模型來說變得太簡單;一些新近出現(xiàn)的模型出現(xiàn)數(shù)據(jù)污染跡象;有些測評基準(zhǔn)存在錯(cuò)誤。因此,平臺(tái)提出了更有挑戰(zhàn)性的V2榜單,基于未受污染、高質(zhì)量數(shù)據(jù)集的新基準(zhǔn),運(yùn)用可靠的度量標(biāo)準(zhǔn)。”
好了,現(xiàn)在測試數(shù)據(jù)集(題目)大更新,最新的試卷、最新的考試,阿里云的Qwen2還是第一。也正是因?yàn)榇?,Huggingface聯(lián)合創(chuàng)始人兼首席執(zhí)行官Clem才會(huì)公開發(fā)文稱“Qwen2-72B是王者,中國在全球開源大模型領(lǐng)域處于領(lǐng)導(dǎo)地位?!比绻麤]有嚴(yán)格、充分的測試,他不可能公開進(jìn)行這樣的“點(diǎn)贊”。
期待以后HuggingFace的榜單可以升級更快,測試數(shù)據(jù)集可以更新更快,阿里云的Qwen2以及國產(chǎn)大模型可以繼續(xù)擁有更好的名次。
OpenAI不支持中國開發(fā)者,開源大模型廠商必須要快速精進(jìn),勇敢補(bǔ)位。現(xiàn)在,是國產(chǎn)大模型、國產(chǎn)開源大模型生態(tài)被倒逼加速進(jìn)步的絕佳時(shí)機(jī),也是證明自己的好時(shí)機(jī)。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美國無人機(jī)禁令升級?當(dāng)?shù)乜茖W(xué)家率先“喊疼”:我們離不開大疆
- iQOO Neo10 Pro:性能特長之外,亦有全能實(shí)力
- 自動(dòng)駕駛第一股的轉(zhuǎn)型迷途:圖森未來賭上了AIGC
- 明星熱劇、品牌種草、平臺(tái)資源,京東讓芬騰雙11的熱度“沸騰”了
- 一加 Ace 5 Pro明牌:游戲手機(jī)看它就夠了!
- 游戲體驗(yàn)天花板,一加 Ace 5 系列售價(jià) 2299 元起
- 16個(gè)月沒工資不敢離職,這些打工人“自費(fèi)上班”
- 怎樣利用微信小店“送禮”功能賺錢?
- 鴻蒙智行問界M9,中國豪華車的龍門一躍
- 科技云報(bào)道:人工智能時(shí)代“三大件”:生成式AI、數(shù)據(jù)、云服務(wù)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。