零一萬物發(fā)布千億參數(shù)模型Yi-Large,多數(shù)評測指標超越 GPT4、Claude3、Gemini 1.5

5月13日消息,繼上周推出2C 產(chǎn)品一站式 AI 工作站“萬知”后,今天,在零一萬物成立一周年之際,零一萬物 CEO 李開復(fù)博士攜帶千億參數(shù) Yi-Large 閉源模型正式亮相,除此之外,零一萬物將早先發(fā)布的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本升級為 Yi-1.5 系列。

李開復(fù)表示,“萬知”正是零一萬物基于閉源模型 Yi-Large 所做出的 “模應(yīng)一體” 2C 生產(chǎn)力應(yīng)用。(萬知更多內(nèi)容,可關(guān)注TechWeb此前報道:實測AI特助「萬知」)

李開復(fù)介紹:“目前零一萬物以優(yōu)異的閉源模型能力,正在積極探索與世界 500 強企業(yè)的大型戰(zhàn)略合作?!?/p>

同時,零一萬物賦能 2B 生態(tài)的 “API 開放平臺” 今日全球上線。首批面向國內(nèi)市場一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口。

此外,李開復(fù)還透露,零一萬物已啟動下一代 Yi-XLarge MoE 模型訓(xùn)練,將沖擊 GPT-5 的性能與創(chuàng)新性。

Yi-Large 中文能力位列國產(chǎn)大模型之首

零一萬物正式發(fā)布千億參數(shù)規(guī)模的 Yi-Large,在第三方權(quán)威評測中,零一萬物 Yi 模型在全球頭部大模型的中英文雙語 PK 上表現(xiàn)出色。

最新出爐的斯坦福評測機構(gòu) AlpacaEval 2.0 經(jīng)官方認證的模型排行榜上,Yi-Large 模型的英語能力主要指標 LC Win Rate(控制回復(fù)的長度) 排到了世界第二,僅次于 GPT-4 Turbo,Win Rate 更排到了世界第一,此前國內(nèi)模型中僅有 Yi 和 Qwen 曾經(jīng)登上此榜單的前 20。


斯坦福 AlpacaEval 2.0 Verified 認證模型類別,英語能力評測(2024年5月12日)

在中文能力方面,SuperCLUE 更新的四月基準表現(xiàn)中,Yi-Large 也位列國產(chǎn)大模型之首,Yi-Large 的綜合中英雙語能力皆展現(xiàn)了卓越的性能,可謂正式晉升全球大模型的“極品”。

在更全面的大模型綜合能力評測中,Yi-Large 多數(shù)指標超越 GPT4、Claude3、Google Gemini 1.5 等同級模型,達到首位。在通用能力、代碼生成、數(shù)學(xué)推理、指令遵循方面都取得了優(yōu)于全球領(lǐng)跑者的成績,穩(wěn)穩(wěn)躋身世界范圍內(nèi)的第一梯隊。

隨著各家大模型能力進入到力求對標GPT4的新階段,大模型評測的重點也開始由簡單的通用能力轉(zhuǎn)向數(shù)學(xué)、代碼等復(fù)雜推理能力。在針對代碼生成能力的 HumanEval、針對數(shù)學(xué)推理能力的 GSM-8K和 MATH、以及針對領(lǐng)域?qū)<夷芰Φ腉PQA等評測集上,Yi-Large也取得了具有絕對優(yōu)勢的成績。


國際中英文評測數(shù)據(jù)集(2024年5月12日)

值得注意的是,上述評測均是在零樣本(0-shot)或少樣本(4-shot/5-shot/8-shot)的前提下進行。在零樣本或少樣本的情況下,模型必須依賴于其在大量數(shù)據(jù)上訓(xùn)練時獲得的知識和推理能力,而不是簡單地記憶訓(xùn)練數(shù)據(jù)。這最大程度上避免了刷分的可能性,能更加客觀真實地考驗?zāi)P偷纳顚哟卫斫夂屯评砟芰Α?/p>

此外,從行業(yè)落地的角度來看,理解人類指令、對齊人類偏好已經(jīng)成為大模型不可或缺的能力,指令遵循(Instruction Following)相關(guān)評測也越發(fā)受到全球大模型企業(yè)重視。斯坦福開源評測項目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是兩組英文指令遵循評測集,AlignBench 則是由清華大學(xué)的團隊推出的中文對齊評測基準。在中外權(quán)威指令遵循評測集中,Yi-Large 的表現(xiàn)均優(yōu)于國際前五大模型。

發(fā)布會上,李開復(fù)還宣布,零一萬物已啟動下一代 Yi-XLarge MoE 模型訓(xùn)練,將沖擊 GPT-5 的性能與創(chuàng)新性。從 MMLU、GPQA、HumanEval、MATH 等權(quán)威評測集中,仍在初期訓(xùn)練中的 Yi-XLarge MoE 已經(jīng)與 Claude-3-Opus、GPT4-0409 等國際廠商的最新旗艦?zāi)P突ビ袆儇?,?xùn)練完成后的性能令人期待。


Yi-XLarge 初期訓(xùn)練中評測(2024年5月12日)

Yi-1.5 開源全面升級

同時,零一萬物Yi系列開源模型也迎來全面升級,Yi-1.5 分為 34B、9B、6B 三個版本,且提供了 Yi-1.5-Chat 微調(diào)模型可供開發(fā)者選擇。從評測數(shù)據(jù)來看,Yi-1.5 系列延續(xù)了 Yi 系列開源模型的出色表現(xiàn),數(shù)學(xué)邏輯、代碼能力全面增強的同時,語言能力方面也保持了原先的高水準。開源地址:Hugginf Face https://huggingface.co/01-ai 及魔搭社區(qū) https://www.modelscope.cn/organization/01ai。

經(jīng)過微調(diào)后的 Yi-1.5-6B/9B/34B-Chat 在數(shù)學(xué)推理、代碼能力、指令遵循等方面更上一層樓。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等數(shù)學(xué)能力評測集、HumanEval 和 MBPP 等代碼能力評測集上的表現(xiàn)遠同參數(shù)量級模型,也優(yōu)于近期發(fā)布的 Llama-3-8B-Instruct;在 MT-Bench、AlignBench、AlpacaEval 上的得分在同參數(shù)量級模型中也處于領(lǐng)先位置。

Yi-1.5-34B-Chat 在數(shù)學(xué)能力同樣保持著大幅領(lǐng)先,代碼能力與超大參數(shù)量級的 Mixtral-8x22B-Instruct-v0.1 持平,指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多個權(quán)威評測集上完全超越了 Mixtral-8x22B-Instruct-v0.1。

去年零一萬物選擇以開源首發(fā) Yi 系列模型,其優(yōu)異的性能受到國際開發(fā)者的高度認可。Yi 開源版本2023年11月上線首月,便占據(jù)開源社區(qū)近5成熱門模型排行,發(fā)布一個月后 Yi-34B 被 Nvidia 大模型 Playground 收錄,成為國內(nèi)唯一獲選模型,也建立了 Yi 模型面向國際的科技品牌信任度。

以開源模型構(gòu)建生態(tài),以閉源模型展開 AI-First 探索,開源閉源雙軌模型策略使得零一萬物構(gòu)建起了生態(tài)體系。開源模型服務(wù)于全球的科研院校、學(xué)生、開發(fā)者、創(chuàng)業(yè)者人群,推動百花齊放的應(yīng)用滋長;API 開放平臺提供企業(yè)商用,協(xié)助企業(yè)實踐 AI 2.0 的智能化轉(zhuǎn)型。同時,零一萬物以優(yōu)異的閉源模型能力,正在積極探索與世界 500 強企業(yè)的大型戰(zhàn)略合作。

Yi 大模型 API 開放平臺全球首發(fā)

全球開發(fā)者們對開源模型的品牌認可,成為零一萬物 API 服務(wù)的強有力支撐。今天,零一萬物宣布面向國內(nèi)市場一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保證客戶能夠在不同場景下都能找到最佳性能、最具性價比的方案,Yi API Platform 英文站同步對全球開發(fā)者開放試用申請。

其中,千億參數(shù)規(guī)模的 Yi-Large API 具備超強文本生成及推理性能,適用于復(fù)雜推理、預(yù)測,深度內(nèi)容創(chuàng)作等場景;Yi-Large-Turbo API 則根據(jù)性能和推理速度、成本,進行了平衡性高精度調(diào)優(yōu),適用于全場景、高品質(zhì)的推理及文本生成等場景。

Yi-Medium API 優(yōu)勢在于指令遵循能力,適用于常規(guī)場景下的聊天、對話、翻譯等場景;如果需要超長內(nèi)容文檔相關(guān)應(yīng)用,也可以選用 Yi-Medium-200K API,一次性解讀20萬字不在話下;Yi-Vision API 具備高性能圖片理解、分析能力,可服務(wù)基于圖片的聊天、分析等場景;Yi-Spark API 則聚焦輕量化極速響應(yīng),適用于輕量化數(shù)學(xué)分析、代碼生成、文本聊天等場景。

李開復(fù)強調(diào),在中國大模型進入第二年之際,國內(nèi)大模型賽道的競跑從狂奔到長跑,終局發(fā)展將取決于各個選手如何有效達到 “TC-PMF”(Product-Market-Technology-Cost Fit,技術(shù)成本 X 產(chǎn)品市場契合度)。大模型從訓(xùn)練到服務(wù)都很昂貴,算力緊缺是賽道的集體挑戰(zhàn),行業(yè)應(yīng)當共同避免陷入不理性的 ofo 式流血燒錢打法,讓大模型能夠用健康良性的 ROI 蓄能長跑,奔赴屬于中國的 AI 2.0 變革。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2024-05-13
零一萬物發(fā)布千億參數(shù)模型Yi-Large,多數(shù)評測指標超越 GPT4、Claude3、Gemini 1.5
5月13日消息,繼上周推出2C 產(chǎn)品一站式 AI 工作站“萬知”后,今天,在零一萬物成立一周年之際,零一萬物 CEO 李開復(fù)博士攜帶千億參數(shù) Yi-Large 閉源模型正式亮相,除此之外,零一萬物將早先發(fā)布的 Yi-34B

長按掃碼 閱讀全文