3月31日消息,在2025中關(guān)村論壇年會(huì)人工智能主題日上,零一萬(wàn)物 CEO、創(chuàng)新工場(chǎng)董事長(zhǎng)李開(kāi)復(fù)發(fā)表演講,其中提到對(duì)DeepSeek的四點(diǎn)觀察:
第一個(gè)觀察是,DeepSeek破解并開(kāi)源推理模型的思考訓(xùn)練過(guò)程,進(jìn)一步縮小與美國(guó)的差距。
第二個(gè)觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級(jí)融資的底層邏輯迥然不同的中國(guó)道路。
第三個(gè)觀察,也是最重要的一點(diǎn),DeepSeek 證明了開(kāi)源模型能力追趕上閉源模型,進(jìn)一步推進(jìn)SOTA模型的商品化。
第四個(gè)觀察,中國(guó)迎來(lái)了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國(guó)的全面落地。
以下為李開(kāi)復(fù)演講全文記錄:
非常高興又有機(jī)會(huì)來(lái)中關(guān)村論壇分享我對(duì)過(guò)去這幾個(gè)月 AI 領(lǐng)域所發(fā)生的一些重大事件的觀察,以及我眼中的 AI 行業(yè)藍(lán)圖。
AI 2.0 是有史以來(lái)最偉大的科技革命與平臺(tái)革命,大模型走出實(shí)驗(yàn)室,穿透各行各業(yè)成為驅(qū)動(dòng)實(shí)體經(jīng)濟(jì)的新質(zhì)生產(chǎn)力。在過(guò)去兩年間,從 ChatGPT 推出之后,大模型智力在不斷地提升,而且目前看起來(lái)遠(yuǎn)沒(méi)有觸及天花板。與此同時(shí),大模型的推理成本在以每年降低十倍的速度快速下降,這為AI-First應(yīng)用爆發(fā)提供了非常重要的條件。兩年前模型性能不夠好的模型,現(xiàn)在已經(jīng)夠好了;兩年前推理成本太貴的模型,現(xiàn)在已經(jīng)是“白菜價(jià)”了。所以在我看來(lái), AI-First 應(yīng)用很快將井噴,2025 年將會(huì)是 AI-First 應(yīng)用爆發(fā)、大模型“落地為王”的元年。
幾個(gè)月前,前 OpenAI 聯(lián)合創(chuàng)始人 Ilya 公開(kāi)表示,預(yù)訓(xùn)練階段的 Scaling Law 已經(jīng)放緩。因?yàn)槟P陀?xùn)練所用的數(shù)據(jù)量已經(jīng)觸及瓶頸,算力方面也存在著客觀制約因素——超大 GPU 集群效益降低,隨著 GPU 數(shù)量增加容錯(cuò)問(wèn)題等導(dǎo)致邊際效益降低。即便訓(xùn)練出超大參數(shù)量的大模型,比如 OpenAI 所發(fā)布的 GPT-4.5,模型性能確實(shí)有提升,但是 GPT-4.5 的價(jià)格是 DeepSeek-V3 的 500 倍。在絕大多數(shù)生產(chǎn)力場(chǎng)景里,超大參數(shù)量的模型價(jià)格昂貴速度緩慢,性價(jià)比并不突出。
好在行業(yè)內(nèi)已經(jīng)出現(xiàn)了新的曙光,Scaling Law 正從預(yù)訓(xùn)練階段轉(zhuǎn)向推理階段,也就是慢思考模式。過(guò)往預(yù)訓(xùn)練階段的 Scaling Law 是指:有更多的 GPU、更多的數(shù)據(jù),模型就可以變得更聰明,但目前看其增長(zhǎng)趨勢(shì)放緩了。新的慢思考 Scaling Law 是指:模型思考的時(shí)間更長(zhǎng),就會(huì)得出有更優(yōu)質(zhì)的結(jié)果。目前看來(lái),慢思考 Scaling Law 下,模型性能的成長(zhǎng)速度非常快,而且還有很大的增長(zhǎng)空間。
結(jié)合這些新的技術(shù)創(chuàng)新,現(xiàn)在模型訓(xùn)練的過(guò)程變得非常有意思。先訓(xùn)練一個(gè)“文科生”,讓模型閱讀所有的書(shū)籍,然后再向理科方向訓(xùn)練,讓模型能夠證明數(shù)學(xué)題、會(huì)寫(xiě)代碼,最終得到的“文理雙全”的模型會(huì)非常厲害。
另外一個(gè)值得關(guān)注的點(diǎn)在于,模型性能的提升其實(shí)在加速,而不是在放緩。從 GPT-2 到 GPT-3、從 GPT-3 到 GPT-4.5,每一次升級(jí)都花了大約兩年的時(shí)間,為什么呢?本質(zhì)上還是人在訓(xùn)練模型,是人來(lái)規(guī)劃新的算法、新的模型架構(gòu)、再搭配更多 GPU、再投入更多數(shù)據(jù),最終推動(dòng)模型性能的提升。
但今天,我們進(jìn)入了一個(gè)非常有意思的“AI 教 AI”的時(shí)代。從 OpenAI 發(fā)布 o1 到 發(fā)布 o3,中間只隔了三個(gè)月。 DeepSeek-R1 也是在 OpenAI o1 發(fā)布的兩個(gè)月之后就正式發(fā)布,并且可能很快就會(huì)發(fā)布 R2。無(wú)論是從 o1 到 o3,還是從 R1 到 R2,模型迭代的速度縮短到了三個(gè)月。一個(gè)重要的原因就是現(xiàn)在很大程度上已經(jīng)不再單單依靠人來(lái)發(fā)明新算法、發(fā)明模型架構(gòu),而是 AI 借由慢思考具備了反思的能力,能夠自我迭代、自我進(jìn)步,也就是“AI 教 AI”,AI進(jìn)入到自我演進(jìn)范式。
經(jīng)過(guò)慢思考,AI 正變得越來(lái)越聰明。模型性能更好的模型可以去教那些基礎(chǔ)較弱的模型,超大參數(shù)模型可以去訓(xùn)練參數(shù)量較小的模型。這樣的搭配類似“老師”和“學(xué)生”,經(jīng)過(guò)蒸餾、數(shù)據(jù)標(biāo)注和合成數(shù)據(jù),未來(lái)模型性能的提升會(huì)進(jìn)一步加速。超大預(yù)訓(xùn)練模型的價(jià)值將進(jìn)一步體現(xiàn)在“教師模型”的角色中,其本質(zhì)也將更趨進(jìn)于大模型時(shí)代的基礎(chǔ)設(shè)施。
最近,社會(huì)各界都在討論 DeepSeek,我也來(lái)分享一下我對(duì) DeepSeek 的四個(gè)觀察。
第一個(gè)觀察是,DeepSeek破解并開(kāi)源推理模型的思考訓(xùn)練過(guò)程,進(jìn)一步縮小與美國(guó)的差距。
DeepSeek 很快讓模型具備了 Reasoning (推理)慢思考的能力。DeepSeek-R1 真正切實(shí)掌握了這一技術(shù),并且還公開(kāi)了 DeepSeek-R1 的思維鏈。這是非常令人震驚的,因?yàn)?OpenAI o1 一直隱藏著思維鏈,就是防止友商復(fù)現(xiàn),結(jié)果 DeepSeek 還是從零起步做到了這一點(diǎn)。
第二個(gè)觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級(jí)融資的底層邏輯迥然不同的中國(guó)道路。在同樣標(biāo)準(zhǔn)下進(jìn)行比較,DeepSeek-R1 要比美國(guó)的類似模型更快,也更便宜了 5 到 10 倍,這背后是工程能力的巨大進(jìn)步。
第三個(gè)觀察,也是我認(rèn)為最重要的一點(diǎn),DeepSeek 證明了開(kāi)源模型能力追趕上閉源模型,進(jìn)一步推進(jìn)SOTA模型的商品化。DeepSeek 證明了閉源的路徑是不可取的,開(kāi)源才能有更好的發(fā)展。如果 DeepSeek 沒(méi)有開(kāi)源,我大膽揣測(cè),它的影響力會(huì)遠(yuǎn)遠(yuǎn)不如今天。在美國(guó)的開(kāi)源社區(qū)和社交媒體,大部分人都在熱情擁抱 DeepSeek,過(guò)往很少有中國(guó)軟件在海外收獲如此廣泛的歡迎。這很大程度上就來(lái)自于,與閉源的 OpenAI 相比,DeepSeek 更為開(kāi)放。
第四個(gè)觀察,中國(guó)迎來(lái)了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國(guó)的全面落地。大概 9 個(gè)月前,我曾經(jīng)沮喪地說(shuō),中國(guó)還沒(méi)有“ChatGPT moment”,雖然過(guò)去也有表現(xiàn)不錯(cuò)的模型出現(xiàn),但是卻始終缺少一個(gè)一枝獨(dú)秀的模型,能夠支撐 ToB、ToC 應(yīng)用百花齊放,能夠讓每個(gè)企業(yè) CEO 都在追問(wèn) IT 部門(mén)“什么時(shí)候能在企業(yè)里接入大模型?”現(xiàn)在企業(yè)和用戶已經(jīng)經(jīng)過(guò)“DeepSeek Moment”的市場(chǎng)教育,中國(guó)市場(chǎng)真正覺(jué)醒了,這也為 中國(guó)AI-First 應(yīng)用的爆發(fā)掃清了一大障礙。
因?yàn)檫^(guò)去做大模型應(yīng)用最大的瓶頸之一,就是需要教育市場(chǎng)。如果一個(gè)初創(chuàng)公司需要教育市場(chǎng),那它幾乎沒(méi)有成功的可能,因?yàn)榻逃袌?chǎng)需要的時(shí)間太長(zhǎng),前景未卜。今天 DeepSeek 完成了對(duì)中國(guó) ToB、ToC市場(chǎng)的市場(chǎng)教育, AI-First 應(yīng)用爆發(fā)又多了一個(gè)強(qiáng)有力的支撐。
DeepSeek 的基座模型很優(yōu)秀,但是如果要落地企業(yè)生產(chǎn)力場(chǎng)景,還有一些卡點(diǎn)需要克服。很多企業(yè) CEO 希望能夠本地部署、安全部署,因?yàn)椴糠?CEO 處于數(shù)據(jù)安全的考慮不希望公司數(shù)據(jù)上網(wǎng),所以不能直接用 API。在應(yīng)用實(shí)踐方面,很多公司需要有更好的聯(lián)網(wǎng)搜索、Deep Research(深度研究) 等功能,也需要用 RAG技術(shù)(檢索增強(qiáng)生成,Retrieval-augmented Generation) 鏈接企業(yè)數(shù)據(jù)庫(kù),如ERP、CRM等系統(tǒng)。此外還有企業(yè)希望能夠在基座模型基礎(chǔ)上開(kāi)發(fā)應(yīng)用、打造企業(yè)專屬智能體。最后還有很多企業(yè)需要基于 DeepSeek 模型進(jìn)行模型微調(diào),甚至需要繼續(xù)預(yù)訓(xùn)練,從而讓DeepSeek 等基座模型持續(xù)進(jìn)化,最終成為能在企業(yè)專屬的“行業(yè)大腦”。
基于上述考量,零一萬(wàn)物在過(guò)去幾個(gè)月也做出了戰(zhàn)略調(diào)整,我們已經(jīng)全面擁抱 DeepSeek,并且把大部分力量用于把 DeepSeek 優(yōu)質(zhì)基座模型轉(zhuǎn)變?yōu)槠髽I(yè)級(jí)企業(yè)級(jí) DeepSeek 部署定制解決方案——可以類比為零一萬(wàn)物在打造AI 2.0時(shí)代的Windows系統(tǒng),而DeepSeek就是驅(qū)動(dòng)Windows的內(nèi)核。區(qū)別于普通軟件公司或系統(tǒng)集成商提供的淺層方案,零一萬(wàn)物2年來(lái)在安全部署、應(yīng)用實(shí)踐、行業(yè)定制已經(jīng)具備成熟且全鏈條的技術(shù)棧能力——只有真正做過(guò)頂尖大模型訓(xùn)練、模型微調(diào)到應(yīng)用的大模型公司才能夠提供專業(yè)成熟的、一站式的深度服務(wù)。
最后我想說(shuō)的這點(diǎn)大家此前或許沒(méi)有過(guò)多關(guān)注。隨著全世界開(kāi)始擁抱 ChatGPT、DeepSeek,一個(gè)很大的問(wèn)題開(kāi)始浮現(xiàn)。對(duì)于小語(yǔ)種而言,很多基座模型的表現(xiàn)并不好。以俄語(yǔ)為例,在 Llama 的訓(xùn)練語(yǔ)料中俄語(yǔ)占比僅 0.13%,因此 Llama 在俄語(yǔ)上的表現(xiàn)并不好,在東南亞、中東、中亞、非洲等國(guó)家和地區(qū)的小語(yǔ)種表現(xiàn)上更是表現(xiàn)不佳。我一個(gè)朋友是斯坦福語(yǔ)言學(xué)教授,他認(rèn)為目前大模型基本忽視了 7000 多個(gè)小語(yǔ)種,可能會(huì)加速這些語(yǔ)言的滅絕。康奈爾大學(xué)的研究也顯示,每個(gè)國(guó)家和地區(qū)之間的價(jià)值觀是存在不小的偏差。所以讓每個(gè)國(guó)家和地區(qū)都有機(jī)會(huì)訓(xùn)練自己語(yǔ)言的模型、訓(xùn)練出符合自身價(jià)值觀的模型,不僅必要而且是這些國(guó)家和地區(qū)的剛需。
我們很幸運(yùn)的是,中國(guó)很多大模型公司在訓(xùn)練中文大模型,但是很多小語(yǔ)種的國(guó)家并沒(méi)有。這也是零一萬(wàn)物推出小語(yǔ)種模型的初衷,零一萬(wàn)基于每個(gè)國(guó)家可優(yōu)化出不同的模型對(duì)齊策略,我們也積極響應(yīng)“一帶一路”倡議實(shí)現(xiàn)共贏發(fā)展,期待與“一帶一路”國(guó)家攜手合作,讓更多國(guó)家能夠擁有自主可控的大模型。
今年開(kāi)源模型的勝利是一件大事,“DeepSeek Moment”的出現(xiàn)也是一件大事。今年可以預(yù)見(jiàn)的是, AI-First 應(yīng)用將會(huì)迎來(lái)爆發(fā)。AI需要市場(chǎng),市場(chǎng)也需要AI。各家模型公司也必須要回歸商業(yè)本質(zhì),想清楚公司如何利用技術(shù)真正為客戶創(chuàng)造價(jià)值。零一萬(wàn)物認(rèn)為,今年的一個(gè)焦點(diǎn)問(wèn)題應(yīng)該是:Make AI Work,讓大模型真正賦能千行百業(yè),謝謝大家。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )