李開復(fù):分享對(duì)DeepSeek的四個(gè)觀察

3月31日消息,在2025中關(guān)村論壇年會(huì)人工智能主題日上,零一萬物 CEO、創(chuàng)新工場(chǎng)董事長李開復(fù)發(fā)表演講,其中提到對(duì)DeepSeek的四點(diǎn)觀察:

第一個(gè)觀察是,DeepSeek破解并開源推理模型的思考訓(xùn)練過程,進(jìn)一步縮小與美國的差距。

第二個(gè)觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級(jí)融資的底層邏輯迥然不同的中國道路。

第三個(gè)觀察,也是最重要的一點(diǎn),DeepSeek 證明了開源模型能力追趕上閉源模型,進(jìn)一步推進(jìn)SOTA模型的商品化。

第四個(gè)觀察,中國迎來了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國的全面落地。

以下為李開復(fù)演講全文記錄:

非常高興又有機(jī)會(huì)來中關(guān)村論壇分享我對(duì)過去這幾個(gè)月 AI 領(lǐng)域所發(fā)生的一些重大事件的觀察,以及我眼中的 AI 行業(yè)藍(lán)圖。

AI 2.0 是有史以來最偉大的科技革命與平臺(tái)革命,大模型走出實(shí)驗(yàn)室,穿透各行各業(yè)成為驅(qū)動(dòng)實(shí)體經(jīng)濟(jì)的新質(zhì)生產(chǎn)力。在過去兩年間,從 ChatGPT 推出之后,大模型智力在不斷地提升,而且目前看起來遠(yuǎn)沒有觸及天花板。與此同時(shí),大模型的推理成本在以每年降低十倍的速度快速下降,這為AI-First應(yīng)用爆發(fā)提供了非常重要的條件。兩年前模型性能不夠好的模型,現(xiàn)在已經(jīng)夠好了;兩年前推理成本太貴的模型,現(xiàn)在已經(jīng)是“白菜價(jià)”了。所以在我看來, AI-First 應(yīng)用很快將井噴,2025 年將會(huì)是 AI-First 應(yīng)用爆發(fā)、大模型“落地為王”的元年。

幾個(gè)月前,前 OpenAI 聯(lián)合創(chuàng)始人 Ilya 公開表示,預(yù)訓(xùn)練階段的 Scaling Law 已經(jīng)放緩。因?yàn)槟P陀?xùn)練所用的數(shù)據(jù)量已經(jīng)觸及瓶頸,算力方面也存在著客觀制約因素——超大 GPU 集群效益降低,隨著 GPU 數(shù)量增加容錯(cuò)問題等導(dǎo)致邊際效益降低。即便訓(xùn)練出超大參數(shù)量的大模型,比如 OpenAI 所發(fā)布的 GPT-4.5,模型性能確實(shí)有提升,但是 GPT-4.5 的價(jià)格是 DeepSeek-V3 的 500 倍。在絕大多數(shù)生產(chǎn)力場(chǎng)景里,超大參數(shù)量的模型價(jià)格昂貴速度緩慢,性價(jià)比并不突出。

好在行業(yè)內(nèi)已經(jīng)出現(xiàn)了新的曙光,Scaling Law 正從預(yù)訓(xùn)練階段轉(zhuǎn)向推理階段,也就是慢思考模式。過往預(yù)訓(xùn)練階段的 Scaling Law 是指:有更多的 GPU、更多的數(shù)據(jù),模型就可以變得更聰明,但目前看其增長趨勢(shì)放緩了。新的慢思考 Scaling Law 是指:模型思考的時(shí)間更長,就會(huì)得出有更優(yōu)質(zhì)的結(jié)果。目前看來,慢思考 Scaling Law 下,模型性能的成長速度非常快,而且還有很大的增長空間。

結(jié)合這些新的技術(shù)創(chuàng)新,現(xiàn)在模型訓(xùn)練的過程變得非常有意思。先訓(xùn)練一個(gè)“文科生”,讓模型閱讀所有的書籍,然后再向理科方向訓(xùn)練,讓模型能夠證明數(shù)學(xué)題、會(huì)寫代碼,最終得到的“文理雙全”的模型會(huì)非常厲害。

另外一個(gè)值得關(guān)注的點(diǎn)在于,模型性能的提升其實(shí)在加速,而不是在放緩。從 GPT-2 到 GPT-3、從 GPT-3 到 GPT-4.5,每一次升級(jí)都花了大約兩年的時(shí)間,為什么呢?本質(zhì)上還是人在訓(xùn)練模型,是人來規(guī)劃新的算法、新的模型架構(gòu)、再搭配更多 GPU、再投入更多數(shù)據(jù),最終推動(dòng)模型性能的提升。

但今天,我們進(jìn)入了一個(gè)非常有意思的“AI 教 AI”的時(shí)代。從 OpenAI 發(fā)布 o1 到 發(fā)布 o3,中間只隔了三個(gè)月。 DeepSeek-R1 也是在 OpenAI o1 發(fā)布的兩個(gè)月之后就正式發(fā)布,并且可能很快就會(huì)發(fā)布 R2。無論是從 o1 到 o3,還是從 R1 到 R2,模型迭代的速度縮短到了三個(gè)月。一個(gè)重要的原因就是現(xiàn)在很大程度上已經(jīng)不再單單依靠人來發(fā)明新算法、發(fā)明模型架構(gòu),而是 AI 借由慢思考具備了反思的能力,能夠自我迭代、自我進(jìn)步,也就是“AI 教 AI”,AI進(jìn)入到自我演進(jìn)范式。

經(jīng)過慢思考,AI 正變得越來越聰明。模型性能更好的模型可以去教那些基礎(chǔ)較弱的模型,超大參數(shù)模型可以去訓(xùn)練參數(shù)量較小的模型。這樣的搭配類似“老師”和“學(xué)生”,經(jīng)過蒸餾、數(shù)據(jù)標(biāo)注和合成數(shù)據(jù),未來模型性能的提升會(huì)進(jìn)一步加速。超大預(yù)訓(xùn)練模型的價(jià)值將進(jìn)一步體現(xiàn)在“教師模型”的角色中,其本質(zhì)也將更趨進(jìn)于大模型時(shí)代的基礎(chǔ)設(shè)施。

最近,社會(huì)各界都在討論 DeepSeek,我也來分享一下我對(duì) DeepSeek 的四個(gè)觀察。

第一個(gè)觀察是,DeepSeek破解并開源推理模型的思考訓(xùn)練過程,進(jìn)一步縮小與美國的差距。

DeepSeek 很快讓模型具備了 Reasoning (推理)慢思考的能力。DeepSeek-R1 真正切實(shí)掌握了這一技術(shù),并且還公開了 DeepSeek-R1 的思維鏈。這是非常令人震驚的,因?yàn)?OpenAI o1 一直隱藏著思維鏈,就是防止友商復(fù)現(xiàn),結(jié)果 DeepSeek 還是從零起步做到了這一點(diǎn)。

第二個(gè)觀察是,DeepSeek 極其高效的工程效率,這走出了一條與OpenAI天量級(jí)融資的底層邏輯迥然不同的中國道路。在同樣標(biāo)準(zhǔn)下進(jìn)行比較,DeepSeek-R1 要比美國的類似模型更快,也更便宜了 5 到 10 倍,這背后是工程能力的巨大進(jìn)步。

第三個(gè)觀察,也是我認(rèn)為最重要的一點(diǎn),DeepSeek 證明了開源模型能力追趕上閉源模型,進(jìn)一步推進(jìn)SOTA模型的商品化。DeepSeek 證明了閉源的路徑是不可取的,開源才能有更好的發(fā)展。如果 DeepSeek 沒有開源,我大膽揣測(cè),它的影響力會(huì)遠(yuǎn)遠(yuǎn)不如今天。在美國的開源社區(qū)和社交媒體,大部分人都在熱情擁抱 DeepSeek,過往很少有中國軟件在海外收獲如此廣泛的歡迎。這很大程度上就來自于,與閉源的 OpenAI 相比,DeepSeek 更為開放。

第四個(gè)觀察,中國迎來了屬于自己的“DeepSeek Moment”,將大幅加速大模型在中國的全面落地。大概 9 個(gè)月前,我曾經(jīng)沮喪地說,中國還沒有“ChatGPT moment”,雖然過去也有表現(xiàn)不錯(cuò)的模型出現(xiàn),但是卻始終缺少一個(gè)一枝獨(dú)秀的模型,能夠支撐 ToB、ToC 應(yīng)用百花齊放,能夠讓每個(gè)企業(yè) CEO 都在追問 IT 部門“什么時(shí)候能在企業(yè)里接入大模型?”現(xiàn)在企業(yè)和用戶已經(jīng)經(jīng)過“DeepSeek Moment”的市場(chǎng)教育,中國市場(chǎng)真正覺醒了,這也為 中國AI-First 應(yīng)用的爆發(fā)掃清了一大障礙。

因?yàn)檫^去做大模型應(yīng)用最大的瓶頸之一,就是需要教育市場(chǎng)。如果一個(gè)初創(chuàng)公司需要教育市場(chǎng),那它幾乎沒有成功的可能,因?yàn)榻逃袌?chǎng)需要的時(shí)間太長,前景未卜。今天 DeepSeek 完成了對(duì)中國 ToB、ToC市場(chǎng)的市場(chǎng)教育, AI-First 應(yīng)用爆發(fā)又多了一個(gè)強(qiáng)有力的支撐。

DeepSeek 的基座模型很優(yōu)秀,但是如果要落地企業(yè)生產(chǎn)力場(chǎng)景,還有一些卡點(diǎn)需要克服。很多企業(yè) CEO 希望能夠本地部署、安全部署,因?yàn)椴糠?CEO 處于數(shù)據(jù)安全的考慮不希望公司數(shù)據(jù)上網(wǎng),所以不能直接用 API。在應(yīng)用實(shí)踐方面,很多公司需要有更好的聯(lián)網(wǎng)搜索、Deep Research(深度研究) 等功能,也需要用 RAG技術(shù)(檢索增強(qiáng)生成,Retrieval-augmented Generation) 鏈接企業(yè)數(shù)據(jù)庫,如ERP、CRM等系統(tǒng)。此外還有企業(yè)希望能夠在基座模型基礎(chǔ)上開發(fā)應(yīng)用、打造企業(yè)專屬智能體。最后還有很多企業(yè)需要基于 DeepSeek 模型進(jìn)行模型微調(diào),甚至需要繼續(xù)預(yù)訓(xùn)練,從而讓DeepSeek 等基座模型持續(xù)進(jìn)化,最終成為能在企業(yè)專屬的“行業(yè)大腦”。

基于上述考量,零一萬物在過去幾個(gè)月也做出了戰(zhàn)略調(diào)整,我們已經(jīng)全面擁抱 DeepSeek,并且把大部分力量用于把 DeepSeek 優(yōu)質(zhì)基座模型轉(zhuǎn)變?yōu)槠髽I(yè)級(jí)企業(yè)級(jí) DeepSeek 部署定制解決方案——可以類比為零一萬物在打造AI 2.0時(shí)代的Windows系統(tǒng),而DeepSeek就是驅(qū)動(dòng)Windows的內(nèi)核。區(qū)別于普通軟件公司或系統(tǒng)集成商提供的淺層方案,零一萬物2年來在安全部署、應(yīng)用實(shí)踐、行業(yè)定制已經(jīng)具備成熟且全鏈條的技術(shù)棧能力——只有真正做過頂尖大模型訓(xùn)練、模型微調(diào)到應(yīng)用的大模型公司才能夠提供專業(yè)成熟的、一站式的深度服務(wù)。

最后我想說的這點(diǎn)大家此前或許沒有過多關(guān)注。隨著全世界開始擁抱 ChatGPT、DeepSeek,一個(gè)很大的問題開始浮現(xiàn)。對(duì)于小語種而言,很多基座模型的表現(xiàn)并不好。以俄語為例,在 Llama 的訓(xùn)練語料中俄語占比僅 0.13%,因此 Llama 在俄語上的表現(xiàn)并不好,在東南亞、中東、中亞、非洲等國家和地區(qū)的小語種表現(xiàn)上更是表現(xiàn)不佳。我一個(gè)朋友是斯坦福語言學(xué)教授,他認(rèn)為目前大模型基本忽視了 7000 多個(gè)小語種,可能會(huì)加速這些語言的滅絕??的螤柎髮W(xué)的研究也顯示,每個(gè)國家和地區(qū)之間的價(jià)值觀是存在不小的偏差。所以讓每個(gè)國家和地區(qū)都有機(jī)會(huì)訓(xùn)練自己語言的模型、訓(xùn)練出符合自身價(jià)值觀的模型,不僅必要而且是這些國家和地區(qū)的剛需。

我們很幸運(yùn)的是,中國很多大模型公司在訓(xùn)練中文大模型,但是很多小語種的國家并沒有。這也是零一萬物推出小語種模型的初衷,零一萬基于每個(gè)國家可優(yōu)化出不同的模型對(duì)齊策略,我們也積極響應(yīng)“一帶一路”倡議實(shí)現(xiàn)共贏發(fā)展,期待與“一帶一路”國家攜手合作,讓更多國家能夠擁有自主可控的大模型。

今年開源模型的勝利是一件大事,“DeepSeek Moment”的出現(xiàn)也是一件大事。今年可以預(yù)見的是, AI-First 應(yīng)用將會(huì)迎來爆發(fā)。AI需要市場(chǎng),市場(chǎng)也需要AI。各家模型公司也必須要回歸商業(yè)本質(zhì),想清楚公司如何利用技術(shù)真正為客戶創(chuàng)造價(jià)值。零一萬物認(rèn)為,今年的一個(gè)焦點(diǎn)問題應(yīng)該是:Make AI Work,讓大模型真正賦能千行百業(yè),謝謝大家。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2025-03-31
李開復(fù):分享對(duì)DeepSeek的四個(gè)觀察
DeepSeek 證明了開源模型能力追趕上閉源模型,進(jìn)一步推進(jìn)SOTA模型的商品化。

長按掃碼 閱讀全文