百度AI,和“吳文俊獎(jiǎng)”同行的十二年、千丈山、萬(wàn)里路

今天,AI正作為一個(gè)科技發(fā)展周期的軸心,成為萬(wàn)眾矚目的焦點(diǎn)。與歷史上數(shù)次技術(shù)革命和AI浪潮所不同的是,這次AI的全球領(lǐng)先陣營(yíng)里,有了中國(guó)的身影。

從一個(gè)學(xué)術(shù)靈感,到一項(xiàng)全球領(lǐng)先的專利技術(shù),從一篇頂會(huì)論文到一個(gè)宏大的AI產(chǎn)業(yè)布局,中國(guó)AI的量變和質(zhì)變,凝結(jié)了無(wú)數(shù)人扎根在泥土中一步一個(gè)腳印的寸進(jìn)。

5月6日,第十二屆吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)?lì)C獎(jiǎng)典禮正式舉辦。其中,百度首席技術(shù)官、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心主任王海峰帶領(lǐng)團(tuán)隊(duì)完成的“知識(shí)與深度學(xué)習(xí)融合的通用對(duì)話技術(shù)及應(yīng)用”成果,榮獲“2022年度吳文俊人工智能科技進(jìn)步獎(jiǎng)特等獎(jiǎng)”,這也是“吳文俊獎(jiǎng)”首次評(píng)出特等獎(jiǎng)。

這一個(gè)特殊的時(shí)刻,承載了一個(gè)“中國(guó)人工智能最高獎(jiǎng)”、一個(gè)中國(guó)AI科學(xué)家、一個(gè)中國(guó)AI科技企業(yè)的十二年光陰。

如果大家對(duì)中國(guó)AI如何一步步前行而感到好奇,那么這個(gè)獎(jiǎng)項(xiàng)正好是機(jī)會(huì),可以看到一個(gè)人和一家企業(yè),究竟是如何征服山嶺的。

敢登千丈山:和“吳文俊獎(jiǎng)”同行的百度攀山路

這兩天,大家一定看到了很多“吳文俊獎(jiǎng)”的消息。

將時(shí)間退回到2011年,中國(guó)人工智能學(xué)會(huì)剛剛發(fā)起“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”的那一天,絕大多數(shù)人都無(wú)法想象,中國(guó)AI能有這樣的盛況。

十二年,對(duì)于“吳文俊獎(jiǎng)”,以及百度和王海峰,都是一條值得感慨的時(shí)間旅程。

十二年前,剛剛發(fā)起的“吳文俊獎(jiǎng)”規(guī)模尚小,第一屆只頒出了五個(gè)獎(jiǎng)項(xiàng),獲獎(jiǎng)?wù)叽蠖鄟?lái)自北京郵電大學(xué)、中科院自動(dòng)化所等高校院所。十二年來(lái),該獎(jiǎng)先后授予了兩百多個(gè)單位和行業(yè)機(jī)構(gòu),以及七百多位專家學(xué)者,見證了中國(guó)AI學(xué)術(shù)力量和產(chǎn)業(yè)力量的崛起。

這個(gè)中國(guó)AI醞釀量變的過(guò)程,百度的身影一直都在。

早在2010年,大部分人對(duì)AI的想象,還跟科幻電影一樣,覺(jué)得非常遙遠(yuǎn)、看不懂的時(shí)候,百度已經(jīng)開始積累AI技術(shù)。2010年,王海峰加入百度,推動(dòng)NLP、知識(shí)圖譜、深度學(xué)習(xí)等AI技術(shù)進(jìn)入新的應(yīng)用空間。

百度技術(shù)進(jìn)入了新的階段,一系列AI布局接連啟動(dòng)。比如2010年成立的百度自然語(yǔ)言處理部(NLP),是百度歷史最悠久的基礎(chǔ)技術(shù)部門之一;2013年,百度深度學(xué)習(xí)研究院(IDL)成立,是中國(guó)產(chǎn)業(yè)界最早觸摸深度學(xué)習(xí)技術(shù)的機(jī)構(gòu)之一。隨后百度又相繼打造了大數(shù)據(jù)實(shí)驗(yàn)室BDL、硅谷人工智能實(shí)驗(yàn)室SVAIL、百度研究院等研究機(jī)構(gòu)。

正是與AI的結(jié)緣夠早、夠深,百度才能在人工智能領(lǐng)域達(dá)成全面領(lǐng)先,第一個(gè)看到未知的遠(yuǎn)處風(fēng)景。

王海峰,作為推動(dòng)AI產(chǎn)學(xué)研融合的一面旗幟,是“吳文俊獎(jiǎng)”十二年歷史中,首個(gè)“吳文俊人工智能杰出貢獻(xiàn)獎(jiǎng)”的獲得者。

王海峰團(tuán)隊(duì)的“知識(shí)與深度學(xué)習(xí)融合的通用對(duì)話技術(shù)及應(yīng)用”,則拿下了吳文俊人工智能科技進(jìn)步獎(jiǎng)首個(gè)特等獎(jiǎng)。

從中,我們也可以看到,“吳文俊獎(jiǎng)”究竟在嘉獎(jiǎng)什么。

能夠讓代表中國(guó)人工智能領(lǐng)域最高榮譽(yù)的“吳文俊獎(jiǎng)”,打破常規(guī),因?yàn)榘俣華I不斷深入技術(shù)無(wú)人區(qū),主動(dòng)探索那些未被發(fā)覺(jué)的地帶。

以此次獲“特等獎(jiǎng)”的 “知識(shí)與深度學(xué)習(xí)融合的通用對(duì)話技術(shù)及應(yīng)用”為例,這一研究項(xiàng)目解決了該領(lǐng)域的四方面技術(shù)難題:

提出了基于知識(shí)統(tǒng)一表示的通用對(duì)話管理技術(shù),解決了對(duì)話不連貫的難題;提出了融合知識(shí)的流式對(duì)話語(yǔ)音識(shí)別技術(shù),解決了對(duì)話聽不清的難題;提出了知識(shí)增強(qiáng)的通用對(duì)話理解技術(shù),解決了理解不準(zhǔn)確的難題;提出了基于隱變量與知識(shí)的對(duì)話生成技術(shù),解決了回復(fù)有錯(cuò)誤的難題。

王海峰在發(fā)表獲獎(jiǎng)感言時(shí)提到:“通用對(duì)話技術(shù)是人工智能領(lǐng)域最具挑戰(zhàn)性的方向之一,也被認(rèn)為是通用人工智能的必備能力。團(tuán)隊(duì)多年來(lái)持續(xù)在技術(shù)上探索和創(chuàng)新,突破了知識(shí)與深度學(xué)習(xí)融合的通用對(duì)話技術(shù),目前已廣泛應(yīng)用于各行各業(yè)和人們生產(chǎn)生活中?!?/p>

敢登千尺山的百度,最終和“吳文俊獎(jiǎng)”一起,見證中國(guó)AI一路走來(lái),和世界頂峰相見。

深耕AI路:夯實(shí)底層技術(shù),長(zhǎng)出文心一言

對(duì)于首個(gè)吳文俊人工智能科技進(jìn)步獎(jiǎng)特等獎(jiǎng),院士專家給出了這樣的評(píng)語(yǔ),“整體技術(shù)指標(biāo)與應(yīng)用效果達(dá)到國(guó)際領(lǐng)先水平,極大地提升了我國(guó)在這一領(lǐng)域的科技競(jìng)爭(zhēng)力和產(chǎn)業(yè)影響力”。

不難看到,學(xué)術(shù)高度與產(chǎn)業(yè)廣度,是百度獲獎(jiǎng)研究項(xiàng)目的兩大特點(diǎn)。

據(jù)了解,百度的通用對(duì)話技術(shù)已經(jīng)獲授權(quán)發(fā)明專利82項(xiàng),發(fā)表高水平論文36篇,在國(guó)際權(quán)威評(píng)測(cè)中獲得了11項(xiàng)世界冠軍。同時(shí),其也實(shí)現(xiàn)了大規(guī)模的產(chǎn)業(yè)應(yīng)用,基于小度等業(yè)務(wù),支持了5億智能設(shè)備的對(duì)話能力提升,服務(wù)了超過(guò)10億用戶,其應(yīng)用領(lǐng)域覆蓋通信、金融、汽車、能源等20多個(gè)行業(yè)。

如今,百度在通用對(duì)話技術(shù)上的積累和突破,也經(jīng)由技術(shù)藍(lán)圖,流向了全新的領(lǐng)域。比如讓全球矚目的AI新貴:大語(yǔ)言模型。

很多人都認(rèn)為,文心一言是全球第一個(gè)由科技大廠自研的大語(yǔ)言模型。它的出現(xiàn)讓中國(guó)快速躋身全球LLM的第一梯隊(duì),為中國(guó)AI爭(zhēng)取到了更大的戰(zhàn)略空間,而文心一言的背后,就有成熟的通用對(duì)話技術(shù)作為支撐。

對(duì)話增強(qiáng)是文心一言的核心技術(shù)特征之一,讓文心一言具備更強(qiáng)的上下文理解、多輪對(duì)話能力,強(qiáng)化文心一言對(duì)話的完成度、連貫性、合理性,而對(duì)話增強(qiáng),就是百度基于通用對(duì)話技術(shù)優(yōu)勢(shì)的再創(chuàng)新。百度提出了全球首個(gè)基于隱空間的生成式開放域?qū)υ挻竽P臀男腜LATO,不斷提高模型的內(nèi)容豐富性和連貫性。文心PLATO是百度研發(fā)的具有大規(guī)模參數(shù)的中英文對(duì)話預(yù)訓(xùn)練生成模型,經(jīng)歷多次升級(jí),現(xiàn)已升級(jí)到百億參數(shù)的文心PLATO版本。正是長(zhǎng)期積累下來(lái)的通用對(duì)話技術(shù),讓文心一言具備了對(duì)話增強(qiáng)這個(gè)關(guān)鍵優(yōu)勢(shì)。

除了對(duì)話增強(qiáng)之外,文心一言還具備知識(shí)增強(qiáng)、檢索增強(qiáng)等技術(shù)特點(diǎn)。

在知識(shí)增強(qiáng)方面,得益于百度構(gòu)建的5500億事實(shí)的知識(shí)圖譜,以及早在2019年3月就提出了知識(shí)增強(qiáng)的語(yǔ)義理解框架ERNIE,百度不斷強(qiáng)化語(yǔ)義理解技術(shù)能力。

文心一言基于龐大的知識(shí)圖譜來(lái)做知識(shí)增強(qiáng),從海量數(shù)據(jù)和大規(guī)模知識(shí)中融合學(xué)習(xí),還可以直接調(diào)用知識(shí)圖譜做知識(shí)推理,自動(dòng)構(gòu)建提示,高效滿足用戶需求。

而檢索增強(qiáng)也是基于百度已有的語(yǔ)義理解技術(shù)優(yōu)勢(shì)的創(chuàng)新。百度擁有世界上最大的中文搜索引擎,百度搜索已經(jīng)發(fā)展到基于語(yǔ)義理解和匹配的新一代搜索架構(gòu),深入理解用戶需求和網(wǎng)頁(yè)內(nèi)容,進(jìn)行語(yǔ)義匹配,得到更精準(zhǔn)的搜索結(jié)果,進(jìn)而為大模型提供準(zhǔn)確率高、時(shí)效性強(qiáng)的參考信息,更好地滿足用戶需求。

更值得一提的是,文心一言還在飛速成長(zhǎng)中。

王海峰在一次采訪中透露,在內(nèi)測(cè)時(shí),有員工疑惑,文心一言怎么寫不好藏頭詩(shī),而當(dāng)時(shí)文心一言還處于學(xué)習(xí)階段,王海峰很有信心,說(shuō)“差不多明后天就能學(xué)會(huì)了”,果然第二天文心一言就能寫藏頭詩(shī)了。王海峰說(shuō):“信心就是因?yàn)槲覀儗?duì)系統(tǒng)的能力有比較準(zhǔn)確的把握。”

最近,飛槳又專門針對(duì)文心一言做了專項(xiàng)優(yōu)化,一個(gè)月內(nèi)迭代了4次,推理性能提升10倍,其中業(yè)內(nèi)首創(chuàng)的支持動(dòng)態(tài)插入的分布式推理引擎,推理性能提升了123%。

可以說(shuō),文心一言的各個(gè)方面,都展現(xiàn)出了百度夯實(shí)底層技術(shù),系統(tǒng)化積累技術(shù)優(yōu)勢(shì)的技術(shù)戰(zhàn)略。顯然,王海峰的技術(shù)視野與技術(shù)關(guān)懷,在其中扮演了關(guān)鍵角色。

技術(shù)攀登是一個(gè)非常漫長(zhǎng)的過(guò)程,如果沒(méi)有對(duì)于技術(shù)動(dòng)能的持續(xù)補(bǔ)充,可能因?yàn)椤绑w力不支”,而無(wú)法堅(jiān)持到登頂?shù)哪且惶??;谖男拇竽P?ERNIE 及對(duì)話大模型 PLATO的文心一言,能走的更遠(yuǎn)、更快,靠的正是百度AI技術(shù)的持久續(xù)航。

青山遮不?。喊俣華I,向產(chǎn)業(yè)沖鋒

從“訓(xùn)大模型”到“用大模型”,已經(jīng)成為中國(guó)產(chǎn)學(xué)政各界這一波大語(yǔ)言模型浪潮的深層期待。

如何穿越AI與產(chǎn)業(yè)之間的無(wú)人區(qū),走向千行百業(yè),與社會(huì)更具深度地融合,是今天擺在科技企業(yè)面前的新挑戰(zhàn)。

文心一言的技術(shù)核心,來(lái)自百度積累了十余年的四層架構(gòu):芯片、框架、模型、應(yīng)用,這一整套技術(shù)體系,共同支撐文心一言向產(chǎn)業(yè)沖鋒。

芯片層,百度有自研的量產(chǎn)AI芯片昆侖。同時(shí),百度還跟硬件行業(yè)上下游建立了緊密的合作,與主流國(guó)內(nèi)外芯片廠商進(jìn)行了非常好的適配,所以任何一家有合適的AI算力,文心一言都能用得起來(lái),這就保障了后續(xù)AI業(yè)務(wù)發(fā)展所需要的算力資源。

框架層,百度自主研發(fā)的中國(guó)首個(gè)開源開放的產(chǎn)業(yè)級(jí)深度學(xué)習(xí)平臺(tái)飛槳,支撐了大模型的靈活開發(fā)、高效訓(xùn)練和推理部署。

模型層,文心大模型 ERNIE 及對(duì)話大模型 PLATO等自研模型已經(jīng)證明了,文心一言的核心技術(shù)都是掌握在中國(guó)企業(yè)手里。

應(yīng)用層,百度已經(jīng)打造并開放了200多項(xiàng)AI能力和應(yīng)用,并在飛槳平臺(tái)提供大量應(yīng)用模型、開發(fā)者工具,以及定制化服務(wù),幫助各行業(yè)更簡(jiǎn)單地將AI用起來(lái)。

這四層架構(gòu),合在一起,展現(xiàn)出百度AI布局的全面與長(zhǎng)遠(yuǎn),也成為文心一言持續(xù)向上攀爬的保障。

用王海峰的話說(shuō),有了百度獨(dú)特的技術(shù)和積累,能給普通用戶帶來(lái)不一樣的感受:一是效果更好,文心一言能記住上下文,給出更新的信息、更準(zhǔn)確的知識(shí);二是效率更高,模型推理效率提高,用戶等待的時(shí)間更短了。

從中,我們能看到,百度AI在產(chǎn)業(yè)中鮮明的差異化特征:

1.向上,保持核心技術(shù)突破,勇于探索技術(shù)無(wú)人區(qū),主動(dòng)承擔(dān)了全球范圍內(nèi)底層技術(shù)的突破任務(wù),保持著中國(guó)AI與世界最前沿的并列或領(lǐng)先。

2.向下,做實(shí)AI基礎(chǔ)設(shè)施,確保產(chǎn)業(yè)自主可控。大模型訓(xùn)練推理,需要芯片、框架、開發(fā)工具等一系列軟硬件,核心基礎(chǔ)設(shè)施不能掌握在自己手里,產(chǎn)業(yè)使用時(shí)就會(huì)有顧慮。百度在AI領(lǐng)域四層架構(gòu)實(shí)現(xiàn)了全面的核心技術(shù)自研,解除AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化的后顧之憂。

3.向前,帶頭構(gòu)建產(chǎn)業(yè)生態(tài),打通大模型到產(chǎn)業(yè)的關(guān)隘。通過(guò)開源開放的飛槳生態(tài),以及飛槳產(chǎn)業(yè)賦能中心,把AI技術(shù)沉淀下去、開放出去、讓各行業(yè)都用起來(lái),幫助更多人爬上AI這座高峰,看見路前方的風(fēng)景。

此時(shí)再回眺百度AI,會(huì)發(fā)現(xiàn)領(lǐng)先不是一個(gè)結(jié)果,而是由一個(gè)個(gè)技術(shù)腳印所串聯(lián)起來(lái)的過(guò)程。這些過(guò)往凝結(jié)在一起,才有了我們熟悉的百度AI,與新生的文心一言。

獲得“吳文俊獎(jiǎng)”,頂峰之上的百度,正在攀登更高的山。大模型所開啟的AI與產(chǎn)業(yè)融合之路,有如一片未知的土地,蘊(yùn)藏著極大價(jià)值可能性,但也充滿了變數(shù),需要勇敢者先抵達(dá)彼端,一探究竟。

十二年彈指一瞬,走在科技前沿的百度,已踏上天地重開一境寬的新旅途。青山萬(wàn)丈,遮不斷赤子的眼眸;雀喧鳩聚,擋不住行者的腳步。

免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2023-05-07
百度AI,和“吳文俊獎(jiǎng)”同行的十二年、千丈山、萬(wàn)里路
今天,AI正作為一個(gè)科技發(fā)展周期的軸心,成為萬(wàn)眾矚目的焦點(diǎn)。與歷史上數(shù)次技術(shù)革命和AI浪潮所不同的是,這次AI的全球領(lǐng)先陣營(yíng)里,有了中國(guó)...

長(zhǎng)按掃碼 閱讀全文