百度AI「開源」:止近渴,解遠(yuǎn)慮

2020年3月,注定是中國AI開發(fā)者不會(huì)遺忘的一個(gè)月。

3月20日,清華大學(xué)計(jì)算機(jī)系圖形實(shí)驗(yàn)室開源AI框架計(jì)圖(Jittor),這是首個(gè)由中國學(xué)界開源的AI框架,直接對(duì)標(biāo)PyTorch;

3月24日,AI獨(dú)角獸曠視科技宣布開源天元(MegEngine)——訓(xùn)練推理一體化、動(dòng)靜態(tài)合一的工業(yè)級(jí)深度學(xué)習(xí)框架;

3月28日,華為在開發(fā)者大會(huì)2020上宣布正式開源MindSpore,這是一款支持端邊云全場(chǎng)景的深度學(xué)習(xí)訓(xùn)練推理框架。

短短8天,中國AI領(lǐng)域刮起一股開源風(fēng)潮,而目標(biāo)正是AI開源框架領(lǐng)域的霸主TensorFlow和PyTorch,這也許會(huì)成為國產(chǎn)深度學(xué)習(xí)框架開源歷史上重要的高光時(shí)刻。

而這股風(fēng)潮的領(lǐng)頭人,是4年前打響國產(chǎn)AI框架開源第一槍的百度飛槳。

2016年百度飛槳開源之后,就已帶動(dòng)了一波風(fēng)潮,騰訊機(jī)器學(xué)習(xí)平臺(tái)Angel、阿里深度學(xué)習(xí)框架X-DeepLearning相繼開源,也有OneFlow這樣的初創(chuàng)公司加入,一個(gè)欣欣向榮的AI生態(tài)正在走近。

而百度,也在持續(xù)引領(lǐng)AI生態(tài)走向繁榮。

根據(jù)最新GitHub開源項(xiàng)目數(shù)據(jù)集GitHubArchive之中關(guān)于pull request的發(fā)起和合入數(shù)據(jù),百度飛槳的open數(shù)據(jù)由去年的2759次躍升到今年同期的3391次,飛槳的 merged數(shù)據(jù)由1924次躍升為2428次,由此,百度飛槳在pull request的數(shù)據(jù)上已經(jīng)成為國內(nèi)第一、全球第二的領(lǐng)軍存在。

這也意味著“動(dòng)靜統(tǒng)一、軟硬融合”的飛槳一直在致力于讓深度學(xué)習(xí)技術(shù)的創(chuàng)新與應(yīng)用更簡(jiǎn)單,其提供的AI底層技術(shù)也深受開發(fā)者歡迎。

2020/2019年度全球開源深度學(xué)習(xí)框架活躍度排名榜單

AI開源框架的搭建是一項(xiàng)費(fèi)時(shí)費(fèi)力的大工程,如果沒有超越現(xiàn)有主流框架的想法,去重復(fù)造一套沒有技術(shù)創(chuàng)新的輪子,不僅性價(jià)比不高,而且對(duì)開發(fā)者的吸引力也不夠大。

這就引申出一個(gè)問題,在TensorFlow和PyTorch已有完整框架生態(tài)的情況下,為何百度以及一眾的后來者還要執(zhí)著于國產(chǎn)AI框架的開源?另造一套技術(shù)輪子,他們自研AI開源框架的價(jià)值和意義是什么?

止近渴:技術(shù)創(chuàng)新、業(yè)務(wù)需要

TensorFlow、PyTorch的強(qiáng)大毋庸置疑,例如TensorFlow在中國的用戶就不乏網(wǎng)易、京東、360、聯(lián)想、美團(tuán)等科技企業(yè)。

但從戰(zhàn)略和戰(zhàn)術(shù)上,TensorFlow、PyTorch的缺點(diǎn)和劣勢(shì)也顯而易見。

戰(zhàn)略上,雖然TensorFlow是開源的,但其與谷歌的深度綁定,不排除會(huì)出現(xiàn)類似Android的局面。所以,國內(nèi)有百度自研,國外亞馬遜、Facebook、微軟、蘋果等都在自研。

戰(zhàn)術(shù)上,深度學(xué)習(xí)框架開源背后是商業(yè)利益的捆綁,而且在技術(shù)層面,TensorFlow、PyTorch也并非沒有提升空間。

舉個(gè)簡(jiǎn)單的例子,像TensorFlow在語音交互、神經(jīng)網(wǎng)絡(luò)翻譯等核心技術(shù)上,很少有中文數(shù)據(jù)集以及中文領(lǐng)域的技術(shù)探索。

換言之,只有深諳中國開發(fā)者需求和中國AI市場(chǎng)生態(tài)的深度學(xué)習(xí)框架,才能精準(zhǔn)滿足本土用戶需求。

并且,中國有其他國家無法比擬的商業(yè)優(yōu)勢(shì),數(shù)據(jù)紅利和龐大的應(yīng)用場(chǎng)景促使AI相關(guān)技術(shù)更快落地。但是,無法逃避的一個(gè)問題是,不掌握底層技術(shù),上層應(yīng)用仍要面臨「卡脖子」。

所以,無論是百度,還是阿里、華為等后來者,自研+開源是擺脫「卡脖子」的最佳方案。

百度飛槳作為國內(nèi)AI開源的扛把子,2012年就開始著手深度學(xué)習(xí)平臺(tái)框架研發(fā),2016年飛槳正式開源。飛槳開源的歷史動(dòng)機(jī)由主觀因素主導(dǎo),也有客觀因素存在。

百度飛槳全景圖

主觀因素是百度一直以來的技術(shù)背景和開源策略,從2009年大規(guī)模定制Hadoop開始到2013年率先開源ECharts,百度從布局AI開始,就一直堅(jiān)持開源戰(zhàn)略。

這種戰(zhàn)略的具體落地,正是不斷開源AI能力,這里面不僅有百度的基因和能力因素,更重要是表達(dá)一種開放的態(tài)度。

客觀因素則是谷歌、Facebook、IBM等海外科技巨頭先后將AI框架開源,AI框架開源背后往往跟隨著各個(gè)公司的業(yè)務(wù),比如谷歌的云服務(wù)、TPU資源等等,打一個(gè)形象的比方,深度學(xué)習(xí)框架是一條高速公路,你可以免費(fèi)在上面行駛,但你也需要服務(wù)區(qū)加油、吃飯、休息,這一連串的配套設(shè)施就形成了一個(gè)生態(tài)。

經(jīng)過4年開源發(fā)展,百度飛槳已經(jīng)籌備起了自己的生態(tài)模型,在完備性、易用性、高效性三個(gè)方面搭建了一定的壁壘。

完備性:

百度飛槳集核心訓(xùn)練和推理框架、基礎(chǔ)模型庫、端到端開發(fā)套件和豐富的工具組件于一體,并根據(jù)本土化特點(diǎn)將開源框架與應(yīng)用層面做了更好的結(jié)合,旨在打造自主可控的人工智能操作系統(tǒng),持續(xù)賦能廣大開發(fā)者。2020 年也迎來一系列重要升級(jí),比如在核心框架上實(shí)現(xiàn)了動(dòng)靜統(tǒng)一,全面支持動(dòng)態(tài)圖調(diào)試,自動(dòng)轉(zhuǎn)靜態(tài)圖訓(xùn)練和部署的理想開發(fā)模式。

易用性:

相比于其他開源的深度學(xué)習(xí)框架,飛槳最大的特點(diǎn)在于easy to use,對(duì)很多算法進(jìn)行了完整封裝,開發(fā)者只需要略微了解下源碼原理,導(dǎo)入自己的數(shù)據(jù)就可以執(zhí)行運(yùn)行的命令。

高效性:

基于其簡(jiǎn)潔、靈活、快速的特性,百度飛槳推動(dòng)了各個(gè)行業(yè)的深度學(xué)習(xí)應(yīng)用,在液晶顯示屏的檢測(cè)、機(jī)器人安全巡檢、遙感監(jiān)測(cè)等領(lǐng)域發(fā)揮著不可代替的作用。

拿液晶顯示屏檢測(cè)來說,精測(cè)電子應(yīng)用飛槳開源深度學(xué)習(xí)框架開發(fā)后,基于其分類、檢測(cè)、分割等多種功能模塊,對(duì)具有缺陷的液晶屏幕檢測(cè)的精度上有很大提升。

解遠(yuǎn)慮:國家新基建戰(zhàn)略下的自主創(chuàng)新

近兩年,基礎(chǔ)技術(shù)的「卡脖子」話題成為近兩年中國科技界探討的熱點(diǎn),擔(dān)心中國AI的發(fā)展會(huì)像芯片發(fā)展那樣遭遇空中樓閣的困境。

與其信任他人「不作惡」的承諾,不如技術(shù)自立。

一定程度上,華為中興事件之后,人工智能競(jìng)賽已經(jīng)演化成一場(chǎng)「框架之爭(zhēng)」。以高文院士為代表的AI專家就在四處布道「做人工智能必須要做開源,中國要想發(fā)展好新一代的人工智能,必須要有高效和風(fēng)險(xiǎn)可控的開源開放平臺(tái)」的觀點(diǎn)。

與此同時(shí),國家也在戰(zhàn)略層面給予支持。

對(duì)于AI基礎(chǔ)設(shè)施的建設(shè),中國政府在《新一代人工智能發(fā)展規(guī)劃》等關(guān)于AI頂層規(guī)劃的政策中都著重提及,除了加大應(yīng)用層技術(shù)落地,更希望業(yè)界和學(xué)界深入AI底層技術(shù)研發(fā)。

而AI底層技術(shù)研發(fā)的根基就在深度學(xué)習(xí)框架,跑在自家的高速公路上,不會(huì)有被攔路、斷供的風(fēng)險(xiǎn),而且在生態(tài)建設(shè)層面,自研深度學(xué)習(xí)框架的成熟度并不亞于TensorFlow或PyTorch。

以百度飛槳為例,數(shù)據(jù)顯示,飛槳當(dāng)前支持140+個(gè)產(chǎn)業(yè)及開源算法,累計(jì)開發(fā)者230萬,服務(wù)企業(yè)9萬家,基于飛槳開源深度學(xué)習(xí)平臺(tái)產(chǎn)生了31萬個(gè)模型。今年9月,百度飛槳深度學(xué)習(xí)平臺(tái)還入選了2020服貿(mào)會(huì)「科技創(chuàng)新服務(wù)示范案例」。

此外,在城市、工業(yè)、電力、通信等很多關(guān)乎國計(jì)民生的領(lǐng)域都有飛槳在發(fā)揮作用。

今年5月,百度發(fā)布了Paddle Quantum,這是建立在百度飛槳深度學(xué)習(xí)平臺(tái)之上的開放源代碼的機(jī)器學(xué)習(xí)工具包,它包括量子開發(fā)工具集,量子化學(xué)庫以及一系列優(yōu)化工具,可以幫助領(lǐng)域內(nèi)的科研人員以及開發(fā)者在量子計(jì)算應(yīng)用程序中訓(xùn)練和開發(fā)AI,也為相關(guān)領(lǐng)域的愛好者開發(fā)量子人工智能的應(yīng)用提供了強(qiáng)有力的支撐。

百度「開源」家族

在技術(shù)領(lǐng)域,一枝獨(dú)秀不是春,沒有對(duì)外開源,很多技術(shù)和產(chǎn)品不會(huì)拓展如此之快。還是高速公路的例子,在別人為你搭建好的公路上馳騁,相當(dāng)于站在巨人的肩膀上做創(chuàng)新,不僅加速了自我產(chǎn)品迭代,更有助于AI技術(shù)生態(tài)的構(gòu)建。

信奉技術(shù)的巨頭都甚至「開源」的重要性,百度更是如此。

從2009年大規(guī)模定制Hadoop到2013年率先開源ECharts,百度的開源之路從未停止。

2017年,對(duì)百度而言是開源的突破之年,從深度學(xué)習(xí)平臺(tái)飛槳 PaddlePaddle,到Apollo自動(dòng)駕駛,百度落實(shí)了多項(xiàng)重大開源技術(shù),也將AI開源提升到前所未有的戰(zhàn)略高度。

2016年開源飛槳后,次年百度發(fā)布全球首個(gè)自動(dòng)駕駛Apollo自動(dòng)駕駛開放平臺(tái)。

截至目前,百度Apollo平臺(tái)已經(jīng)匯聚了全球177家生態(tài)合作伙伴。在全球,有97個(gè)國家超過3.6萬名開發(fā)者使用Apollo開源代碼,開源代碼數(shù)量超過56萬,Apollo自動(dòng)駕駛平臺(tái)已成為全球最強(qiáng)大、最開放、最活躍的自動(dòng)駕駛平臺(tái)。

除了飛槳和Apollo,疫情期間從紅到白、可視化的疫情地圖背后還有早已開源的ECharts身影。

作為當(dāng)前最流行、最強(qiáng)大的可視化庫之一,ECharts提供了直觀、生動(dòng)、可交互、可個(gè)性化定制的數(shù)據(jù)可視化圖表,包括常規(guī)的折線圖、柱狀圖、散點(diǎn)圖、餅圖、K線圖,用于統(tǒng)計(jì)的盒形圖,用于地理數(shù)據(jù)可視化的地圖、熱力圖、線圖,用于關(guān)系數(shù)據(jù)可視化的關(guān)系圖、treemap、旭日?qǐng)D,多維數(shù)據(jù)可視化的平行坐標(biāo),還有用于BI的漏斗圖,儀表盤。

ECharts創(chuàng)新的拖拽重計(jì)算、數(shù)據(jù)視圖、值域漫游等特性大大增強(qiáng)了用戶體驗(yàn),賦予了用戶對(duì)數(shù)據(jù)進(jìn)行挖掘、整合的能力。

通過ECharts的數(shù)據(jù)可視化圖表可以直觀、生動(dòng)的展現(xiàn)數(shù)據(jù)

目前,Apache ECharts (incubating) 在Github中的star數(shù)已經(jīng)超過41.4k,每周npm下載量超過22萬。

除了自身開源,百度還參與了國內(nèi)外頂級(jí)開源基金會(huì)和組織,成為了 Apache基金會(huì)、Linux基金會(huì)以及云原生計(jì)算基金會(huì)的金牌會(huì)員,其旗下Echarts、Doris、Brpc等多個(gè)項(xiàng)目已經(jīng)成為Apache基金會(huì)孵化項(xiàng)目,Baetyl、IME、EDL 等項(xiàng)目也捐贈(zèng)給了Linux基金會(huì)進(jìn)行孵化。

2019年,百度戰(zhàn)略投資了開源中國,作為中國最大的開源技術(shù)社區(qū),開源中國旗下運(yùn)營的Gitee代碼托管平臺(tái)是全球僅次于GitHub的代碼托管平臺(tái),每日約增加5000名開發(fā)者、200家企業(yè)客戶、1.7萬代碼倉庫,已經(jīng)具備了在國際市場(chǎng)與GitHub全面抗衡的基礎(chǔ)。

諾貝爾獎(jiǎng)得主理查德費(fèi)曼曾說過,what you can not create, you can not understand,不會(huì)創(chuàng)造出來就不理解。

深度學(xué)習(xí)框架也一樣,只會(huì)使用,不會(huì)研發(fā),就不會(huì)理解。不理解,不僅僅是能不能研發(fā)出來深度學(xué)習(xí)框架的問題,也意味著不能在算法上領(lǐng)先,不能在芯片上領(lǐng)先,最終會(huì)導(dǎo)致在應(yīng)用層面也不能領(lǐng)先,結(jié)局只能是全面的落后。

實(shí)際上,包括百度在內(nèi),騰訊、阿里、華為等科技巨頭紛紛將AI框架開源的道理也在此。開源,某種程度上能有效減少閉源壟斷市場(chǎng)的局面出現(xiàn),同時(shí),還能在根本上解決「卡脖子」的窘迫。

開源深度學(xué)習(xí)框架意味著,在語音識(shí)別、自然語言理解、計(jì)算機(jī)視覺、廣告等很多地方可以應(yīng)用,同時(shí),例如百度這樣的領(lǐng)航者也提供了深度學(xué)習(xí)算法之外,海量數(shù)據(jù)收集和工程系統(tǒng)架構(gòu)的搭建,為AI開發(fā)者提供了一站式服務(wù)。

總的來說,開源對(duì)于中國本土的AI開發(fā)者和公司來說,有能力理解并基于一個(gè)與國際同步的深度學(xué)習(xí)框架開發(fā)AI技術(shù)、應(yīng)用,這將大大降低深度學(xué)習(xí)在各個(gè)行業(yè)中的應(yīng)用難度。

正如李彥宏在2020百度世界大會(huì)上提到,推動(dòng)人工智能扎實(shí)滲透,行業(yè)要充分利用開源、開放平臺(tái),它在人工智能發(fā)展當(dāng)中的作用會(huì)越來越受到重視。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2020-09-30
百度AI「開源」:止近渴,解遠(yuǎn)慮
2020年3月,注定是中國AI開發(fā)者不會(huì)遺忘的一個(gè)月。3月20日,清華大學(xué)計(jì)算機(jī)系圖形實(shí)驗(yàn)室開源AI框架計(jì)圖(Jittor)...

長按掃碼 閱讀全文