AI落地熱火朝天,AI團隊變身施工隊,挨家挨戶敲開傳統(tǒng)企業(yè)的大門……然而,這是一種非常低效的做法。
第四范式創(chuàng)始人兼CEO戴文淵博士的洞察是:“重新按照AI的要求制定標準和規(guī)范,實現(xiàn)規(guī)?;?。”
第四范式的定位一直不是SaaS產(chǎn)品公司,其核心能力在于 PaaS 層,AI應(yīng)用的構(gòu)建和積累都向平臺集中發(fā)力。
回顧五年的產(chǎn)品發(fā)展路徑,第四范式聯(lián)合創(chuàng)始人、首席研究科學家,陳雨強告訴《親愛的數(shù)據(jù)》:
“第一代、第二代產(chǎn)品的時候,AI對人才的要求特別高,需要非常強的統(tǒng)計學和編程功底,特別是C++底層編程,還要python編程和組件代碼能力。先知平臺(Sage)的出現(xiàn),用一個拖拉拽的界面,先建模,后上線,方便了數(shù)據(jù)科學家。2015年,在建設(shè)先知平臺的同時,(我們)科學技術(shù)部做了兩件事情,第一,高維機器學習模型,保證效果。第二,AutoML技術(shù),不依賴于大量科學家手工打造模型。歸根到底,三個字,降門檻。”
AI的原始社會,自己動手、豐衣足食。AI的現(xiàn)階段,陳雨強強調(diào):“以后就不會這樣了,都要現(xiàn)成的AI應(yīng)用。”
原始社會喝水得從燒制陶器做盛水器皿開始,現(xiàn)代社會瓶裝水3元一瓶,這是趨勢。
AI進化,第四范式思考出一套“心法”。
2017年庫伯學習圈(HyperCycle)。這個出生于1984年的理論在AI時代釋放了新能量。暗合體驗學習的四大步驟(反饋、反思、理論、行動),又對應(yīng)(數(shù)據(jù)采集、數(shù)據(jù)標注、機器學習、機器模型),閉環(huán)結(jié)構(gòu)實現(xiàn)對接和循環(huán)。用人類學習過程類比機器學習的過程,用一個熟悉事物的類似原理,去理解新鮮事物的規(guī)律。
可以這樣說,理解了庫伯學習圈,就理解了簡版AI原理,繞過數(shù)學與編程的大山。
2019年,第四范式曾用「1+N」回答企業(yè)轉(zhuǎn)型如何用 AI 構(gòu)建競爭力?!?」代表企業(yè)的核心業(yè)務(wù)需要用 AI 做到極致,「N」代表企業(yè)的眾多場景要用 AI 大規(guī)模落地。
“心法”解救普通人,“做法”解救無數(shù)亟需轉(zhuǎn)型的傳統(tǒng)企業(yè)。
2020年的發(fā)布會傳達出,第四范式想做的是,“心法”+“做法”的雙重智慧,這些都需要一個平臺屬性的產(chǎn)品去承載。
什么是數(shù)據(jù)形式?
過去的五年里,第四范式也有用高人力成本為合同項目填坑的事情,客戶有時并不接受建議的方法論。陳雨強說:“我們的經(jīng)驗來自于踩坑,但不是100%的客戶都接受。沒有人配合數(shù)據(jù)改造,苦坐在現(xiàn)有的數(shù)據(jù)垃圾堆上,龜速前進,(項目)花了三年才完工。”
2020年,越來越多的解決方案瞄準AI整個生命周期。AI模型開發(fā)從啟動到結(jié)束,包括數(shù)據(jù)準備、模型訓練、模型測試、模型上線等環(huán)節(jié)。每一個環(huán)節(jié)做到極致,整個周期才有可能高效。在規(guī)模化中追求極致,有一樣東西非常重要——標準化。圖片、文本、日志,數(shù)據(jù)的形式多種多樣,如何標準化?不同的業(yè)務(wù)場景,不同項目的數(shù)據(jù)平臺,如何標準化?AI應(yīng)用需要打通數(shù)據(jù),第四范式就推出了“數(shù)據(jù)形式”。所謂“不定義,無數(shù)據(jù)”,數(shù)據(jù)從哪來、到哪去、類型、結(jié)構(gòu)、關(guān)系……想要標準化,就是全方位地定義標準與格式。這些工作并不是一個新概念,名叫“數(shù)據(jù)治理”。數(shù)據(jù)形式是數(shù)據(jù)治理的終點。開始,一般是IT工程師對數(shù)據(jù)治理有深刻體會,也是他們最先意識到數(shù)據(jù)治理的重要性,而且數(shù)據(jù)治理最終是在IT層面落地。接著,AI工程師也感同身受了。
數(shù)據(jù)問題和IT問題高度混雜。第四范式是一家AI公司,幾乎擁有一家IT公司全棧人才,與IT公司一模一樣的人才配置。AI公司集體吐槽:“如果一個AI應(yīng)用工作量是100%,那95%都是在數(shù)據(jù)上面。”陳雨強吐槽:“定義不清楚的話,AI生命周期后面所有環(huán)節(jié),所有的人都會偏離,這也是做AI那么難的原因之一。做不到,AI科學家跑到每個細節(jié)去,跟每個工程師講,為什么這個數(shù)據(jù)必須這么編碼,為什么這個數(shù)據(jù)必須這么去拿,相當于做IT的人必須懂了AI,才能把這個事情完全做對。”一場嵌入式的革命,工程化、集成化隨處可見,煩Skr人。
讓一個新事物融入原有的體系是高難度、精細化的工作,也有人管這個過程叫,企業(yè)「智能化改造」。
AI落地不是科學發(fā)明,是一個具有時代代表性的復雜工程,背后藏著排山倒海的工程細節(jié)。數(shù)據(jù)治理就好比是建筑物的整體地基。
數(shù)據(jù)形式就好比萬里長城上的磚、天壇祈年殿里的榫卯、宮苑涼亭里劈成條的竹篾,它們是藏在中國建筑里的靈魂。從某種角度講,數(shù)據(jù)形式是藏在AI技術(shù)里的靈魂。“數(shù)據(jù)形式”一口氣解決了三個問題。第一個,數(shù)據(jù)缺閉環(huán),建模過程沒有反饋機制。比如,人是環(huán)境的函數(shù),人的成長需要有外部環(huán)境持續(xù)不斷地刺激(教育)。數(shù)據(jù)不斷供給,模型不斷迭代。第二個,數(shù)據(jù)不一致。使用線下的數(shù)據(jù)建模,到了線上模型效果不好,原因是線下的數(shù)據(jù)經(jīng)過了按照BI思路的ETL,導致使用了和真實的線上數(shù)據(jù)不一致的離線數(shù)據(jù)。錯誤的數(shù)據(jù)訓練出來的模型到了線上,當然效果不好。
陳雨強用了一個比喻,他說:“要想富,先修路,但是問題在于AI和BI的路是不一樣的,開火車得鋪鐵軌,馬車也不能在高速公路上奔跑。”第三個,數(shù)據(jù)無時序。AI數(shù)據(jù)沒有時間屬性就做不了時序特征。比如,最近半年共買了3件東西:鼠標、鍵盤、顯示器,消費物品數(shù)量為3。
數(shù)據(jù)有了時間的屬性,才能理解買東西的先后順序。算法能夠做出更好的特征來琢磨消費者近期、中期和遠期的行為。人的行為在變化,冬天買棉衣,夏天買T恤。統(tǒng)計數(shù)據(jù)不需要的,AI數(shù)據(jù)需要。第四范式AIOS產(chǎn)品負責人黃纓寧補充了一個例子。
數(shù)據(jù)形式至少需要三類knowhow(實用知識):第一,模型需要什么樣的數(shù)據(jù),業(yè)務(wù)的knowhow。第二,哪些數(shù)據(jù)從APP里面直接取,哪些數(shù)據(jù)可以從數(shù)據(jù)倉庫取,IT的knowhow。第三,這些數(shù)據(jù)里面,哪些是行為數(shù)據(jù),哪些是反饋數(shù)據(jù),數(shù)據(jù)怎么用,AI的knowhow。
知識都被封裝進了“數(shù)據(jù)形式”,封裝復雜性,是AI平臺解決問題的常用辦法。
數(shù)據(jù)形式是針對數(shù)據(jù)治理環(huán)節(jié)提出的標準,濃縮了各個業(yè)務(wù)場景中數(shù)據(jù)治理環(huán)節(jié)的經(jīng)驗沉淀,一鍵打開就能進入相應(yīng)業(yè)務(wù)場景的AI應(yīng)用,比如推薦場景、反欺詐場景。
有了它,實時與離線數(shù)據(jù)就能以同一個標準接入。有了它,能做到“一鍵打通”。有了它,準備就緒的數(shù)據(jù),從三類knowhow上解耦出來。作為客戶,甚至根本就不需要知道它是怎么做到的,只需要知道,這個東西能夠保證數(shù)據(jù)一致性,保障效果也比較好。數(shù)據(jù)形式也不是一蹴而就的,數(shù)據(jù)蓄水由分布式文件系統(tǒng)HDFS負責,實時特征由數(shù)據(jù)庫(RtiDB)負責,任務(wù)管理與調(diào)度由AI的操作系統(tǒng)搞定。這個專門的操作系統(tǒng)就是AIOS。
AIOS是什么?
但凡一臺筆記本電腦都會有一個桌面,就像太陽每天從東方升起。
IT知識成為生活常識,這源于1990年,比爾蓋茨說:“微軟公司的使命,是讓每個家庭的桌上都有一臺電腦。”
陳雨強說:“我們希望每個企業(yè)都用上一個Sage AIOS。”
但凡一個新世界,就會有一個入戶門。用戶進入AI的世界需要一個易操作的桌面,AIOS瞄準了這個痛點。Sage AIOS可以理解為一個AI版的Windows,很多產(chǎn)品功能都可以類比。
數(shù)據(jù)形式類比Windows的文件格式。AIOS的各種App類比Windows桌面上的各種應(yīng)用軟件。
App可以分為兩類:一類是業(yè)務(wù)應(yīng)用,直接提供某個場景的解決方案;一類是工具類應(yīng)用,給數(shù)據(jù)科學家和開發(fā)者用來構(gòu)建AI應(yīng)用。區(qū)分使用者和開發(fā)者,兩者都得償所愿。
HyperCycle套件(ML、CV、NLP)類比開發(fā)工具VisualStudio,利用庫伯學習圈理論,幫助客戶低門檻的進行AI應(yīng)用構(gòu)建。
陳雨強說:“庫伯學習圈(HyperCycle)產(chǎn)品,給業(yè)務(wù)人員用,不需要建模能力,不需要代碼能力。”
如果說“降門檻”是第四范式團隊出發(fā)時就立下的莊嚴承諾,那么帶HyperCycle前綴的三款產(chǎn)品,就是五年后對承諾的兌現(xiàn)。
AIOS外型酷似Windows,顏值高,使用者有天然親切感。AI獨角獸向PC時代霸主借勢,向曾經(jīng)的PC王者致敬。AIOS的獨白:“AI時代的Windows桌面,享受一模一樣的樂趣。”
比起之前的先知平臺, AIOS是不是僅僅變化了外觀呢?答案是否定的,這是一次產(chǎn)品理念的升級,AIOS+App是一種產(chǎn)品理念。身為一名合格的操作系統(tǒng),要有各種各樣的軟件,還要解決資源調(diào)度與處理數(shù)據(jù)管理。在黃纓寧看來,AIOS是一個橋梁。
對上,把文件、設(shè)備、任務(wù)、進程和線程給管理了起來。
對下,AIOS把所有的算力管理了起來,包括CPU、GPU、內(nèi)存這些計算資源硬件。存儲和計算這兩件事情,一個是文件格式,一個是計算的資源管理和調(diào)度。
兩件事情都弄好了,應(yīng)用就能夠更容易地在操作系統(tǒng)上構(gòu)建。
簡單的理解為,第四范式把很多東西裝在AIOS里來賣,一堆企業(yè)級的管理應(yīng)用,一套資源調(diào)度管理的工具,還有個數(shù)據(jù)中臺。
我的電腦,還在桌面
數(shù)據(jù)中臺是熱門詞匯,雖然業(yè)界對數(shù)據(jù)中臺的定義還沒有達成共識,廠家和專家對數(shù)據(jù)中臺的標準和意見也都各有不同。有專家認為,數(shù)據(jù)中臺一定要統(tǒng)一對外的服務(wù)。向上拓展能夠提高數(shù)據(jù)應(yīng)用的價值和賦能業(yè)務(wù)。向下發(fā)展能提高性能,保障數(shù)據(jù)的應(yīng)用能力。第四范式的數(shù)據(jù)中臺也是如此。向上,第四范式的數(shù)據(jù)中臺的第一任務(wù)是做3C(一致、時序、閉環(huán))的數(shù)據(jù)治理,數(shù)據(jù)經(jīng)過標準化處理成為數(shù)據(jù)形式,數(shù)據(jù)形式可以提供給任何一個AIOS上的APP。“數(shù)據(jù)中臺”類比Windows的系統(tǒng)文件,說得直白一點,只要你買了AIOS就給自帶數(shù)據(jù)中臺,這樣,數(shù)據(jù)治理的能力含在了AIOS里面。
數(shù)據(jù)形式在數(shù)據(jù)中臺上,因為訓練框架需要數(shù)據(jù)輸入。有些重要的組件也跑在數(shù)據(jù)中臺與資源調(diào)度上,訓練框架需要算力調(diào)度支持。“我的電腦”在Windows桌面上屹立不倒,它在AIOS版里,是“數(shù)據(jù)中臺”。
“用軟件定義算力”,第四范式是怎么做的?
“我們的第一行代碼,是寫在GDBT上的。”第四范式副總裁鄭曌告訴《親愛的數(shù)據(jù)》。這里的GDBT,全稱是“General Distributed Brilliant Technology”,自研的大規(guī)模機器學習框架。那么問題來了,為什么第四范式的第一行代碼不是寫在推薦算法里?很多AI解決方案提供商都有軟硬一體的優(yōu)化方案??芍^八仙過海各顯神通??墒牵芏嗥髽I(yè)的軟件框架是把開源的代碼拿來改一改,甚至有的連修改的能力都沒有。最后的結(jié)果無非是向業(yè)務(wù)妥協(xié),放棄一些做不到的場景。業(yè)界有人感嘆,現(xiàn)在是什么時代,是算法定義計算的時代。
一方面,AI應(yīng)用場景眾多,特點各異,實現(xiàn)最后應(yīng)用落地的開源軟件無論功能還是性能,尤其在大規(guī)模方面與實際需求有較大的距離,眾多AI廠商束手無策。自研的機器學習框架,能為軟硬一體的優(yōu)化方案帶來獨特優(yōu)勢,相當于獨門秘籍。底層實現(xiàn)方法不一樣,效果上有較大區(qū)別。越是量身定制,效果越好。另一方面,市場上流行的深度學習框架,解決的是偏語音和圖像類的問題,對于決策性問題深度學習的效果不是特別好。
陳雨強談道:“企業(yè)產(chǎn)生價值這個事情,關(guān)鍵是要抓住決策,企業(yè)的主要任務(wù)是經(jīng)營。”鄭曌談道,開源很難支持海量特征抽取,也支持不了大規(guī)模。所以,有很多企業(yè)就會選擇犧牲業(yè)務(wù)。不能做事中,就做事后。比如,銀行跨境交易事中反欺詐,這時候,不能慢。不僅要和時間賽跑,還要和秒表賽跑。受害人刷卡時,銀行系統(tǒng)當時就能準確識別這是一筆欺詐,刷卡一瞬間就阻斷。
事后分析則非常佛性,先讓他刷,刷完了之后再來分析,認定為異常交易,啟動追責……這時候,犯罪分子有可能已經(jīng)攜巨款跳上開往公海的船只,跑路了。實時的價值在這個例子中比較典型。事中阻斷的難度比事后大多了,這就是在很多企業(yè)內(nèi)部,屬于“要妥協(xié),做不到”的業(yè)務(wù)場景。
算力浪費的一部分原因是企業(yè)沒有能力優(yōu)化,利用率不高。AI發(fā)展急需硬件的升級,傳統(tǒng)硬件產(chǎn)品無法在基礎(chǔ)能力上滿足密集的線性代數(shù)計算和海量數(shù)據(jù)高吞吐的需求。AI算法需要對網(wǎng)絡(luò)連接權(quán)重進行多次調(diào)整,也需要很高的計算能力的支撐。問題反映到企業(yè)經(jīng)營中就會變成“錢沒少花”。
鄭曌告訴《親愛的數(shù)據(jù)》:“一個不懂算法的人,很難預計一個機器學習任務(wù)需要消耗多少內(nèi)存,用了多少算力,這需要查看日志,手工地去調(diào)整資源設(shè)置。舉個例子,隨便抓住一個第四范式辦公室里路過的AI工程師,突然問他,上周匯報的word版《工作周報》消耗了筆記本電腦多少內(nèi)存?他也會一臉懵逼,原因是很難估算。因此,分布式執(zhí)行引擎具備自適應(yīng)調(diào)度功能尤為重要。”所以,第四范式2020年也推出了一個分布式調(diào)度系統(tǒng),HyperScheduler(以下簡稱HS)。
沒有資源調(diào)度會怎么樣?“一核有難,八核圍觀”,利用率不高,浪費。利用率太高,容易掛了。
所以,需要Sage AIOS的“HS”,類比Windows“進程調(diào)度器”。通過自動資源推測、容器動態(tài)調(diào)度等方式,讓用戶不感知資源細節(jié)。通過資源共享、虛擬化等方式,讓集群算力利用率最大化。”
GDBT、HS和實時內(nèi)存數(shù)據(jù)庫(RTiDB)在 AI 全生命周期中扮演著核心引擎的角色,其所支撐的能力,不管是面向行為數(shù)據(jù)與反饋數(shù)據(jù)的自動數(shù)據(jù)處理、自動特征組合,還是面向模型訓練的算法自動探索、超參自動調(diào)節(jié),這些工作,都在算力消耗中占到了極大比例。底層框架任何一個微小的技術(shù)實現(xiàn),給全生命周期帶來的影響都會成倍放大。
所以,越是底層的能力,越需要極致、入微的優(yōu)化。第四范式還有一系列組合拳:PWS任務(wù)調(diào)度系統(tǒng),定制X86機器學習芯片,自研機器學習專用加速卡,數(shù)據(jù)壓縮算法,F(xiàn)PGA異構(gòu)加速芯片計算力調(diào)度。2019年的產(chǎn)品發(fā)布會上公布的數(shù)據(jù)顯示,相比普通服務(wù)器,SageOne 軟硬一體解決方案可實現(xiàn)高維模型構(gòu)建過程的6-12倍加速,TCO 降低到1/2到1/3。
“2020年,(我們)把TCO 降低到了1/10。”鄭曌談道。
在《親愛的數(shù)據(jù)》看來,當一部分AI企業(yè)還在賣算法的時候,第四范式建造了一個端到端的平臺,從拖拉拽,到模型可以直接上線。2020年,第四范式進行了產(chǎn)品升級,產(chǎn)品升級的說法也不準確,因為不止是產(chǎn)品升級了,產(chǎn)品理念也升級了,而整體的產(chǎn)品形態(tài)是AIOS+App。AIOS是積累了五年的AI應(yīng)用的底座,AIOS是一個承載無數(shù)數(shù)據(jù)形式與應(yīng)用的操作系統(tǒng)。第四范式 “Sage”產(chǎn)品下,發(fā)展出Sage AIOS、Sage Studio、Sage HyperCycle ML等。各個組件也比較靈活,這取決于客戶的實際需求。市場競爭還停留在Sage Studio類似功能的階段,第四范式卻已進入到AI桌面應(yīng)用的廣闊天地,進入到AIOS+App的產(chǎn)品理念,順著這個思路,未來有巨大的想象空間。AI是一個嶄新的市場,在做得好之前,先要做得對。這是決定生與死的一步。五年前,第四范式就已經(jīng)出發(fā)。2018年,成為AI獨角獸。2020年,第四范式仍然是一家創(chuàng)業(yè)公司,落地8000+客戶,覆蓋12000+場景。2020年8月20日,主題為“萬悟賦能,商業(yè)生花”的新產(chǎn)品發(fā)布會在上海舉辦,一個“悟”字,既包括AI落地方法論在經(jīng)驗摸索中“開竅”,也暗含產(chǎn)品理念在“想通”中升級。
靈感刺眼,頓悟來臨。AI落地沒有永遠正確的答案,且行且思,且行且悟。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )