九章云極方磊:數(shù)據(jù)科學(xué)平臺(tái)的機(jī)遇與未來(lái)

九章云極方磊:數(shù)據(jù)科學(xué)平臺(tái)的機(jī)遇與未來(lái)

  九章云極CEO方磊

“機(jī)器學(xué)習(xí)就是下一個(gè)數(shù)據(jù)庫(kù)”

從數(shù)據(jù)分析角度來(lái)看,硬件提供的大部分算力目前都用在了數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的處理上,在整個(gè)產(chǎn)業(yè)不斷發(fā)展的過(guò)程中新迭代出來(lái)的硬件會(huì)帶來(lái)更多的算力被激發(fā)出來(lái),現(xiàn)在機(jī)器學(xué)習(xí)或者說(shuō)深度學(xué)習(xí)甚至是人工智能的模型也都需要消耗大量的算力,所以未來(lái)機(jī)器學(xué)習(xí)‘流行’起來(lái)的趨勢(shì)還是非常明顯的,而且這個(gè)賽道一定足夠長(zhǎng),未來(lái)的前景也非常廣。

導(dǎo)語(yǔ)

2017年,Gartner首次提出了“數(shù)據(jù)科學(xué)平臺(tái)”的概念,同年,Gartner的研究表明全球數(shù)據(jù)科學(xué)平臺(tái)的市場(chǎng)增長(zhǎng)率已經(jīng)是商業(yè)智能(BI)軟件市場(chǎng)增長(zhǎng)率的兩倍,并預(yù)計(jì)2019年到2022年數(shù)據(jù)科學(xué)平臺(tái)將得到大規(guī)模地應(yīng)用。知名研究機(jī)構(gòu)Forrester也在一份研究中表示,從2017年到2021年,數(shù)據(jù)科學(xué)平臺(tái)市場(chǎng)的年復(fù)合增長(zhǎng)率將達(dá)15%。

九章云極聯(lián)合創(chuàng)始人兼CEO方磊博士近期接受了零壹財(cái)經(jīng)的專訪。這位前微軟資深工程師2008年曾經(jīng)作為早期骨干成員參與了微軟云計(jì)算平臺(tái)Azure的孵化與研發(fā);2011年又加入必應(yīng)(Bing)搜索團(tuán)隊(duì),設(shè)計(jì)并開(kāi)發(fā)了基于下一代大數(shù)據(jù)技術(shù)的索引處理架構(gòu)以及基于機(jī)器學(xué)習(xí)的搜索語(yǔ)義理解。作為一個(gè)微軟的“老兵”,回國(guó)創(chuàng)業(yè)5年的他這一次跟我們聊了聊他眼中的數(shù)據(jù)科學(xué)平臺(tái),以及為什么數(shù)據(jù)科學(xué)平臺(tái)在未來(lái)能得到大規(guī)模應(yīng)用。

2014年,在美國(guó)學(xué)習(xí)工作了10年的方磊決定回國(guó)創(chuàng)業(yè),專注做數(shù)據(jù)科學(xué)平臺(tái)。談到創(chuàng)立九章云極的初衷,方磊脫口而出的一個(gè)英文單詞是“Impact”,他說(shuō)一直希望做一點(diǎn)“有影響”的事情,這也是創(chuàng)業(yè)5年來(lái)一直不變的初心。至于為什么選擇做數(shù)據(jù)科學(xué)平臺(tái),方磊坦率地表示數(shù)據(jù)科學(xué)這個(gè)方向上的事才是自己最擅長(zhǎng)的。

從開(kāi)源說(shuō)起

方磊在解釋為何會(huì)選擇數(shù)據(jù)科學(xué)平臺(tái)這條賽道做商業(yè)探索時(shí),特別提到了“開(kāi)源”,“我們這個(gè)時(shí)代有幾種比較有‘解構(gòu)性’的力量,其中就包括‘開(kāi)源’”。

以谷歌為例,一直以來(lái)谷歌都在極力倡導(dǎo)和推廣開(kāi)源,并發(fā)布了一系列開(kāi)源項(xiàng)目。安卓和Chrome瀏覽器最開(kāi)始只是單個(gè)的開(kāi)源項(xiàng)目,現(xiàn)在基于這兩個(gè)產(chǎn)品開(kāi)發(fā)的插件和應(yīng)用數(shù)量之多,已經(jīng)構(gòu)建起了龐大的生態(tài)圈。2007年以開(kāi)源形式發(fā)布的安卓操作系統(tǒng)如今已經(jīng)成為份額第一的移動(dòng)操作系統(tǒng)??梢哉f(shuō),沒(méi)有開(kāi)源就沒(méi)有谷歌今日的成就。

“雖然開(kāi)源從一開(kāi)始的時(shí)候就是反商業(yè)直覺(jué)的,但現(xiàn)在卻已經(jīng)成了計(jì)算機(jī)技術(shù)發(fā)展的核心推動(dòng)力”,方磊認(rèn)為,開(kāi)源時(shí)代的到來(lái)讓IT業(yè)發(fā)生了“質(zhì)變”,“開(kāi)源將導(dǎo)致整個(gè)IT交付模式發(fā)生巨大變化,今天的IT公司賺錢(qián)要比20年前困難很多,開(kāi)源似乎讓開(kāi)發(fā)變得容易了,但I(xiàn)T公司的價(jià)值實(shí)現(xiàn)也相應(yīng)變得困難了,理解客戶的業(yè)務(wù)場(chǎng)景并證明自己的價(jià)值顯得至關(guān)重要”。

在方磊看來(lái),IT公司的價(jià)值如何實(shí)現(xiàn)要在選擇商業(yè)賽道之時(shí)就做充分的考量。九章云極在成立之初“沒(méi)有選擇底層的計(jì)算組件,而是選擇了與業(yè)務(wù)場(chǎng)景對(duì)接的中間層的分析組件”。方磊介紹說(shuō),“中間分析這一層稍微有一點(diǎn)萬(wàn)金油的感覺(jué),本質(zhì)上是把計(jì)算能力轉(zhuǎn)化為業(yè)務(wù)需要的成果,所以它是和商業(yè)有一定關(guān)系的,它所構(gòu)建的壁壘不完全是技術(shù)標(biāo)準(zhǔn)的壁壘,而是和業(yè)務(wù)場(chǎng)景相關(guān)的商業(yè)壁壘”。這里的“中間層”在九章云極的產(chǎn)品體系中主要指機(jī)器學(xué)習(xí)平臺(tái)DataCanvas APS和實(shí)時(shí)決策中心DataCanvas RT。

九章云極方磊:數(shù)據(jù)科學(xué)平臺(tái)的機(jī)遇與未來(lái)

“機(jī)器學(xué)習(xí)就是下一個(gè)數(shù)據(jù)庫(kù)”,提及對(duì)行業(yè)發(fā)展方向的思考,方磊認(rèn)為“從數(shù)據(jù)分析角度來(lái)看,硬件提供的大部分算力目前都用在了數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的處理上,在整個(gè)產(chǎn)業(yè)不斷發(fā)展的過(guò)程中新迭代出來(lái)的硬件會(huì)帶來(lái)更多的算力被激發(fā)出來(lái),現(xiàn)在機(jī)器學(xué)習(xí)或者說(shuō)深度學(xué)習(xí)甚至是人工智能的模型也都需要消耗大量的算力,所以未來(lái)機(jī)器學(xué)習(xí)‘流行’起來(lái)的趨勢(shì)還是非常明顯的,而且這個(gè)賽道一定足夠長(zhǎng),未來(lái)的前景也非常廣”。

如何看待數(shù)據(jù)分析的演進(jìn)?

2015年曾經(jīng)被經(jīng)緯中國(guó)合伙人左凌燁稱為“企業(yè)級(jí)服務(wù)投資的元年”,在企業(yè)級(jí)服務(wù)中經(jīng)緯投資過(guò)很多SaaS相關(guān)的企業(yè)。“當(dāng)時(shí)的SaaS都是非常容易理解的,比如用于開(kāi)票和記賬,就不是偏技術(shù)的SaaS”,方磊回憶說(shuō)“剛回國(guó)的時(shí)候很多投資人還不知道機(jī)器學(xué)習(xí)是什么,也不知道九章云極是做什么的,那會(huì)兒的投資人還不是很看好我們這個(gè)方向,但到了2016、2017年,情況開(kāi)始有了一些變化,因?yàn)槿斯ぶ悄芘d起了,我很堅(jiān)持從數(shù)據(jù)分析的角度來(lái)看人工智能興起這個(gè)問(wèn)題”。

方磊為我們梳理了一下數(shù)據(jù)分析的技術(shù)進(jìn)展:“80年代開(kāi)始就有了數(shù)據(jù)分析,當(dāng)時(shí)是從數(shù)據(jù)庫(kù)開(kāi)始的,那時(shí)候只是把數(shù)據(jù)適配在一起做一些固定的事情,比如編制企業(yè)報(bào)表。到了2000年左右數(shù)據(jù)分析進(jìn)入第二個(gè)發(fā)展階段,我們稱為BI可視化分析。這個(gè)時(shí)候的可視化分析就是用一些拖拽完成簡(jiǎn)單的餅圖插圖,也就是我們今天習(xí)以為常的BI分析做的一部分事情。

2015年以后,Gartner提出數(shù)據(jù)分析進(jìn)入了‘增強(qiáng)分析’階段,就是通過(guò)機(jī)器學(xué)習(xí)或者人工智能技術(shù)的加持增強(qiáng)數(shù)據(jù)分析能力。這里我們看到有一個(gè)從可視化分析進(jìn)展到模型分析的趨勢(shì),可視化分析是通過(guò)視覺(jué)呈現(xiàn)產(chǎn)生一些洞察,但模型分析產(chǎn)生的洞察更強(qiáng)大,因?yàn)楹芏嗲闆r下的分析無(wú)法被有效可視化呈現(xiàn),比如反欺詐分析中的數(shù)以億計(jì)的交易”。

“整個(gè)數(shù)據(jù)分析我認(rèn)為可以分四塊”,方磊總結(jié)說(shuō),“第一塊是數(shù)據(jù)倉(cāng)庫(kù),就是數(shù)據(jù)的一個(gè)集合;第二塊叫數(shù)據(jù)治理,就是要把數(shù)據(jù)的意義弄清楚,我們稱之為‘元數(shù)據(jù)管理’;第三塊是BI可視化,以圖形化呈現(xiàn);最后一塊就是機(jī)器學(xué)習(xí)。從堆?;囊暯莵?lái)看,最下面是數(shù)據(jù),最上面是商業(yè)價(jià)值,而中間發(fā)生的所有事情都可以被看作是數(shù)據(jù)分析,所以說(shuō)這個(gè)行業(yè)其實(shí)是一個(gè)非常大的行業(yè)。九章云極的核心就是把數(shù)據(jù)變成模型,為客戶提供模型能力的技術(shù)工具或服務(wù),以支撐各類商業(yè)場(chǎng)景。”

為什么需要數(shù)據(jù)科學(xué)平臺(tái)?

在銀行業(yè)中,客戶流失是銀行在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中需要面對(duì)的一大難題,而獲客成本普遍高于老客維護(hù)的成本,因此從海量客戶交易數(shù)據(jù)中挖掘出對(duì)客戶流失有影響的信息,建立量化模型,合理預(yù)測(cè)客戶流失風(fēng)險(xiǎn)是十分必要的。

方磊通過(guò)銀行客戶流失預(yù)測(cè)模型向我們解釋了應(yīng)用數(shù)據(jù)分析模型的必要性,“我們的分析師或者說(shuō)數(shù)據(jù)科學(xué)家把這類業(yè)務(wù)問(wèn)題轉(zhuǎn)換成機(jī)器學(xué)習(xí)問(wèn)題的第一步就是要定義什么是客戶流失。比如一個(gè)人在銀行的資產(chǎn)(包括購(gòu)買的理財(cái)產(chǎn)品、貴金屬、外匯等)三個(gè)月后下降了60%,我們就定義這個(gè)客戶可能會(huì)流失。接下來(lái)就要解決如何保有這個(gè)客戶,最常見(jiàn)的方法就是給他推薦相關(guān)產(chǎn)品,這就又涉及到推薦模型。任何一個(gè)具體的商業(yè)場(chǎng)景都是復(fù)雜的,中間還會(huì)切分成很多環(huán)節(jié)和很多的模型”。

方磊還舉了保險(xiǎn)業(yè)應(yīng)用聲紋識(shí)別解決騙保調(diào)查問(wèn)題和應(yīng)用圖像識(shí)別解決車險(xiǎn)核查問(wèn)題,他認(rèn)為“幾乎所有的商業(yè)場(chǎng)景都需要考慮用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來(lái)做輔助,商業(yè)價(jià)值的實(shí)現(xiàn)路徑已經(jīng)開(kāi)始有了變化,而這種變化背后就需要數(shù)據(jù)科學(xué)平臺(tái)的模型能力做支撐。”

三個(gè)問(wèn)題了解九章云極

1、九章云極是開(kāi)發(fā)模型的算法公司?

方磊:“九章云極不把自己定位為一個(gè)模型算法的公司,我們希望客戶能夠自己完成模型的創(chuàng)建,這可能跟我們友商的定位是不一樣的。有些很優(yōu)秀的公司比如麥肯錫,比如埃森哲,他們是有很龐大的團(tuán)隊(duì)在幫銀行做模型。

要做好一個(gè)模型,我覺(jué)得技術(shù)在其中占30%到40%,剩下的其實(shí)是業(yè)務(wù)知識(shí)。也就是說(shuō),如果不理解好業(yè)務(wù)就很難把模型做好,因?yàn)槟P屠飼?huì)包含非常多的業(yè)務(wù)常識(shí)。比如小微貸款模型就需要考察企業(yè)的隱形負(fù)債風(fēng)險(xiǎn),常年做審計(jì)的人應(yīng)該知道,要考察的第一項(xiàng)就是借貸是否拆整為零:這家公司如果收到不同賬號(hào)打款的總額是整額的話,其實(shí)是有負(fù)債風(fēng)險(xiǎn)的,有可能是去借了錢(qián)然后拆分打進(jìn)來(lái)。那么這個(gè)事情是需要人的常識(shí)性經(jīng)驗(yàn)來(lái)做判斷支持的,需要他把這樣的經(jīng)驗(yàn)變成機(jī)器學(xué)習(xí)里面的一個(gè)特征,機(jī)器學(xué)習(xí)就可以做出相應(yīng)的風(fēng)險(xiǎn)告警。

這種場(chǎng)景下數(shù)據(jù)科學(xué)家的作用就凸顯出來(lái),數(shù)據(jù)科學(xué)家是一個(gè)復(fù)合型工種,既要懂業(yè)務(wù),同時(shí)又能夠?qū)I(yè)務(wù)問(wèn)題轉(zhuǎn)化定義為機(jī)器學(xué)習(xí)問(wèn)題,然后他用數(shù)據(jù)分析平臺(tái)這樣的工具來(lái)解決業(yè)務(wù)問(wèn)題。我們?nèi)祟惖暮芏喑WR(shí)是跟業(yè)務(wù)相關(guān)的,機(jī)器學(xué)習(xí)在某些方面可以洞察出微妙的數(shù)據(jù)信息,但有些還是需要依賴人的技能。我們雖然也為客戶提供做模型的解決方案,將很多事情模板化,把難度降下來(lái),這樣就對(duì)入門(mén)客戶簡(jiǎn)單很多,但我們不是一家做模型的公司,而是提供可以支撐很多模型的工具型平臺(tái)的公司。”

2、九章云極是人工智能公司?

方磊:“人工智能是一個(gè)非常大的話題,在我個(gè)人來(lái)看,人工智能是一個(gè)非常泛化的問(wèn)題。智能是個(gè)很有意思的事情,有人認(rèn)為AlphaGO之后的叫智能,還有人認(rèn)為聽(tīng)說(shuō)讀寫(xiě)叫智能,每個(gè)人的想法都不一樣。九章云極的slogan是數(shù)據(jù)科學(xué)賦能企業(yè)AI,企業(yè)需要人工智能這個(gè)泛泛的說(shuō)法就說(shuō)明企業(yè)需要有一個(gè)‘大腦’,如何展現(xiàn)智能的一面其實(shí)有很多實(shí)現(xiàn)的途徑,我認(rèn)為數(shù)據(jù)科學(xué)是以數(shù)據(jù)為基礎(chǔ)實(shí)現(xiàn)智能的一條主流路徑”。

3、九章云極是大數(shù)據(jù)公司?

方磊:“這取決于如何理解大數(shù)據(jù),很多人理解大數(shù)據(jù)公司就是有數(shù)據(jù)的公司,但我們不賣數(shù)據(jù)也不碰數(shù)據(jù),只是在分析層面做文章,為企業(yè)提供工具型平臺(tái)。”

方磊的數(shù)據(jù)科學(xué)人才觀

方磊回憶,2000年他從清華畢業(yè)時(shí)市面上還有很多Excel學(xué)習(xí)班。“每一個(gè)新的技能出現(xiàn)的時(shí)候,會(huì)顯得好像高大上或者很難,其實(shí)到最后它都變成了一個(gè)普遍的技能。我認(rèn)為 ‘數(shù)據(jù)科學(xué)家’這個(gè)title的出現(xiàn)是BI可視化分析轉(zhuǎn)向AI模型分析時(shí)所要求的技術(shù)能力的體現(xiàn)。現(xiàn)在相關(guān)工種的技能是向上遷移的,大眾學(xué)到新技能的路徑多了,技能的壁壘也就會(huì)相應(yīng)降低。

數(shù)據(jù)科學(xué)家需要具備三種知識(shí)背景:計(jì)算機(jī)、統(tǒng)計(jì)以及應(yīng)用數(shù)學(xué)的背景。一個(gè)好的數(shù)據(jù)科學(xué)家苗子或者想從事這個(gè)方向的人應(yīng)該具備比較好的平衡業(yè)務(wù)和技術(shù)的能力。工具雖然在更新迭代,但相對(duì)于學(xué)習(xí)工具的難度,把業(yè)務(wù)問(wèn)題轉(zhuǎn)換為機(jī)器學(xué)習(xí)問(wèn)題的難度更大,這部分角色更像是一個(gè)商業(yè)分析師。”

ToB業(yè)務(wù)出海是大勢(shì)所趨?

服務(wù)全球客戶,是方磊一貫的目標(biāo)。他判斷中國(guó)的ToB業(yè)務(wù)出海在3到5年以后會(huì)慢慢成為主流。對(duì)此他類比了一下國(guó)內(nèi)游戲企業(yè)的ToC業(yè)務(wù)出海:“ToC業(yè)務(wù)出海很大程度上得益于蘋(píng)果的AppStore,沒(méi)有AppStore以前美國(guó)人在感恩節(jié)買中國(guó)的游戲是不可能的,而現(xiàn)在就很簡(jiǎn)單,直接放在AppStore上全球用戶都可以下載使用了。也就是說(shuō)業(yè)務(wù)的線上化讓跨境競(jìng)爭(zhēng)變得相對(duì)容易。

ToB業(yè)務(wù)出海在以前是更困難的,但現(xiàn)在ToB業(yè)務(wù)有一個(gè)類似AppStore的接入場(chǎng)景,那就是云。亞馬遜的AWS和微軟的Azure在美國(guó)的市場(chǎng)份額可達(dá)70%,美國(guó)的大公司業(yè)務(wù)現(xiàn)在基本都部署在云上。當(dāng)企業(yè)都在云上開(kāi)展業(yè)務(wù)以后,云就成為一個(gè)很大的入口,在云上我們就可以去提供全球服務(wù)和參與競(jìng)爭(zhēng)了。我能看到ToB業(yè)務(wù)的出海一定會(huì)經(jīng)歷這個(gè)過(guò)程”。

開(kāi)放銀行模式帶來(lái)的機(jī)遇與挑戰(zhàn)

“開(kāi)放銀行從流程自動(dòng)化轉(zhuǎn)到?jīng)Q策的自動(dòng)化,這個(gè)就是我們最大的機(jī)會(huì)”,這是方磊認(rèn)為開(kāi)放銀行模式能給九章云極帶來(lái)的機(jī)遇。“目前銀行正在從交易型結(jié)構(gòu)轉(zhuǎn)向認(rèn)知型結(jié)構(gòu),開(kāi)放銀行則會(huì)加速這個(gè)過(guò)程。開(kāi)放銀行模式是基于場(chǎng)景的,在接觸不同的業(yè)務(wù)場(chǎng)景后需要做的業(yè)務(wù)決策就變多了,所以我們向銀行輸出的核心能力是幫助銀行從流程自動(dòng)化轉(zhuǎn)向決策自動(dòng)化。”

“開(kāi)放銀行在我理解還是把流程自動(dòng)化的能力開(kāi)放出來(lái),決策自動(dòng)化的能力銀行還在慢慢構(gòu)建當(dāng)中。以前銀行業(yè)務(wù)自動(dòng)化主要做的純粹是流程,比如存、貸、匯業(yè)務(wù)的流程自動(dòng)化,但現(xiàn)在銀行思考更多的是如何吸引客戶存的更多或者如何降低放貸的風(fēng)險(xiǎn),過(guò)去銀行是靠人來(lái)做這些決策,慢慢這些都可以通過(guò)模型來(lái)決策了。到了開(kāi)放銀行時(shí)代,由于場(chǎng)景的豐富性,各種各樣的業(yè)務(wù)都更加需要和依賴決策的自動(dòng)化,模型的價(jià)值、數(shù)據(jù)科學(xué)平臺(tái)的價(jià)值就凸顯出來(lái),這就是九章云極的機(jī)遇所在。”

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2019-07-11
九章云極方磊:數(shù)據(jù)科學(xué)平臺(tái)的機(jī)遇與未來(lái)
  九章云極CEO方磊“機(jī)器學(xué)習(xí)就是下一個(gè)數(shù)據(jù)庫(kù)”從數(shù)據(jù)分析角度來(lái)看,硬件提供的大部分算力目前都用在了數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)的處理上,在整個(gè)產(chǎn)業(yè)不

長(zhǎng)按掃碼 閱讀全文