作者 | 丁園園
當(dāng)前,在全球企業(yè)“上云”浪潮熱度不減的背景下,企業(yè)紛紛將目光聚焦智能升級(jí),衍生數(shù)據(jù)量因此面臨爆發(fā)式增長(zhǎng),對(duì)數(shù)據(jù)處理、人工智能等業(yè)務(wù)需求也日趨迫切。6月25日,記者與Mobvista匯量科技副總裁朱亞?wèn)|基于匯量科技新一代“一站式云原生大數(shù)據(jù)AI平臺(tái)”EnginePlus進(jìn)行了一次深度交流。
EnginePlus作為一站式的云原生大數(shù)據(jù)人工智能平臺(tái),可為客戶提供面向多種業(yè)務(wù)場(chǎng)景的實(shí)時(shí)數(shù)據(jù)湖框架StarLake、機(jī)器學(xué)習(xí)框架MindAlpha等自主研發(fā)的開(kāi)源工具,能夠與Spark計(jì)算框架深度集成,從而賦能客戶實(shí)現(xiàn)更加高效便捷的數(shù)據(jù)智能升級(jí)。
朱亞?wèn)|博士介紹到:“相比于其他的開(kāi)源大數(shù)據(jù)計(jì)算框架和公司,EnginePlus平臺(tái)具有獨(dú)特的優(yōu)勢(shì),主要在于一站式、云原生、以及超大規(guī)模等特點(diǎn)。”
EnginePlus:聚焦大數(shù)據(jù) + AI + 云原生的“三板斧”
云原生的數(shù)據(jù)分析架構(gòu),經(jīng)歷了從傳統(tǒng)數(shù)倉(cāng),到數(shù)據(jù)湖,再到湖倉(cāng)一體的演進(jìn),對(duì)于湖倉(cāng)一體的未來(lái),朱亞?wèn)|有著自己的看法:“湖倉(cāng)一體的未來(lái)方向主要有兩個(gè)方面,一是統(tǒng)一數(shù)據(jù)存儲(chǔ),二是計(jì)算引擎對(duì)湖倉(cāng)一體的適配”。
匯量科技一直在進(jìn)行有關(guān)數(shù)據(jù)湖和湖倉(cāng)一體的技術(shù)實(shí)踐。EnginePlus團(tuán)隊(duì)自研并開(kāi)源的數(shù)據(jù)湖框架StarLake,便能夠?qū)崿F(xiàn)大規(guī)模數(shù)據(jù)的實(shí)時(shí)攝入和更新,高效構(gòu)建湖倉(cāng)一體化分析平臺(tái)。
除了數(shù)據(jù)湖外,對(duì)數(shù)據(jù)進(jìn)行人工智能建模,更是挖掘數(shù)據(jù)背后價(jià)值、賦能業(yè)務(wù)的一條重要途徑。EnginePlus團(tuán)隊(duì)自研、開(kāi)源的機(jī)器學(xué)習(xí)框架MindAlpha,能夠輕松處理超大規(guī)模離散特征,并與EnginePlus平臺(tái)之上的Spark on k8s、StarLake無(wú)縫結(jié)合,提供數(shù)據(jù)智能升級(jí)的一體化服務(wù)。
另外,企業(yè)數(shù)字化轉(zhuǎn)型過(guò)程中,“云原生”概念被經(jīng)常提及,而EnginePlus便是采用了云原生的架構(gòu),朱亞?wèn)|認(rèn)為:“得益于云原生的架構(gòu)和優(yōu)化,對(duì)于用戶來(lái)說(shuō),能夠做到很快捷的部署,在大幅提升計(jì)算效率的同時(shí),也具備很高的性價(jià)比。”
記者了解到,Mobvista匯量科技的新一代大數(shù)據(jù)智能平臺(tái)EnginePlus近日已與華為云進(jìn)行合作,賦能企業(yè)數(shù)字化轉(zhuǎn)型。
在朱亞?wèn)|看來(lái),此次EnginePlus聯(lián)手華為云,一方面能夠推進(jìn)匯量科技的“SaaS工具生態(tài)”戰(zhàn)略的執(zhí)行和落地;另一方面,在全球企業(yè)上云浪潮的背景下,EnginePlus與華為云實(shí)現(xiàn)產(chǎn)品技術(shù)層面的深度集成,從而賦能更多云端用戶、助力其業(yè)務(wù)增長(zhǎng),同樣有益于華為云的服務(wù)生態(tài)。
談及未來(lái)EnginePlus的發(fā)展方向,朱亞?wèn)|希望在未來(lái)可以構(gòu)建新一代的基建體系,幫助客戶用最低的技術(shù)門(mén)檻、最低的成本、更小的風(fēng)險(xiǎn)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、智能化升級(jí):
“我們希望能幫助客戶快速建立起從數(shù)據(jù)攝入、分析到AI模型離線訓(xùn)練、在線預(yù)測(cè)的一體化能力,從而快速高效地實(shí)現(xiàn)企業(yè)的數(shù)字化轉(zhuǎn)型和升級(jí)。”
以下為對(duì)話精選摘錄:
問(wèn):EnginePlus是一個(gè)怎樣的產(chǎn)品?在企業(yè)業(yè)務(wù)、數(shù)字化轉(zhuǎn)型過(guò)程中,可以幫助用戶解決哪些問(wèn)題?
朱亞?wèn)|:EnginePlus是一個(gè)一站式的云原生大數(shù)據(jù)和人工智能平臺(tái),提供從數(shù)據(jù)攝入、大數(shù)據(jù)計(jì)算分析、到AI模型訓(xùn)練、模型線上推理的一站式SaaS服務(wù);目前已應(yīng)用于互聯(lián)網(wǎng)金融、出海電商、移動(dòng)廣告等多種業(yè)務(wù)場(chǎng)景。
問(wèn):相比同類產(chǎn)品,EnginePlus有何特點(diǎn)?
朱亞?wèn)|:當(dāng)前,越來(lái)越多的企業(yè)都加入了研發(fā)開(kāi)源機(jī)器學(xué)習(xí)平臺(tái)框架和大數(shù)據(jù)計(jì)算框架的大潮,比如Google的TensorFlow,F(xiàn)acebook的PyTorch,以及Hadoop,此外,我們看到Databricks也研發(fā)了Spark。
然而,市面上主流產(chǎn)品仍存在一些不足之處,例如一些企業(yè)提供的AI框架與大數(shù)據(jù)計(jì)算框架之間是割裂的,同時(shí)對(duì)云原生和數(shù)據(jù)湖的支持較弱,且回到AI框架本身,在互聯(lián)網(wǎng)語(yǔ)境下,這些平臺(tái)對(duì)模型的超大規(guī)模離散特征支持較差,并缺乏一體化的在線推理能力;而一些提供開(kāi)源大數(shù)據(jù)計(jì)算框架的公司,其機(jī)器學(xué)習(xí)框架層面的能力又較弱。
所以,總的來(lái)講,EnginePlus平臺(tái)具有自己獨(dú)特的核心優(yōu)勢(shì),包括一站式、云原生、超大規(guī)模等特點(diǎn)。
問(wèn):此次EnginePlus選擇攜手華為云,合作契機(jī)是什么?對(duì)于EnginePlus自身發(fā)展來(lái)講,這次合作具有怎樣的戰(zhàn)略意義?
朱亞?wèn)|:首先,Mobvista匯量科技和華為云已經(jīng)有比較久的業(yè)務(wù)合作,相互之間有較好地業(yè)務(wù)契合度和流暢的業(yè)務(wù)溝通經(jīng)驗(yàn),這個(gè)是基本的背景和前提;另一方面,華為云在ICT領(lǐng)域有30多年的技術(shù)和業(yè)務(wù)積累,企業(yè)具備很強(qiáng)的針對(duì)to B領(lǐng)域的交付方案解決能力,這個(gè)恰好是匯量科技“SaaS工具生態(tài)”戰(zhàn)略亟需的基礎(chǔ)能力;所以這次EnginePlus和華為云的合作,對(duì)于匯量科技“SaaS工具生態(tài)”戰(zhàn)略的執(zhí)行和落地都有很好的推進(jìn)作用;
另外,在全球企業(yè)上云浪潮的背景下,EnginePlus也能幫助云上企業(yè)在充分利用云商已有服務(wù)的同時(shí),實(shí)現(xiàn)高效的大數(shù)據(jù)分析、計(jì)算、及數(shù)據(jù)智能的挖掘和利用,這個(gè)對(duì)華為云的服務(wù)生態(tài)也是非常有益的。
問(wèn):從技術(shù)層面,EnginePlus與華為云合作模式是怎樣的?
朱亞?wèn)|:EnginePlus與華為云進(jìn)行了深度的產(chǎn)品技術(shù)集成,包括在華為云CCE容器引擎之上構(gòu)建的統(tǒng)一彈性計(jì)算引擎,在華為云OBS對(duì)象存儲(chǔ)之上構(gòu)建的湖倉(cāng)一體數(shù)據(jù)框架StarLake,以及離線在線統(tǒng)一的MindAlpha AI框架。
整體上來(lái)講,EnginePlus在華為云上實(shí)現(xiàn)了高彈性、高性能、計(jì)算存儲(chǔ)分離的架構(gòu),并能夠?qū)崿F(xiàn)便捷、快速的部署。牽手華為云后,EnginePlus將以其云原生、一站式數(shù)據(jù)智能的服務(wù),賦能華為云全球客戶,為其提供從數(shù)據(jù)分析到智能模型決策的一站式服務(wù)。
問(wèn):您能簡(jiǎn)單聊一聊EnginePlus誕生于怎樣的背景? 這些年經(jīng)歷了什么樣的演化?
朱亞?wèn)|:2017年匯量科技 自主研發(fā)了以AI+Big Data為核心的技術(shù)中臺(tái)架構(gòu),之后多個(gè)技術(shù)中臺(tái)組件研發(fā)產(chǎn)出,并成功賦能匯量科技的多個(gè)前臺(tái)業(yè)務(wù),包括數(shù)據(jù)中臺(tái)Datatory、統(tǒng)一的計(jì)算引擎中臺(tái)、以及機(jī)器學(xué)習(xí)中臺(tái)MindAlpha等,后來(lái),這些中臺(tái)組件都成為了EnginePlus SaaS平臺(tái)的重要基礎(chǔ);
在深度融合自身業(yè)務(wù)需求場(chǎng)景的同時(shí),匯量科技 技術(shù)中臺(tái)從中沉淀出平臺(tái)化的能力,使之產(chǎn)品化、商業(yè)化,對(duì)外創(chuàng)造價(jià)值,從而最終建立可對(duì)外商業(yè)化輸出的EnginePlus平臺(tái);以匯量科技旗下程序化互動(dòng)式廣告平臺(tái)Mintegral為例,其日均數(shù)據(jù)量已達(dá)PB級(jí),調(diào)度數(shù)萬(wàn)CPU核心?;贓nginePlus平臺(tái),Mintegral能實(shí)時(shí)處理用戶行為特征,進(jìn)行毫秒級(jí)反饋?lái)憫?yīng)。在每天千億次DNN模型預(yù)測(cè)請(qǐng)求下,滿足萬(wàn)億級(jí)排序量的排序業(yè)務(wù)服務(wù),有效奠定了Mintegral在全球的領(lǐng)先地位。
問(wèn):前面提到,EnginePlus最初源于匯量科技自身廣告業(yè)務(wù)的數(shù)據(jù)處理需求,目前,EnginePlus處于匯量科技業(yè)務(wù)鏈條的哪一環(huán)?
朱亞?wèn)|:2019年,匯量科技提出“SaaS工具生態(tài)”戰(zhàn)略:通過(guò)構(gòu)建更完善的產(chǎn)品矩陣,覆蓋開(kāi)發(fā)者由小到大發(fā)展過(guò)程中,從統(tǒng)計(jì)分析、用戶增長(zhǎng)和商業(yè)化到云成本優(yōu)化等不同階段的核心場(chǎng)景。脫胎于匯量科技自身業(yè)務(wù)實(shí)踐的EnginePlus,作為“SaaS工具生態(tài)”的重要組成部分,也將與華為云共享“技術(shù)外溢”成果,賦能更多用戶,助力企業(yè)的數(shù)字化轉(zhuǎn)型之路。
問(wèn):EnginePlus的技術(shù)架構(gòu)如何?StarLake數(shù)據(jù)湖框架的應(yīng)用場(chǎng)景如何?
朱亞?wèn)|:EnginePlus包含了幾大塊,具體來(lái)講有StarLake(自研數(shù)據(jù)湖框架),Spark on K8s(云原生計(jì)算平臺(tái)),MindAlpha(自研開(kāi)源機(jī)器學(xué)習(xí)框架),MindAlpha Serving(異構(gòu)彈性預(yù)測(cè)服務(wù))等多個(gè)組件功能,用戶可以根據(jù)需求單個(gè)/多個(gè)組合使用;
數(shù)據(jù)湖作為一種新一代的中心數(shù)據(jù)存儲(chǔ)的容器,具有海量、高效、便捷的特性,但伴隨著的是相當(dāng)高的數(shù)據(jù)處理復(fù)雜度和高昂的計(jì)算成本。為了讓客戶更好地用上這種數(shù)據(jù)儲(chǔ)存分析方式,匯量科技 自研并開(kāi)源了數(shù)據(jù)湖框架StarLake,實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)的實(shí)時(shí)攝入和更新;通過(guò)優(yōu)化的行列upsert功能、高并發(fā)入湖、元數(shù)據(jù)管理、對(duì)象儲(chǔ)存IO性能深度優(yōu)化等特性,StarLake數(shù)據(jù)湖框架能夠高效構(gòu)建湖倉(cāng)一體化的分析平臺(tái),相比開(kāi)源同類數(shù)據(jù)湖框架具有顯著優(yōu)勢(shì)。所以StarLake適用于大數(shù)據(jù)量的用戶行為信息聚合、對(duì)大批量行列更新有較高性能要求的場(chǎng)景。
問(wèn):MindAlpha機(jī)器學(xué)習(xí)框架是怎樣解決海量數(shù)據(jù)的分析和模型訓(xùn)練挑戰(zhàn)的?
朱亞?wèn)|:MindAlpha機(jī)器學(xué)習(xí)框架能輕松處理大規(guī)模的離散特征,與EnginePlus之上的Spark on K8s、StarLake無(wú)縫結(jié)合,它能提供從數(shù)據(jù)的輸入到智能的一體化、一站式的高效體驗(yàn)。
MindAlpha的開(kāi)源Parameter Server SDK支持千億級(jí)大規(guī)模稀疏離散特征,與PyTorch、Spark MLLib無(wú)縫銜接,特征處理與模型推理邏輯和參數(shù)能全自動(dòng)導(dǎo)出至線上Serving服務(wù)。同時(shí),其高性能在線Serving能進(jìn)行模型橫向切分,支持萬(wàn)億參數(shù),具有低延遲、自動(dòng)彈性伸縮的特性,能進(jìn)行CPU、GPU異構(gòu)混布調(diào)度和負(fù)載均衡。
問(wèn):前面提到,EnginePlus自研的數(shù)據(jù)湖框架StarLake,是你們進(jìn)行的有關(guān)數(shù)據(jù)湖和湖倉(cāng)一體的技術(shù)實(shí)踐。你怎么看湖倉(cāng)一體的未來(lái)?
朱亞?wèn)|:湖倉(cāng)一體的未來(lái)方向主要有兩個(gè)方面,第一個(gè)是統(tǒng)一數(shù)據(jù)存儲(chǔ),以湖為底座,通過(guò)流批一體,并發(fā)更新等創(chuàng)新技術(shù),簡(jiǎn)化數(shù)據(jù)導(dǎo)入的流程和成本;
第二個(gè)方向是計(jì)算引擎對(duì)湖倉(cāng)一體的適配,實(shí)時(shí)、批量計(jì)算、統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí),都能夠直接使用在湖上構(gòu)建的存儲(chǔ)體系,消除數(shù)據(jù)冗余,最大化數(shù)據(jù)資產(chǎn)的價(jià)值。
問(wèn):目前,企業(yè)數(shù)字化轉(zhuǎn)型過(guò)程中,越來(lái)越多地提到“云原生”概念。之前公網(wǎng)資料里,EnginePlus也是云原生數(shù)據(jù)湖的深度用戶,EnginePlus在云原生領(lǐng)域都進(jìn)行了哪些技術(shù)探索?對(duì)用戶來(lái)說(shuō),云原生架構(gòu)有哪些實(shí)際意義?
朱亞?wèn)|:EnginePlus從一開(kāi)始采用了完全云原生的架構(gòu)設(shè)計(jì),在計(jì)算引擎層面,針對(duì)Spark on K8s做了大量?jī)?yōu)化,解決了很多社區(qū)開(kāi)源版本的問(wèn)題;在數(shù)據(jù)讀寫(xiě)層面,針對(duì)云上對(duì)象存儲(chǔ)系統(tǒng),重新開(kāi)發(fā)了異步并行IO的實(shí)現(xiàn),相比開(kāi)源提升了3倍的性能;整個(gè)平臺(tái)的所有組件都針對(duì)云環(huán)境做了適配。
對(duì)于用戶來(lái)說(shuō),得益于云原生的架構(gòu)和優(yōu)化,能夠做到很快捷的部署,同時(shí)計(jì)算資源和存儲(chǔ)資源都具有高度彈性的能力,在大幅提升計(jì)算效率的同時(shí),也具備很高的性價(jià)比。
問(wèn):未來(lái),EnginePlus將瞄準(zhǔn)哪些發(fā)展方向?
朱亞?wèn)|:簡(jiǎn)單來(lái)講,我們希望成為中國(guó)版AI加持的Databricks,跨越數(shù)據(jù)爆發(fā)式增長(zhǎng)到智能處理之間的鴻溝,構(gòu)建新一代的基建體系。幫助客戶用最低的技術(shù)門(mén)檻、最低的成本、更小的風(fēng)險(xiǎn)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、智能化升級(jí)。
問(wèn):在您看來(lái), EnginePlus這樣的產(chǎn)品對(duì)行業(yè)的發(fā)展和其他企業(yè)的發(fā)展有什么借鑒意義?
朱亞?wèn)|:EnginePlus融合了豐富行業(yè)套件、開(kāi)源代碼、數(shù)據(jù)算法模型,能在數(shù)據(jù)分析、技術(shù)開(kāi)發(fā)、業(yè)務(wù)發(fā)展等多個(gè)維度賦能客戶;EnginePlus可以幫助客戶站在眾人肩膀上,快速建立起從數(shù)據(jù)攝入、分析到AI模型離線訓(xùn)練、在線預(yù)測(cè)的一體化能力,快速高效地實(shí)現(xiàn)企業(yè)的數(shù)字化轉(zhuǎn)型和升級(jí)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )