自主AI能力加速企業(yè)智能化轉(zhuǎn)型 | 愛(ài)分析報(bào)告

報(bào)告編委黃勇 愛(ài)分析合伙人&首席分析師 孟晨靜 愛(ài)分析分析師 外部專家(按姓氏拼音排序) 杜晨陽(yáng) 力維智聯(lián) 五維實(shí)驗(yàn)室主任 王哲 九章云極DataCanvas 雅圖BU總經(jīng)理

特別鳴謝(按拼音排序)

目錄

1. 報(bào)告綜述

2. 金融行業(yè)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)

3. 工業(yè)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)

4. 結(jié)語(yǔ)

1.報(bào)告綜述

隨著數(shù)據(jù)體量的快速增長(zhǎng)、算法迭代優(yōu)化以及CPU、GPU、DPU等多種算力技術(shù)的發(fā)展,以大數(shù)據(jù)建模為核心的機(jī)器學(xué)習(xí)技術(shù)正被企業(yè)廣泛應(yīng)用到營(yíng)銷、廣告、風(fēng)控、生產(chǎn)等場(chǎng)景中。

機(jī)器學(xué)習(xí)涉及復(fù)雜的建模流程,如數(shù)據(jù)準(zhǔn)備、特征工程、模型訓(xùn)練、模型部署、模型運(yùn)營(yíng)等,需要數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、BI、軟件工程師以及業(yè)務(wù)人員等多方協(xié)作。在企業(yè)傳統(tǒng)的建模方式中,建模以項(xiàng)目制為主,建模周期長(zhǎng),協(xié)作困難,建模門檻高且嚴(yán)重依賴數(shù)學(xué)科學(xué)家。

然而,市場(chǎng)環(huán)境、消費(fèi)者需求的快速變化推動(dòng)企業(yè)向敏捷性組織轉(zhuǎn)型,對(duì)業(yè)務(wù)決策時(shí)效性要求更加嚴(yán)格。對(duì)此,企業(yè)一方面需要提升建模效率以支持業(yè)務(wù)的持續(xù)更新、適應(yīng)廣泛的建模場(chǎng)景,另一方面也需要賦予一線業(yè)務(wù)人員建模能力,提升業(yè)務(wù)人員對(duì)市場(chǎng)的反應(yīng)能力。傳統(tǒng)建模方式難以滿足企業(yè)快速?zèng)Q策需求。

數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)為企業(yè)提供了一個(gè)高效的解決方案。數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)整合數(shù)據(jù)接入、數(shù)據(jù)準(zhǔn)備、特征工程、模型訓(xùn)練、模型部署、模型管理及模型運(yùn)營(yíng)等模型開發(fā)全流程,集成豐富的模型開發(fā)工具,不僅能有效提升模型開發(fā)效率,還能基于AutoML實(shí)現(xiàn)低門檻建模,滿足業(yè)務(wù)人員的建模需求。數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)正成為企業(yè)數(shù)智化轉(zhuǎn)型的必要基礎(chǔ)設(shè)施。

不同行業(yè)的企業(yè)對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的需求側(cè)重點(diǎn)不同。如對(duì)于具備專業(yè)建模人員的金融、醫(yī)療等行業(yè),需要數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)兼顧專業(yè)建模人員和業(yè)務(wù)人員的建模需求;而對(duì)于普遍不具備專業(yè)建模人員的其他傳統(tǒng)行業(yè),如工業(yè)、消費(fèi)、能源等,更需要業(yè)務(wù)人員可快速上手的低門檻建模系統(tǒng)。

本報(bào)告選取具有代表性的金融行業(yè)、工業(yè)行業(yè)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)解決方案為研究對(duì)象,圍繞該解決方案在大中型企業(yè)的落地應(yīng)用展開研究,重點(diǎn)分析兩個(gè)行業(yè)中甲方對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的需求和解決方案。 2.金融行業(yè)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)

在領(lǐng)先的數(shù)字化轉(zhuǎn)型進(jìn)程、海量數(shù)據(jù)積累、充分的科技人才儲(chǔ)備以及豐富的業(yè)務(wù)場(chǎng)景應(yīng)用需求等驅(qū)動(dòng)因素下,金融行業(yè)對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)應(yīng)用的滲透率明顯高于其他傳統(tǒng)行業(yè)。尤其在銀行業(yè),數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的建設(shè)呈現(xiàn)出從全國(guó)性大型銀行向地域性城商行覆蓋的趨勢(shì)。數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)作為人工智能基礎(chǔ)設(shè)施正被納入更多金融機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型規(guī)劃中。

以銀行業(yè)為例,銀行中的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的用戶可分為兩類人群:數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員。其中數(shù)據(jù)科學(xué)家指具備專業(yè)建模能力的模型開發(fā)人員,負(fù)責(zé)模型的開發(fā)、算法的優(yōu)化,是模型開發(fā)的核心人員。業(yè)務(wù)人員諸如營(yíng)銷、風(fēng)控、產(chǎn)品研發(fā)等場(chǎng)景下的數(shù)據(jù)分析人員、BI分析師。銀行的2C屬性使得更靠近C端消費(fèi)者的業(yè)務(wù)人員對(duì)產(chǎn)品、服務(wù)的優(yōu)化更敏感,也更具話語(yǔ)權(quán),為實(shí)現(xiàn)銀行的精細(xì)化運(yùn)營(yíng),業(yè)務(wù)人員對(duì)敏捷地模型開發(fā)及應(yīng)用的需求逐漸增強(qiáng)。兩類人群對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的需求也不同。

圖1:數(shù)據(jù)科學(xué)家和業(yè)務(wù)人員對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的需求

數(shù)據(jù)科學(xué)家在進(jìn)行機(jī)器學(xué)習(xí)建模時(shí),主要面臨以下挑戰(zhàn):

傳統(tǒng)項(xiàng)目制建模方式導(dǎo)致計(jì)算資源無(wú)法共享:在金融機(jī)構(gòu)傳統(tǒng)的機(jī)器學(xué)習(xí)建模過(guò)程中,數(shù)據(jù)科學(xué)家各自以項(xiàng)目形式對(duì)業(yè)務(wù)場(chǎng)景進(jìn)行建模,對(duì)于計(jì)算資源的調(diào)用以申請(qǐng)高性能CPU或GPU服務(wù)器為主,計(jì)算資源分配不均勻,算力不能高效利用。

傳統(tǒng)建模方式下建模工具缺失:傳統(tǒng)的開發(fā)工具簡(jiǎn)單,模型訓(xùn)練和模型部署都需要數(shù)據(jù)科學(xué)家手動(dòng)實(shí)現(xiàn),尤其模型部署過(guò)程中涉及模型轉(zhuǎn)換、模型優(yōu)化以及模型在業(yè)務(wù)平臺(tái)運(yùn)行的性能和穩(wěn)定性等復(fù)雜的工程化落地能力,數(shù)據(jù)科學(xué)家實(shí)現(xiàn)模型部署較為困難。此外,由于缺乏數(shù)據(jù)、代碼、模型的版本管理功能,建模過(guò)程中的數(shù)字資產(chǎn)無(wú)法共享、復(fù)用。

建模全過(guò)程多角色協(xié)同困難:由于模型開發(fā)過(guò)程會(huì)涉及到數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型部署以及模型運(yùn)維等多個(gè)環(huán)節(jié),涉及數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家、軟件數(shù)據(jù)分析師等多角色共同協(xié)作完成,存在反復(fù)溝通、協(xié)作流程不明確等問(wèn)題,帶來(lái)重復(fù)性工作。

業(yè)務(wù)人員對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的需求更偏向簡(jiǎn)單易上手的建模工具,需要屏蔽數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、模型部署等環(huán)節(jié)的復(fù)雜性,實(shí)現(xiàn)一鍵建模,并能及時(shí)查看模型對(duì)業(yè)務(wù)決策分析的效果。

為同時(shí)滿足數(shù)據(jù)科學(xué)家專業(yè)建模需求和業(yè)務(wù)人員低門檻的建模需求,最大化算法模型價(jià)值推動(dòng)實(shí)現(xiàn)高效決策,金融行業(yè)的數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)解決方案應(yīng)圍繞以下要點(diǎn)展開。

圖2:金融行業(yè)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)解決方案要點(diǎn)

統(tǒng)一資源管理:對(duì)模型開發(fā)需要的CPU、GPU資源進(jìn)行整合,以容器化的方式對(duì)算力虛擬化,實(shí)現(xiàn)彈性擴(kuò)容、性能加速、資源共享,避免資源浪費(fèi)。

建立數(shù)據(jù)管道:模型訓(xùn)練過(guò)程依賴金融機(jī)構(gòu)內(nèi)外的高質(zhì)量數(shù)據(jù),且智能應(yīng)用上線后,需持續(xù)對(duì)模型效果進(jìn)行監(jiān)控,持續(xù)輸入新鮮的高質(zhì)量數(shù)據(jù)集進(jìn)行模型迭代,因此需要建立數(shù)據(jù)管道,包括為金融機(jī)構(gòu)接入多種數(shù)據(jù)源如關(guān)系型數(shù)據(jù)庫(kù)、Hadoop大數(shù)據(jù)平臺(tái),提供統(tǒng)一的存儲(chǔ)、治理、管理服務(wù),提供豐富的數(shù)據(jù)分析算子進(jìn)行標(biāo)注、檢查、改進(jìn)等數(shù)據(jù)預(yù)處理。

模型訓(xùn)練:兼容多種高性能訓(xùn)練和推理引擎框架,如TensorFlow、Pytorch、MXNet等。提供多種建模方式,包括自由度更高的Notebook建模、可視化建模、AutoML建模,適用于金融機(jī)構(gòu)不同建模人員使用。針對(duì)Notebook建模、可視化建模提供豐富的白盒算子,以供數(shù)據(jù)科學(xué)家進(jìn)行優(yōu)化或是建立模型訓(xùn)練工作流;AutoML建模中則應(yīng)具備數(shù)據(jù)自動(dòng)處理、模型自動(dòng)訓(xùn)練、模型自動(dòng)選擇等功能,使得業(yè)務(wù)人員只需提供原始數(shù)據(jù)集即可完成獲得特定業(yè)務(wù)場(chǎng)景下的模型開發(fā),開展智能應(yīng)用。

模型部署和運(yùn)維:提供一鍵部署功能,實(shí)現(xiàn)模型快速部署;提供模型監(jiān)控功能,對(duì)模型漂移提供預(yù)警。

模型開發(fā)數(shù)字資產(chǎn)的沉淀:在模型開發(fā)過(guò)程中,針對(duì)數(shù)據(jù)接入、數(shù)據(jù)轉(zhuǎn)換、特征工程、模型訓(xùn)練、模型部署等環(huán)節(jié),提供數(shù)據(jù)、代碼和模型等的版本管理,實(shí)現(xiàn)模型數(shù)字資產(chǎn)的沉淀和復(fù)用。

案例1:AI中心加速山西銀行智能化轉(zhuǎn)型,打造數(shù)據(jù)驅(qū)動(dòng)型組織

山西銀行是經(jīng)中國(guó)銀保監(jiān)會(huì)批準(zhǔn),于2021年4月28日掛牌開業(yè),以原大同銀行、長(zhǎng)治銀行、晉城銀行、晉中銀行、陽(yáng)泉市商業(yè)銀行為基礎(chǔ),通過(guò)新設(shè)合并方式設(shè)立的省級(jí)法人城市商業(yè)銀行,現(xiàn)有員工7000余名,擁有分行級(jí)機(jī)構(gòu)12家,各類營(yíng)業(yè)網(wǎng)點(diǎn)387個(gè),遍布全省10個(gè)地市、23個(gè)區(qū)、36個(gè)縣。

山西銀行成立之初,在對(duì)原大同銀行、長(zhǎng)治銀行、晉城銀行、晉中銀行、陽(yáng)泉市商業(yè)銀行科技系統(tǒng)整合的基礎(chǔ)上,為建立一套全行的可持續(xù)“讓數(shù)據(jù)用起來(lái)”的數(shù)據(jù)體系,于2021年啟動(dòng)數(shù)據(jù)中臺(tái)項(xiàng)目群,推動(dòng)包括數(shù)據(jù)開發(fā)平臺(tái)、數(shù)據(jù)管控平臺(tái)、數(shù)據(jù)服務(wù)平臺(tái)和客戶集市等功能實(shí)現(xiàn)。

建模方式不完善,亟待建模能力和建模系統(tǒng)全面升級(jí)

其中,為實(shí)現(xiàn)數(shù)據(jù)賦能業(yè)務(wù)需求,山西銀行擬圍繞以人工智能、大數(shù)據(jù)、云計(jì)算為代表的科技能力為基礎(chǔ)搭建自動(dòng)化聯(lián)合建模平臺(tái),為建模人員提供樣本導(dǎo)入、數(shù)據(jù)匹配、特征加工、模型訓(xùn)練及模型評(píng)估等一站式聯(lián)合建模服務(wù),并將聯(lián)合建模平臺(tái)作為數(shù)據(jù)開發(fā)平臺(tái)的重要組成部分。山西銀行對(duì)聯(lián)合建模平臺(tái)的需求主要體現(xiàn)在以下方面:

實(shí)現(xiàn)聯(lián)合建模。山西銀行中業(yè)務(wù)人員普遍不具備建模能力,而具備專業(yè)建模能力的科技人員對(duì)業(yè)務(wù)了解也不透徹,這導(dǎo)致科技人員在建模過(guò)程中需要與業(yè)務(wù)人員就具體需求、數(shù)據(jù)范圍、數(shù)據(jù)質(zhì)量、模型設(shè)計(jì)等方面進(jìn)行反復(fù)溝通,耗費(fèi)大量時(shí)間。山西銀行亟需為業(yè)務(wù)人員實(shí)現(xiàn)自動(dòng)建模功能,為科技人員提供一站式建模平臺(tái)支撐,實(shí)現(xiàn)業(yè)務(wù)人員和科技人員聯(lián)合建模,提升模型開發(fā)效率。

提升算力。AI的算力強(qiáng)弱直接影響到AI模型訓(xùn)練的精度與推理結(jié)果。一方面,由于山西銀行數(shù)據(jù)由5家銀行數(shù)據(jù)合并而來(lái),數(shù)據(jù)體量遠(yuǎn)超之前單個(gè)銀行數(shù)據(jù)體量;另一方面,每個(gè)項(xiàng)目組都會(huì)各自申請(qǐng)計(jì)算資源,導(dǎo)致科技人員在進(jìn)行模型訓(xùn)練過(guò)程中經(jīng)常面臨算力資源不足的問(wèn)題,頻繁出現(xiàn)內(nèi)存溢出、開發(fā)工具重啟等現(xiàn)象。此外,不同的業(yè)務(wù)場(chǎng)景需要的資源類型也不同,如機(jī)器學(xué)習(xí)模型常用CPU計(jì)算,深度學(xué)習(xí)模型傾向用GPU進(jìn)行計(jì)算,因此如何提升建模的算力支持,且為科技人員屏蔽復(fù)雜的算力管理細(xì)節(jié),專注于建模本身,是聯(lián)合建模平臺(tái)需要解決的主要問(wèn)題之一。

實(shí)現(xiàn)數(shù)據(jù)、代碼等模型數(shù)據(jù)資產(chǎn)共享及沉淀。山西銀行技術(shù)人員在面向精準(zhǔn)營(yíng)銷、智能風(fēng)控、產(chǎn)品設(shè)計(jì)等不同業(yè)務(wù)需求時(shí),優(yōu)秀的數(shù)據(jù)集、代碼、模型版本等成果不能及時(shí)共享,需要聯(lián)合建模平臺(tái)支持建模過(guò)程成果沉淀。

基于以上需求,山西銀行將聯(lián)合建模平臺(tái)項(xiàng)目進(jìn)行招投標(biāo),綜合考量技術(shù)先進(jìn)性、對(duì)業(yè)務(wù)場(chǎng)景的適應(yīng)性、系統(tǒng)運(yùn)行穩(wěn)定性、系統(tǒng)安全性、系統(tǒng)可拓展性以及信創(chuàng)環(huán)境支持等因素,最終選擇與九章云極DataCanvas合作。

北京九章云極科技有限公司(簡(jiǎn)稱:九章云極DataCanvas)成立于2013年,是中國(guó)數(shù)據(jù)智能基礎(chǔ)軟件領(lǐng)軍者。公司專注數(shù)據(jù)智能基礎(chǔ)軟件的持續(xù)開發(fā)與建設(shè),通過(guò)自主研發(fā)的一系列企業(yè)級(jí)AI應(yīng)用所需的平臺(tái)軟件產(chǎn)品及解決方案,助力用戶實(shí)現(xiàn)數(shù)智化升級(jí)。目前,九章云極DataCanvas機(jī)器學(xué)習(xí)平臺(tái)業(yè)務(wù)涉及政府、金融、通信、制造、能源、交通、航空等十余個(gè)行業(yè),客戶覆蓋多個(gè)行業(yè)頭部和世界五百?gòu)?qiáng)企業(yè)。

基于DataCanvas APS機(jī)器學(xué)習(xí)平臺(tái),建設(shè)AI中心

在九章云極DataCanvas協(xié)助下,山西銀行正式建設(shè)聯(lián)合建模平臺(tái),基于九章云極成熟的DataCanvas APS機(jī)器學(xué)習(xí)平臺(tái)建立“模型實(shí)驗(yàn)室”。該項(xiàng)目從2021年11月開始推進(jìn)實(shí)施,歷經(jīng)近9個(gè)月的時(shí)間,于2022年8月初完成平臺(tái)建設(shè)并進(jìn)行線上試運(yùn)行,之后于2023年1月正式在全行推廣,針對(duì)全行范圍的數(shù)據(jù)、模型需求正式開展工作。山西銀行模型實(shí)驗(yàn)室面向科技人員和業(yè)務(wù)人員實(shí)現(xiàn)一站式模型開發(fā),主要功能包括以下方面:

圖3:模型實(shí)驗(yàn)室功能架構(gòu)圖/示意圖

1.異構(gòu)多引擎融合架構(gòu)

靈活計(jì)算環(huán)境支持:平臺(tái)功能基于Docker實(shí)現(xiàn)容器化封裝,底層計(jì)算資源支持Kubernetes集群、Hadoop集群和GPU集群等多種模式,提供彈性可伸縮的CPU和GPU資源,支持大數(shù)據(jù)量的分析和訓(xùn)練,實(shí)現(xiàn)計(jì)算資源合理利用。

工作流混合編排:在異構(gòu)多引擎融合架構(gòu)下,平臺(tái)算子封裝支持多語(yǔ)言模式,允許在同一個(gè)工作流中調(diào)用不同開發(fā)語(yǔ)言算子,可以快速融合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的多引擎的訓(xùn)練和推理,支持工作流程嵌套,如在平臺(tái)中支持編碼、可視化、AutoML三種建模方式,三種建模方式之間可相互調(diào)用,最大程度上提高建模流程的靈活性和模型資產(chǎn)的復(fù)用性。

2.簡(jiǎn)化數(shù)據(jù)準(zhǔn)備,實(shí)現(xiàn)多源異構(gòu)大數(shù)據(jù)分析

模型實(shí)驗(yàn)室支持多種數(shù)據(jù)連接器,山西銀行可便捷獲取包括本地?cái)?shù)據(jù)、關(guān)系型數(shù)據(jù)庫(kù)、Hadoop大數(shù)據(jù)平臺(tái)等在內(nèi)的各類數(shù)據(jù)源,并且模型實(shí)驗(yàn)室支持支持異構(gòu)多源數(shù)據(jù)的加工和混合處理,即在一個(gè)工作流中可以將多個(gè)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)作為輸入并調(diào)用平臺(tái)上的多種數(shù)據(jù)分析算子進(jìn)行處理。

3.開放性算法支持

集成了主流的開源機(jī)器學(xué)習(xí)算法庫(kù)和深度學(xué)習(xí)框架,如TensorFlow、Caffee、H2O 等,不同框架間可開展協(xié)同工作。

提供豐富的開箱即用“白盒”算法庫(kù),內(nèi)置100多種算法模型,包括企業(yè)常用的統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法,面向數(shù)據(jù)分析應(yīng)用提供基礎(chǔ)算法支持。“白盒”模式下,算子代碼完全開放,支持客戶對(duì)代碼進(jìn)行修改或開發(fā),滿足建模人員算子自定義、算子迭代需求。

建模人員可在集成Web IDE環(huán)境中,對(duì)算子進(jìn)行開發(fā)。并基于容器技術(shù)對(duì)算子進(jìn)行靈活封裝、集成,形成算子模塊并發(fā)布到算法庫(kù)中。發(fā)布后的算子模塊可被反復(fù)調(diào)用,提升新模型的開發(fā)效率。

4.提供三種編碼方式,適應(yīng)不同建模水平人員

代碼建模:支持科技人員在Web IDE環(huán)境中通過(guò)R、Python、Scala等編程語(yǔ)言進(jìn)行算法開發(fā)

可視化建模:模型實(shí)驗(yàn)室提供的算子模塊覆蓋模型生產(chǎn)全流程,包括數(shù)據(jù)準(zhǔn)備、特征工程、模型訓(xùn)練、模型評(píng)估、模型對(duì)比、模型發(fā)布等,支持了解建模流程的科技人員通過(guò)圖形化、拖拽式建模。

AutoML建模:針對(duì)不具備建模知識(shí)的業(yè)務(wù)人員,模型實(shí)驗(yàn)室提供低門檻AutoML技術(shù),平臺(tái)可自動(dòng)完成包括算法選擇、超參數(shù)優(yōu)化、模型評(píng)估、模型選擇及模型發(fā)布等系列過(guò)程,并生成面向生產(chǎn)系統(tǒng)的REST API調(diào)用服務(wù)。業(yè)務(wù)人員通過(guò)配置目標(biāo)即可實(shí)現(xiàn)自動(dòng)化建模。

5.模型全生命周期管理

對(duì)數(shù)據(jù)接入、數(shù)據(jù)轉(zhuǎn)換、特征工程、建??梢暬⒛P蛡}(cāng)庫(kù)、模型生產(chǎn)化等建模全過(guò)程的數(shù)據(jù)、環(huán)境、代碼、模型版本進(jìn)行管理,實(shí)現(xiàn)數(shù)據(jù)、特征、模型的復(fù)用和迭代,沉淀數(shù)據(jù)資產(chǎn)。

6.支持高性能的分布式訓(xùn)練

融合主流分布式計(jì)算框架如Spark、TensorFlow、PyTorch、Dask等,并預(yù)置豐富的分布式訓(xùn)練場(chǎng)景;深度學(xué)習(xí)分布式支持單機(jī)單卡、單機(jī)多卡、多機(jī)多卡訓(xùn)練,用戶可以在復(fù)雜場(chǎng)景下快速高效完成模型訓(xùn)練。

以上是模型實(shí)驗(yàn)室的重要功能。

山西銀行在搭建模型實(shí)驗(yàn)室的基礎(chǔ)上,也在考慮如何改善模型開發(fā)流程讓模型實(shí)驗(yàn)室發(fā)揮最大價(jià)值。由于模型開發(fā)流程包含業(yè)務(wù)需求分析、搜集數(shù)據(jù)、數(shù)據(jù)清洗、特征工程、模型訓(xùn)練、模型部署、模型運(yùn)維等環(huán)節(jié),涉及業(yè)務(wù)部門、IT部門、算法開發(fā)人員等多個(gè)部門,為保證模型開發(fā)流程高效運(yùn)轉(zhuǎn),在建設(shè)模型實(shí)驗(yàn)室基礎(chǔ)上,山西銀行制定了一套完善的模型開發(fā)協(xié)作機(jī)制,如下圖所示。其中,業(yè)務(wù)部門提出業(yè)務(wù)需求并對(duì)模型最終效果進(jìn)行確認(rèn)。數(shù)金業(yè)務(wù)部承擔(dān)與業(yè)務(wù)部門溝通的職責(zé),包括業(yè)務(wù)需求確認(rèn)、模型設(shè)計(jì)溝通、模型初訓(xùn)練的效果確認(rèn)等。數(shù)金科技負(fù)責(zé)數(shù)據(jù)預(yù)處理、模型訓(xùn)練工作。

圖4:山西銀行跨部門模型開發(fā)協(xié)作流程示意圖

模型實(shí)驗(yàn)室大幅提升建模效率、有效降低建模成本

模型實(shí)驗(yàn)室作為山西銀行的AI中心,利用先進(jìn)的異構(gòu)多引擎融合架構(gòu),適應(yīng)業(yè)務(wù)人員和科技人員的不同建模需求,為智能應(yīng)用建設(shè)生命周期提供完善的工具和支持,實(shí)現(xiàn)端到端一站式建模,有效解決算力瓶頸問(wèn)題,大幅提升建模效率。

1.解決算力瓶頸問(wèn)題

模型實(shí)驗(yàn)室基于異構(gòu)多引擎融合架構(gòu),具有優(yōu)秀的可擴(kuò)展性,利用Spark 分布式內(nèi)存計(jì)算提供強(qiáng)大的計(jì)算能力,支持海量數(shù)據(jù)計(jì)算分析。此外,模型實(shí)驗(yàn)室能在模型開發(fā)的數(shù)據(jù)處理、模型訓(xùn)練等環(huán)節(jié)提供資源自動(dòng)推薦,用戶也可對(duì)資源類型和配額進(jìn)行調(diào)整,實(shí)現(xiàn)算力的高效利用。同時(shí),模型實(shí)驗(yàn)室對(duì)使用者屏蔽了大數(shù)據(jù)技術(shù)組件的復(fù)雜性,使業(yè)務(wù)人員和科學(xué)人員能輕松獲得大數(shù)據(jù)處理能力。

2.提升建模能力,提高建模效率

模型實(shí)驗(yàn)室提供端到端一站式建模全流程支持,能大幅提升山西銀行在數(shù)據(jù)探索、預(yù)處理、特征工程、分析挖掘以及模型服務(wù)等環(huán)節(jié)的能力。另一方面,模型實(shí)驗(yàn)室為業(yè)務(wù)人員提供的AutoML建模和圖形化建模方式,使業(yè)務(wù)人員能根據(jù)需求自主建模,基于模型效果再與科技人員溝通進(jìn)行模型優(yōu)化或調(diào)整,改進(jìn)建模流程,大幅縮短建模時(shí)間,實(shí)現(xiàn)對(duì)業(yè)務(wù)需求的敏捷響應(yīng)。

3.模型資產(chǎn)和建模方法論沉淀

建模過(guò)程中,包括數(shù)據(jù)集、數(shù)據(jù)清洗、特征工程、模型訓(xùn)練、模型上線等過(guò)程的代碼、數(shù)據(jù),以及建模的流程都能保留并提供下載,科技人員可以通過(guò)權(quán)限定義分享對(duì)象,從而實(shí)現(xiàn)人員協(xié)同、成果復(fù)用,沉淀模型資產(chǎn)、解決問(wèn)題的方法論和流程。

4.有效實(shí)現(xiàn)成本控制:經(jīng)統(tǒng)計(jì),基于模型實(shí)驗(yàn)室,單個(gè)機(jī)器學(xué)習(xí)模型的建模成本縮減60%,運(yùn)維成本降低30%。 3.工業(yè)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)

工業(yè)互聯(lián)網(wǎng)趨勢(shì)下,以AI模型為核心的人工智能通過(guò)融合工業(yè)機(jī)理知識(shí)與專家經(jīng)驗(yàn),實(shí)現(xiàn)設(shè)計(jì)創(chuàng)新、生產(chǎn)優(yōu)化、產(chǎn)品智能檢測(cè)、智能運(yùn)維等價(jià)值,正廣泛應(yīng)用在企業(yè)的設(shè)計(jì)研發(fā)、生產(chǎn)制造、運(yùn)維、供應(yīng)鏈管理、產(chǎn)品檢測(cè)等場(chǎng)景中。人工智能已經(jīng)成為工業(yè)企業(yè)提升生產(chǎn)效率、提高產(chǎn)品質(zhì)量、降低人力成本、實(shí)現(xiàn)環(huán)境可持續(xù)發(fā)展的新型基礎(chǔ)設(shè)施。

當(dāng)前,工業(yè)企業(yè)中的數(shù)字化轉(zhuǎn)型領(lǐng)先企業(yè),在試點(diǎn)驗(yàn)證機(jī)器學(xué)習(xí)模型價(jià)值后,希望擴(kuò)大智能應(yīng)用的范疇,對(duì)特定場(chǎng)景進(jìn)行智能化改造,如化工、石化等流程工業(yè)企業(yè)的生產(chǎn)場(chǎng)景下,生產(chǎn)裝置的模擬與優(yōu)化普遍基于傳統(tǒng)的機(jī)理建模,以實(shí)現(xiàn)對(duì)生產(chǎn)過(guò)程的工況分析和流程優(yōu)化。但基于單個(gè)環(huán)節(jié)或是單個(gè)裝置的機(jī)理模型收斂慢、研發(fā)周期長(zhǎng)且模型可移植性差,難以實(shí)現(xiàn)對(duì)系統(tǒng)過(guò)程全流程的模擬。

機(jī)器學(xué)習(xí)平臺(tái)通過(guò)融合機(jī)器學(xué)習(xí)建模和機(jī)理建模,不僅能簡(jiǎn)化模型復(fù)雜度,還能實(shí)現(xiàn)對(duì)生產(chǎn)過(guò)程中各環(huán)節(jié)、各化工裝置實(shí)現(xiàn)建模開發(fā),從而達(dá)到對(duì)生產(chǎn)全流程的精準(zhǔn)控制和精準(zhǔn)預(yù)測(cè)。工業(yè)企業(yè)對(duì)應(yīng)用機(jī)器學(xué)習(xí)平臺(tái)的難點(diǎn)/需求,具體表現(xiàn)在:

圖5:工業(yè)企業(yè)應(yīng)用數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的難點(diǎn)/需求

企業(yè)缺失專業(yè)建模人才。工業(yè)企業(yè)的IT人才儲(chǔ)備有限,企業(yè)不具備專業(yè)的機(jī)器學(xué)習(xí)建模人才。同時(shí),企業(yè)的智能化進(jìn)程需要為一線業(yè)務(wù)人員賦能模型開發(fā)、模型應(yīng)用能力,因此機(jī)器學(xué)習(xí)平臺(tái)必須低門檻、易上手。

實(shí)現(xiàn)知識(shí)資產(chǎn)沉淀和復(fù)用。工業(yè)下細(xì)分行業(yè)眾多,不同細(xì)分行業(yè)的生產(chǎn)流程差異巨大。企業(yè)在日常經(jīng)營(yíng)中積累了豐富的場(chǎng)景知識(shí)和專家經(jīng)驗(yàn),需要將此類知識(shí)沉淀為數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)中的數(shù)據(jù)集模板、特征工程模板、模型模板或是工作流程,實(shí)現(xiàn)專家經(jīng)驗(yàn)知識(shí)沉淀。

提供個(gè)性化行業(yè)場(chǎng)景預(yù)訓(xùn)練模型支持。工業(yè)在生產(chǎn)工藝、產(chǎn)品檢測(cè)等環(huán)節(jié)數(shù)據(jù)量有限,難以支撐需要大規(guī)模數(shù)據(jù)支撐的模型,需要合適的預(yù)訓(xùn)練模型實(shí)現(xiàn)小數(shù)據(jù)量下的模型開發(fā)。

為了解決工業(yè)企業(yè)在數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)應(yīng)用上的難點(diǎn),廠商對(duì)工業(yè)企業(yè)的解決方案應(yīng)包括以下三方面內(nèi)容:

圖6:工業(yè)企業(yè)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)解決方案要點(diǎn)

1. 平臺(tái)建設(shè):搭建端到端一站式模型開發(fā)平臺(tái)

建模方式:提供低門檻的建模支持,包括無(wú)代碼AutoML建模和低代碼圖形化建模。其中AutoML應(yīng)支持自動(dòng)化的數(shù)據(jù)處理、特征工程、模型選擇、超參數(shù)調(diào)優(yōu)以及模型部署。

算法提供:提供豐富的數(shù)據(jù)預(yù)處理算法、機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)算法,供業(yè)務(wù)人員調(diào)用;提供業(yè)務(wù)場(chǎng)景適用的預(yù)訓(xùn)練模型,以保證業(yè)務(wù)場(chǎng)景下“小數(shù)據(jù)”的模型效果。

計(jì)算資源管理支持:支持算力資源的分布式管理和精細(xì)化管理,為模型訓(xùn)練提供自動(dòng)化資源推薦,以及屏蔽大數(shù)據(jù)技術(shù)組件的復(fù)雜性,使業(yè)務(wù)人員能輕松獲得大數(shù)據(jù)處理能力。

2. 平臺(tái)部署:軟硬件環(huán)境適配

工業(yè)企業(yè)的軟硬件環(huán)境復(fù)雜,數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)建模平臺(tái)內(nèi)嵌在工業(yè)互聯(lián)網(wǎng)平臺(tái)中,面向多種業(yè)務(wù)系統(tǒng),需要針對(duì)性的進(jìn)行兼容性適配開發(fā)。因此,廠商軟件開發(fā)人員需要與企業(yè)的工程師協(xié)同對(duì)認(rèn)證系統(tǒng)、數(shù)據(jù)中臺(tái)、業(yè)務(wù)系統(tǒng)進(jìn)行定制化的開發(fā)和對(duì)接聯(lián)調(diào)工作,以保證平臺(tái)的順利部署。

3. 平臺(tái)運(yùn)維:培訓(xùn)建模流程、技巧

在數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)建設(shè)完成后,廠商的數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家應(yīng)提供培訓(xùn)教學(xué),為企業(yè)的業(yè)務(wù)人員培訓(xùn)機(jī)器學(xué)習(xí)基礎(chǔ)概念,同時(shí)通過(guò)實(shí)訓(xùn)方式讓業(yè)務(wù)人員上機(jī)實(shí)操,結(jié)合業(yè)務(wù)場(chǎng)景案例,快速掌握平臺(tái)建模能力。

案例2:某石化企業(yè)通過(guò)工業(yè)大數(shù)據(jù)分析建模平臺(tái)實(shí)現(xiàn)加氫裂化裝置工藝優(yōu)化,提升經(jīng)營(yíng)效率

某石化企業(yè)是一家集石油化工、煤化工、石化產(chǎn)品銷售為一體,配套齊全的大型煉化一體化企業(yè),原油加工能力2200萬(wàn)噸/年、芳烴生產(chǎn)能力100萬(wàn)噸/年,加工規(guī)模和技術(shù)水平位居國(guó)內(nèi)煉油企業(yè)第一梯隊(duì)。

近年來(lái),該石化企業(yè)積極推進(jìn)信息化工業(yè)化兩化深度融合,基于工業(yè)互聯(lián)網(wǎng)提出“智能煉廠”,在裝置優(yōu)化、計(jì)劃優(yōu)化、供應(yīng)鏈優(yōu)化等環(huán)節(jié)推進(jìn)相關(guān)應(yīng)用研究。目前,該企業(yè)工業(yè)互聯(lián)網(wǎng)已廣泛應(yīng)用于工藝、設(shè)備、HSE、能源、經(jīng)營(yíng)管理、物流等領(lǐng)域。

與此同時(shí),煉化企業(yè)為應(yīng)對(duì)低油價(jià)與成品油市場(chǎng)寒冬,紛紛以生產(chǎn)優(yōu)化為核心深入實(shí)施降本增效,進(jìn)而對(duì)生產(chǎn)模型精度、模型開發(fā)效率以及模型應(yīng)用廣度等都提出更高要求。

而智能建模技術(shù)作為“智能煉廠”的核心技術(shù),以煉油生產(chǎn)為“目標(biāo)函數(shù)”,能通過(guò)快速創(chuàng)建智能化應(yīng)用,為安全生產(chǎn)、降本增效提供智能決策,成為石化企業(yè)普遍關(guān)注的關(guān)鍵技術(shù)。加氫裝置(包括加氫精制、加氫裂化)是石油煉化企業(yè)的關(guān)鍵環(huán)節(jié),該石化企業(yè)希望通過(guò)敏捷建模實(shí)現(xiàn)煉化生產(chǎn)智能化。

既有建模方式門檻高、難應(yīng)用

針對(duì)生產(chǎn)優(yōu)化,該企業(yè)早已應(yīng)用基于機(jī)理的傳統(tǒng)優(yōu)化建模軟件如Aspen、Petro-SIM、ProII,同時(shí)也在嘗試基于機(jī)器學(xué)習(xí)算法的大數(shù)據(jù)建模技術(shù),如將煉化機(jī)理知識(shí)與深度學(xué)習(xí)算法相結(jié)合,已經(jīng)實(shí)現(xiàn)加氫裝置原料油換熱器結(jié)垢預(yù)測(cè)、加氫催化劑床層溫度預(yù)測(cè)等場(chǎng)景的智能化應(yīng)用,并取得了較好效果。但兩種建模路徑都難以滿足業(yè)務(wù)需求,使企業(yè)處于“有數(shù)據(jù)、無(wú)模型、有模型、難應(yīng)用”的被動(dòng)局面,具體痛點(diǎn)表現(xiàn)在:

1)技術(shù)門檻高?;跈C(jī)理的傳統(tǒng)優(yōu)化建模嚴(yán)重依賴專家經(jīng)驗(yàn)以及國(guó)外廠商提供的優(yōu)化求解軟件,且建模軟件模型收斂慢,調(diào)優(yōu)復(fù)雜。而機(jī)器學(xué)習(xí)建模過(guò)程涉及數(shù)據(jù)準(zhǔn)備、特征工程、模型構(gòu)建、模型部署,也嚴(yán)重依賴具備專業(yè)建模能力的數(shù)據(jù)科學(xué)家。該企業(yè)缺乏懂建模也懂業(yè)務(wù)的專業(yè)復(fù)合型人才,同時(shí)高技術(shù)門檻阻礙了建模技術(shù)在企業(yè)煉化場(chǎng)景的廣泛推廣應(yīng)用。

2)建模周期長(zhǎng),建模成本高。傳統(tǒng)優(yōu)化建模和機(jī)器學(xué)習(xí)建模都存在著“大數(shù)據(jù)、小任務(wù)”,執(zhí)行任務(wù)單一的特點(diǎn)。其建模過(guò)程中數(shù)據(jù)體量大、開發(fā)難度大、研發(fā)周期長(zhǎng),而開發(fā)的模型僅能適用于單個(gè)“小場(chǎng)景”。如果想覆蓋煉化過(guò)程的更多場(chǎng)景就需要定制化的開發(fā)多個(gè)模型,導(dǎo)致兩種建模方式均投入巨大,難以快速為企業(yè)帶來(lái)效益提升。

3)模型部署難。在該石化企業(yè)業(yè)務(wù)中,當(dāng)機(jī)器學(xué)習(xí)算法模型訓(xùn)練完畢部署到生產(chǎn)環(huán)境中時(shí),數(shù)據(jù)采集、預(yù)處理和邊緣推理計(jì)算時(shí)均受智能設(shè)備影響,AI模型的實(shí)際效果與智能設(shè)備的選型、接入、點(diǎn)位選擇以及人力調(diào)試密切相關(guān)。然而該化工企業(yè)智能設(shè)備來(lái)源廣泛,不同生產(chǎn)領(lǐng)域的設(shè)備型號(hào)各異,缺少統(tǒng)一的接入標(biāo)準(zhǔn),且設(shè)備安裝、接入和調(diào)試需要耗費(fèi)大量人力,導(dǎo)致模型在不同生產(chǎn)領(lǐng)域部署時(shí)均需以項(xiàng)目課題形式實(shí)施,模型部署難也進(jìn)一步制約機(jī)器學(xué)習(xí)建模在企業(yè)的推廣應(yīng)用。

建設(shè)一站式煉化工業(yè)大數(shù)據(jù)分析建模平臺(tái),支撐深度學(xué)習(xí)算法推廣應(yīng)用

鑒于機(jī)器學(xué)習(xí)建模在前期實(shí)驗(yàn)中的出色效果,該石化企業(yè)決定將深度學(xué)習(xí)算法進(jìn)行推廣應(yīng)用,將“智能煉廠”推進(jìn)“深度編碼”階段,通過(guò)先進(jìn)的技術(shù)手段,如容器化、分布式計(jì)算、低代碼等技術(shù),實(shí)現(xiàn)對(duì)深度學(xué)習(xí)算法在煉化領(lǐng)域落地的助推。而實(shí)現(xiàn)深度學(xué)習(xí)算法的推廣應(yīng)用,需要大數(shù)據(jù)建模平臺(tái)做支撐。該石化企業(yè)考慮到自建大數(shù)據(jù)建模平臺(tái)成本投入大、技術(shù)難度較高,如分布式計(jì)算環(huán)境對(duì)硬件資源要求高、大數(shù)據(jù)組件的開發(fā)與應(yīng)用難度大、模型部署對(duì)接各個(gè)系統(tǒng)復(fù)雜性較高等,于是決定與第三方廠商合作,綜合考慮行業(yè)服務(wù)經(jīng)驗(yàn)、核心技術(shù)能力、兼容性、成本等方面,最終選擇與力維智聯(lián)合作。

力維智聯(lián)成立于2005年,是國(guó)家高新技術(shù)企業(yè),憑借泛在數(shù)據(jù)接入與匯聚和大數(shù)據(jù)智能等AIoT技術(shù)和十余年AIoT系統(tǒng)集成交付能力,提供軟硬一體的行業(yè)AIoT產(chǎn)品、解決方案與服務(wù)。同時(shí),力維智聯(lián)通過(guò)低代碼機(jī)器學(xué)習(xí)開發(fā)平臺(tái)提供AI開發(fā)工具軟件和AI中臺(tái)解決方案,該平臺(tái)已服務(wù)于上海世紀(jì)出版集團(tuán)、南方電網(wǎng)科研院、中海油、航天科技、國(guó)家5G中高頻器件創(chuàng)新中心等企業(yè)和公共服務(wù)平臺(tái)。

在力維智聯(lián)的協(xié)助下,該石化企業(yè)在既有工業(yè)互聯(lián)網(wǎng)平臺(tái)架構(gòu)下,針對(duì)石化煤柴油加氫裝置構(gòu)建起一站式煉化工業(yè)大數(shù)據(jù)分析建模平臺(tái),集成數(shù)據(jù)預(yù)處理、主流機(jī)器學(xué)習(xí)算法、智能優(yōu)化算法和模型自動(dòng)訓(xùn)練方法,最終實(shí)現(xiàn)生產(chǎn)數(shù)據(jù)到模型應(yīng)用的端到端建模平臺(tái)。

圖7:工業(yè)大數(shù)據(jù)分析建模平臺(tái)在工業(yè)互聯(lián)網(wǎng)的位置

圖8:工業(yè)大數(shù)據(jù)分析建模平臺(tái)架構(gòu)示意圖

1. 工業(yè)大數(shù)據(jù)分析建模平臺(tái)架構(gòu)

工業(yè)大數(shù)據(jù)分析建模平臺(tái)處于石化工業(yè)互聯(lián)網(wǎng)的工業(yè)PaaS層。架構(gòu)上,工業(yè)大數(shù)據(jù)分析建模平臺(tái)分為數(shù)據(jù)分析引擎和數(shù)據(jù)模型用戶端。

1)數(shù)據(jù)分析引擎

數(shù)據(jù)分析引擎分為底層架構(gòu)和業(yè)務(wù)架構(gòu)。底層架構(gòu)由Spark、MongoDB、Java Client、Webserver等技術(shù)組成。業(yè)務(wù)架構(gòu)包含數(shù)據(jù)讀入、數(shù)據(jù)處理、特征工程、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、智能優(yōu)化、AUTOML等模塊。數(shù)據(jù)分析引擎主要提供數(shù)據(jù)分析與挖掘、特征工程與模型訓(xùn)練功能,其中數(shù)據(jù)分析還包括數(shù)據(jù)輸出及數(shù)據(jù)可視化。

2)數(shù)據(jù)模型用戶端

數(shù)據(jù)模型用戶端底層架構(gòu)由Java Client、Azkban、Redis、Java Springboot等技術(shù)組成。業(yè)務(wù)架構(gòu)通過(guò)數(shù)據(jù)視圖——算子流構(gòu)建——模型管理——模型工作流——模型服務(wù)——發(fā)布應(yīng)用構(gòu)建起來(lái)。數(shù)據(jù)模型用戶端支持多種數(shù)據(jù)庫(kù)接入,但不對(duì)接入數(shù)據(jù)進(jìn)行存儲(chǔ),該石化企業(yè)另部署數(shù)據(jù)庫(kù)進(jìn)行對(duì)接。

數(shù)據(jù)模型用戶端主要提供用戶權(quán)限管理、資源的定義和管理、任務(wù)調(diào)度以及數(shù)據(jù)的呈現(xiàn),其中資源包含數(shù)據(jù)視圖、算子流、工作流和應(yīng)用等。

2. 工業(yè)大數(shù)據(jù)分析建模平臺(tái)功能

基于以上架構(gòu),工業(yè)大數(shù)據(jù)分析建模平臺(tái)覆蓋數(shù)據(jù)準(zhǔn)備、統(tǒng)計(jì)分析、數(shù)據(jù)可視化、特征構(gòu)造、模型構(gòu)建和模型部署等智能應(yīng)用開發(fā)全流程。具體實(shí)現(xiàn)了以下功能:

1)提供豐富的算法:平臺(tái)包含的算法主要分為兩部分,一是通用數(shù)據(jù)科學(xué)挖掘算法,包括數(shù)據(jù)預(yù)處理和主流機(jī)器學(xué)習(xí)算法;二是優(yōu)化算法,包括模型自訓(xùn)練算法和智能優(yōu)化算法。一線煉化工程師可以根據(jù)自身需要設(shè)計(jì)算子流,對(duì)多種格式的數(shù)據(jù)數(shù)據(jù)進(jìn)行預(yù)處理,或是根據(jù)業(yè)務(wù)場(chǎng)景進(jìn)行建模。

2)煉化數(shù)據(jù)與大數(shù)據(jù)融合:一方面,平臺(tái)通過(guò)預(yù)置煉化過(guò)程“工藝、質(zhì)量”等領(lǐng)域?qū)n}數(shù)據(jù)集固化先驗(yàn)知識(shí),并對(duì)工藝特征工程進(jìn)行遷移,為大數(shù)據(jù)算法落地提供特征模板與數(shù)據(jù)基礎(chǔ),將工程師的專家知識(shí)固化到平臺(tái);另一方面,平臺(tái)預(yù)置豐富機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算子,可為不同煉化過(guò)程大數(shù)據(jù)建模場(chǎng)景提供算法與數(shù)據(jù)的適配融合。

3)實(shí)現(xiàn)低門檻建模:一方面,基于應(yīng)用引擎、算子流和工作流的編排功能,工業(yè)大數(shù)據(jù)分析建模平臺(tái)為煉化工程師提供無(wú)代碼的圖形化“拖拉拽”建模支持,通過(guò)連接任意算子形成算子流,可便捷實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、模型設(shè)計(jì)、訓(xùn)練和部署。另一方面,平臺(tái)支持無(wú)代碼的模型自訓(xùn)練(AutoML),包括自動(dòng)數(shù)據(jù)準(zhǔn)備,自動(dòng)機(jī)器學(xué)習(xí),自動(dòng)模型調(diào)參,大大降低煉化工程師的建模門檻。

4)提供智能應(yīng)用開發(fā):模型部署后,平臺(tái)提供API服務(wù)的方式供其他業(yè)務(wù)系統(tǒng)調(diào)用,同時(shí)也支持借助BI+AI圖標(biāo)和控制組件開發(fā)動(dòng)態(tài)可交互的可視化應(yīng)用。

5)資源分布式、項(xiàng)目制管理:通過(guò)集群部署,平臺(tái)實(shí)現(xiàn)了模型訓(xùn)練算力與推理算力資源的分布式管理,以項(xiàng)目為單位,對(duì)數(shù)據(jù)資源和硬件資源進(jìn)行精細(xì)化管理控制。

6)軟硬件兼容適配:力維智聯(lián)在平臺(tái)部署時(shí)使用了容器化技術(shù),對(duì)國(guó)產(chǎn)化軟硬件進(jìn)行兼容性適配開發(fā),保證平臺(tái)順利部署、穩(wěn)定運(yùn)行。針對(duì)數(shù)據(jù)接口接入,力維智聯(lián)通過(guò)適配該煉化企業(yè)自有的工業(yè)互聯(lián)網(wǎng)平臺(tái)數(shù)據(jù)微服務(wù)接口,完成了煉化數(shù)據(jù)接入,保證數(shù)據(jù)流轉(zhuǎn)暢通。另外,平臺(tái)還額外提供了ETL能力,對(duì)數(shù)據(jù)進(jìn)行治理與融合,實(shí)現(xiàn)算法建模前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。

7)完備的流程管理:平臺(tái)提供從數(shù)據(jù)接入、數(shù)據(jù)分析處理、數(shù)據(jù)展示、特征工程、模型管理、模型部署以及智能應(yīng)用上線一站式實(shí)現(xiàn)和管理。

工業(yè)大數(shù)據(jù)分析建模平臺(tái)顯著提高建模效率、轉(zhuǎn)變模型開發(fā)方式

該石化企業(yè)通過(guò)大數(shù)據(jù)低代碼建模平臺(tái),解決了煉油化工企業(yè)“有數(shù)據(jù)、無(wú)模型;有模型、難應(yīng)用”、“建模成本高、建模周期長(zhǎng)”的問(wèn)題。通過(guò)實(shí)踐證明在預(yù)測(cè)誤差、利潤(rùn)產(chǎn)品收率、建模周期等方面均得到顯著改善。

1)模型性能提升,預(yù)測(cè)誤差降低

基于大數(shù)據(jù)建模平臺(tái)開發(fā)的“多通道多尺度卷積神經(jīng)網(wǎng)絡(luò)(MCMSCNN)”模型在加氫催化劑床層溫度預(yù)測(cè)、氫氣耗量預(yù)測(cè)方面誤差<3%,提升了煉化工程師對(duì)核心工況參數(shù)的監(jiān)控把握,大幅降低氫氣、燃料氣等生產(chǎn)成本。

基于低代碼平臺(tái)開發(fā)的“大數(shù)據(jù)預(yù)訓(xùn)練+工藝數(shù)據(jù)微調(diào)”遷移算法解決了因LIMS(實(shí)驗(yàn)室信息管理系統(tǒng))化驗(yàn)分析數(shù)據(jù)量不足而造成的產(chǎn)品性質(zhì)預(yù)測(cè)模型性能不佳的問(wèn)題,實(shí)現(xiàn)了加氫裂化產(chǎn)品性質(zhì)的實(shí)時(shí)軟測(cè)量,利潤(rùn)產(chǎn)品收率提高約0.8%。

2)建模門檻降低,建模周期大幅縮短

數(shù)據(jù)智能建模平臺(tái)實(shí)現(xiàn)了生產(chǎn)裝置海量數(shù)據(jù)的有效利用,從數(shù)據(jù)采集到模型部署,由2周大幅縮短為1天。其中建模環(huán)節(jié),因平臺(tái)支持通過(guò)建立與煉油裝置有關(guān)的工藝和質(zhì)量的專題數(shù)據(jù)集來(lái)固化先驗(yàn)知識(shí),遷移建模特征,為大數(shù)據(jù)算法落地提供特征模板與數(shù)據(jù)基礎(chǔ),使建模時(shí)間由原來(lái)的一周大幅縮短為8小時(shí),建模效率大幅提高。

此外,該石化企業(yè)內(nèi)的模型開發(fā)工作也實(shí)現(xiàn)了“去中心化”,從原有信息中心的個(gè)別工程師在實(shí)驗(yàn)室開發(fā),轉(zhuǎn)變?yōu)橐痪€工程師結(jié)合生產(chǎn)問(wèn)題廣泛開發(fā),有效賦能生產(chǎn)。

3)模型資產(chǎn)實(shí)現(xiàn)復(fù)用

由煉化工程師自主研發(fā)的10余個(gè)機(jī)器學(xué)習(xí)模型,日調(diào)用量超1000余次。

廠商選型和企業(yè)科研意識(shí)是大數(shù)據(jù)低代碼建模平臺(tái)落地關(guān)鍵

該石化企業(yè)通過(guò)建設(shè)低代碼工業(yè)大數(shù)據(jù)分析建模平臺(tái)實(shí)現(xiàn)加氫裝置多環(huán)境的優(yōu)化,取得良好效果,其成功經(jīng)驗(yàn)可以復(fù)用到煉化行業(yè)生產(chǎn)工藝環(huán)節(jié)、其他流程行業(yè)企業(yè),或是供已建設(shè)工業(yè)物聯(lián)網(wǎng)的企業(yè)借鑒,主要包括以下兩點(diǎn):

1)廠商選型

石化企業(yè)的生產(chǎn)流程具有顯著行業(yè)特點(diǎn),生產(chǎn)環(huán)境復(fù)雜,對(duì)產(chǎn)品的穩(wěn)定性、可靠性要求苛刻,且石化企業(yè)普遍不具備建模能力,建模平臺(tái)完成后需提供完善的售后服務(wù)。因此廠商應(yīng)具備以下能力。

廠商應(yīng)具備工業(yè)、制造業(yè)或是能源行業(yè)的服務(wù)經(jīng)驗(yàn),具備一定的行業(yè)Know-how積累,理解行業(yè)工業(yè)互聯(lián)網(wǎng)要求、了解企業(yè)業(yè)務(wù)流程。

廠商產(chǎn)品須為自主研發(fā),能針對(duì)企業(yè)個(gè)性化需求進(jìn)行定制化開發(fā)。

廠商產(chǎn)品及技術(shù)應(yīng)兼容國(guó)產(chǎn)化軟硬件環(huán)境,能夠在國(guó)產(chǎn)CPU、AI加速芯片以及操作系統(tǒng)上穩(wěn)定運(yùn)行。

廠商應(yīng)能提供數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家為企業(yè)提供培訓(xùn)教學(xué),讓一線工程師快速掌握基礎(chǔ)概念,結(jié)合業(yè)務(wù)案例,通過(guò)實(shí)訓(xùn)的方式讓工程師掌握平臺(tái)使用技能。

2)企業(yè)自身對(duì)數(shù)字化、對(duì)科研的重視

一方面,企業(yè)需要有強(qiáng)烈的科研意識(shí),能夠緊跟新技術(shù)發(fā)展,勇于在自身業(yè)務(wù)領(lǐng)域進(jìn)行創(chuàng)新;另一方面,企業(yè)管理層對(duì)工業(yè)互聯(lián)網(wǎng)、對(duì)數(shù)字化建設(shè)的重視也是機(jī)器學(xué)習(xí)建模平臺(tái)能順利落地的保障。 4.結(jié)語(yǔ)

機(jī)器學(xué)習(xí)正在向更多行業(yè)滲透,市場(chǎng)對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的產(chǎn)品需求正變得更加復(fù)雜。一方面,不同行業(yè)的數(shù)字化進(jìn)程、IT人才、建模人才儲(chǔ)備不同,使用數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的的對(duì)象愈發(fā)多元化,包括不限于算法開發(fā)人員、模型開發(fā)人員、數(shù)據(jù)工程師、應(yīng)用開發(fā)人員、BI分析師、數(shù)據(jù)分析師等。不同對(duì)象對(duì)數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)平臺(tái)的功能訴求不同;另一方面,客戶對(duì)機(jī)器學(xué)習(xí)平臺(tái)解決方案的需求走向深水區(qū),強(qiáng)調(diào)適應(yīng)場(chǎng)景需求、產(chǎn)生業(yè)務(wù)價(jià)值,需要機(jī)器學(xué)習(xí)廠商能融合行業(yè)或場(chǎng)景知識(shí),提供定制化的行業(yè)解決方案。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )