AutoML的概念源自2012年學(xué)術(shù)界提出一個(gè)新觀點(diǎn)Programming by Optimization(PbO),字面上的意思是指以最優(yōu)化程序開(kāi)發(fā),實(shí)質(zhì)上就是要解決建模時(shí)依賴人工的問(wèn)題。
AutoML更大范圍內(nèi)為世人周知是因?yàn)楣雀鐲loud AutoML Vision產(chǎn)品的發(fā)布,這款產(chǎn)品可以用AI設(shè)計(jì)AI,讓更多對(duì)機(jī)器學(xué)習(xí)了解有限的人,把Google級(jí)的AI技術(shù)運(yùn)用到產(chǎn)品打磨中,從而降低了使用機(jī)器學(xué)習(xí)的門檻,這也是智鈾科技正在做的事情,不同的是,谷歌AutoML目前專注于圖像識(shí)別領(lǐng)域,智鈾科技目前主要以結(jié)構(gòu)化數(shù)據(jù)為主,致力于為企業(yè)帶來(lái)全流程、自動(dòng)化的建模和部署能力,幫助企業(yè)構(gòu)建人工智能核心,實(shí)現(xiàn)AI驅(qū)動(dòng)。
目前,傳統(tǒng)行業(yè)使用機(jī)器學(xué)習(xí)仍面臨著巨大的挑戰(zhàn)。
1、建模過(guò)程繁瑣
2、AI人才匱乏
3、人力成本大
4、算法設(shè)計(jì)周期長(zhǎng)
5、系統(tǒng)實(shí)施維護(hù)困難
針對(duì)這些痛點(diǎn),夏粉博士帶領(lǐng)智鈾科技團(tuán)隊(duì)開(kāi)發(fā)了自動(dòng)化機(jī)器學(xué)習(xí)產(chǎn)品“小智”。
小智可以免費(fèi)試用,支持上限為200MB 的 CSV 訓(xùn)練數(shù)據(jù)量、10MB的數(shù)據(jù)預(yù)測(cè),無(wú)需編寫代碼,學(xué)習(xí)數(shù)學(xué),就可以讓你親身體驗(yàn)機(jī)器學(xué)習(xí)的魅力。模型精度也無(wú)需擔(dān)心,小智可以幫您完成簡(jiǎn)單便捷、高質(zhì)高效的建模。
試用方法:進(jìn)入智鈾科技官網(wǎng),在產(chǎn)品頁(yè)面點(diǎn)擊免費(fèi)試用即可
智鈾科技發(fā)布的自動(dòng)化機(jī)器學(xué)習(xí)產(chǎn)品“小智”,可以自動(dòng)構(gòu)建高精度模型,為用戶提供從數(shù)據(jù)預(yù)處理、特征工程、模型調(diào)參、模型評(píng)估、模型預(yù)測(cè)到結(jié)果分析等一站式服務(wù),其獨(dú)創(chuàng)的參數(shù)搜索算法解決了人工調(diào)參費(fèi)時(shí)耗力的問(wèn)題,獨(dú)創(chuàng)的特征工程算法,令組合特征挖掘效率提升上千倍。另外,小智還支持千億樣本、千億特征數(shù)據(jù)量,模型從淺層到深層靈活支持。
除了以獨(dú)創(chuàng)的算法實(shí)現(xiàn)了自動(dòng)建模,小智在產(chǎn)品的交互方面也貫徹著簡(jiǎn)單易用的原則,直觀的web界面允許任何人和小智進(jìn)行交互,不需要AI背景,用戶也可以一鍵完成建模,內(nèi)置的可視化效果,如ROC曲線圖和準(zhǔn)確&召回曲線,能夠使用戶對(duì)自己的業(yè)務(wù)有更深刻的理解。據(jù)某銀行客戶介紹:“在通用場(chǎng)景下,普通業(yè)務(wù)人員借助小智也能達(dá)到高級(jí)建模人員水平。”
隨著互聯(lián)網(wǎng)+時(shí)代的到來(lái),大數(shù)據(jù)在企業(yè)的落地應(yīng)用正在快速增長(zhǎng),而數(shù)據(jù)安全,也成為眾多企業(yè)的顧慮,這也催生了企業(yè)對(duì)于私有化部署的需求。據(jù)悉,小智將以產(chǎn)品的形式提供給行業(yè),除了支持公有云、SAAS模式外,還提供私有化部署。
AutoML仍然是一個(gè)在摸索中的新興領(lǐng)域,誰(shuí)能搶占技術(shù)占領(lǐng)市場(chǎng)尤為重要。目前,智鈾科技已經(jīng)與金融、醫(yī)療、物聯(lián)網(wǎng)等多個(gè)行業(yè)的公司合作為其提供服務(wù),產(chǎn)品的功能應(yīng)用涵蓋點(diǎn)擊率預(yù)估、反欺詐偵測(cè)、市場(chǎng)精準(zhǔn)營(yíng)銷以及個(gè)性化推薦等,滿足不同場(chǎng)景的不同需求,同時(shí)產(chǎn)品的有效性經(jīng)過(guò)實(shí)踐驗(yàn)證,不但能夠?yàn)槠髽I(yè)帶來(lái)收入的增長(zhǎng)并且節(jié)省成本。
整體建模流程
機(jī)器學(xué)習(xí)建模過(guò)程一般包含多個(gè)步驟,首先,數(shù)據(jù)科學(xué)家要對(duì)業(yè)務(wù)問(wèn)題進(jìn)行定義,抽象為數(shù)學(xué)問(wèn)題;對(duì)獲取到的數(shù)據(jù)進(jìn)行分析、理解、清洗,劃分;其次進(jìn)行特征工程,如特征衍生、特征組合、特征選擇等,然后才能開(kāi)始進(jìn)行建模、訓(xùn)練、預(yù)測(cè)等。在小智平臺(tái),用戶只需上傳數(shù)據(jù),選定目標(biāo)名稱,其余步驟包括數(shù)據(jù)預(yù)處理、特征工程、調(diào)參、訓(xùn)練及預(yù)測(cè),得到分析結(jié)果,部署和監(jiān)控模型均由小智完成,實(shí)現(xiàn)真正端到端的全程自動(dòng)機(jī)器學(xué)習(xí)。這大大減少了缺乏機(jī)器學(xué)習(xí)知識(shí)用戶的使用難度。
機(jī)器學(xué)習(xí)工作流圖(綠色圓柱塊表示數(shù)據(jù),為整個(gè)工作流的基礎(chǔ),藍(lán)色的方塊為一個(gè)簡(jiǎn)單的建模流程,有簡(jiǎn)單問(wèn)題只需要走完藍(lán)色方塊就結(jié)束了,黃色的兩個(gè)方塊為模型需要上線,持續(xù)優(yōu)化改善的部分)
機(jī)器學(xué)習(xí)工作流如上圖所示,整個(gè)流程以數(shù)據(jù)為中心,循環(huán)往復(fù)。在使用小智的過(guò)程中,首先要收集建模需要的數(shù)據(jù),可能是業(yè)務(wù)相關(guān)數(shù)據(jù),也可能是從網(wǎng)上爬取的一些信息。我們可以將這些結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為csv寬表或txt文件,放在本地、數(shù)據(jù)庫(kù)或HDFS上,然后上傳至小智,對(duì)數(shù)據(jù)集的格式進(jìn)行調(diào)整,例如編碼、分隔符、空值標(biāo)識(shí)、首行是否為特征名稱等。至此,用戶負(fù)責(zé)的數(shù)據(jù)準(zhǔn)備之前的步驟便完成了。
下一步為建立模型。當(dāng)用戶上傳數(shù)據(jù)到小智平臺(tái)后,小智會(huì)檢查和清理數(shù)據(jù),并且會(huì)以數(shù)據(jù)科學(xué)的角度給出所有特征的數(shù)據(jù)畫像。用戶選擇建模目標(biāo)后就可以開(kāi)始“一鍵式”自動(dòng)化建模了。小智會(huì)依次完成從數(shù)據(jù)清洗、特征工程、調(diào)參、選擇最優(yōu)算法、搭建模型、模型評(píng)估、模型發(fā)布的全過(guò)程,實(shí)現(xiàn)真正的“一鍵式”建模。模型評(píng)估階段可以監(jiān)控模型的預(yù)測(cè)性能,當(dāng)用戶認(rèn)為預(yù)測(cè)結(jié)果不理想時(shí)可以選擇重新訓(xùn)練模型以達(dá)到理想的預(yù)測(cè)結(jié)果。當(dāng)用戶完成模型訓(xùn)練并且選擇了合適的模型后,就可以部署模型了。 部署后,可以上傳CSV預(yù)測(cè)文件,對(duì)上傳的數(shù)據(jù)進(jìn)行批量預(yù)測(cè),或者使用模型API 進(jìn)行實(shí)時(shí)預(yù)測(cè)。
案例分析
為了實(shí)際感受小智的效果,并了解它到底和人工建模相比有什么優(yōu)勢(shì),我們使用一個(gè)廣告點(diǎn)擊預(yù)測(cè)案例來(lái)說(shuō)明,即通過(guò)廣告系統(tǒng)的結(jié)構(gòu);流量預(yù)估:設(shè)備號(hào)、手機(jī),區(qū)域(經(jīng)緯度)、訪問(wèn)時(shí)間;廣告主專業(yè):新型游戲等;創(chuàng)意特征;投放之后定向的特征;廣告位;環(huán)境等特征來(lái)預(yù)測(cè)某條投放廣告是否被點(diǎn)擊。
點(diǎn)擊率(click-throughrate)是評(píng)價(jià)在線廣告效果的重要指標(biāo),對(duì)點(diǎn)擊率進(jìn)行預(yù)測(cè)建模在線廣告商尤為重要。我們可以用歷史的廣告投放數(shù)據(jù)建立一個(gè)模型,輸入未來(lái)一段時(shí)間的廣告投放數(shù)據(jù)進(jìn)行模型驗(yàn)證。分別進(jìn)行小智自動(dòng)化建模和手動(dòng)建模。
小智數(shù)據(jù)怎么做
該建模數(shù)據(jù)集是在線廣告點(diǎn)擊率預(yù)測(cè)競(jìng)賽的數(shù)據(jù),來(lái)自Kaggle競(jìng)賽,通過(guò)廣告ID、是否點(diǎn)擊、位置欄位、網(wǎng)站域名、網(wǎng)站種類、應(yīng)用ID、應(yīng)用領(lǐng)域、設(shè)備編號(hào)等屬性來(lái)預(yù)測(cè)廣告是否被點(diǎn)擊。本案例分析中我們只截取了其中一部分?jǐn)?shù)據(jù)集,并做了必要的數(shù)據(jù)清洗,每條樣本為一條廣告投放并且標(biāo)記了是否被點(diǎn)擊的數(shù)據(jù),最后一列“click”為目標(biāo),1表示點(diǎn)擊,0表示未點(diǎn)擊。已預(yù)先劃分好數(shù)據(jù)集,“train.csv”為訓(xùn)練集,“test.csv”為預(yù)測(cè)集。訓(xùn)練樣本集共320473個(gè),預(yù)測(cè)樣本79527個(gè),特征維度為23維。
在上傳數(shù)據(jù)階段,可以看到有一個(gè)虛線框,點(diǎn)擊虛線框火將文件拖拽至此即可實(shí)現(xiàn)上傳。虛線框中還有“點(diǎn)此下載測(cè)試數(shù)據(jù)”和“下載數(shù)據(jù)匿名化工具”兩個(gè)選項(xiàng),我們提供了一些公開(kāi)的測(cè)試數(shù)據(jù)可供用戶下載測(cè)試,加入用戶不想讓自己的數(shù)據(jù)上傳到公有云上,可以下載數(shù)據(jù)匿名化工具對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的加密,使得數(shù)據(jù)特征名稱、敏感特征值隱藏,而且不會(huì)影響模型效果。
上傳數(shù)據(jù)后,可以看到小智中的數(shù)據(jù)概覽,點(diǎn)擊“確定并生成畫像”進(jìn)入到下一步,接著通過(guò)可視化操作選擇要預(yù)測(cè)的目標(biāo)變量與可用的特征變量,保存特征列表后即可進(jìn)行模型訓(xùn)練。對(duì)于分類任務(wù),特征變量可以分為類別型和數(shù)值型,小智可以自動(dòng)檢測(cè)變量類型,用戶也可以根據(jù)需求自定義修改類型,這又會(huì)節(jié)省很多精力。
小智的上傳數(shù)據(jù)界面
原始訓(xùn)練數(shù)據(jù)樣本集概覽
經(jīng)過(guò)匿名化處理的訓(xùn)練數(shù)據(jù)樣本集概覽
確定目標(biāo)變量無(wú)誤后,小智會(huì)根據(jù)目標(biāo)變量自動(dòng)分析模型類型,以及分析特征變量,并給出自動(dòng)質(zhì)量修復(fù)方案。
數(shù)據(jù)畫像示例
小智建模怎么做
處理完數(shù)據(jù)后就可以開(kāi)始建模了,小智全自動(dòng)建模不需要用戶做任何操作,只要等待模型訓(xùn)練完成即可。目前只支持二分類和回歸,主要采用常用的LR和GBDT算法,兼顧了性能與可解釋性。之后小智會(huì)進(jìn)行自動(dòng)建模、調(diào)參,用戶可以選擇模型中結(jié)果較好的一個(gè)。
模型訓(xùn)練完后可以查看訓(xùn)練足跡、模型評(píng)估、以及模型描述。
其中模型評(píng)估中有ROC曲線、Lift提升度、KS曲線、精確&召回曲線等指標(biāo),AUC等指標(biāo)采用交叉驗(yàn)證的計(jì)算值,Lift、KS等采用的是驗(yàn)證集上計(jì)算出的指標(biāo)。模型評(píng)估是我們?cè)u(píng)價(jià)模型好壞的標(biāo)準(zhǔn),在預(yù)測(cè)數(shù)據(jù)集上也有同樣的一個(gè)評(píng)估模塊。在模型描述中我們有特征重要性查看和歸因解釋,我們可以看到在模型中排列在前面的一些特征,比如我們可以選擇top K進(jìn)行重新建模,在以后收集數(shù)據(jù)時(shí)特別注重這些特征的完整性和正確性等。原因解釋可以查看預(yù)測(cè)正確的樣本的哪些屬性占主要正向原因,哪些屬性占主要的負(fù)向原因。還可以查看真實(shí)值和預(yù)測(cè)值相差最大的top K個(gè)樣本,查看是否是異常數(shù)據(jù)樣本。
模型描述中的特征重要度
模型描述中的原因解釋
小智部署怎么用
最后的部署就比較簡(jiǎn)單了,確定最合適的訓(xùn)練模型,然后選擇發(fā)布即可下載模型部署或者調(diào)用API,配合SDK使用進(jìn)行預(yù)測(cè)就行了。一般小智可以通過(guò)數(shù)據(jù)源或 API 進(jìn)行模型部署,其中數(shù)據(jù)源采用本地 CSV 文件。
與一般工程師人工建模效果對(duì)比
如下圖所示,通過(guò)運(yùn)用小智建立的廣告點(diǎn)擊預(yù)測(cè)模型,在預(yù)測(cè)集上的AUC 可達(dá)到 0.7294,能夠較準(zhǔn)確地識(shí)別出廣告流量是否被點(diǎn)擊,為廣告投放提供了重要支持;分析團(tuán)隊(duì)在收集到相關(guān)數(shù)據(jù)后,利用小智平臺(tái)能夠在 1 小時(shí)內(nèi)迅速構(gòu)建出模型并完成預(yù)測(cè);整個(gè)過(guò)程僅需要一名普通水平的數(shù)據(jù)分析師即可完成整個(gè)建模預(yù)測(cè)工作,不需要任何外部顧問(wèn),從而節(jié)約了大量成本。
在實(shí)際應(yīng)用中,小智不僅在廣告推薦領(lǐng)域,還有包括金融、能源、醫(yī)療、新零售、物流、制造、游戲等眾多領(lǐng)域的中都有很好的表現(xiàn)。
小智在預(yù)測(cè)集上的AUC 達(dá)到 0.7294
一般的算法工程師,借助開(kāi)源算法庫(kù)sklearn中的GBDT、RF、LR、Adaboost,以及Xgboost五種算法模型進(jìn)行建模分析。看到建模效果最好的模型是GBDT,AUC只有0.7108,小于小智自動(dòng)建模的AUC 0.7294。
對(duì)比銀行某產(chǎn)品推薦的人工建模效果
建模場(chǎng)景:預(yù)測(cè)目標(biāo)客戶在1個(gè)月內(nèi)購(gòu)買產(chǎn)品(5種產(chǎn)品)的可能性;
建模規(guī)模:約3700萬(wàn)戶;
建模數(shù)據(jù):根據(jù)客戶前一個(gè)月的表現(xiàn),對(duì)5類產(chǎn)品的持有和未持有分開(kāi)建立10個(gè)模型,每個(gè)數(shù)據(jù)集大小為200MB—8G;
建模效果:與行內(nèi)建模團(tuán)隊(duì)模型效果基本相符。建模效率提升了近10倍,在合作銀行中一個(gè)人工模型上線一般需要2月左右,小智只需要不到一周就能完成建模,且能和銀行內(nèi)已有應(yīng)用系統(tǒng)無(wú)縫融合。
對(duì)同一模型評(píng)價(jià)指標(biāo)的分值,評(píng)估級(jí)別計(jì)算方法為: (小智分值-行內(nèi)基線)/行內(nèi)基線
最終效果對(duì)比表
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 為什么年輕人不愛(ài)換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來(lái)”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見(jiàn)“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來(lái)
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。