雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI科技評論按:6月24日下午,鈦媒體和杉數(shù)科技主辦的2017 AI 大師論壇在京舉行,論壇邀請了五位算法優(yōu)化、機器學習領域的頂尖教授、學者出席并發(fā)表學術演講,雷鋒網(wǎng)記者也對論壇進行了跟蹤報道。本篇內(nèi)容根據(jù)機器學習領域?qū)<依罱ǖ恼搲窒韺嶄浾矶伞?/p>
李建,清華大學交叉信息研究院助理教授、杉樹科技科學家,美國馬里蘭大學博士、國內(nèi)機器學習領域最頂尖的前沿科學家之一,國際學術會議VLDB 2009和ESA 2010最佳論文獎獲得者,清華211基礎研究青年人才支持計劃以及教育部新世紀人才支持計劃青年學者,主要研究方向為算法設計與分析、機器學習與深度學習、隨機優(yōu)化與組合優(yōu)化等。
清華大學交叉信息研究院:該院于2011年成立,由姚期智院士建立,姚其智院士是我國唯一的圖靈獎獲得者(圖靈獎是計算機科學最高獎)。他在2005年從普林斯頓大學辭去職位,回國全職到清華創(chuàng)立姚班,也就是交叉信息研究院的本科生班,也被稱為清華大學計算機科學實驗班。
以下為李建在論壇的分享實錄,雷鋒網(wǎng)做了不改動愿意的編輯整理:
什么是時空大數(shù)據(jù)
時空大數(shù)據(jù),顧名思義,也全都是大數(shù)據(jù),有時間的屬性和空間的屬性兩個維度。比如說,GPS數(shù)據(jù),首先有定位點,定位點就是空間的屬性,進入的時間就是時間的屬性。還有網(wǎng)約車的訂單數(shù)據(jù),發(fā)的這個訂單數(shù)據(jù)就有當時的時間和空間,也是時空大數(shù)據(jù)典型的例子。
另外庫存管理產(chǎn)生的數(shù)據(jù)頁是時空大數(shù)據(jù),杉數(shù)科技主要的一個業(yè)務就是供應鏈,用來做庫存管理。其中包含很多步驟,在線的電商數(shù)據(jù),社交網(wǎng)絡的數(shù)據(jù),也都是典型的時空大數(shù)據(jù)。
金融數(shù)據(jù)在某種意義上也是時空大數(shù)據(jù)。首先有時間的屬性,時間序列,另外比如說不同的板塊,不同的類型,不同的行業(yè),有不同的空間屬性,也是比較典型的時空大數(shù)據(jù)。
時空大數(shù)據(jù)的特點
時空大數(shù)據(jù)的特點既有時間的屬性也有空間的屬性,就像談到深度學習,經(jīng)常談到比如說圖像識別,其中很重要一點就是識別圖象的空間屬性。如果大家對深度學習有一點了解,做圖像識別是需要用CNN(卷積神經(jīng)網(wǎng)絡)的,主要挖掘的就是空間的多變性,所以時空大數(shù)據(jù)是跟圖像識別有共通的。在時間上,還有一個時間的屬性,RNN,也就是遞推神經(jīng)網(wǎng)絡處理序列的數(shù)據(jù),這些時空大數(shù)據(jù)也包含。同時包含時間和空間的這兩個屬性,就對時空大數(shù)據(jù)提出很多新的挑戰(zhàn)。
同時,另一個時空大數(shù)據(jù)的特點是有很多類型的數(shù)據(jù)。要解決一個問題要用到方方面面的信息,比如說預測網(wǎng)約車訂單供需量的應用,數(shù)據(jù)的類型就包含很多種,像GPS,訂單的數(shù)據(jù),天氣的數(shù)據(jù)還有附近的路況數(shù)據(jù),可以用的數(shù)據(jù)非常多種。這跟原來深度學習所處理的問題不一樣,做圖像識別只需要圖像就夠了,要做語音識別,只需要語音就夠了,而時空大數(shù)據(jù)要有各種各樣的數(shù)據(jù),這些數(shù)據(jù)都是不同質(zhì)的,需要組合起來,然后來進行學習和預測。
李建認為目前深度學習在比如說圖像識別、語音識別這些領域,都可以說比較成功,也有很成功的商業(yè)化模式,但深度學習在時空大數(shù)據(jù)方面的研究,只是剛剛起步還沒有非常成熟的一套方法論。他剛好研究這個方向就做了一系列的工作,相當于是一個初步的嘗試,而且也應用到了企業(yè)級的應用項目上。其中包含和杉數(shù)的一些合作項目。
他認為將深度學習應用在時空大數(shù)據(jù)的分析上有非常廣闊的前景。
基于深度學習的網(wǎng)約車訂單預測。網(wǎng)約車訂單的問題,是要解決什么樣的問題呢?首先想做的事情是預測未來比如說15分鐘或者半個小時,在一個指定的區(qū)域內(nèi)會有多少網(wǎng)約車訂單。也就是說,你用滴滴發(fā)一個訂單,這是一個預測目標,有多少的訂單,就相當于是我們的需求。另外一個想預測的就是有多少需求不會滿足,對滴滴來說也是一個很重要的應用,如果在一個地區(qū)預計將來比如說半個小時有很多的訂單不會滿足的話,就可能會事先派一些車到這個區(qū)域或者說經(jīng)過這個區(qū)域,另外還會動態(tài)的調(diào)價,這對他們預測問題是非常重要的課題。
這個問題的難點就像剛才講的是時空大數(shù)據(jù)典型的應用,各種各樣的數(shù)據(jù)頁都可以應用在里面,比如說GPS的數(shù)據(jù)、天氣、路況都非常有影響。可以看這個圖,紅色代表這個地方的需求量特別大,綠色代表需求量不是很大,可以看到不同區(qū)域的需求量是非常不一樣的。隨著時間的變化,它的需求也是非常不一樣的,比如上圖隨著時間從00點到20點,可以看到上班的時候有一個明顯的高峰,下班的時候也有明顯的高峰,這顯然是一個工作的區(qū)域。另一個區(qū)域就不一樣,是一個居民區(qū),下班的時候才會有比較好的高峰。隨著時間的變化,周一周二周三周四節(jié)假日對這個圖也都會有非常大的影響。
如何用深度學習解決這個問題,傳統(tǒng)的學習方法是把很多數(shù)據(jù)源的不同數(shù)據(jù)挖掘出它們的特征,需要不同的組合、創(chuàng)造力或者說特殊的方法對這些數(shù)據(jù)挖掘,然后做一些統(tǒng)計量把它們拼到一起放在機器模型里。這個過程通常是要花很多很多的時間,精力和人員的。
現(xiàn)在的想法就是利用深度學習自動的從不同的數(shù)據(jù)里面挖掘特征。因為深度學習有一個自動的特征挖掘能力。但是現(xiàn)在深度學習在時空大數(shù)據(jù)中自動挖掘特征還沒有一個非常好的模式,我們希望做一個深度學習這樣的一個框架,能夠從各種不同的數(shù)據(jù)源挖掘特征,把這些特征組合在一起,然后有這樣的一個框架來進行預測。
這是經(jīng)過一段時間探索得到的深度學習框架,這里面有很多的細節(jié)我都沒有刻畫,但是大致的思想是這樣的。首先它是一個彎道模型,經(jīng)過簡單的處理,就可以輸入到網(wǎng)絡里,而且這個網(wǎng)絡可以容納不同類型的數(shù)據(jù),比如說訂單數(shù)據(jù),天氣數(shù)據(jù),交通數(shù)據(jù)。從這個數(shù)據(jù)里面抓取有用的信息來幫助預測,這是預測的輸出。處理每個不同的數(shù)據(jù)需要不同的網(wǎng)絡板塊和節(jié)奏,簡單的說就叫ID模塊,想預測不同的區(qū)域,這個區(qū)域就有一個ID,area ID,把它輸入進去,然后想預測什么時間,把時間的ID輸進去,然后哪個周,把周輸入進去。一般神經(jīng)網(wǎng)絡是處理連續(xù)性的數(shù)據(jù),不擅于處理離散性數(shù)據(jù),這就需要嵌入這樣的技術,把離散的變成連續(xù)性的,然后再輸入下一步神經(jīng)網(wǎng)絡里。
另外構(gòu)造模塊的處理,訂單的數(shù)據(jù),是復雜的模塊,因為訂單首先數(shù)量非常非常的大。每個訂單包含的屬性非常多,但是這里面是受到傳統(tǒng)的時間序列模型啟發(fā)。比如說時間序列,如果時間序列模型做一下插分會有更好的預測,在神經(jīng)網(wǎng)絡就有這樣的思想,預測經(jīng)過插分的序列,然后把訂單數(shù)據(jù)整合起來。
這個圖片是講的嵌入操作的功能,在做傳統(tǒng)機器學習的時候,比如說,現(xiàn)在想預測周一某一個時間段的供需,周一和周二的預測是不一樣的,現(xiàn)在想法是把歷史上周一的數(shù)據(jù)拿出來做一下訓練,周二的數(shù)據(jù)再拿出來訓練另外的模型,訓練不同的模型,因為這個非常不一樣,把它們?nèi)谠谝黄鹩柧氁粋€模型效果并不太好?,F(xiàn)在深度神經(jīng)網(wǎng)絡就希望把所有的數(shù)據(jù)拿出來練一個模型,通過嵌入操作對這些數(shù)據(jù),這個點進行歸類,看這兩個曲線的時間序列,然后就會發(fā)現(xiàn)這個高峰非常的相似,這是自動的進行歸類,一定時間中他們也非常相近。
這是深度神經(jīng)網(wǎng)絡得到的預測的效果,和傳統(tǒng)的方法比了一下,比如說LASSO,GBDT也是非常常見的一個方法,還有RF,也都是大家常用的。團隊有一個BasicDeepsd,這個是簡單版本,滴滴做這個項目舉辦了一場大數(shù)據(jù)競賽,全球有1000多個隊伍參加,Basic DeepSD獲得第二名,當時給的數(shù)據(jù)比較少,模型還可以有進一步的提升,后來跟滴滴進一步的合作,研發(fā)了Advanced DeepSD,結(jié)果很明顯得到了提升。
這個虛線綠的是真實值,紅線是傳統(tǒng)的非常好的GBDT方法,藍線的是DeepSD新方法,紅線的預測多了,藍的預測的好一點,有些地方是紅線預測的少,像紅的是傳統(tǒng)方法預測的就比正常的少,但是我們算法要好一點。
深度學習能夠更好抓住變化的趨勢
第二個場景是出行時間預測,比如說在百度地圖里面從A點走到B點,然后想預測,開車要開多久。當時從8點開車,當時這個地方非常非常堵,預測要花很多的時間,等開到這個附近已經(jīng)不堵了,實際上花的時間沒這么多了。當時不堵,開到這邊就堵了,在當時計算的時間也不一樣。這里面就是計算加預測的問題。
這里面也有很多的挑戰(zhàn),不光是有路況,也有地點的屬性,要處理新的數(shù)據(jù),也就叫做trajectory 數(shù)據(jù),另外還包括具體的司機的屬性,根據(jù)一些歷史信息,對這個新的司機開一個新的路會花多久進行預測。某種意義上是學習司機的習慣。
這是團隊研發(fā)的深度學習框架,大致的數(shù)據(jù)理念跟剛才一樣的,有一系列的模塊,不同的模塊處理不同的數(shù)據(jù)源。像上面提到的這個也有ID數(shù)據(jù)。完全不一樣的是這個數(shù)據(jù)是序列數(shù)據(jù)類型,是一個新的模塊,新的模塊我們用的是LSTM(長短記憶模型),這個在深度學習里面是非常重要的模塊應用,是用來做序列學習非常重要且很有力的工具。團隊把這個通過一系列的方式組合起來進行預測。
這是中間一個序列模塊,用來預測這個序列。
另外針對提到的有很多輔助信息,發(fā)展了一個輔助內(nèi)容的模塊。雖然說想預測從A點到B點花的時間,結(jié)果就是一個數(shù)值,但實際有很多信息的,從A到B走每一段小路都是有時間的,知道走多長時間,這些都是輔助信息。如果把這些輔助信息丟掉預測的話就有點浪費,所以就專門用一個模塊來利用這些輔助信息把預測做到更好。
下面是商店選址,傳統(tǒng)的商店選址,通過優(yōu)化的方法,或者說通過問卷調(diào)查的方法,在一個地方發(fā)一些問卷,看這個地方有多少人進這個商店,這種成本代價比較高,而且并不是非常準確。團隊就跟百度大數(shù)據(jù)實驗室合作進行一個項目,利用百度的大數(shù)據(jù)來確定幫助進行商店選址。大致就是,首先進行用戶的需求分析,分析什么地方會有很多用戶需求,然后就在用戶去的多的地方進行選址會比較好一點。這個需求實際上是從百度的移動端里面挖掘的,比如在百度地圖里面搜了一下想去星巴克,那么就代表有一個單位的需求,或者說專門搜了一下咖啡也是代表有需求,或者說想吃飯、海底撈、飯館。首先總結(jié)這些需求,一種是非常具體的需求,比如說星巴克,就想去星巴克的這個店,另外一種比如說想喝咖啡,這樣的需求。
利用這些需求知道哪些需求比較多哪些需求比較少,然后就會有這樣的一個數(shù)據(jù)。
現(xiàn)有的商店數(shù)據(jù)。因為比如說想開咖啡店,這已經(jīng)有三五個咖啡店就不想再在這里開咖啡店,現(xiàn)有的咖啡店的數(shù)據(jù)也是有的,每個咖啡店也有自己的數(shù)據(jù),能夠服務大概多少的需求,就是希望看看剩下的哪些需求還沒有被滿足,比如說這個例子中有很多的供給,這個供給已經(jīng)可以滿足需求了,有這樣的模型,一個供給可以滿足多少需求,剩下的這些需求進行一個聚類,然后大數(shù)據(jù)分析得到一些中心點,這就是后選的一些選址的位置。最后做機器學習找出最好的中心點。上面的圖是是根據(jù)距離、店的大小判斷去掉已經(jīng)有的需求。
這里有一個實地的案例分析,就是用上面提到的方法去進行選址,比如說第一個圖,是海底撈,后來發(fā)現(xiàn),在不遠處就剛剛開了這樣的一個店,開店的人并不知道是大數(shù)據(jù)選的址。大數(shù)據(jù)選址可能跟他們選的也差不多,但是會給出很多的后選的地點。
這個是到訪預測。走到一個購物商場,有很多的店,那么實際上到了哪一個店這是想要的數(shù)據(jù)。到了購物商場會連到這個wifi,這個數(shù)據(jù)頁是要用的數(shù)據(jù)。也有一些現(xiàn)有的工作,基于這個距離的,還用一些傳統(tǒng)的learning-to-rank,這個效果都一般,比如說這個人,想去哪一個地方,下一步會有一個偏好,如果光看一個人的話并不能抓住這些特點。這個框架跟剛才的類似,有一個不同就是用了貝葉斯方法,可以處理一個難點,就是GPS的數(shù)據(jù)比較多,但是check in比較少的情況下,推斷去哪些點,然后把這個推斷分到深度學習框架里,這個預測的準確率還是不錯的。最后的是這個準確率模型,簡單的貝葉斯的方法基本上可以做到。如果預測5個,5個中間有一個是對的概率基本上是80%;預測3個,70%的概率3個中間有一個是對的。
最后講研發(fā)的這個深度學習框架,是用來做出入倉預測的。大型物流公司一般都需要做一下出入倉流量預測,會方便他們排班或者事先規(guī)劃。這個框架大致也跟團隊研究的框架很相似。
謝謝大家!
雷鋒網(wǎng)整理編輯
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI科技評論按:6月24日下午,鈦媒體和杉數(shù)科技主辦的2017 AI 大師論壇在京舉行,論壇邀請了五位算法優(yōu)化、機器學習領域的頂尖教授、學者出席并發(fā)表學術演講,雷鋒網(wǎng)記者也對論壇進行了跟蹤報道。本篇內(nèi)容根據(jù)機器學習領域?qū)<依罱ǖ恼搲窒韺嶄浾矶伞?/p>
李建,清華大學交叉信息研究院助理教授、杉樹科技科學家,美國馬里蘭大學博士、國內(nèi)機器學習領域最頂尖的前沿科學家之一,國際學術會議VLDB 2009和ESA 2010最佳論文獎獲得者,清華211基礎研究青年人才支持計劃以及教育部新世紀人才支持計劃青年學者,主要研究方向為算法設計與分析、機器學習與深度學習、隨機優(yōu)化與組合優(yōu)化等。
清華大學交叉信息研究院:該院于2011年成立,由姚期智院士建立,姚其智院士是我國唯一的圖靈獎獲得者(圖靈獎是計算機科學最高獎)。他在2005年從普林斯頓大學辭去職位,回國全職到清華創(chuàng)立姚班,也就是交叉信息研究院的本科生班,也被稱為清華大學計算機科學實驗班。
以下為李建在論壇的分享實錄,雷鋒網(wǎng)做了不改動愿意的編輯整理:
什么是時空大數(shù)據(jù)
時空大數(shù)據(jù),顧名思義,也全都是大數(shù)據(jù),有時間的屬性和空間的屬性兩個維度。比如說,GPS數(shù)據(jù),首先有定位點,定位點就是空間的屬性,進入的時間就是時間的屬性。還有網(wǎng)約車的訂單數(shù)據(jù),發(fā)的這個訂單數(shù)據(jù)就有當時的時間和空間,也是時空大數(shù)據(jù)典型的例子。
另外庫存管理產(chǎn)生的數(shù)據(jù)頁是時空大數(shù)據(jù),杉數(shù)科技主要的一個業(yè)務就是供應鏈,用來做庫存管理。其中包含很多步驟,在線的電商數(shù)據(jù),社交網(wǎng)絡的數(shù)據(jù),也都是典型的時空大數(shù)據(jù)。
金融數(shù)據(jù)在某種意義上也是時空大數(shù)據(jù)。首先有時間的屬性,時間序列,另外比如說不同的板塊,不同的類型,不同的行業(yè),有不同的空間屬性,也是比較典型的時空大數(shù)據(jù)。
時空大數(shù)據(jù)的特點
時空大數(shù)據(jù)的特點既有時間的屬性也有空間的屬性,就像談到深度學習,經(jīng)常談到比如說圖像識別,其中很重要一點就是識別圖象的空間屬性。如果大家對深度學習有一點了解,做圖像識別是需要用CNN(卷積神經(jīng)網(wǎng)絡)的,主要挖掘的就是空間的多變性,所以時空大數(shù)據(jù)是跟圖像識別有共通的。在時間上,還有一個時間的屬性,RNN,也就是遞推神經(jīng)網(wǎng)絡處理序列的數(shù)據(jù),這些時空大數(shù)據(jù)也包含。同時包含時間和空間的這兩個屬性,就對時空大數(shù)據(jù)提出很多新的挑戰(zhàn)。
同時,另一個時空大數(shù)據(jù)的特點是有很多類型的數(shù)據(jù)。要解決一個問題要用到方方面面的信息,比如說預測網(wǎng)約車訂單供需量的應用,數(shù)據(jù)的類型就包含很多種,像GPS,訂單的數(shù)據(jù),天氣的數(shù)據(jù)還有附近的路況數(shù)據(jù),可以用的數(shù)據(jù)非常多種。這跟原來深度學習所處理的問題不一樣,做圖像識別只需要圖像就夠了,要做語音識別,只需要語音就夠了,而時空大數(shù)據(jù)要有各種各樣的數(shù)據(jù),這些數(shù)據(jù)都是不同質(zhì)的,需要組合起來,然后來進行學習和預測。
李建認為目前深度學習在比如說圖像識別、語音識別這些領域,都可以說比較成功,也有很成功的商業(yè)化模式,但深度學習在時空大數(shù)據(jù)方面的研究,只是剛剛起步還沒有非常成熟的一套方法論。他剛好研究這個方向就做了一系列的工作,相當于是一個初步的嘗試,而且也應用到了企業(yè)級的應用項目上。其中包含和杉數(shù)的一些合作項目。
- 海信CES2025黑科技突破:液晶電視首發(fā)彩色光源
- TCL創(chuàng)新設計Playcube投影儀:立方體旋轉(zhuǎn)設計,便攜內(nèi)置電池,打破傳統(tǒng)投影限制
- 華為小豚當家室外攝像頭升級版:WiFi+網(wǎng)線雙連接,800萬像素真實監(jiān)控,329元超值體驗
- LG新款便攜式電視StanbyME 2:輕裝出行,時尚新選擇
- 五軸折疊仿生機械手,石頭 G30 Space 探索版自清潔掃地機器人顛覆傳統(tǒng),開啟家居清潔新篇章
- 石頭G30掃地機器人:避障能力強悍、底盤升降黑科技,真實體驗顛覆想象,僅售5499元
- 小米人車家全生態(tài)引領未來,高通驍龍跨端互聯(lián)生態(tài)重塑智能生活
- 貴金屬智能戒指追蹤心率,價格高達1500英鎊,你還愿意戴上它嗎?
- 海外新秀閃極子品牌loomos AI眼鏡:低調(diào)奢華,揭開GPT-4o神秘面紗
- 聯(lián)發(fā)科與谷歌聯(lián)手推出 Matter 標準芯片組:智能家居無線連接新篇章
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。