自動駕駛領(lǐng)域的技術(shù)變革呼之欲出。
如果說,自動駕駛大規(guī)模落地的痛點在于深度學習的范疇僅限于圖像等靜態(tài)材料,那很快,自動駕駛深度學習的范圍將擴展到視頻領(lǐng)域。
近日,眾安信息技術(shù)服務(wù)有限公司(以下簡稱“眾安科技”)數(shù)據(jù)科學實驗室的論文”Dense Dilated Network for Few Shot Action Recognition”(《基于密集擴展網(wǎng)絡(luò)的少樣本視頻動作識別》)被ICMR(國際多媒體圖像分析峰會)錄用,這是深度學習在視頻分類領(lǐng)域的創(chuàng)新應(yīng)用,在駕駛行為分析、視頻檢索等領(lǐng)域有重要的業(yè)務(wù)價值。
深度學習進入“視頻學習”時代
“讀圖”已經(jīng)無法滿足機器的學習胃口。深度學習是機器學習中一種基于對數(shù)據(jù)進行表面特征的方法,其概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。目前,深度學習的主要素材來源于文字、圖片,而隨著智能手機等設(shè)備的發(fā)展,視頻沉淀了大量深度學習素材。近年來人工智能、神經(jīng)網(wǎng)絡(luò)的發(fā)展更是促進了視頻的分類、識別的研究。
不過,機器想要學習視頻素材絕非易事。一般來說,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要大量標記良好的數(shù)據(jù)。對于機器來說,由于視頻動作、視角較多,且視頻每秒都包含了20-30幀畫面,數(shù)據(jù)規(guī)模較大,機器的標注難度比標注圖像復(fù)雜很多倍。另一方面,就視頻本身而言,雖然不同的視頻內(nèi)容差異很大,但同一類的視頻在語義上有著很高的相似性,對于機器學習來說,如何避免“重復(fù)勞動”也是擺在現(xiàn)實面前的一道難題。
針對上述難題,眾安科技通過在視頻多樣性中提取高層共有的特性來實現(xiàn)機器學習。
眾安科技方面表示,基于機器學習視頻的痛點,數(shù)據(jù)科學實驗室研發(fā)了一種新穎的神經(jīng)網(wǎng)絡(luò)架構(gòu)來同時捕獲局部信息和整體時空信息。具體來看,眾安科技采用了擴張卷積網(wǎng)絡(luò),在這個網(wǎng)絡(luò)的不同層之間,使用密集連接的方式組合,由此可以融合每一層的輸出,從而學習視頻的高級特征。
和其他網(wǎng)絡(luò)架構(gòu)相比,眾安科技的這款神經(jīng)網(wǎng)絡(luò)架構(gòu)利用每層與之前所有層相連的方式,可以得到從最初局部特征到總體視頻的所有特征信息。而每層網(wǎng)絡(luò)使用了擴張卷積(dilated convolution),相比原始的卷積方式,可以更加充分利用時空信息。因此不需要很深的層數(shù),在少量數(shù)據(jù)下就可以訓(xùn)練效果較好的網(wǎng)絡(luò)。
以目前動作類別數(shù)、樣本數(shù)較多的數(shù)據(jù)庫之一UCF101為例,眾安科技在此數(shù)據(jù)庫的通用視頻數(shù)據(jù)集上進行了大量實驗,在僅有20%的訓(xùn)練數(shù)據(jù)時(模擬對新任務(wù)的快速學習),利用該神經(jīng)網(wǎng)絡(luò)架構(gòu),機器仍然可以學到每類視頻的高層語義特征。
視頻深度學習下個落地場景:出行、醫(yī)療
視頻深度學習有望率先在出行和醫(yī)療領(lǐng)域落地。
眾安科技研發(fā)的這款神經(jīng)網(wǎng)絡(luò)架構(gòu)在實戰(zhàn)中也有很高的應(yīng)用價值,由于該架構(gòu)只需要少量訓(xùn)練數(shù)據(jù)就可以促進不同任務(wù)之間的遷移學習,幫助系統(tǒng)快速上線,從而減少了大量采集數(shù)據(jù)和訓(xùn)練過程。
如在車險領(lǐng)域,可以使用該方法對路口監(jiān)控或行車記錄儀等視頻進行快速分析,識別碰撞和高危駕駛片段,從而對車主的駕駛行為進行建模,實現(xiàn)車險的自主定價。
此外,在醫(yī)療方面,目前人工智能輔助醫(yī)療的手段除了CT圖片等,還有許多造影等多樣的數(shù)據(jù)有待分析。該方法利用時序信息,可以針對造影進行識別診斷,尤其是對于病例較少的罕見病分析更為高效。
眾安科技數(shù)據(jù)科學實驗室認為,該神經(jīng)網(wǎng)絡(luò)架構(gòu)針對出行和醫(yī)療領(lǐng)域會有較大的幫助,這也是該團隊未來產(chǎn)學研結(jié)合的落地方向之一。
ICMR(國際多媒體圖像分析峰會)是中國計算機學會推薦的B類會議,在多媒體檢索會議中排名第一,在圖形學與多媒體大類中排名第五。
“Dense Dilated Network for Few Shot Action Recognition”(《基于密集擴展網(wǎng)絡(luò)的少樣本視頻動作識別》)是眾安科技與中科院上海高等研究院以及復(fù)旦大學聯(lián)合研究的成果。眾安科技的作者為徐寶函(第一作者)、王恒、陸王天宇(通訊作者)。
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。