AI從炫技術(shù)到創(chuàng)造商業(yè)價(jià)值有幾步? 印奇詳解曠視“2+1”AIoT核心技術(shù)科研體系

曠視印奇:“我們期望用技術(shù)改變世界,而這可能要分為兩部分,第一部分是我們要真的做出好的技術(shù),第二部分是要真的讓這些好的技術(shù)為客戶創(chuàng)造價(jià)值。”

7月15日消息,盡管AI應(yīng)用已經(jīng)深入到人們生活的諸多角落,但是AI技術(shù)本身還籠罩著神秘的面紗,吸引技術(shù)愛好者矚目。

MegTech 2022 曠視技術(shù)開放日上,曠視科技聯(lián)合創(chuàng)始人、CEO印奇聯(lián)手曠視研究院的一眾技術(shù)大拿們分享了AI視覺最新技術(shù)的鉆研創(chuàng)新成果和未來趨勢展望。

此外,技術(shù)開放日現(xiàn)場,曠視一口氣展示了20款技術(shù)AI視覺技術(shù)最新應(yīng)用,其中不乏“瞬時(shí)相機(jī)”、“VR裸手交互”、“低功耗嵌入式 L2 自動(dòng)駕駛方案”等讓人眼前一亮的應(yīng)用。

視覺AI技術(shù)還將會(huì)在多大廣度和深度上改變生產(chǎn)和生活方式?作為一家深耕AI視覺技術(shù)11年的企業(yè),曠視技術(shù)開放日上這些技術(shù)分享和應(yīng)用展示或可窺見一斑。

曠視科技聯(lián)合創(chuàng)始人、CEO印奇

印奇表示,AI是曠視一直堅(jiān)持的核心能力,而IoT是商業(yè)價(jià)值的核心載體。從視覺AI技術(shù)創(chuàng)新到實(shí)現(xiàn)AIoT落地應(yīng)用創(chuàng)造商業(yè)價(jià)值需要具備“三要素”,在AI端有兩個(gè)核心要素(基礎(chǔ)算法科研和規(guī)模算法量產(chǎn)),在IoT端有一個(gè)核心要素(以計(jì)算攝影學(xué)為核心的算法定義硬件)。這個(gè)“2+1”AIoT的核心技術(shù)科研是支撐曠視不斷走向新的AIoT商業(yè)成功的最重要基石。

視覺AI基礎(chǔ)模型研究新趨勢:“大”和“統(tǒng)一”

事實(shí)上,在過去的十年里,每一代基礎(chǔ)模型的突破都在很大程度上促進(jìn)了視覺AI的發(fā)展。尤其是在2012年AlexNet提出之后,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)成為AI視覺發(fā)展的主要原動(dòng)力之一。根據(jù)神經(jīng)網(wǎng)絡(luò)的用途以及構(gòu)建方式的不同,大體上可以分為CNN、Transformer、基于自動(dòng)化神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的模型、以及輕量化模型等等,這些模型都在一定時(shí)間內(nèi)極大地推動(dòng)了當(dāng)時(shí)AI發(fā)展的進(jìn)程。

時(shí)間來到2022年,在視覺AI基礎(chǔ)模型研究上又呈現(xiàn)出哪些新趨勢?

曠視研究院基礎(chǔ)科研負(fù)責(zé)人張祥雨認(rèn)為:“‘大’和‘統(tǒng)一’是當(dāng)今視覺AI基礎(chǔ)研究的新趨勢。‘大’是指AI大模型利用大數(shù)據(jù)、大算力和大參數(shù)量,提高模型的表達(dá)能力,使得AI模型能夠適用于多種任務(wù)、多種數(shù)據(jù)和多種應(yīng)用場景;‘統(tǒng)一’的趨勢則表示在,AI視覺研究領(lǐng)域眾多,AI視覺基礎(chǔ)模型研發(fā),如CNNs、VL Models、 Transformers等;視覺基礎(chǔ)應(yīng)用,如檢測、分割等;AI算法的演化,如優(yōu)化、自監(jiān)督、半監(jiān)督等。此前每一個(gè)研究路徑都衍生出一系列算法。但是,這兩年我們發(fā)現(xiàn)這些算法在底層正在走向統(tǒng)一。比如通過在訓(xùn)練過程中增加先驗(yàn)的方式,使得CNN、ViT、MLP都取得相似的性能。這種統(tǒng)一趨勢為我們‘統(tǒng)一’AI系統(tǒng)設(shè)計(jì)奠定了基礎(chǔ)。”

不過,張祥雨也強(qiáng)調(diào),模型越“大”并不一定代表著越好,打造AI大模型要注意“邊際效應(yīng)遞減”現(xiàn)象,也就是隨著模型的參數(shù)量和數(shù)據(jù)量的增多,收益卻在逐漸變少的現(xiàn)象。研究不僅需要往“大”的方向努力,更重要的是如何讓“大”模型的優(yōu)勢發(fā)揮出來,這是當(dāng)今AI視覺研究主要的趨勢和挑戰(zhàn)之一。

曠視模型研究定義的“大”,是要以創(chuàng)新的算法充分發(fā)揮大數(shù)據(jù)、大算力的威力,拓展AI認(rèn)知的邊界。

目前,基于“大”和“統(tǒng)一”的兩大趨勢,曠視基礎(chǔ)模型科研分為四個(gè)主要方向:

第一,通用圖像大模型。主要著眼于構(gòu)建通用的、統(tǒng)一的、高性能的圖像視覺大模型。研究創(chuàng)新的方法,讓“大”真的能為性能提升所服務(wù),讓大模型產(chǎn)生和孵化更多的應(yīng)用。

第二,視頻理解大模型。攻克在目前視頻理解和視頻建模中困擾業(yè)界已久的長序列建模問題,以及找到更為高效的視頻模型的訓(xùn)練、監(jiān)督和應(yīng)用的方法。

第三,計(jì)算攝影大模型。目前計(jì)算攝影的很多任務(wù)以及模型是通過對(duì)圖像退化的模式進(jìn)行建模,來實(shí)現(xiàn)高質(zhì)量圖像生成。

第四,自動(dòng)駕駛感知大模型。這項(xiàng)研究主要聚焦在研究簡單、高效、統(tǒng)一、易于使用的自動(dòng)駕駛模型的優(yōu)化、訓(xùn)練和部署方法。

AI算法量產(chǎn)如何實(shí)現(xiàn)?

需要注意的是,傳統(tǒng)意義上,我們說某種東西量產(chǎn),一般是說批量化的生產(chǎn)出同一種商品。這里,曠視所說的“AI算法量產(chǎn)”,是可批量生產(chǎn)出很多種算法,這些算法適配于不同的應(yīng)用場景。

曠視研究院算法量產(chǎn)負(fù)責(zé)人周而進(jìn)表示,要實(shí)現(xiàn)算法量產(chǎn),需要克服“數(shù)據(jù)生產(chǎn)的復(fù)雜性、算法模型在生產(chǎn)過程中的不確定性、模型部署硬件平臺(tái)的多樣性”三方面挑戰(zhàn)。

為了加速AI算法量產(chǎn),曠視打造了AIS (AI Service)算法生產(chǎn)平臺(tái)。這個(gè)平臺(tái)作為曠視在算法量產(chǎn)領(lǐng)域的最新進(jìn)展,在這次技術(shù)開放日上向公眾開放亮相。

周而進(jìn)介紹,AIS算法生產(chǎn)平臺(tái)是曠視基于多年算法生產(chǎn)經(jīng)驗(yàn),包括Brain++體系、自研的深度學(xué)習(xí)框架MegEngine,數(shù)據(jù)管理平臺(tái)MegData和計(jì)算平臺(tái)MegCompute等基礎(chǔ)上打造的一站式 MLOps 算法生產(chǎn)平臺(tái),能提供從數(shù)據(jù)清洗、智能標(biāo)注、數(shù)據(jù)管理、數(shù)據(jù)質(zhì)檢、算法自動(dòng)生產(chǎn)、模型多維能力評(píng)測、pipeline 部署等全流程能力。

目前,AIS已支持 100 多種業(yè)務(wù)模型訓(xùn)練,2 小時(shí)即可完成模型訓(xùn)練,模型產(chǎn)出精度指標(biāo)遠(yuǎn)高于業(yè)界平均水平;其中的ADS(Auto Deploy Service)模型部署工具,提供將訓(xùn)練好的模型一鍵轉(zhuǎn)換至不同計(jì)算平臺(tái)并支持測試對(duì)分的服務(wù),可大幅簡化模型從訓(xùn)練到部署的流程。

算法定義硬件之:AI傳感器

隨著算法量產(chǎn)成為現(xiàn)實(shí),如何將算法部署應(yīng)用到具體的生產(chǎn)生活空間中,這是IoT承載的商業(yè)價(jià)值。在印奇看來,這是曠視算法定義硬件最終要解決的問題和創(chuàng)造的價(jià)值。

在技術(shù)開放日現(xiàn)場,曠視研究院計(jì)算攝影負(fù)責(zé)人范浩強(qiáng)用“計(jì)算攝影”為例詳解了算法定義硬件的意義和價(jià)值。

在范浩強(qiáng)看來,隨著AI、視覺算法等領(lǐng)域的發(fā)展,傳感器將不再單獨(dú)、直接提供應(yīng)用價(jià)值,這兩者之間需要算法來作為承上啟下的橋梁。隨著應(yīng)用的不斷升級(jí),它對(duì)算法提出了越來越多的需求,而算法也對(duì)傳感器到底需要提供什么樣的信息輸入提出了要求,甚至本質(zhì)性地改造了傳感器的形態(tài)和樣式,進(jìn)而產(chǎn)生了 “AI定義傳感器”這一概念。

在“計(jì)算攝影”中,算法的引入使得智能手機(jī)完成高質(zhì)量地月光夜景拍照。進(jìn)入2022年,在曠視AI技術(shù)驅(qū)動(dòng)下的智能手機(jī)拍照能力已經(jīng)達(dá)到星光級(jí),可以在人眼難以辨識(shí)的環(huán)境之下拍出高質(zhì)量的照片。這個(gè)過程中,AI算法扮演著非常重要的角色。

范浩強(qiáng)透露,目前曠視對(duì)8K級(jí)別的“AI畫質(zhì)”硬件方案的研發(fā)與產(chǎn)品化,希望能夠在不久的未來和大家見面。

談及AI定義傳感器這條路未來趨勢,范浩強(qiáng)介紹曠視今年還將發(fā)布兩個(gè)新技術(shù)愿景:

一是,在畫質(zhì)維度上,提出走向16K AI極超高清的AI畫質(zhì)這一概念。16K所帶來的改變將不只是像素?cái)?shù),曠視希望通過AI、傳感和顯示這三者一起聯(lián)動(dòng),實(shí)現(xiàn)真正身臨其境的影像體驗(yàn)。

二是,從 IoT傳感角度,傳感器將走向更加極致的小型化、低功耗,從而能夠和每個(gè)人的日常生活,和每個(gè)人自身實(shí)現(xiàn)更加深度的結(jié)合。

在技術(shù)開放日現(xiàn)場,曠視展示了“瞬時(shí)相機(jī)”的應(yīng)用效果。瞬時(shí)相機(jī)不僅可以準(zhǔn)確拍攝到高速運(yùn)動(dòng)物體的細(xì)節(jié),還能改善相機(jī)在低光條件下的拍攝表現(xiàn)。

具體而言,曠視瞬時(shí)相機(jī)將自研圖像去模糊算法搭配于事件相機(jī)中,解決了高速運(yùn)動(dòng)物體拍攝模糊的情況。通常普通相機(jī)拍攝的內(nèi)容可能會(huì)出現(xiàn)運(yùn)動(dòng)模糊,而瞬時(shí)相機(jī)通過將普通相機(jī)拍攝的模糊圖片與事件相機(jī)記錄的事件信息相結(jié)合,再利用深度學(xué)習(xí)算法對(duì)運(yùn)動(dòng)模糊區(qū)域進(jìn)行重建,最終實(shí)現(xiàn)圖像去模糊效果。

在曠視技術(shù)開放日,印奇總結(jié)道:“‘技術(shù)信仰、價(jià)值務(wù)實(shí)’是曠視的人才觀和價(jià)值觀,AIoT核心技術(shù)科研體系是曠視未來十年、二十年不斷堅(jiān)持的科研方向。”

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

贊助商
2022-07-15
AI從炫技術(shù)到創(chuàng)造商業(yè)價(jià)值有幾步? 印奇詳解曠視“2+1”AIoT核心技術(shù)科研體系
“我們期望用技術(shù)改變世界,而這可能要分為兩部分,第一部分是我們要真的做出好的技術(shù),第二部分是要真的讓這些好的技術(shù)為客戶創(chuàng)造價(jià)值?!?/div>

長按掃碼 閱讀全文