3月31日,LiveVideoStackCon音視頻技術大會北京站正式開幕,本次大會以“音視頻+無限可能”為主題,邀請業(yè)內眾多企業(yè)、技術專家、學者,共同探討多媒體音視頻在技術升級、業(yè)務場景以及應用創(chuàng)新等方面的探索與實踐。Nreal聯(lián)合創(chuàng)始人、算法負責人吳克艱博士受邀出席,分享在AR行業(yè)產(chǎn)品技術和應用落地等方向的心得和體會。吳克艱博士本科畢業(yè)于浙江大學竺可楨學院,信息科學與電子工程學系,后赴美國明尼蘇達大學電子與計算機工程學系留學,并取得博士學位,留美期間曾參與多項由業(yè)內知名企業(yè)主導的研發(fā)項目,其中包括與 Google 的 Tango 和 ARCore 項目合作,研究基于視覺慣性的定位導航和建圖算法、及其在移動平臺上的虛擬現(xiàn)實 (VR)和增強現(xiàn)實(AR)的應用。
音視頻技術在整體大環(huán)境的影響下,近年來呈現(xiàn)出迅猛的發(fā)展趨勢。吳克艱博士聚焦AR行業(yè),從互聯(lián)網(wǎng)發(fā)展、底層關鍵技術、Nreal在行業(yè)中的探索和成果三個角度進行了分享。對于未來互聯(lián)網(wǎng)的發(fā)展,吳克艱博士認為AR作為連接虛擬世界和現(xiàn)實世界的橋梁,本質上是把虛擬的數(shù)字化信息與物理三維環(huán)境相融合,使人們可以更好地進行數(shù)字化信息的獲取與交互,形成真正的“虛實融合”。因此,AR眼鏡也成為被普遍認可的下一代個人計算平臺。
以下為吳克艱博士演講全文:
我是來自Nreal的吳克艱,今天非常高興跟各位音視頻社區(qū)專家和從業(yè)者們在AR行業(yè)產(chǎn)品技術和應用落地等方向,分享我們的一些心得和體會。
根據(jù)進化論的觀點,人類從猿猴往人類進化當中,有兩種事情非常重要,一個是人的直立行走,第二是人對工具的使用,現(xiàn)在大家平常使用的電腦或者手機是對于我們個人來說確實是一個非常強有力的算力平臺,給我們帶來生活和工作各方面的便利。但是我們經(jīng)常會看到,當大家在使用電腦和用手機的時候,一方面它給我們帶來了便利,另外一方面又把人限制在非常有限的使用方式、使用場景和空間中。我們經(jīng)常伏在案前去使用電腦,低著頭玩手機,相當于人從直立狀態(tài)回到卷曲狀態(tài),我們應該要解決的一個問題就是通過下一代互聯(lián)網(wǎng)智能終端或者個人算力平臺終端,讓人重新從彎著腰的狀態(tài)重新直立起來。
我們回顧過去幾十年互聯(lián)網(wǎng)發(fā)展,最開始由PC個人電腦作為終端,在這一代的互聯(lián)網(wǎng)上,主要解決的是個人算力的問題。最近這十年、二十年智能手機發(fā)展,我們每個人擁有了自己可移動算力平臺,主要解決的是移動和連接的問題。對于這樣的平臺來說,為了移動便捷性和可攜帶性,其實犧牲的是屏幕尺寸,我們跟它的交互方式相對還是比較單一,只能通過點擊觸摸屏的方式。我們認為從解放體驗角度來說,下一代的互聯(lián)網(wǎng)對應的個人計算平臺終端首先要把我們整個顯示和交互空間,重新從一個有限2D屏幕釋放到我們平時正常生活的真實物理空間,也就是3D物理空間。
整個交互方式也不僅僅局限于小的屏幕,而是在生活中通過語言、視覺、手勢等方式跟真實的物體、人交互,我們覺得下一代互聯(lián)網(wǎng)體驗定義為空間互聯(lián)網(wǎng)。因為要實現(xiàn)整個在真實物理環(huán)境中疊加顯示所有3D的數(shù)字信息,最關鍵的核心技術就是我們所謂的AR眼鏡硬件平臺。
空間互聯(lián)網(wǎng)硬件平臺包括整個硬件基礎設施,包括計算芯片、傳感器、通信等。再往就是交互入口,就像VR或者AR眼鏡形態(tài)。軟件數(shù)據(jù)層包括操作系統(tǒng)包等數(shù)據(jù)層面的東西。最上面才是體驗層,包括3D內容開發(fā)平臺,最后才是對普通用戶來說可以看到的一套體驗的應用。
我們認為空間互聯(lián)網(wǎng)會是下一代互聯(lián)網(wǎng)的發(fā)展方向,主要解決的是體驗和效率問題。作為下一代空間互聯(lián)網(wǎng)核心的入口和計算平臺,AR眼鏡想要實現(xiàn)虛實結合功能,有三個非常核心功能或者底層技術,3D顯示、3D感知和3D交互。從3D顯示技術上看,非常重要一件事情是提升屏幕尺寸。從有限物理顯示屏變成無限大的數(shù)字顯示屏是我們覺得AR眼鏡首先從顯示尺寸這一維度帶來的提升。對于AR或者空間互聯(lián)網(wǎng)來說需要把整個虛擬場景跟現(xiàn)實世界結合,并可以感知和識別到周圍才可以交互。3D感知和交互技術最主要核心技術是算法。很多功能是由計算機視覺相關的算法功能所帶來的。
在AR、VR行業(yè)里面常見的計算機視覺技術在行業(yè)里面的應用大概分為以下的幾個方向,首先是運動追蹤者,包括對頭顯的追蹤和對周圍場景物體的追蹤。從交互方面看,既包括一些控制器、手柄這樣的交互,也包括眼動交互,通過眼動的追蹤和交互技術可以通過你的眼睛指向來選擇一些東西。從3D感知來看,包括對周圍環(huán)境幾何結構和語音的感知,以及對整個空間3D地圖的建立和3D場景的定位。
提到交互就不能不提到Chat GPT,鋼鐵俠電影非常好的展示AR和ChatGPT這種個人助手的結合,鋼鐵俠可以呼喚JARVIS作為助手幫你,通過AR顯示包括對周圍環(huán)境的識別,就能對周圍有一個AR化的控制。由此來看,ChatGPT對AR行業(yè)來說也是非常革命化的突破,基于Chat GPT的強大的計算分析能力,未來AR眼鏡可能將成為世界上最了解你的個人助手。
介紹完前面幾個關鍵技術以后,最后一個部分簡單跟大家分享在Nreal在這個行業(yè)探索的歷程和心得。Nreal是一個給消費者端的AR行業(yè)帶來一些突破的公司,我們定義為全球第一款消費者形態(tài)的AR眼鏡。我們的主要產(chǎn)品包括硬件和軟件系統(tǒng)兩個部分,硬件有兩代產(chǎn)品,分別是Nreal Light和Nreal Air。我們去年開始正式大規(guī)模售賣叫Nreal Air的眼鏡,最后取得的十萬臺出貨量的成績,雖然這個體量跟手機行業(yè)遠遠不及,但是在消費級AR來說是前所未有的突破。
那么Nreal的眼鏡,作為AR眼鏡首先是可以看到外面世界的,但是你必須要做它做的足夠輕薄、時尚和好看,大家可才愿意把它戴上。另一方面所提供的是一個雙目的1080P的高清顯示,它等效的顯示大小相當于在4米處200寸的屏幕的效果,并且我們在整個佩戴體驗上面做了非常多的優(yōu)化,那有了這樣一個眼鏡以后,我們認為對消費者來說有哪些場景呢?首先就是口袋巨幕,隨時隨地都有一個非常大的可攜帶屏幕。我們也跟蔚來這樣的車企合作,在整個車上從技術上也解決了很多像抖動等等這樣一些防眩暈的問題,給汽車上的娛樂體驗也實現(xiàn)了升級。我們也在適配性方面做了很多努力,因為目前行業(yè)還并沒有標準各種平臺軟件硬件的接口定義還沒有完全拉齊,為了讓我們產(chǎn)品適合各種各樣的手機軟件、游戲主機等平臺,我們做了非常多的努力。
最后總結一下,我們認為短期之內,Nreal Air主打顯示、移動數(shù)字屏取代物理屏的市場是合理并且存在,短期之內會在娛樂、辦公等等場景里面體驗升級,從長期來看我們還是期待AR真正能力的釋放,因為AR能力不僅僅是一個顯示,更多是我們所說對周圍信息重新3D化的組織和跟真實世界的結合,也就是剛才一開始介紹的空間互聯(lián)網(wǎng),以上是我們所分享的內容,在硬件和交互體驗去應用產(chǎn)品,非常歡迎大家去體驗。
(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )