不僅給QQ開美顏變聲,這個實驗室還改變了老大爺?shù)耐砟晟?/h1>

1999 年騰訊發(fā)布 QQ 時,吳祖榕成為了第一批用戶。左小祥那會還在上高中,兩年后,他也成為了擁有 QQ 號的“弄潮鵝”。

同一年,劉杉在美國讀博士,那時,讓她暢想二十年后的生活未免有點太早。

2005年,騰訊 QQ 的同時在線人數(shù)首次突破了 1000 萬,僅用了四年時間就達到了 100 倍的增長。在QQ 飛速發(fā)展的這一年,吳加入了騰訊,負責QQ客戶端的開發(fā)工作。四年后,左也加入了騰訊。

那會兒,騰訊雖然有名,卻也沒有那么有名,至少劉杉在美國還沒聽過這個企業(yè)。

三條線在 2017 年匯成一點,這個“點”就是騰訊音視頻實驗室。

建團隊做標準

2016 年 11月,騰訊音視頻技術中心升級為騰訊音視頻實驗室。

吳祖榕一開始在 QQ 團隊負責 QQ 客戶端的開發(fā)工作,后來帶團隊,成為 QQ 客戶端團隊的技術總監(jiān)。2015年,他負責商業(yè)化部門的研發(fā)團隊管理工作。到了2017年6月,吳輪值到了音視頻實驗室。

吳到了實驗室后,覺得視頻標準很重要,騰訊音視頻實驗室也應參與打造音視頻技術標準,所以,騰訊音視頻實驗室開始全球范圍內尋找視頻標準的領軍人物。

他們把目光投向了曾在多家國際知名企業(yè)負責多媒體技術研發(fā)的專家劉杉。

劉杉在美二十年,多次擔任音視頻國際標準組織的主席,她是 200 多個美國和全球專利申請的發(fā)明人,其中許多發(fā)明已被授權并成為標準基本專利或被內置于多款通信和多媒體產(chǎn)品中。她還是已定稿國際標準Rec. ITU-T H.265 v4 | ISO/IEC 23008-2:2017和正在制定的下一代國際標準VVC的聯(lián)席主編。

用一句話概括就是,劉杉在全球音視頻領域耕耘已久,經(jīng)驗豐富,成績斐然。

當騰訊向劉杉發(fā)出邀請時,她是遲疑的。

2017 年,騰訊在全球 500 強公司中排名第 478 位,相較于劉的幾個老東家——半導體全球頂尖 IC 設計公司聯(lián)發(fā)科、娛樂商業(yè)巨頭索尼和排名第 83 位的華為,好像是這么個意思。

再者,相較于高通、三星、愛立信、諾基亞、LG、華為、聯(lián)發(fā)科等公司在音視頻領域的研究積累,騰訊可以說是真的晚起步了,劉杉遲疑也情有可原。

但騰訊對于音視頻實驗室是有長久規(guī)劃的。

騰訊音視頻實驗室是騰訊 SNG 布局 AI 的“三駕馬車”之一,騰訊的高級執(zhí)行副總裁湯道生掌管這里。劉杉一路談到湯道生,湯對劉說:“第一年沒什么要求,只要先把團隊組建起來就可以了,但騰訊的目標是出海和國際化,音視頻領域一定要做成國際標準。”

要把“孩子”一把拉扯大,騰訊對“孩子”期望還挺高,劉杉覺得,這事可以搞。

2017 年 11 月,劉杉加入騰訊音視頻實驗室的第一個任務是把視頻標準團隊組建起來,代表騰訊去標準會上提交提案。短短兩個月時間內,新人騰訊擠在一群老牌標準團隊里,向 MPEG 122 會議提交了十個高質量的提案。

2018 年 7 月盧布爾雅納的標準會議上,騰訊音視頻實驗室的多項技術被 VVC 標準采納。在 2018 年 10 月澳門的標準會議上,在多項技術提案被 VVC 標準采納之余,王者榮耀視頻片段被納入 VVC標準制定測試集,確保騰訊重要應用場景將受益于新一代視頻壓縮標準。

騰訊音視頻實驗室還在這一年內聚集了其他標準領域的大牛。湯道生原本以為在一年時間里,音視頻實驗室頂多把路修到“二環(huán)”,沒想到一下到了“五環(huán)”。

一直擔任自適應比特率流媒體技術 DASH 工業(yè)論壇主席和董事長的伊拉齊·索達加于 2018 年年底加入騰訊音視頻實驗室,擔任首席研究員。在加入騰訊之前,他曾在微軟與各種研究和產(chǎn)品小組合作,參與多媒體技術的發(fā)展和標準化方面的研究和落地, 也曾負責 Windows 的多媒體交付策略、產(chǎn)品對齊和標準化項目。同時,他也是首個基于 HTTP 的自適應比特率串流解決方案 MPEG CMAF 小組的聯(lián)合主席。

Vidyo公司知識產(chǎn)權與標準的副總裁斯蒂芬·溫格于 2018 年年初加入騰訊音視頻實驗室,擔任知識產(chǎn)權與標準的高級總監(jiān)。在加入騰訊之前,他曾參與新多媒體技術的標準化組織,尤其是 IETF、ITU-T 和 MPEG。

緊跟國外標準,國內標準建立上也要有一席之地。

音視頻編碼標準(AVS)是我國具備自主知識產(chǎn)權的第二代信源編碼標準,騰訊音視頻實驗室的 TPG格式已被 AVS2 標準接收,并在參與 AVS3 的標準制定。

至此,你可能發(fā)現(xiàn)了騰訊音視頻實驗室的打法:針對特定標準領域招募大牛,點對點突破。

從與QQ共舞到業(yè)務變遷

技術骨干左小祥則經(jīng)歷了騰訊音視頻實驗室的幾個重要節(jié)點。左從 2010 年開始負責 PC QQ 基礎能力開發(fā),2015 年以后,負責手機 QQ、macQQ 音視頻基礎功能的開發(fā)。

吳祖榕和左小祥告訴雷鋒網(wǎng),在主要服務QQ 的業(yè)務上,騰訊音視頻實驗室構建了新一代SPEAR音視頻通信引擎AVC,承載億級 QQ 用戶通信,集成音視頻通信SDK,構建豐富的一對一、一對多、多對多的實時音視頻通話場景。為了滿足越來越年輕化的用戶需求,音視頻中心提出了低碼率下實時視頻的美顏功能,將美顏從圖片處理提升到視頻處理的全新應用場景,還推出了語音變聲功能。

移動化浪潮來臨時,音視頻技術也面臨著如何在移動網(wǎng)絡下解決各種聲音的采集播放問題。最大的挑戰(zhàn)是,人是移動的,這代表著網(wǎng)絡是波動的,在網(wǎng)絡波動的過程中怎么保證低延遲、高清晰,變得比原來更有挑戰(zhàn)。

網(wǎng)絡層面要求工程師們做更多網(wǎng)絡抖動、丟包的測試,算法還得自適應不同網(wǎng)絡。到底當前鏈路上可用帶寬有多少?延遲是多少?在實時音視頻領域,解決這些問題的一個通用方案是,建立一套模型,估算結果反饋給編碼器,告訴應用層策略發(fā)送多少冗余信息或者在何時做更多重傳。

其中,最核心的技術在于對帶寬的估計,如何更準確、實時地發(fā)現(xiàn)當前帶寬發(fā)生的波動,到底是有人跟你搶,還是使用者自身在移動?騰訊音視頻實驗室花了很多時間打造云端控制的流控。

另一個挑戰(zhàn)是,設備更加多樣性,人們的使用場景不再是筆記本電腦以及一個攝像頭、麥克風。每個安卓廠商、手機廠商采集的播放延遲都不一樣,需要做大量適配,多了很多工作量。

移動化解決完后,視頻應用面臨了爆發(fā),包括點播業(yè)和直播業(yè),許多競爭對手涌了進來。

“直播對帶寬要求很高,主播跟觀眾互動的實時性也要很好。友商把我們的客戶教育成了音視頻專家。有一個客戶在南美,他會很直接地告訴我們,現(xiàn)在房間秒開、AGC聲音增量或噪聲回聲消除剪切得不夠好,會用非常專業(yè)的音視頻指標跟你講,整個行業(yè)在被競爭對手推著往前走。”吳祖榕說。

吳祖榕之前碰到一個客戶,他的 APP 里同時用了騰訊和其友商的音視頻 SDK,今天用騰訊的 SDK 看用戶的反饋是多少,明天用友商的 SDK 看用戶反饋是多少,直接從用戶的反饋數(shù)量判斷誰的質量好。

吳不怕比較:“在服務產(chǎn)品過程中,大家也會不斷定一些關鍵指標、核心指標,然后找原因,找問題。找完原因、問題解決完之后,我們驗證穩(wěn)定了也會立刻反饋到 To B 服務的SDK質量中,是一個蠻正向的循環(huán)。”

云時代下,改變未來

2018 年 9 月 30 日,騰訊正式宣布啟動新一輪整體戰(zhàn)略升級,并對架構進行大調整,湯道生成了主管騰訊云與智慧產(chǎn)業(yè)事業(yè)群 CSIG 的老板,騰訊音視頻實驗室歸了 CSIG ,由劉杉和吳祖榕擔任實驗室聯(lián)合負責人。

雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,因為 QQ 在國內市場比較飽和,除了平穩(wěn)支撐 QQ 的業(yè)務,騰訊音視頻實驗室承擔了為騰訊云的出海提供服務的重任,并投入更多人力在騰訊云還有 to B 業(yè)務上。

QQ 的音視頻通話能力已經(jīng)獨立作為云上的解決方案,這個解決方案也同步向企業(yè)售賣,全民 K 歌、QQ 空間直播、NOW 直播、騰訊教育內部直播體系也由騰訊音視頻實驗室支撐,視頻處理平臺目前已經(jīng)上線微視。2019 年,騰訊音視頻實驗室將主要在自動駕駛車聯(lián)地圖、會議、在線教育等領域推新產(chǎn)品。

劉杉介紹:“實驗室自研的 GME 游戲多媒體引擎已經(jīng)落地在游戲場景,目前正在開拓海外市場。實驗室的技術輸出除了支持公司業(yè)務比如游戲、微視、云等,同時也直接對接外部客戶。比如,我們有另一款產(chǎn)品叫投屏,是和會議相關的產(chǎn)品,開會的時候手機和筆記本等終端的內容都可以直接無線投到大屏幕上,本地和遠程會議投屏都支持,這款產(chǎn)品已經(jīng)覆蓋整個騰訊辦公設施并且已經(jīng)開始對外銷售。2019 年會進一步上量,還有我們的基于深度學習的視頻處理平臺,目前已經(jīng)上線微視,2019 年會進一步拓展對內對外業(yè)務。”

她指的新領域包括騰訊音視頻實驗室在泛多媒體技術研發(fā),包含點云、VR360和沉浸式多媒體體驗,以及多媒體和神經(jīng)網(wǎng)絡深度學習的結合等。

吳祖榕看好三項技術對音視頻領域的挑戰(zhàn)。

一是隨著基礎設施的提升以及 5G 的布局,市場要求更高碼率、高清、更高分辨率的視頻出現(xiàn),對視頻的質量要求更高,高質量視頻的傳輸和分發(fā)是關鍵點。二是在實時音視頻通信領域上,隨著 AI 技術的進步,過去很多很難解決的問題在今天有了機會。比如,大部分手機只有一個麥克風,過去很難實現(xiàn)單通道下的語音增強技術,要么就要使用很多麥克風才能做好降噪。隨著深度學習的引入,這些技術有了新機會。三是如何讓網(wǎng)絡更有效地把人眼關注的區(qū)域給更多碼率做編碼,讓網(wǎng)絡和超分辨率進行更多適配。

“人的感官需求可能會隨著基礎設施的提升不斷提升,東京奧運會甚至用 8K 視頻做直播,這讓我感覺到,我們已經(jīng)從以前的‘聽得清、看得清’到今天的‘聽得真、看得真’,這是技術最大的不同。”吳祖榕說。

關于音視頻技術所能造就的未來,吳沒有太多想象。他是活在當下的人,感受著自己目前鉆研的這些產(chǎn)品技術帶來的沖擊。

有一天,吳祖榕在蛋糕店看到老板娘開了 NOW 直播,吳很詫異。老板娘說,這有很多粉絲,她可以使用直播技術跟粉絲介紹她的蛋糕是怎么做的。還有一次,吳去北京出差,坐上了一輛出租車,開車的大爺全程跟他介紹自己在全民 K 歌上的成就,大爺每天 5 點鐘下了班就回家跟老伴一起拿著麥克風唱歌,平時在全民 K 歌上跟朋友互動。

不僅給QQ開美顏變聲,這個實驗室還改變了老大爺?shù)耐砟晟?/></p><p>大爺說得十分激動,吳祖榕也一陣心潮彭拜,他真真切切地感受到,自己在做的這些技術在改變人們的生活。</p><p>快到春節(jié)了,左小祥用 QQ 給老家的父母打了通電話,告訴他們歸家日期。劉杉啟程回美國,她在飛機上打開一部電影,卻下意識地跳脫劇情,分析電影畫面的質量和背后可能的視頻技術。</p><p>對他們來說,這些都是生活,但努力實現(xiàn)的音視頻技術,又讓這些不只是生活。</p><p>還有改變未來。( 來源:雷鋒網(wǎng) 李勤)</p>              	<p style=

免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-02-02
不僅給QQ開美顏變聲,這個實驗室還改變了老大爺?shù)耐砟晟?/div>
1999 年騰訊發(fā)布 QQ 時,吳祖榕成為了第一批用戶。左小祥那會還在上高中,兩年后,他也成為了擁有 QQ 號的“弄潮鵝”。

長按掃碼 閱讀全文