2022新智者大會(huì)|王?。浩髽I(yè)應(yīng)在萬(wàn)物互聯(lián)格局下思考未來(lái)戰(zhàn)略

7月27日,由中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)指導(dǎo)、微博和新浪新聞主辦的“融合生態(tài)價(jià)值共創(chuàng)”2022新智者大會(huì)召開,中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)理事長(zhǎng)尚冰、微博CEO王高飛為大會(huì)致辭。據(jù)了解,首屆新智者大會(huì)匯集了來(lái)自中國(guó)工程院、清華大學(xué)、復(fù)旦大學(xué)等學(xué)界的頂尖專家,以及阿里巴巴、百度、360公司、微博等知名企業(yè)的創(chuàng)始人或高管,他們圍繞數(shù)字化轉(zhuǎn)型、AI安全、云科技、AI倫理、元宇宙等熱門技術(shù)話題向觀眾們分享了各自的研究與思考。

在“智驅(qū)萬(wàn)物:AI推動(dòng)萬(wàn)物互聯(lián)的加速到來(lái)”議題中,微博COO、新浪移動(dòng)CEO、新浪AI媒體研究院院長(zhǎng)王巍發(fā)表了題為《云為數(shù)智技術(shù)融合應(yīng)用賦能微博復(fù)雜業(yè)務(wù)場(chǎng)景》的主題演講,向觀眾們分享了云計(jì)算、人工智能、大數(shù)據(jù)等技術(shù)在微博業(yè)務(wù)中的融合應(yīng)用。

微博COO、新浪移動(dòng)CEO、新浪AI媒體研究院院長(zhǎng)王巍做主題演講

  以下為王巍先生演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:

各位來(lái)賓、各位媒體同仁,正在觀看視頻的觀眾朋友們,大家上午好!我是王巍,今天很高興能夠代表新浪和微博跟大家分享交流。首先作為主辦方,我要感謝尚冰理事長(zhǎng)、鄔賀銓院士以及各位嘉賓,對(duì)我們新智者大會(huì)的鼎力支持。另外,我還要感謝正在收看視頻的媒體和觀眾朋友對(duì)我們的厚愛(ài)。由于疫情原因,很遺憾這次沒(méi)能跟大家在線下相聚,我們只能通過(guò)視頻的方式,跟大家匯報(bào)智能信息時(shí)代,AI發(fā)展的一些前沿技術(shù)和應(yīng)用成果。

接下來(lái),我會(huì)花點(diǎn)時(shí)間,跟大家分享,云計(jì)算、大數(shù)據(jù)、人工智能的前沿應(yīng)用,并以微博的核心業(yè)務(wù)為例,向大家介紹一下,在實(shí)踐中,我們是如何利用技術(shù)創(chuàng)新,為微博的復(fù)雜業(yè)務(wù)場(chǎng)景賦能的。

在分享之前,我想,先來(lái)回顧下互聯(lián)網(wǎng)的發(fā)展歷程。

如果說(shuō)PC互聯(lián)網(wǎng)是網(wǎng)絡(luò)世界的開端,那么移動(dòng)互聯(lián)網(wǎng)的興起則是順勢(shì)而為,讓網(wǎng)友將這無(wú)形的信息空間裝進(jìn)了口袋。

移動(dòng)互聯(lián)讓信息傳輸呈現(xiàn)出便捷即時(shí)化、垂直碎片化、云端化等特點(diǎn),這使得信息的傳播效率、范圍和影響力等,都發(fā)生了根本變化。此后,隨著大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù),與移動(dòng)互聯(lián)網(wǎng)的疊加融合,我們逐漸過(guò)渡到了智能信息時(shí)代。

我們說(shuō),智能信息時(shí)代有四個(gè)特征——場(chǎng)景化、智能化、萬(wàn)物皆媒和以人為本。

首先是場(chǎng)景化,體現(xiàn)在信息傳播的精準(zhǔn)度。比如我們微博的一個(gè)用戶,正在環(huán)球影城游玩,在得到用戶授權(quán)后,我們就會(huì)根據(jù)用戶所處的場(chǎng)景,向他推送環(huán)球影城相關(guān)的新聞、資訊、游玩攻略等。

第二個(gè)智能化,智能化體現(xiàn)在人與技術(shù)的全方位交互,通過(guò)數(shù)據(jù)建模、算法訓(xùn)練、機(jī)器學(xué)習(xí)等工作,實(shí)現(xiàn)人機(jī)協(xié)同的良性互動(dòng)。

第三個(gè)萬(wàn)物皆媒,萬(wàn)物皆媒主要體現(xiàn)在,信息傳播終端的變化?,F(xiàn)在我們獲取信息的渠道,已經(jīng)不僅僅局限在手機(jī)上。在智能家居、智能穿戴、車聯(lián)網(wǎng)等方面,都成為了我們獲取信息的通道。這些智能設(shè)備廠商、智能汽車廠商,自然就成為了媒介的組成部分。

最后,我來(lái)講一下以人為本。其實(shí)這也是對(duì)以上三個(gè)特征的總結(jié)。無(wú)論技術(shù)發(fā)展得多么先進(jìn),它最終都要在人類社會(huì)中落地,都必須要考慮,終端用戶的需求和體驗(yàn)。所以,以人為中心的AI發(fā)展道路,才能讓技術(shù)真正成為我們的伙伴,幫助我們生活得更加美好。

大家看到,我的PPT里,還有一個(gè)元宇宙。從去年開始,元宇宙就引發(fā)了廣泛的討論,比如數(shù)字孿生、數(shù)字人、XR、區(qū)塊鏈技術(shù)等,包括微博在內(nèi)的很多公司也都在做布局。今天下午的元宇宙專題論壇,我們也會(huì)聽到來(lái)自元宇宙領(lǐng)域創(chuàng)業(yè)者、投資等專業(yè)人士的分享。我認(rèn)為目前基于AI、區(qū)塊鏈、XR等前沿技術(shù)的應(yīng)用場(chǎng)景,已經(jīng)體現(xiàn)了一些元宇宙的雛形。諸如游戲、社交等領(lǐng)域,都是元宇宙非常好的應(yīng)用場(chǎng)景,我相信這些應(yīng)用場(chǎng)景,會(huì)引爆大家參與元宇宙的熱情。

當(dāng)前我們處在智能信息時(shí)代。新一代智能信息技術(shù)蓬勃發(fā)展,協(xié)同創(chuàng)新所驅(qū)動(dòng)的智能經(jīng)濟(jì),打破了原有的社會(huì)聯(lián)結(jié)架構(gòu),相應(yīng)的這些技術(shù),也驅(qū)動(dòng)著互聯(lián)網(wǎng)生態(tài)格局發(fā)生著巨變。

我們微博搭建的技術(shù)架構(gòu),也是以云計(jì)算為基礎(chǔ)、以大數(shù)據(jù)為依托、以人工智能為中樞的技術(shù)架構(gòu),用來(lái)應(yīng)對(duì)微博眾多且復(fù)雜的業(yè)務(wù)場(chǎng)景,比如微博的社交關(guān)系、用戶的多元興趣、以及全民關(guān)注的熱搜產(chǎn)品等等。而在這些復(fù)雜業(yè)務(wù)場(chǎng)景背后,起到至關(guān)重要作用的則是我們的技術(shù)研發(fā)團(tuán)隊(duì)對(duì)于技術(shù)的創(chuàng)新賦能。下面我就圍繞熱點(diǎn)應(yīng)對(duì)、算法推薦、內(nèi)容安全這三塊微博比較核心的業(yè)務(wù),來(lái)分享一些我們的探索與創(chuàng)新。

第一部分,跟大家分享,我們?nèi)绾卫迷朴?jì)算架構(gòu)的優(yōu)勢(shì)和技術(shù)創(chuàng)新,在短時(shí)間內(nèi)聚集大量算力,從而幫助微博,從容應(yīng)對(duì)熱點(diǎn)帶來(lái)的的流量洪峰。

我先介紹一下IT建設(shè)的發(fā)展過(guò)程。IT建設(shè)所依賴的基礎(chǔ)資源經(jīng)歷了從服務(wù)器到云化資源的發(fā)展歷程,目前正在快速進(jìn)入云原生階段。

我們先看服務(wù)器階段。這個(gè)階段IT建設(shè)的特點(diǎn)是以硬件設(shè)備為中心,業(yè)務(wù)應(yīng)用隨不同廠商設(shè)備、操作系統(tǒng)的差異化進(jìn)行定制;設(shè)備的安裝和調(diào)試,應(yīng)用的部署和運(yùn)維,基本靠人力完成,自動(dòng)化程度低,缺乏統(tǒng)一的設(shè)備和應(yīng)用管理能力。

來(lái)到云化階段,傳統(tǒng)模式下分布離散的設(shè)備被統(tǒng)一起來(lái),實(shí)現(xiàn)了各類資源如計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的池化。然后企業(yè)通過(guò)統(tǒng)一的虛擬化平臺(tái),為上層業(yè)務(wù)提供資源管理接口,實(shí)現(xiàn)資源管理能力的自動(dòng)化,從而屏蔽一部分基礎(chǔ)設(shè)施的差異,使得應(yīng)用的通用性增強(qiáng)。但因?yàn)樵破脚_(tái)軟件的差異化,這個(gè)虛擬平臺(tái)無(wú)法在不同云廠商間進(jìn)行能力共享,所以企業(yè)的應(yīng)用部署還是以資源為中心。

那么在云原生階段,企業(yè)的關(guān)注點(diǎn)才開始從以資源為中心轉(zhuǎn)移到以應(yīng)用為中心,包括應(yīng)用敏捷交付、快速?gòu)椥浴⑵交w移、無(wú)損容災(zāi)等。因此,企業(yè)開始考慮如何將基礎(chǔ)設(shè)施與業(yè)務(wù)平臺(tái)融合,為業(yè)務(wù)應(yīng)用提供標(biāo)準(zhǔn)的運(yùn)行、監(jiān)控、治理平臺(tái),并將業(yè)務(wù)的應(yīng)用能力下沉到平臺(tái)側(cè),更好的幫助企業(yè)實(shí)現(xiàn)應(yīng)用的自動(dòng)化。

微博目前就處在從云化向云原生轉(zhuǎn)變的過(guò)程中,通過(guò)技術(shù)創(chuàng)新,在快速?gòu)椥院唾Y源容災(zāi)等方面都取得了很好的效果。下面我們來(lái)看應(yīng)用案例。

熱點(diǎn)應(yīng)對(duì)一直是微博業(yè)務(wù)中面臨的最大挑戰(zhàn),微博作為全民關(guān)注的社交媒體平臺(tái)和輿論廣場(chǎng),全社會(huì)的重大事件都會(huì)在這里發(fā)酵,很多事件都成為了全民關(guān)注的超級(jí)熱點(diǎn),這些熱點(diǎn)事件通常是不可預(yù)知的。

以最近全民關(guān)注的“唐山事件”為例,事件當(dāng)天的熱點(diǎn)流量較日常流量峰值翻了一倍。

如果按常規(guī)方案,微博除了采購(gòu)應(yīng)對(duì)日常流量的服務(wù)器之外,還要額外常備大量的服務(wù)器以應(yīng)對(duì)這種突發(fā)熱點(diǎn),這會(huì)造成日常服務(wù)器大量閑置,付出較高的成本。

如何用更小的資源成本,應(yīng)對(duì)突發(fā)的熱點(diǎn)流量。這是我們面臨的第一個(gè)挑戰(zhàn)。

那么,隨著微博用戶體量的不斷增加,微博上面的熱點(diǎn)也越來(lái)越多,而且用戶逐漸養(yǎng)成了來(lái)微博消費(fèi)熱點(diǎn)、“吃瓜”的習(xí)慣。進(jìn)而帶來(lái)的是熱點(diǎn)流量越來(lái)越高,熱點(diǎn)流量洪峰到來(lái)的速度也越來(lái)越急。

如何更快的把擴(kuò)容服務(wù)器部署到線上,這是我們面臨的第二個(gè)挑戰(zhàn)。同時(shí),只要擴(kuò)容速度足夠快,我們?nèi)粘5姆?wù)冗余就可以降到更低,能夠大幅節(jié)約成本。

我們通過(guò)不斷的技術(shù)創(chuàng)新和應(yīng)用,來(lái)應(yīng)對(duì)這些挑戰(zhàn)。

微博很早就應(yīng)用了微服務(wù)+Docker容器化技術(shù),提升服務(wù)運(yùn)維的效率,實(shí)現(xiàn)了服務(wù)動(dòng)態(tài)擴(kuò)縮容能力。并且搭建了以“私有云+公有云”為資源底座的混合云平臺(tái),通過(guò)這個(gè)平臺(tái)抹平自有實(shí)體服務(wù)器和多個(gè)公有云資源的差異,實(shí)現(xiàn)了高效的彈性部署和自動(dòng)擴(kuò)縮容能力。

當(dāng)前我們已具備10分鐘調(diào)度超過(guò)一萬(wàn)臺(tái)的擴(kuò)容能力,用較低的成本,獲取足夠的服務(wù)器來(lái)應(yīng)對(duì)熱點(diǎn)流量,從而解決了上面說(shuō)到的第一個(gè)挑戰(zhàn)。

另外,我們建立了熱點(diǎn)監(jiān)測(cè)機(jī)制和熱點(diǎn)聯(lián)動(dòng)體系,并通過(guò)微博自研的Weibo Mesh技術(shù),實(shí)現(xiàn)不同服務(wù)間跨語(yǔ)言的高效調(diào)用,提升整體服務(wù)的性能,和聯(lián)動(dòng)擴(kuò)容效率。

微博從公有云獲取服務(wù)器、部署服務(wù)鏡像、啟動(dòng)服務(wù)及預(yù)熱、直到線上流量承接全流程,擴(kuò)容時(shí)間大幅縮短,很好的解決了第二個(gè)挑戰(zhàn)。即使面對(duì)冬奧期間,多個(gè)熱點(diǎn)事件疊加爆發(fā)的影響,也能夠從容應(yīng)對(duì),超級(jí)流量洪峰。

當(dāng)然,在當(dāng)前技術(shù)架構(gòu)下,調(diào)用公有云還是需要時(shí)間的,所以日常常備服務(wù)池,仍需要一定資源冗余,這樣做能為動(dòng)態(tài)擴(kuò)容爭(zhēng)取一些時(shí)間。那么,熱點(diǎn)來(lái)的越急,需要冗余的資源就要更多。同理,如果我們能讓擴(kuò)容效率更高,對(duì)應(yīng)的資源冗余就能夠降到較低水平。

針對(duì)這個(gè)問(wèn)題我們采用了在離線實(shí)時(shí)混合部署技術(shù)。利用CPU實(shí)時(shí)搶占式調(diào)度技術(shù)與容器化技術(shù)相結(jié)合,實(shí)現(xiàn)微博服務(wù)在離線實(shí)時(shí)混合部署能力。混合部署池變成核心在線服務(wù)的臨時(shí)動(dòng)態(tài)資源池;日常流量期間正常執(zhí)行離線任務(wù)和服務(wù),熱點(diǎn)流量到來(lái)時(shí),可以秒級(jí)承接核心服務(wù)的熱點(diǎn)流量。

上面講了熱點(diǎn)應(yīng)對(duì),接下來(lái),我想以微博的推薦業(yè)務(wù)為例,和大家分享在智能信息時(shí)代,我們?nèi)绾斡肁I新技術(shù),驅(qū)動(dòng)平臺(tái)業(yè)務(wù)的智能化發(fā)展。

首先我們來(lái)看人工智能的技術(shù)發(fā)展趨勢(shì)。如果我們回顧機(jī)器學(xué)習(xí)的發(fā)展歷程,可以看出AI的總體發(fā)展趨勢(shì)是:訓(xùn)練數(shù)據(jù)的海量化及多樣化,AI模型的復(fù)雜化及通用化,算力的高效化及規(guī)?;?/p>

我們看屏幕上展示了四個(gè)相對(duì)具體的AI發(fā)展方向。

首先,是多模態(tài)數(shù)據(jù)融合。隨著5G網(wǎng)絡(luò)等通信技術(shù)的快速發(fā)展,圖片、視頻類型模態(tài)內(nèi)容,在網(wǎng)絡(luò)內(nèi)容中占比越來(lái)越高,所以進(jìn)行模態(tài)融合非常必要,比如同時(shí)對(duì)微博的文本、圖片、視頻進(jìn)行多模態(tài)融合,可以更好理解微博所講的內(nèi)容。

其次,是超大規(guī)模圖計(jì)算。相對(duì)其他機(jī)器學(xué)習(xí)模型,超大規(guī)模圖計(jì)算有個(gè)特殊的優(yōu)勢(shì):通過(guò)信息在網(wǎng)絡(luò)中的傳遞,促進(jìn)信息的流動(dòng)、匯聚與集成,比如對(duì)于行為少的冷啟動(dòng)用戶,我們可以通過(guò)他關(guān)注列表中的人,以及這些人發(fā)布的內(nèi)容,通過(guò)信息傳播來(lái)推導(dǎo)這個(gè)用戶的興趣。

第三,我介紹下AI研發(fā)的啞鈴模式。目前的AI研發(fā)重點(diǎn),一個(gè)是越來(lái)越大的超級(jí)大模型,一個(gè)是模型小型化技術(shù)。我們都知道,目前隨著模型參數(shù)規(guī)模越來(lái)越大,模型效果越來(lái)越好,高精度模型仍然在持續(xù)增大,比如2018年Google的Bert剛出來(lái)的時(shí)候,模型參數(shù)規(guī)模是3億,不算太大,但是之后這個(gè)數(shù)字快速增長(zhǎng),Open AI研發(fā)的GPT2模型,參數(shù)規(guī)模15億,GPT3模型,參數(shù)規(guī)模1750億,2021年Google發(fā)布Switch Transformer,參數(shù)規(guī)模1.6萬(wàn)億。另一方面,雖然說(shuō)模型越大效果越好,但是因?yàn)槟P瓦^(guò)大,有時(shí)會(huì)導(dǎo)致無(wú)法落地實(shí)際應(yīng)用。所以研發(fā)的另外一個(gè)重點(diǎn),是將這些大模型小型化、輕量化,比如模型蒸餾、模型剪枝等技術(shù),也是業(yè)界特別關(guān)心的。

另外一個(gè)趨勢(shì),是AI模型從專用模型走向通用模型。谷歌在2021年下半年公開的Pathways模型框架,首先提出這一構(gòu)想,希望通過(guò)構(gòu)造一個(gè)通用的大模型,達(dá)到“一個(gè)模型做千萬(wàn)件事”的目標(biāo)。具體的思路是,不同任務(wù)數(shù)據(jù)輸入后,通過(guò)路由算法,選擇神經(jīng)網(wǎng)絡(luò)的部分路徑,到達(dá)模型輸出層。不同任務(wù)既有參數(shù)共享,也有任務(wù)獨(dú)有的模型參數(shù),通過(guò)這種方式來(lái)達(dá)成“一個(gè)模型做千萬(wàn)件事”的目標(biāo)。

講完行業(yè)趨勢(shì),下面,我介紹一下我們的微博推薦業(yè)務(wù)。微博環(huán)境下做推薦系統(tǒng),既具有鮮明的微博特色,同時(shí)又面臨著復(fù)雜的業(yè)務(wù)場(chǎng)景。這種特點(diǎn)及復(fù)雜性主要體現(xiàn)在三個(gè)方面:

首先是無(wú)處不在的社交關(guān)系。我們知道,微博作為國(guó)內(nèi)最大的社交媒體網(wǎng)絡(luò),目前月活用戶達(dá)到5.82億,這樣的用戶規(guī)模構(gòu)建起了多樣的復(fù)雜網(wǎng)絡(luò)。

其次,微博內(nèi)容具有時(shí)效性強(qiáng)、多樣性高的特色,很多網(wǎng)絡(luò)事件都是第一時(shí)間在微博引爆的,而且作為綜合媒體,微博涵蓋了幾十個(gè)高質(zhì)量的垂直領(lǐng)域內(nèi)容。

第三,是多元化場(chǎng)景的推薦需求。我們微博有很多場(chǎng)景,比如關(guān)系流、熱點(diǎn)流、視頻流等,都有很強(qiáng)的推薦需求,要給用戶分發(fā)他們感興趣的“千人千面”的內(nèi)容。

那么,面對(duì)復(fù)雜的業(yè)務(wù)場(chǎng)景,我們是如何應(yīng)用AI和大數(shù)據(jù)對(duì)推薦系統(tǒng)賦能的?微博推薦系統(tǒng)整體由三部分構(gòu)成:內(nèi)容理解、用戶理解,以及推薦系統(tǒng)。下面我展開來(lái)講。

首先,我們來(lái)看在微博內(nèi)容理解方面做的一些工作:要想搞明白一個(gè)微博到底在說(shuō)什么,僅僅理解文本內(nèi)容是不夠的,必須采用多模態(tài)理解技術(shù),融合博文、圖片、視頻等多種媒體信息。我們結(jié)合微博特色,訓(xùn)練了自己的微博多模態(tài)預(yù)訓(xùn)練模型,通過(guò)“對(duì)比學(xué)習(xí)”,這種自監(jiān)督學(xué)習(xí)方法,來(lái)進(jìn)行多模態(tài)預(yù)訓(xùn)練。

以圖中展示的例子來(lái)簡(jiǎn)單介紹下:大家可以看到,我們可以利用微博自帶的‘話題‘,來(lái)自動(dòng)構(gòu)造訓(xùn)練數(shù)據(jù)。比如我們可以把兩個(gè)都寫著“訓(xùn)練中的拉什福德”的微博當(dāng)作正例,隨機(jī)選擇一些不同話題的微博作為負(fù)例,這樣就能自動(dòng)構(gòu)造訓(xùn)練數(shù)據(jù)。對(duì)于某條微博,其中的文本內(nèi)容通過(guò)Bert編碼,圖像和視頻內(nèi)容通過(guò)ViT編碼,然后通過(guò)fusion子網(wǎng)絡(luò)進(jìn)行信息融合,形成微博的embedding編碼。這是一種預(yù)訓(xùn)練過(guò)程,經(jīng)過(guò)預(yù)訓(xùn)練,學(xué)好的微博編碼器可以拿來(lái)對(duì)新的微博內(nèi)容進(jìn)行多模態(tài)編碼,形成embedding,應(yīng)用在推薦等下游任務(wù)中。

在微博用戶理解方面,我們采取了超大規(guī)模圖計(jì)算,來(lái)更好地理解用戶的閱讀興趣是什么。微博的社交媒體屬性天然匹配大規(guī)模圖計(jì)算,可以表達(dá)用戶之間的關(guān)注關(guān)系、用戶和博文的轉(zhuǎn)評(píng)贊等互動(dòng)行為。我們以用戶和博文作為圖中的節(jié)點(diǎn),以用戶間的關(guān)注關(guān)系、用戶和博文的閱讀及轉(zhuǎn)評(píng)贊等互動(dòng)行為構(gòu)造圖中的邊,建立起包含10億規(guī)模節(jié)點(diǎn)、100億規(guī)模邊的超大規(guī)模圖。通過(guò)大規(guī)模圖計(jì)算中的信息傳播、匯聚和集成,形成表征用戶興趣的embedding向量,可以更好地理解用戶興趣。

當(dāng)我們理解了微博在講什么,理解了微博用戶的興趣,那么就會(huì)通過(guò)微博推薦系統(tǒng),將高質(zhì)量的微博,個(gè)性化地分發(fā)給對(duì)此感興趣的用戶。我在前面提到過(guò),微博在多元場(chǎng)景都有推薦需求,比如推薦流、關(guān)系流、視頻流等,每個(gè)場(chǎng)景都需要個(gè)性化的用戶體驗(yàn)。

那么,如何在這種復(fù)雜場(chǎng)景下構(gòu)造高效率的推薦系統(tǒng)呢?我們?cè)谶@里采取了多場(chǎng)景建模的方式。我們希望只構(gòu)建一個(gè)推薦模型,用它來(lái)服務(wù)多個(gè)場(chǎng)景。那么如何表示場(chǎng)景間的共性和個(gè)性呢?我們通過(guò)網(wǎng)絡(luò)參數(shù)在場(chǎng)景間共享,或者場(chǎng)景自己獨(dú)享私有網(wǎng)絡(luò)參數(shù),來(lái)體現(xiàn)場(chǎng)景的共性與個(gè)性。比如看這張模型圖,在模型的底層特征輸入層,以及網(wǎng)絡(luò)中間的一部分“專家子網(wǎng)絡(luò)”,這些網(wǎng)絡(luò)參數(shù)是各個(gè)場(chǎng)景共享的;而其他子網(wǎng)絡(luò)參數(shù)則是某個(gè)場(chǎng)景所獨(dú)有的。通過(guò)這種方式,就可以兼顧場(chǎng)景的共性與個(gè)性,能夠通過(guò)一個(gè)模型服務(wù)多個(gè)場(chǎng)景,節(jié)省模型資源。

上面我分享了我們技術(shù)創(chuàng)新對(duì)熱點(diǎn)應(yīng)對(duì)和算法推薦的賦能,接下來(lái)我要跟大家介紹下,微博在內(nèi)容安全層面所做的一些技術(shù)創(chuàng)新和應(yīng)用。

微博結(jié)合自身復(fù)雜的業(yè)務(wù)場(chǎng)景,自研圖神經(jīng)網(wǎng)絡(luò)的分布式訓(xùn)練框架,結(jié)合對(duì)比學(xué)習(xí),對(duì)用戶特征和社交圖網(wǎng)絡(luò)編碼,學(xué)習(xí)用戶高階特征。由于海量標(biāo)注數(shù)據(jù)的成本非常高,我們基于無(wú)監(jiān)督的方法,學(xué)習(xí)用戶的embedding,構(gòu)建用戶圖網(wǎng)絡(luò)模型。然后基于小規(guī)模的標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)訓(xùn)練,支持離線挖掘、實(shí)時(shí)預(yù)測(cè),實(shí)現(xiàn)了對(duì)潛在風(fēng)險(xiǎn)信息的主動(dòng)預(yù)警。

另外,在日常的運(yùn)營(yíng)中,微博嚴(yán)格貫徹執(zhí)行《網(wǎng)絡(luò)安全法》、《數(shù)據(jù)安全法》、《個(gè)人信息保護(hù)法》等法律法規(guī)和相關(guān)管理規(guī)定,投入大量資源,對(duì)有害不良信息進(jìn)行清理整治,以凈化網(wǎng)絡(luò)環(huán)境。隨著治理不斷深入,黑灰產(chǎn)也呈現(xiàn)出激烈對(duì)抗的態(tài)勢(shì),違規(guī)圖文信息更加多樣、手段更加隱蔽,難以通過(guò)單模態(tài)判斷有害信息,所以我們必須通過(guò)圖文多模態(tài)算法,利用NLP模型(如Bert)和CV模型(如:VIT),深層次融合圖片+文本特征,然后通過(guò)特征融合網(wǎng)絡(luò)進(jìn)行編碼,對(duì)內(nèi)容合規(guī)性作出及時(shí)有效地評(píng)估,從而有效控制灰黑產(chǎn)的違規(guī)行為。

此外,為了進(jìn)一步貫徹落實(shí)2022年“清朗”系列專項(xiàng)行動(dòng)的相關(guān)要求,全面整治飯圈拉踩引戰(zhàn)、網(wǎng)絡(luò)暴力等問(wèn)題。我們依托海量的微博文本語(yǔ)料,自研預(yù)訓(xùn)練模型,對(duì)站內(nèi)數(shù)據(jù)進(jìn)行深度語(yǔ)義理解、情感分析,建立了性別對(duì)立、粗俗冒犯、網(wǎng)暴預(yù)測(cè)等方面識(shí)別能力,對(duì)可能遭受言論攻擊的用戶進(jìn)行保護(hù),幫助國(guó)家和社會(huì)來(lái)營(yíng)造安全、文明、和諧的網(wǎng)絡(luò)生態(tài)環(huán)境。在這里,我還想再補(bǔ)充說(shuō)下微博對(duì)于技術(shù)的態(tài)度。曾有人說(shuō),算法沒(méi)有價(jià)值觀,但我們認(rèn)為,算法的價(jià)值觀體現(xiàn)的是背后掌握算法的人的價(jià)值觀。所以多年來(lái),我們也一直踐行著這樣的價(jià)值理念,用資深的運(yùn)營(yíng)團(tuán)隊(duì)和審核團(tuán)隊(duì),努力去訓(xùn)練AI,努力使我們的算法具有正確的價(jià)值觀。

以上,我們談了微博在利用云計(jì)算應(yīng)對(duì)突發(fā)熱點(diǎn)、運(yùn)用AI和大數(shù)據(jù)為算法推薦、內(nèi)容安全賦能的一些探索和成果。最后回到大會(huì)的主題“融合生態(tài)價(jià)值共創(chuàng)”,我想說(shuō),技術(shù)的發(fā)展速度有時(shí)超乎我們的想象。曾經(jīng)我們暢想的未來(lái)已經(jīng)站在眼前。無(wú)論是互聯(lián)網(wǎng)企業(yè)還是傳統(tǒng)企業(yè),都應(yīng)該在萬(wàn)物互聯(lián)的格局下,重新思考未來(lái)的發(fā)展戰(zhàn)略,用AI思維去思考,用更加開放的心態(tài)與新技術(shù)去融合,讓云計(jì)算、AI、大數(shù)據(jù)等技術(shù),成為我們發(fā)展的基礎(chǔ)底色,為社會(huì)創(chuàng)造更大價(jià)值。

以上就是我分享的全部?jī)?nèi)容,感謝大家的收看,最后預(yù)祝大會(huì)圓滿成功。謝謝大家!

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )