互聯(lián)網(wǎng)公司要怎么做內(nèi)容風(fēng)控才更安全?

2016年,歐盟委員會(huì)牽頭與Facebook、Twitter、YouTube和微軟等互聯(lián)網(wǎng)巨頭們集體簽署了一項(xiàng)行為準(zhǔn)則,承諾“接到舉報(bào)后24小時(shí)內(nèi)屏蔽和刪除相關(guān)仇恨言論”。

“仇恨言論”在歐美已經(jīng)是刻不容緩的互聯(lián)網(wǎng)內(nèi)容安全問(wèn)題。

2019年發(fā)生在美國(guó)、新西蘭等地的公共傷害事件,事后都被查明兇手為種族歧視的捍衛(wèi)者,動(dòng)手之前曾在網(wǎng)絡(luò)上分享過(guò)自己的行程與仇恨理念。

而這只是互聯(lián)網(wǎng)內(nèi)容安全問(wèn)題的冰山一角。

互聯(lián)網(wǎng)上與日俱增的內(nèi)容不僅代表著更多的流量,也預(yù)示著巨大的內(nèi)容風(fēng)險(xiǎn)藏身其中。色情、毒品、旗幟、暴恐、血腥、武器等等不良、有害信息不僅危害互聯(lián)網(wǎng)平臺(tái)的內(nèi)容生態(tài),更可能導(dǎo)致安全問(wèn)題,使業(yè)務(wù)發(fā)展遭受損失。

不夸張的說(shuō),內(nèi)容安全就是互聯(lián)網(wǎng)平臺(tái)的風(fēng)控命門(mén)。

過(guò)去,互聯(lián)網(wǎng)公司通過(guò)增加內(nèi)容審核人員規(guī)模來(lái)解決問(wèn)題,比如2018年今日頭條就曾將原有6000人的運(yùn)營(yíng)審核隊(duì)伍擴(kuò)大到10000人,社交巨頭Facebook在全球范圍內(nèi)也擁有1.5萬(wàn)內(nèi)容審核員。

但這也引出一個(gè)實(shí)際問(wèn)題,大廠(chǎng)有能力和資金可以雇傭內(nèi)容審核專(zhuān)員,或者自己開(kāi)發(fā)機(jī)器審核,而小廠(chǎng)呢?如何應(yīng)對(duì)這顆隨時(shí)可能引爆的安全“炸彈”?

人工+機(jī)器輔助,AI內(nèi)容風(fēng)控了解一下

隨著互聯(lián)網(wǎng)內(nèi)容愈發(fā)繁雜且海量,以及市場(chǎng)與行業(yè)升級(jí)之后,信息傳播的媒介與形態(tài)越來(lái)越多樣化,傳統(tǒng)的人工審核方式已經(jīng)不能從容應(yīng)對(duì)內(nèi)容安全危機(jī)了。

人工審核本身有著天然缺陷,比如成本高、效率低、主觀(guān)成分高、評(píng)判標(biāo)準(zhǔn)不統(tǒng)一等等。僅成本一項(xiàng)就很難,有企業(yè)曾透露,一人一天審核4萬(wàn)條信息,日均100萬(wàn)數(shù)據(jù),光審核人力成本就要200萬(wàn)以上。

對(duì)企業(yè)而言,概括起來(lái)說(shuō)就是成本高、技術(shù)難、效果差。甚至,因?yàn)殚L(zhǎng)期與極度負(fù)面的信息打交道,對(duì)審核員工的身心都會(huì)造成損傷。

今年3月,3000多名內(nèi)容審核員就對(duì)Facebook發(fā)起了訴訟,這些內(nèi)容審核員要求對(duì)這份工作引發(fā)的精神損害進(jìn)行經(jīng)濟(jì)補(bǔ)償。5月,F(xiàn)acebook不得不同意向這些內(nèi)容審核員支付5200萬(wàn)美元的和解費(fèi)。

并且,視頻、音頻等媒介形式的爆發(fā),又給人工審核帶來(lái)了新的挑戰(zhàn)。

于是近幾年,基于算法技術(shù)和人工智能,互聯(lián)網(wǎng)平臺(tái)開(kāi)始開(kāi)發(fā)機(jī)器輔助人工審核的方式應(yīng)對(duì)內(nèi)容安全問(wèn)題。機(jī)器審核的一大優(yōu)勢(shì)就在于,可以應(yīng)對(duì)不同媒介維度的內(nèi)容審核工作。

文本內(nèi)容:最基礎(chǔ)的處理工作是匹配詞庫(kù)進(jìn)行分類(lèi)處理。區(qū)別于人工,AI可以通過(guò)預(yù)設(shè)違禁詞庫(kù)來(lái)完成文本內(nèi)容篩選。

比如,百度內(nèi)容審核平臺(tái)就是預(yù)置違禁詞庫(kù)+用戶(hù)自定義黑/白詞庫(kù)的配置,并根據(jù)色情、暴恐違禁、政治敏感、惡意推廣等七大場(chǎng)景建立了黑詞庫(kù)和語(yǔ)義審核模型,不僅能夠?qū)γ舾性~和違禁詞進(jìn)行處理,也能根據(jù)上下文、語(yǔ)境、語(yǔ)義識(shí)別出違規(guī)信息。

圖像內(nèi)容:機(jī)器對(duì)圖片類(lèi)型的內(nèi)容審核,其底層是圖片識(shí)別的技術(shù)應(yīng)用。以此為基礎(chǔ)邏輯,圖片內(nèi)容的各個(gè)場(chǎng)景得以被辨識(shí)并應(yīng)用到內(nèi)容審核中,比如下圖就介紹了百度內(nèi)容審核平臺(tái)的圖像檢測(cè)產(chǎn)品的主要功能。

視頻內(nèi)容:視頻內(nèi)容由音頻內(nèi)容、視頻畫(huà)面兩個(gè)對(duì)象組成,視頻畫(huà)面的機(jī)器審核,業(yè)界目前常采用截取畫(huà)面幀上傳識(shí)別,最終復(fù)用的是圖片識(shí)別通道對(duì)場(chǎng)景、人物、物品進(jìn)行判斷是否違規(guī)。

音頻內(nèi)容:音頻識(shí)別的技術(shù)基礎(chǔ)建立在以聲學(xué)模型建立的發(fā)音模版,通過(guò)匹配發(fā)音模版判斷出語(yǔ)種和對(duì)應(yīng)表義,輸出可被計(jì)算機(jī)理解的語(yǔ)言結(jié)果。

音頻內(nèi)容的審核要略微復(fù)雜一些,一方面是音頻背景音需要降噪才能準(zhǔn)確識(shí)別語(yǔ)音內(nèi)容,另一方面是聲音內(nèi)容的顆粒度要更細(xì),比如摻雜在聲音內(nèi)容里的嬌喘聲。百度內(nèi)容審核平臺(tái)為此增加了一個(gè)聲學(xué)模型審核,對(duì)諸如嬌喘聲等違規(guī)信息可有效識(shí)別。

以上幾種不同媒介的機(jī)器審核是目前業(yè)界最普遍的基礎(chǔ)方案,相較于人工審核,人工+機(jī)器的復(fù)合審核方式相當(dāng)于將一些重復(fù)性高、需要大量計(jì)算的工作交給機(jī)器精篩,再由人工復(fù)審,以此達(dá)到海量?jī)?nèi)容的高效審核。

這也存在一些問(wèn)題,比如一張人像圖片可以劃分為“色情”、“性感”、“正?!比齻€(gè)維度,機(jī)器可以根據(jù)肉體裸露程度來(lái)判斷,但在特定情況下又要有所區(qū)分,比如在電商平臺(tái)銷(xiāo)售內(nèi)衣的模特照片就是合規(guī)的,而在母嬰論壇可能就不一樣。

所以,在流程設(shè)計(jì)上,機(jī)器審核可以做到的就是幫助運(yùn)維者先行剔除大量確切違規(guī)的內(nèi)容,剩下的人工審核流程依舊不能省。

需要怎樣的內(nèi)容風(fēng)控解決方案?

那么,既然機(jī)器審核既有優(yōu)勢(shì)又有劣勢(shì),互聯(lián)網(wǎng)平臺(tái)究竟要怎樣才能做到高效且節(jié)省成本的內(nèi)容審核呢?

答案是從兩個(gè)方面入手。

其一,部署性能優(yōu)越的機(jī)器審核平臺(tái)。目前,基本上互聯(lián)網(wǎng)大廠(chǎng)都是自己開(kāi)發(fā),比如Facebook。疫情期間,由于大部分人工審核員居家隔離,F(xiàn)acebook依賴(lài)于AI檢測(cè)系統(tǒng),據(jù)說(shuō)該系統(tǒng)可以自行檢測(cè)到平臺(tái)上90%的有害信息。

國(guó)內(nèi)的百度、騰訊、阿里、頭條、快手等也都是自己開(kāi)發(fā)的機(jī)器審核。也有一些提供內(nèi)容審核的大數(shù)據(jù)風(fēng)控創(chuàng)業(yè)公司,比如同盾科技、數(shù)美科技等等。

其中,百度是為數(shù)不多開(kāi)放這一產(chǎn)品的大廠(chǎng)。2018年,百度推出了基于AI開(kāi)放平臺(tái)的內(nèi)容審核產(chǎn)品,支持圖像、文本、音頻、視頻等多形式的審核。

經(jīng)過(guò)兩年多的發(fā)展,目前百度內(nèi)容審核平臺(tái)已經(jīng)升級(jí)到14+項(xiàng)圖像、 8+項(xiàng)文本、9+項(xiàng)語(yǔ)音審核能力,并可以基于多年的風(fēng)險(xiǎn)處置經(jīng)驗(yàn)實(shí)時(shí)更新系統(tǒng)策略。

百度內(nèi)容審核平臺(tái)設(shè)定了全面的分類(lèi)標(biāo)簽體系,包括色情20標(biāo)簽、暴恐17標(biāo)簽等等,這一體系可以讓企業(yè)根據(jù)業(yè)務(wù)需求自由組合標(biāo)簽,也就是自定義模型。

舉個(gè)例子,在視頻直播場(chǎng)景下親密行為屬于正常,而在母嬰論壇就不能通過(guò)。不同場(chǎng)景對(duì)違禁規(guī)則的需求不同,平臺(tái)可以根據(jù)自身業(yè)務(wù)特性自定義模型,無(wú)疑這既增加內(nèi)容審核準(zhǔn)確度也不會(huì)對(duì)用戶(hù)體驗(yàn)造成損傷。

而且百度內(nèi)容審核平臺(tái)背后還有頂尖的技術(shù)支撐,百度是唯一連續(xù)三年入選MIT科技評(píng)論的年度十大突破技術(shù)公司。在人臉檢測(cè)Wider Face&person Chllenge 2019、機(jī)器閱讀理解 MS MARCO數(shù)據(jù)集榜單等國(guó)際技術(shù)比賽中穩(wěn)居第一。

其二,人工依舊是內(nèi)容安全審核無(wú)法略去的重要環(huán)節(jié),而提高人工審核效率也是關(guān)鍵之一。

據(jù)百度AI技術(shù)生態(tài)部高級(jí)產(chǎn)品經(jīng)理Nathan透露,百度內(nèi)容審核平臺(tái)的客戶(hù)存在一個(gè)非常明確的訴求,即AI 審核能力提高的同時(shí),還需要一套功能更加完備的審核系統(tǒng)來(lái)提升審核的管理效率。

近日,百度大腦就在內(nèi)容審核平臺(tái)的基礎(chǔ)上又推出了人機(jī)協(xié)同審核管理平臺(tái)。

該平臺(tái)的邏輯是輔助內(nèi)容審核平臺(tái),相當(dāng)于在整個(gè)審核流程中加入了一個(gè)新的AI機(jī)審。以短視頻為例,AI機(jī)審可以調(diào)用內(nèi)容審核平臺(tái)接口,通過(guò)截幀、抽取音頻的方式進(jìn)行審核,對(duì)比內(nèi)容審核平臺(tái),AI機(jī)審在這其中增加了圖像指紋、聲紋黑庫(kù)功能,進(jìn)一步強(qiáng)化審核準(zhǔn)確度。

同時(shí),人機(jī)協(xié)同審核管理平臺(tái)還推出了三層人審機(jī)制,具體流程可參考下圖。

百度方面表示,通過(guò)優(yōu)化人機(jī)協(xié)同機(jī)制,能夠幫助客戶(hù)降低30%人力消耗并大幅提升單人審核效率。而且在服務(wù)形態(tài)上提供公有云、私有化靈活的部署方案,幫助客戶(hù)極大節(jié)省平臺(tái)開(kāi)發(fā)和運(yùn)維成本。

國(guó)信聚安是一家聚焦于內(nèi)容安全生態(tài)的專(zhuān)業(yè)服務(wù)商,其基于百度大腦的算法、模型、數(shù)據(jù)和研發(fā)打造了一套新媒體內(nèi)容風(fēng)險(xiǎn)管理方案。

國(guó)信聚安的業(yè)務(wù)能力主要在前端數(shù)據(jù),包括用戶(hù)信息、圖片信息、視頻、互動(dòng)等,借助人機(jī)協(xié)同審核管理平臺(tái)建立自定義模型,對(duì)色情、涉政等違規(guī)信息進(jìn)行關(guān)鍵詞匹配、語(yǔ)義分析等檢測(cè)操作,再通過(guò)人工復(fù)審實(shí)現(xiàn)結(jié)果輸出。

通過(guò)借力百度大腦,國(guó)信聚安實(shí)現(xiàn)了四大提升:

1 借助標(biāo)準(zhǔn)化、易接入的人機(jī)審核平臺(tái),提升了業(yè)務(wù)拓展和線(xiàn)上效果;

2 提高專(zhuān)項(xiàng)內(nèi)容審查的應(yīng)對(duì)能力;

3 高危內(nèi)容研判耗時(shí)縮短,準(zhǔn)確率提升;

4 人力成本下降。

“借助模型快速的研判和準(zhǔn)確率,使得研判耗時(shí)縮短了95%,準(zhǔn)確率提升了70%,也大大降低了一線(xiàn)審核員的壓力?!眹?guó)信聚安CEO陳太鋒表示。

工欲善其事,必先利其器

從全球內(nèi)容產(chǎn)業(yè)的發(fā)展來(lái)看,內(nèi)容安全審核是整個(gè)互聯(lián)網(wǎng)平臺(tái)進(jìn)化的重要一步。一方面,機(jī)器審核方式的加入提升了內(nèi)容審核效率,另一方面也直接強(qiáng)化了內(nèi)容分發(fā)的商業(yè)效率。

也就是說(shuō),除了內(nèi)容安全問(wèn)題,AI也在讓內(nèi)容產(chǎn)業(yè)變的更“輕”——輕人力、輕成本、輕流程,讓AI來(lái)解決更多問(wèn)題。

而近年來(lái)內(nèi)容安全事件的高發(fā),也證明了行業(yè)中內(nèi)容安全風(fēng)控仍存在缺口。主要表現(xiàn)在建立內(nèi)容審核編輯責(zé)任制落地不到位、在新媒介內(nèi)容審核上技術(shù)投入不足等等,這其中有技術(shù)問(wèn)題也有人力、資金問(wèn)題。

考慮到這些現(xiàn)實(shí)問(wèn)題,而內(nèi)容風(fēng)控又是必須要做的事情,類(lèi)似百度大腦這樣的高效、低成本審核手段就有了用武之地。

在這樣的前提下,利用AI進(jìn)行內(nèi)容風(fēng)控的重要性只會(huì)不斷提高,我們未來(lái)需要應(yīng)對(duì)的不僅僅是不當(dāng)內(nèi)容和低質(zhì)量?jī)?nèi)容,很可能還會(huì)有人類(lèi)都難以分辨的虛假內(nèi)容。這樣看來(lái),AI內(nèi)容風(fēng)控不僅僅是一項(xiàng)增益技術(shù),而是駛向內(nèi)容產(chǎn)業(yè)金銀島保駕護(hù)航的必由之路。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2020-05-22
互聯(lián)網(wǎng)公司要怎么做內(nèi)容風(fēng)控才更安全?
2016年,歐盟委員會(huì)牽頭與Facebook、Twitter、YouTube和微軟等互聯(lián)網(wǎng)巨頭們集體簽署了一項(xiàng)行為準(zhǔn)則,承諾“接到舉...

長(zhǎng)按掃碼 閱讀全文