2021年初,音頻社交應(yīng)用Clubhouse迅速沖擊互聯(lián)網(wǎng)圈,在馬斯克入駐的名人效應(yīng)和自身獨特的邀請注冊與推薦機制雙重加持下,Clubhouse的討論迅速在中國火熱蔓延開來,“音頻社交”賽道引爆業(yè)界關(guān)注,國內(nèi)互聯(lián)網(wǎng)圈迅速開啟軍備競賽,抓住音頻社交領(lǐng)域的新機遇。
但值得所有即時性音頻社交平臺關(guān)注的是,Clubhouse在國內(nèi)的火爆猶如煙花般絢爛且短暫。由于信息智能管理的缺失,Clubhouse的討論房間多次出現(xiàn)風險內(nèi)容,幾經(jīng)周折最終在國內(nèi)被暫停服務(wù)。自此,爆火中文社交網(wǎng)絡(luò)的Clubhouse熱度大減,不復往日繁榮。
為了抓住音頻社交領(lǐng)域的新機遇,國內(nèi)互聯(lián)網(wǎng)圈迅速開啟軍備競賽,紛紛開始嘗試打造國內(nèi)版的“Clubhouse”。 映客直播上線對話吧;金融信息服務(wù)提供商鯨準推出Capital coffee;小米剛剛結(jié)束服務(wù)的即時通訊軟件米聊在幾天后即重新上線,打造與Clubhouse有高度相似的語音聊天軟件……
面臨的挑戰(zhàn)
實時語音社交平臺,每天都會產(chǎn)出海量聊天信息,聊天內(nèi)容很容易失控,極有可能混有敏感信息和灰色內(nèi)容,不利于平臺業(yè)務(wù)的發(fā)展,對網(wǎng)絡(luò)環(huán)境造成威脅。由此可見,敏感信息過濾已經(jīng)成為影響平臺業(yè)務(wù)發(fā)展的風險線,也必將成為語音社交平臺運營發(fā)展中的重要模塊。
面對海量增長的音頻消費和使用需求,音頻內(nèi)容審核迫在眉睫,但平臺的風控系統(tǒng)往往會遇到以下兩大方面的困境:
1.敏感信息過濾
人力投入成本高:音頻內(nèi)容數(shù)據(jù)量大,人工日均審核量有限
實時響應(yīng)要求高:內(nèi)容復雜多元,及時響應(yīng)時事政策難度大
培訓投入成本高:人審理解能力參差不齊,培訓投入成本大
2.平臺運營管理
專業(yè)程度要求高:實時流內(nèi)容風控難度大,自研投入成本高
風險應(yīng)急能力弱:突發(fā)違規(guī)處理能力弱,危機應(yīng)對經(jīng)驗不足
審核效果需求嚴:兼顧風控與體驗,高實時與高產(chǎn)能難兩全
語音審核除了要識別音頻包含的文本內(nèi)容是否涉及敏感信息,同時還存在語音語調(diào)上的擬聲詞、感嘆詞和語氣詞的審核難度,例如涉及色情信息的嬌喘、呻吟等。這為語音審核提出了更高的挑戰(zhàn)。目前普遍采用的人工審核方式雖然能夠提供較好的審核能力,但需要對音頻文件進行整段察驗,對音頻流進行實時監(jiān)控,造成了較高的時間成本和人力投入。
數(shù)美實時語音社交平臺內(nèi)容風控專項解決方案
對此,數(shù)美科技經(jīng)過多年在內(nèi)容風控領(lǐng)域的深厚積累和持續(xù)自我升級,開發(fā)了基于深度學習與畫像的全棧式智能音頻風控解決方案,能夠精準識別色情、違禁等內(nèi)容風險與垃圾廣告信息,實現(xiàn)高效、準確、全面覆蓋的內(nèi)容審核過濾,幫助平臺防御音頻內(nèi)容風險。
方案架構(gòu)
在語音內(nèi)容獲取上,數(shù)美科技的智能音頻過濾技術(shù)支持OGG、MP3、ASF、WMA、WAV、MP3PRO、RM、REAL、APE、MODULE、MIDI、VQF等多種音頻格式和音頻流,能夠應(yīng)對不同語音內(nèi)容提供平臺使用的常用音頻格式,同時支持語音直播實時監(jiān)控、語音點播、語音消息和各種音頻文件的檢測。
除此之外,智能音頻識別還整合了業(yè)界一流的語音識別技術(shù)、大規(guī)模GPU計算的深度學習、基于敏感詞庫的名單服務(wù)、特殊聲音識別模型、基于深度學習的NLP模型以及實時分布式規(guī)則引擎等。其中深度學習模型能夠讓系統(tǒng)從多個維度檢測語義環(huán)境,準確識別說話意圖。而智能音頻識別技術(shù)根據(jù)不同場景和行業(yè)采用了專門化的判斷策略,結(jié)合強大的標簽體系能夠為不同類型社交平臺提供定制化的過濾服務(wù)。
音頻內(nèi)容識別組成
在獲取到待檢測的音頻文件和音頻流后,主要從四個方面進行內(nèi)容的檢測識別:
1.違禁違規(guī)
利用語音轉(zhuǎn)文本技術(shù)將語音信息轉(zhuǎn)為文本信息,再通過成熟的文本內(nèi)容檢測,對音頻中出現(xiàn)的多種類型違規(guī)內(nèi)容進行檢測。
2.涉黃違規(guī)
利用大規(guī)模GPU集群的計算能力和深度學習技術(shù),準確快速穩(wěn)定地識別音頻中出現(xiàn)的色情,低俗或性感部分,在管理后臺對其進行標注和反饋,從而大規(guī)模提升人工審核團隊效率,增強用戶瀏覽體驗。
3.特殊聲音識別
同樣利用大規(guī)模GPU集群的強大計算能力和深度機器學習的技術(shù),除了一般的涉黃違規(guī)語言內(nèi)容,還能準確識別出嬌喘、呻吟等非文本類的特殊聲音。
4.導流廣告
通過語音轉(zhuǎn)文本技術(shù)將語音信息轉(zhuǎn)為文本信息,對文本內(nèi)容進行關(guān)鍵詞檢測,識別出潛在的添加微信號、QQ號、QQ群以及虛假信息等導流廣告音頻內(nèi)容。
智能音頻過濾技術(shù)對問題音頻判斷的正確率以及反饋的正確率均高于90%。保證高正確率的同時, 還提供了高處理效率,智能音頻過濾API的最快響應(yīng)時間不超過1s,超時率低于0.01%,而智能音頻過濾API也具有深厚的處理容量,默認支持并發(fā)100路處理任務(wù),還可根據(jù)需求動態(tài)擴容。
同時,數(shù)美即時語音社交平臺內(nèi)容風控專項解決方案也具備以下四大特點:
極速先行:毫秒級系統(tǒng)回調(diào)響應(yīng),7*24小時全天候服務(wù)。
強勢驅(qū)動:采用高性能應(yīng)用計算、全棧式實時智能風控引擎。
安全可靠:榮獲ISO20000、ISO27001 認證,遵循GDPR管理條例。
智能多元:覆蓋多元化業(yè)務(wù)場景、支持多語言自動識別。
行業(yè)實踐
目前數(shù)美的音頻風控解決方案已服務(wù)多個企業(yè),例如某語音社交APP每天產(chǎn)生上千萬條的海量語音消息(包括群聊和私聊),這些語音消息都可能存在違規(guī)和廣告導流等風險信息,全量審查語音消息的人工成本高、實時性差。采用數(shù)美智能語音識別服務(wù)后,需要審核的數(shù)據(jù)時長從每天860小時驟降到20小時,極大降低人工審核成本,識別準確率高達95%以上。
關(guān)于數(shù)美
數(shù)美科技(北京數(shù)美時代科技有限公司)成立于2015年6月,總部位于北京,并在杭州、上海、深圳、成都設(shè)有研發(fā)中心和分支機構(gòu), 團隊核心成員均來自百度、阿里、騰訊、360、小米等知名互聯(lián)網(wǎng)企業(yè),擁有10余年搜索、安全、語音等互聯(lián)網(wǎng)在線產(chǎn)品研發(fā)經(jīng)驗。目前,公司已累計完成四輪融資,累計金額超1億美金。
數(shù)美科技是專業(yè)的在線業(yè)務(wù)風控解決方案提供商,致力于用AI技術(shù)解決在線業(yè)務(wù)中廣泛存在風險挑戰(zhàn),為全球互聯(lián)網(wǎng)、互聯(lián)網(wǎng)+以及產(chǎn)業(yè)互聯(lián)網(wǎng)客戶提供全棧式、可信賴的在線業(yè)務(wù)風控解決方案,現(xiàn)已服務(wù)工商銀行、銀聯(lián)、春秋航空、小紅書、愛奇藝、猿輔導等上千家客戶,覆蓋金融、航旅、游戲、新零售、地產(chǎn)、電商、視頻、媒體、出行、教育等十多個行業(yè)。
數(shù)美科技結(jié)合多年黑產(chǎn)對抗經(jīng)驗打造的全棧式智能風控產(chǎn)品-天網(wǎng),旨在為客戶解決營銷欺詐、支付風控、數(shù)據(jù)盜爬、欺詐廣告等風險問題,降本增效;同時,結(jié)合人工智能技術(shù)打造全棧式智能內(nèi)容識別產(chǎn)品-天凈,為客戶提供一站式的內(nèi)容風控方案,幫助客戶識別文本、圖片、音頻、視頻、網(wǎng)頁中出現(xiàn)的涉政、違禁、暴恐、色情、導流廣告等內(nèi)容,規(guī)避內(nèi)容風險,提升運營效率。
目前,數(shù)美科技已經(jīng)構(gòu)建了全場景、全流程、全維度業(yè)務(wù)風控產(chǎn)品矩陣,實現(xiàn)了SaaS AI風控網(wǎng)絡(luò)的全球化部署,服務(wù)覆蓋中國、東南亞、北美、歐洲、中東,累計攔截風險行為600多億次,累計保護全球30多億用戶,為全球企業(yè)的線上業(yè)務(wù)發(fā)展保駕護航。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )