2月23日消息,TechWeb獲悉,阿里安全圖靈實驗室圍繞行業(yè)痛點、難點技術(shù)問題,涉及文本變異對抗、圖像、視頻內(nèi)容風控以及AI小樣本研究的4個團隊,分別與中國科學技術(shù)大學、浙江大學、華中科技大學等知名高校研究人員合作,研發(fā)包括“內(nèi)容安全、文本反垃圾、AI模型魯棒性、營商環(huán)境治理”4項新一代安全架構(gòu)核心AI安全技術(shù)成果,均被國際會議ICASSP(International Conference on Acoustics, Speech and Signal Processing)2021收錄。
小樣本訓練對抗血腥暴力視頻
在實際應用場景中,AI安全技術(shù)能有效解決數(shù)據(jù)量大的頭部風險,但對數(shù)據(jù)量極少或者新增的風險,現(xiàn)有AI模型往往難以勝任。
在2018年“掃黃打非”專項整治中,就出現(xiàn)了一波名為“邪典”的風險(軟色情、血腥暴力),主要為一些對青少年有不良導向的視頻,此類相關(guān)內(nèi)容清理有害信息就多達37萬余條。隨著短視頻火爆發(fā)展,變異極快的“兒童邪典視頻”極易死灰復燃。
累積此類別的數(shù)據(jù)供原有模型訓練需要一定時間,而小樣本方法恰好能填補“變異-模型未更新”的真空期。阿里安全圖靈實驗室高級算法工程師雍秦認為,使用小樣本方法,可很好地在真空期中覆蓋這種新風險,維護網(wǎng)絡清朗空間環(huán)境。
“之前發(fā)表的小樣本方法大都集中于優(yōu)化小樣本元學習階段,該研究主要集中研究小樣本方法中的預訓練問題,我們AI安全團隊提出了一種簡單有效的方法,使用自監(jiān)督方法預訓練一個更深的網(wǎng)絡,具有很好的魯棒性和泛化性。”雍秦說。
自監(jiān)督學習的核心理念是對無標簽數(shù)據(jù)的進行學習,而且學習的是無標簽數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)或者特性,因此不需要標簽結(jié)果,這樣打造的AI模型對新鮮樣本的適應能力比較強。
在醫(yī)療、生物等行業(yè)安全領(lǐng)域,都普遍存在“樣本標注困難”“成本高”問題。雍秦堅信,小樣本自監(jiān)督學習能很好改善這些困境。
阿里&浙大:增強AI對抗垃圾文本變異的穩(wěn)定性和識別力
李進鋒等阿里安全算法專家經(jīng)常會遇到發(fā)送大量垃圾文本的惡意用戶,黑灰產(chǎn)試圖通過對抗的手段規(guī)避阿里安全內(nèi)容風控智能AI系統(tǒng)檢測。
以文本內(nèi)容為例,惡意用戶可通過對文本中的違規(guī)內(nèi)容進行變形變異,從而達到繞開模型識別檢測的目的。由于文本對抗門檻和成本低,文本內(nèi)容風控場景中的對抗異常激烈,對抗給智能風控體系帶來了巨大挑戰(zhàn)。
圖:真實應用場景中的對抗文本(紅色字體為變異詞)
為應對挑戰(zhàn),解決對抗場景中風控模型性能衰減的問題,阿里安全圖靈實驗室與浙江大學提出了基于對抗關(guān)系圖的文本對抗防御技術(shù)。
圖:基于對抗關(guān)系圖的文本對抗防御框架
與現(xiàn)有技術(shù)相比,阿里安全的內(nèi)容風控系統(tǒng)建模與場景無關(guān),只需訓練一次即可應用到各個場景,基于對抗關(guān)系圖,就可以解決更復雜的多跳變異問題,如微(wei)-威(wei)-崴(wai)。阿里安全團隊將防御框架應用到了手機淘寶、旺旺反垃圾場景,取得了不錯的應用效果。
中科大&阿里:構(gòu)建AI系統(tǒng)“防火墻”
去年,阿里安全圖靈實驗室發(fā)布了一款“AI安全診斷大師”,對AI模型進行全面的安全性評估,并針對AI系統(tǒng)的缺陷,提出提升模型防御能力建議。
這種“AI安全防火墻”的一個關(guān)鍵技術(shù)就是對抗樣本檢測,對抗樣本的重要特性之一是人眼無法區(qū)分,導致無法通過人工打標進行對抗樣本的檢測。
2020年,阿里安全圖靈實驗室提出了一種基于Transformer的對抗樣本檢測方法,改進了傳統(tǒng)對抗樣本檢測方法只能檢測特定攻擊,難以泛化到其他攻擊的缺陷。
此次研究解決的是對抗樣本檢測泛化性的問題,但針對非常小擾動和非常稀疏的對抗樣本的檢測,仍是目前研究的難點。為了既能識別擾動大而廣的對抗樣本,又能識別擾動比較小而稀疏的對抗樣本,中科大和阿里的研究者提出了基于圖像域和梯度域的雙流對抗樣本檢測網(wǎng)絡,圖像域用于識別擾動大而廣的對抗樣本,梯度域則用于識別擾動比較小而稀疏的對抗樣本。
圖 .雙流對抗樣本檢測網(wǎng)絡
隨著防御技術(shù)不斷變強,攻擊形態(tài)越來越多樣。在真實應用場景中,阿里安全圖靈實驗室也發(fā)現(xiàn)了一些沒有限制情況下的攻擊形態(tài),這類攻擊很難應對。阿里安全圖靈實驗室高級安全專家越豐介紹,目前阿里希望能從攻防兩端以及產(chǎn)學研集合的方式來應對這種威脅。阿里安全聯(lián)合清華大學、UIUC(伊利諾伊大學厄巴納-香檳分校)舉辦了CVPR2021的AML-CVworkshop,產(chǎn)學研結(jié)合探討AI安全的問題。另外,三方在workshop上聯(lián)合天池一起舉辦了2個比賽:第六期-ImageNet無限制對抗攻擊和防御模型的白盒對抗攻擊。
提升商品圖像檢索能力優(yōu)化用戶搜索體驗
電商平臺的各種模態(tài)商品數(shù)據(jù)迅速增長,如何從中快速且準確地找出用戶需要的商品是一個艱巨的挑戰(zhàn)?;趦?nèi)容的文本到商品圖像的跨模態(tài)檢索就是緩解這個挑戰(zhàn)的關(guān)鍵技術(shù)之一。
傳統(tǒng)的跨模態(tài)檢索方法建立在單層次的特征表示和單粒度的相似度度量上,難以有效地解決商品圖像檢索的問題。
同時,文本到商品圖像的跨模態(tài)檢索任務更復雜,比如單是商品圖像中的一類“服飾”已經(jīng)表現(xiàn)出巨大的差異性,服飾可以穿在模特身上,也可以單獨擺放,還可折疊起來展示,服飾圖像背景往往也很復雜。不止如此,商品圖像包含其它很多豐富的種類,并且一幅圖像內(nèi)往往呈現(xiàn)出多種物體,琳瑯滿目,難辨差異。
在阿里安全圖靈實驗室實習的浙江大學碩士生馬哲介紹,這次研究在文本-商品圖像跨模態(tài)檢索的場景下,提出了HSL網(wǎng)絡和兩種不同粒度的相似性度量方式,可顯著提升商品圖像檢索的性能,并能適應復雜的商品內(nèi)容檢索。
阿里安全圖靈實驗室資深算法專家華棠強調(diào),這種新研究不僅致力于提升用戶搜索體驗,也會用在平臺內(nèi)容治理上,謹防黑灰產(chǎn)利用看似合規(guī)的商品圖片宣傳“禁限售”類商品。
“我們希望通過新一代安全架構(gòu)核心AI技術(shù)來守護網(wǎng)絡內(nèi)容安全,凈化網(wǎng)絡環(huán)境,也通過AI來保護數(shù)字資產(chǎn)的知識產(chǎn)權(quán),優(yōu)化營商環(huán)境。同時也致力于通過AI來防范黑灰產(chǎn)的對抗行為,盡最大努力為商家和用戶打造更好的互聯(lián)網(wǎng)平臺。”華棠說。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 2024年全國電影票房425.02億元 7部影片票房破10億
- 雷軍跨年直播定下2025年大目標?揭秘造車成功三大原因
- 2025支付寶集五福將于1月20日開啟 網(wǎng)友:今年能多給一點嗎?
- 北京市委網(wǎng)信辦開展算法治理專項行動,整治網(wǎng)絡平臺算法問題
- 阿里云宣布第三輪大模型降價,通義千問視覺理解模型價格大幅降低超80%
- 曠視科技邁馳智行與吉利汽車、路特斯展開智能駕駛領(lǐng)域新合作
- 2024科技圈最火的人
- 哪吒汽車生產(chǎn)商BGAC計劃裁員400人,泰國公司員工不受影響
- 蘋果停產(chǎn)多款產(chǎn)品,專家建議避免購買部分舊款型號
- 第三輪降價!阿里云通義千問視覺理解模型降價超80%
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。