3月28日,今日頭條上線了國(guó)內(nèi)首款人工智能反低俗小程序——靈犬。用戶輸入一段文字或文章鏈接,小程序就可以返回一個(gè)分?jǐn)?shù),表示內(nèi)容的健康程度。
人工智能,雖然已經(jīng)發(fā)展了很多年,但“聰明程度”也就差強(qiáng)人意。號(hào)稱使用了國(guó)內(nèi)最強(qiáng)算法,今日頭條這只“靈犬”到底靈不靈呢?
初測(cè):我喂了10篇爆文給“靈犬”
今日頭條方面表示,“靈犬”背后是一套反低俗模型,是頭條審核機(jī)制中反低俗部分的簡(jiǎn)化版本。“靈犬”會(huì)對(duì)樣本進(jìn)行提取、分詞和語(yǔ)義識(shí)別,然后根據(jù)相應(yīng)的算法,輸出分?jǐn)?shù)、評(píng)級(jí)和結(jié)論。
樣本1:離離原上草,一歲一枯榮
樣本2:狼牙月,伊人憔悴我舉杯
樣本3:老司機(jī)帶帶我,我要進(jìn)省城
根據(jù)榜妹多次測(cè)試,“靈犬”會(huì)返回三個(gè)結(jié)論:可以獲得算法推薦,需要引入人工判斷,不應(yīng)獲得算法推薦。準(zhǔn)確門(mén)檻不敢說(shuō),以現(xiàn)有幾十個(gè)樣本估計(jì),大致分界線約為70和50。
值得注意的是,檢測(cè)結(jié)果分“健康概率”和“質(zhì)量指數(shù)”兩部分。我們通常說(shuō)的“分?jǐn)?shù)”其實(shí)是前者,因?yàn)楹笳咧皇且粋€(gè)直觀的五星評(píng)分。
換句話說(shuō),分?jǐn)?shù)低不代表內(nèi)容更低俗,只代表內(nèi)容低俗的可能性更大。兩者有本質(zhì)上的區(qū)別。不過(guò),正如人們心理上會(huì)把1米8的身高和180斤的體重對(duì)等,即便單位、維度不同,人們也傾向于認(rèn)為,“靈犬”反饋的概率分就代表了低俗程度。
為了減少樣本的隨機(jī)性,榜妹拋棄了自己關(guān)注的500個(gè)公眾號(hào),特地從2017年約50篇10w+點(diǎn)贊文章中,選取了10篇可能觸發(fā)關(guān)鍵詞的標(biāo)題。
10w+點(diǎn)贊,意味著文章閱讀數(shù)至少在500萬(wàn)甚至千萬(wàn)以上。這樣廣泛傳播的文章,更有參考價(jià)值,也更值得關(guān)注。
有些出乎意料,中國(guó)人并沒(méi)有想象中低俗?;蛘哒f(shuō),微信公眾號(hào)的信息環(huán)境還沒(méi)有那么惡劣。10篇爆文中,6篇文章分?jǐn)?shù)都超過(guò)了80,屬于可被算法推薦的一類(lèi)。
不低俗就ok了嗎?你會(huì)發(fā)現(xiàn)諸如“驚!恐!……媒體竟如此反應(yīng)”、“國(guó)運(yùn)果然降臨”、“XX怒了,XX怒了……”這類(lèi),實(shí)打?qū)嵉臉?biāo)題黨,放到今日頭條上,也未必獲得推薦。
不過(guò),“靈犬”畢竟是一個(gè)測(cè)低俗的小程序,正如它自己辯白,“你很難用溫度計(jì)去測(cè)一杯水的深度”,低俗和標(biāo)題黨之間,沒(méi)有直接關(guān)聯(lián)。
三篇文章沒(méi)有分?jǐn)?shù),需要人工審核。這里的“需要人工審核”,并非上文提到的“需要人工判斷”。
“需要人工審核”是說(shuō)這只狗根本判斷不了,因?yàn)樯婕皶r(shí)政、社會(huì)等復(fù)雜因素,完全給不了分;“需要人工判斷”是說(shuō)這只狗能判斷,但是判不準(zhǔn),需要人的協(xié)助,往往是五六十分還能續(xù)一秒的爭(zhēng)議性內(nèi)容。
以上就是“靈犬”初測(cè)。你需要明白三點(diǎn):分?jǐn)?shù)本身不反映低俗程度;標(biāo)題黨不等于低俗;時(shí)政性內(nèi)容無(wú)法識(shí)別。
深究:這只狗到底吃哪一套?
弄清楚“靈犬”的功能后,再來(lái)針對(duì)“提取、分詞和語(yǔ)義識(shí)別”,拆(cai)解(ce)下這個(gè)算法模型。
關(guān)鍵詞是一個(gè)重要標(biāo)準(zhǔn)。以上10篇文章中,唯一一個(gè)低分帶有“男人”字眼,不妨猜測(cè)“男”、“女”、“性”是降權(quán)標(biāo)準(zhǔn)之一。那么我們以“女人”這個(gè)詞為例,看下這只狗的識(shí)別能力究竟如何。
以下表格中的標(biāo)題,前兩個(gè)是今日頭條上隨機(jī)找的,標(biāo)題都帶有“女人”字眼。后面幾個(gè)是在微信公眾號(hào)里搜的,有的標(biāo)題同時(shí)出現(xiàn)“男人”和“女人”,理論上講可能更“低俗”。
我把這8個(gè)標(biāo)題分成3組,用顏色進(jìn)行了區(qū)分。經(jīng)過(guò)大膽猜測(cè)、細(xì)心求證,至少能得到以下幾個(gè)結(jié)論:
1、樣本環(huán)境會(huì)影響準(zhǔn)確度,這套算法可能更適合今日頭條。
前面題到,這個(gè)小程序,其實(shí)是今日頭條反低俗算法的一個(gè)簡(jiǎn)化版本。也就是說(shuō),它對(duì)“低俗”的行為界定、采集的樣本、建立的模型,都與今日頭條這個(gè)產(chǎn)品相關(guān)。
有人覺(jué)得用“男”、“女”、“性”等關(guān)鍵詞來(lái)界定低俗,過(guò)于機(jī)械。但事實(shí)上,今日頭條上使用這些詞的,也大多不干凈。比如上述的兩個(gè)標(biāo)題“十大美女”……“范冰冰……”,內(nèi)容本來(lái)就是女性的香艷照和視頻,不予推薦很正常。
只能說(shuō),今日頭條在自己的領(lǐng)土抓人,還是一逮一個(gè)準(zhǔn)。
2、關(guān)鍵詞相同的情況下,語(yǔ)義越復(fù)雜,得分可能越高。
再來(lái)看第二部分。三個(gè)標(biāo)題都同時(shí)含有“男人”和“女人”,分?jǐn)?shù)從低到高。但實(shí)際上,就像前文所說(shuō),分?jǐn)?shù)不直接反映低俗程度,這三篇文章并不是一個(gè)比一個(gè)低俗的關(guān)系。事實(shí)上,點(diǎn)開(kāi)內(nèi)文你會(huì)發(fā)現(xiàn),它們都不低俗。
(為方便閱讀,重復(fù)插圖)
如果按關(guān)鍵詞劃分,三者都存在可能觸發(fā)低俗模型的“黃暴詞語(yǔ)”,比如“養(yǎng)得起”、“騙”、“家暴”??梢?jiàn)這不是影響分?jǐn)?shù)的關(guān)鍵。
這里大膽猜測(cè),語(yǔ)義復(fù)雜程度是一個(gè)影響因素。這只狗沒(méi)那么聰明,對(duì)于不常見(jiàn)的語(yǔ)境,它傾向于相信并返回較高分?jǐn)?shù)。畢竟做號(hào)黨都很直接,看一眼就懂的段子,更容易獲得點(diǎn)擊量。相反,只有相對(duì)高級(jí)的情感號(hào),才會(huì)挖空心思弄點(diǎn)新概念或金句。
3、“靈犬”滿腦子情情愛(ài)愛(ài),只認(rèn)語(yǔ)義,不認(rèn)領(lǐng)域。
最后,藍(lán)色部分,全都是科技號(hào)。打頭的一個(gè)就是“量子程序”推送的文章,單純介紹一個(gè)整蠱小程序,結(jié)果因?yàn)闃?biāo)題含有“女友”,只得了81分。
后面兩個(gè)更“冤枉”,都是圈內(nèi)有名的高逼格大號(hào)。“好奇心日?qǐng)?bào)”這篇,講的是“去性別化時(shí)尚”,說(shuō)白了,就是推薦一些男女通用的服裝;“果殼網(wǎng)”這篇,其實(shí)也就標(biāo)題刺激,全文都在講一個(gè)研究報(bào)告,涉及社會(huì)學(xué)、人類(lèi)學(xué),以及統(tǒng)計(jì)學(xué)若干知識(shí)。
結(jié)果?哈哈,果殼網(wǎng)這篇,無(wú)論是標(biāo)題檢測(cè),還是文章鏈接監(jiān)測(cè),全都只有可憐的7分。
“靈犬”之前自己說(shuō)了,“驛外斷橋邊,寂寞開(kāi)無(wú)主”這句詩(shī)的健康概率很低,因?yàn)檫@條蠢狗不懂詩(shī)詞,覺(jué)得“寂寞”有低俗嫌疑。以此類(lèi)推,碰到科技類(lèi)文章,這狗必定歇菜啊。
4、“靈犬”能理解“高級(jí)詞匯”,標(biāo)點(diǎn)符號(hào)也會(huì)影響分?jǐn)?shù)。
關(guān)鍵詞屏蔽,非?;A(chǔ)且低級(jí)。中國(guó)文字博大精深,“靈犬”能否識(shí)別內(nèi)涵段子?頭條有反低俗機(jī)制,做號(hào)黨也不傻,繞開(kāi)關(guān)鍵詞,把漢字進(jìn)行排列組合,一樣能起暗示作用。
榜妹搜集了很多這類(lèi)標(biāo)題,但是為了不污染大家眼睛,不教壞小孩子,就不一一舉出來(lái)了。這里隨便杜撰一個(gè)標(biāo)題《不可描述,老司機(jī)快上車(chē)》。“靈犬”果然看出來(lái)了,分?jǐn)?shù)都在20以下。
一個(gè)有意思的發(fā)現(xiàn)是,我調(diào)整了兩個(gè)標(biāo)點(diǎn)符號(hào),打分也有細(xì)微差別。 上圖左邊一列,第二個(gè)標(biāo)點(diǎn)從“!”到“。”到空白,感情由強(qiáng)到弱,分?jǐn)?shù)也由低到高。
右邊一列,把第一個(gè)標(biāo)點(diǎn)統(tǒng)一由“,”變成“!”,第二個(gè)標(biāo)點(diǎn)與左邊保持一致。按照“感情越強(qiáng)烈,分?jǐn)?shù)越低”的原則,應(yīng)該所有分?jǐn)?shù)統(tǒng)一下降幾分,自上而下總體差值不變。結(jié)果?全部亂了,看不出規(guī)律。
最后:來(lái)自一個(gè)訓(xùn)狗師的建議
以上,只是榜妹隨機(jī)檢測(cè)后,寫(xiě)下的幾點(diǎn)發(fā)現(xiàn)。不完全,甚至是錯(cuò)的。不猜測(cè)算法,單從產(chǎn)品機(jī)制上看,“靈犬”也有bug。以下是幾點(diǎn)反饋建議:
1、服務(wù)器不穩(wěn)定,文章鏈接測(cè)試經(jīng)常崩潰。
雖然規(guī)定可以檢測(cè)文字內(nèi)容或鏈接,但文章鏈接經(jīng)常識(shí)別不出來(lái)。3月28日當(dāng)天晚上,“今日頭條”在微信公眾號(hào)回復(fù),因?yàn)橥瑫r(shí)涌入的“訓(xùn)狗師”太多,導(dǎo)致服務(wù)器崩潰,目前已經(jīng)修復(fù)??傻诙?,又掛了。
2、圖片和視頻測(cè)試不準(zhǔn)確。
這一點(diǎn),“靈犬”本身也有提示。以前天“營(yíng)銷(xiāo)新榜樣”的推文《恭喜微商女王景總喜提奧運(yùn)冠軍!"KT表白體"了解一下?!》為例,這是一篇常規(guī)操作,發(fā)了很多品牌借勢(shì)的海報(bào)。然而復(fù)制鏈接進(jìn)去檢測(cè),健康概率只有3%。如果僅檢測(cè)標(biāo)題,能達(dá)到98%。初步猜測(cè),圖片太多、文字太少,干擾了狗的嗅覺(jué)。
3、算法經(jīng)常變,可能在完善,也可能更糟。
還是上述景甜的稿子,3%的健康概率是3月29日檢測(cè)所得。“靈犬”上線當(dāng)天,實(shí)際檢測(cè)結(jié)果僅為1%。時(shí)隔一天,多了兩分。可見(jiàn)“靈犬”算法在不斷調(diào)整,至于更好還是更遭,不好說(shuō)。
4、反饋機(jī)制門(mén)檻太高,對(duì)算法改善意義不大。
如果用戶感覺(jué)檢測(cè)不準(zhǔn),可以在檢測(cè)界面點(diǎn)擊“反饋有獎(jiǎng)”,輸入測(cè)試內(nèi)容、意見(jiàn)建議和聯(lián)系郵箱。今日頭條會(huì)根據(jù)反饋?zhàn)錾?jí)和迭代。不覺(jué)得這種方式門(mén)檻太高了嗎?不如直接設(shè)置類(lèi)似“準(zhǔn)”、“不準(zhǔn)”,或者一個(gè)五星打分機(jī)制,測(cè)試結(jié)束自動(dòng)彈出打分框。
盡管有這樣那樣的不足,“靈犬”的嘗試依然值得鼓勵(lì)。就像微信推出“辟謠助手”一樣,今日頭條的“反低俗助手”也在凈化信息環(huán)境。這樣的狗,可以多來(lái)幾只。來(lái)源:量子程序 王雅文
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 為什么年輕人不愛(ài)換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來(lái)”環(huán)保公益圖書(shū)館落地貴州山區(qū)小學(xué)
- 窺見(jiàn)“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來(lái)
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。