一秒分辨出孿生明星:這個黑產(chǎn)居然用AI來"打碼"

今天中午,宅宅新來的同事“宅二妹”提議來一局“大家來找茬”升級版的游戲。

本著吃完了飯沒事做的誠實本能,我敷衍地答應(yīng)了,畢竟像宅宅的這種火眼金睛十級選手,呵呵,開玩笑呢,來吧,盧瑟!

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

然后,宅二妹丟出了一張圖像,一臉神秘的微笑:

請找出圖中的白百何

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

還好之前白百何出了大新聞,看上去不是特別難。宅宅迅速地找了出來:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

然后,宅二妹讓我進入第二關(guān):

請分辨出這里的楊臣剛、王大治和孫楠

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

你厲害,我服氣。十級選手在這道題面前也陣亡了……

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

宅二妹說,你不要傷心,其實第三關(guān)更難。

什么?還有變態(tài)的第三關(guān)?

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

宅二妹抖抖索索地拿出了一張終極大圖:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

請找出這里的C杯?

這……

我……

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

真是一個悲傷的游戲。

“曬密”和“打碼”是什么鬼?

更悲傷的是,這種奇葩的“大家來找茬”的類似版其實頻頻在一些更奇葩的驗證碼中出現(xiàn)過,比如被全國人民在熱門時間集體遷徙時開懟的12306。

對于“驗證碼”,大家并不陌生。在登錄各網(wǎng)站、平臺、APP時,經(jīng)常見到。常見的“驗證碼”有“字符式”、“字符+點選式”、“滑塊拼圖式”和難度逆天的“12306式”。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲字符式

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲字符+點選式

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲滑塊拼圖式

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲12306式

驗證碼(CAPTCHA),大家都在生活中或多或少地遇到過,但你可能不知道的是,它本質(zhì)上是區(qū)分計算機和人類的一種程序算法,簡單解釋是一個答題的驗證。系統(tǒng)向請求發(fā)起方提問,能正確回答的即是人類,反之則為機器。

不過,允許宅宅先吐個糟,如果是宅二妹給出的那種驗證方式+平常12306的一些詭異驗證,我真的深深懷疑自己是個機器人。

不過,吐槽歸吐槽。

從安全角度看,CAPTCHA 經(jīng)過不斷演化,已成為目前國內(nèi)外各大互聯(lián)網(wǎng)公司用于對抗網(wǎng)絡(luò)黑產(chǎn)惡意行為(如惡意登錄)的驗證碼安全策略,即現(xiàn)在俗稱的驗證碼系統(tǒng)。

簡而言之,驗證碼能幫助區(qū)分訪問者是不是人類,從而有效對抗大面積的機器訪問。

不過,也許你要問,這和黑產(chǎn)有什么關(guān)系?

在網(wǎng)絡(luò)黑產(chǎn)中,不法分子竊取網(wǎng)站數(shù)據(jù)庫后,需要確認帳號對應(yīng)的密碼是否正確,將有價值的數(shù)據(jù)通過驗證的方式篩選出來,這一過程叫“曬密”,即撞庫。

而“曬密”最核心的障礙就是互聯(lián)網(wǎng)公司設(shè)置的驗證碼安全體系。每天面對數(shù)以億計的“曬密”需求,黑產(chǎn)分子不可能人工逐個識別,而是需要提高“曬密”效率,批量識別。

“打碼平臺”這一專業(yè)服務(wù)便應(yīng)運而生。

不要誤會,并不是下面這種手殘的打碼。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

“打碼平臺”通常會與“曬密”軟件作者合作:

1)黑產(chǎn)團伙把盜取的帳號密碼信息導(dǎo)入到“曬密”軟件,“曬密”軟件模擬登錄協(xié)議,向互聯(lián)網(wǎng)公司服務(wù)器發(fā)送登錄請求。

2)服務(wù)器檢測到登錄異常時,會下發(fā)驗證碼,進行安全策略攔截。

3)“曬密”軟件將收到的驗證碼圖片發(fā)送給“打碼平臺”,請求將圖片轉(zhuǎn)化為字符。

4)打碼平臺后臺破解驗證碼,將字符結(jié)果返回“曬密”軟件,完成“曬密”(撞庫)流程。

5)這些“曬密”后得到的用戶信息,則可能被騙子直接用于實施詐騙犯罪。

“快啊答題”背后的產(chǎn)業(yè)鏈

最近,市面上最大打碼平臺“快啊答題”被警方一窩端掉,“快啊答題”打碼平臺所涉及的從撞庫到曬密再到打碼的整個黑色產(chǎn)業(yè)鏈被網(wǎng)絡(luò)安全專家一一解析:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲“撞庫→曬密→打碼”產(chǎn)業(yè)鏈 示例圖

早期的打碼平臺,對驗證碼的識別基本是通過“人工+ OCR 降維識別圖片”完成。但是,互聯(lián)網(wǎng)公司的驗證碼安全策略升級后,包括出現(xiàn)像 12306 這樣識別難度高的驗證碼體系,“人工+OCR”方式的識別效率降低、成本升高,一段時期內(nèi),確實降低了黑產(chǎn)犯罪。

但是,黑產(chǎn)人員并不會因為一條路被堵死,就放棄犯罪,他們又想出了更前沿的手法來應(yīng)對。

目前市面上最大的“快啊答題”打碼平臺就是典型代表,他們運用目前最流行的人工智能 AI 技術(shù)訓練機器,大大提高了識別驗證碼的精準度,也極大提升了犯罪嫌疑人在單位時間內(nèi)識別驗證碼的數(shù)量。

通過“快啊答題”打碼平臺管理后臺的統(tǒng)計信息顯示,其2017年一季度破解驗證碼259億次,總累計破解驗證碼1200 億次。這套 AI 系統(tǒng)識別驗證碼成功率非常高,以下圖紅框標識處為例,當天的整體識別率會輸出成日志文件,通過隨機調(diào)取某日的日志文件,該日整體驗證碼識別率高達 83.4%。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

“快啊答題”打碼平臺基于主流 AI 深度學習 Caffe 框架,使用 vgg16 卷積核神經(jīng)網(wǎng)絡(luò)模型,可以直接輸入原始圖像(避免了對圖像的復(fù)雜前期預(yù)處理),并能通過深度的機器學習來獲得較高的驗證碼識別率。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲分布式 AI 驗證碼識別系統(tǒng)簡易流程介紹

由于不同方式生成的驗證碼風格迥異,且經(jīng)常變換,為了實現(xiàn)精準識別,提高準確度,“快啊答題”收集了大量不同風格的樣本,并開發(fā)了驗證碼接收與分發(fā)模塊,輸入端對接打碼平臺,輸出端根據(jù)驗證碼類型輪詢選擇并推送到相應(yīng)的驗證碼識別模型,驗證碼識別完成,返回驗證碼字符串到打碼平臺,打碼平臺確認是否識別正確,并將結(jié)果反饋至該分布式AI驗證碼識別系統(tǒng)進行進一步優(yōu)化。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲圖為識別平臺自身的管理界面

1、生成方法

打碼平臺犯罪團伙通過以下步驟,迅速低成本地獲得海量驗證碼訓練數(shù)據(jù):

(1)從互聯(lián)網(wǎng)公開渠道獲取字體樣本,輸出數(shù)字、字母、字母+數(shù)字、中文等不同類型驗證碼識別模型,獲得的公開字體庫,并且搜集背景圖片,如壁紙/風景類圖片。

(2)通過工具將不同字體的驗證碼進行加工處理(加干擾、變形等)后,寫入到背景圖片中,生成帶標定的訓練樣本。

由于目標問題是不定長度的字符序列識別,生成的訓練樣本的字符個數(shù)也是不定長度的,可以是1-6個任意字符,最多支持6個標簽的識別。黑產(chǎn)人員用一系列的驗證碼生成工具,來生成不同風格的驗證碼圖片,如下圖:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

▲作者通過工具生成的訓練樣本示例

(3)打碼平臺犯罪團伙基于收集到的超過10000個字體庫,通過網(wǎng)絡(luò)采集和字庫背景生成訓練樣本,針對驗證碼識別業(yè)務(wù),積累超過 5000 萬的樣本庫,覆蓋常見驗證碼模型。由此訓練得到的模型具有非常強的適用性,即便新型的驗證碼變種,也可達到較高識別率。

2、多標簽訓練

“快啊答題”打碼平臺的AI系統(tǒng),能將一張驗證碼圖片作為一個整體,將單字識別轉(zhuǎn)換成單圖多標簽、端到端的識別出驗證碼中的所有字符。

針對網(wǎng)絡(luò)上主流驗證碼圖片一般不超過 6 個字符的特點,該AI系統(tǒng)設(shè)計6個標簽的分類,對少于 6 個字符的驗證碼圖片,未含字符的標簽會判定為負樣本不予輸出。因此,最終的輸出結(jié)果只包含給定字符的有效標簽。

也就是,原本的OCR識別只能簡單識別圖形上的文字,而在文字變化后識別率就大大降低。而使用Caffe框架,就可以對圖形內(nèi)的局部特征進行分類提取。

“快啊答題”打碼平臺基于海量訓練樣本,建立了多標簽分類網(wǎng)絡(luò)來訓練驗證碼的識別網(wǎng)絡(luò)。漢字的網(wǎng)絡(luò)訓練周期為1個月左右,而英文+數(shù)字的網(wǎng)絡(luò)訓練周期則只需要1個星期。

另外,“快啊答題”打碼平臺還會通過搜集反饋回來的失敗樣本,以及人工打碼的標定數(shù)據(jù),來實時訓練和更新識別網(wǎng)絡(luò),不斷迭代訓練進行優(yōu)化,進一步提高神經(jīng)網(wǎng)絡(luò)模型的識別能力。

然后,他們就被抓了

在以往的對抗黑產(chǎn)過程中,由于犯罪行為認定、法律適用等問題,即使對下游從事詐騙的團伙開展打擊,但在針對“打碼平臺”這一犯罪上游環(huán)節(jié)上,能真正認定為共同犯罪,形成的實際判例非常少,無法實現(xiàn)全鏈條打擊。

下游團伙借助“打碼平臺”死灰復(fù)燃,也是多類網(wǎng)絡(luò)黑灰產(chǎn)屢禁不止的原因之一。在市場上,“快啊答題”打碼平臺通過對接曬密軟件,以15元/10000驗證碼的價格,收取下游使用曬密軟件的黑產(chǎn)犯罪團伙費用,而后再按比例進行分成。

像“快啊答題”這類的打碼平臺,不僅破壞了互聯(lián)網(wǎng)公司的驗證碼安全體系,也直接或間接的為更多網(wǎng)絡(luò)黑產(chǎn)提供了幫助。

最后,“快啊答題”平臺負責人及核心人員被公安機關(guān)以提供侵入、非法控制計算機信息系統(tǒng)程序工具罪批準逮捕。雷鋒網(wǎng)注:騰訊守護者計劃安全團隊協(xié)助警方打掉市面上最大打碼平臺“快啊答題”,挖掘出一條從撞庫盜號、破解驗證碼到販賣公民信息、實施網(wǎng)絡(luò)詐騙的全鏈條黑產(chǎn)。該資料由騰訊守護者計劃安全團隊提供給雷鋒網(wǎng),雷鋒網(wǎng)編輯并補充了部分資料。

今天中午,宅宅新來的同事“宅二妹”提議來一局“大家來找茬”升級版的游戲。

本著吃完了飯沒事做的誠實本能,我敷衍地答應(yīng)了,畢竟像宅宅的這種火眼金睛十級選手,呵呵,開玩笑呢,來吧,盧瑟!

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

然后,宅二妹丟出了一張圖像,一臉神秘的微笑:

請找出圖中的白百何

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

還好之前白百何出了大新聞,看上去不是特別難。宅宅迅速地找了出來:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產(chǎn)居然用AI 來

極客網(wǎng)企業(yè)會員

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-07-14
一秒分辨出孿生明星:這個黑產(chǎn)居然用AI來"打碼"
今天中午,宅宅新來的同事“宅二妹”提議來一局“大家來找茬”升級版的游戲。本著吃完了飯沒事做的誠實本能,我敷衍地答應(yīng)了,畢竟像宅宅的這種火眼金睛十級選手,呵呵,開

長按掃碼 閱讀全文