一秒分辨出孿生明星:這個黑產居然用AI來"打碼"

今天中午,宅宅新來的同事“宅二妹”提議來一局“大家來找茬”升級版的游戲。

本著吃完了飯沒事做的誠實本能,我敷衍地答應了,畢竟像宅宅的這種火眼金睛十級選手,呵呵,開玩笑呢,來吧,盧瑟!

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

然后,宅二妹丟出了一張圖像,一臉神秘的微笑:

請找出圖中的白百何

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

還好之前白百何出了大新聞,看上去不是特別難。宅宅迅速地找了出來:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

然后,宅二妹讓我進入第二關:

請分辨出這里的楊臣剛、王大治和孫楠

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

你厲害,我服氣。十級選手在這道題面前也陣亡了……

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

宅二妹說,你不要傷心,其實第三關更難。

什么?還有變態(tài)的第三關?

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

宅二妹抖抖索索地拿出了一張終極大圖:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

請找出這里的C杯?

這……

我……

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

真是一個悲傷的游戲。

“曬密”和“打碼”是什么鬼?

更悲傷的是,這種奇葩的“大家來找茬”的類似版其實頻頻在一些更奇葩的驗證碼中出現過,比如被全國人民在熱門時間集體遷徙時開懟的12306。

對于“驗證碼”,大家并不陌生。在登錄各網站、平臺、APP時,經常見到。常見的“驗證碼”有“字符式”、“字符+點選式”、“滑塊拼圖式”和難度逆天的“12306式”。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲字符式

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲字符+點選式

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲滑塊拼圖式

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲12306式

驗證碼(CAPTCHA),大家都在生活中或多或少地遇到過,但你可能不知道的是,它本質上是區(qū)分計算機和人類的一種程序算法,簡單解釋是一個答題的驗證。系統(tǒng)向請求發(fā)起方提問,能正確回答的即是人類,反之則為機器。

不過,允許宅宅先吐個糟,如果是宅二妹給出的那種驗證方式+平常12306的一些詭異驗證,我真的深深懷疑自己是個機器人。

不過,吐槽歸吐槽。

從安全角度看,CAPTCHA 經過不斷演化,已成為目前國內外各大互聯網公司用于對抗網絡黑產惡意行為(如惡意登錄)的驗證碼安全策略,即現在俗稱的驗證碼系統(tǒng)。

簡而言之,驗證碼能幫助區(qū)分訪問者是不是人類,從而有效對抗大面積的機器訪問。

不過,也許你要問,這和黑產有什么關系?

在網絡黑產中,不法分子竊取網站數據庫后,需要確認帳號對應的密碼是否正確,將有價值的數據通過驗證的方式篩選出來,這一過程叫“曬密”,即撞庫。

而“曬密”最核心的障礙就是互聯網公司設置的驗證碼安全體系。每天面對數以億計的“曬密”需求,黑產分子不可能人工逐個識別,而是需要提高“曬密”效率,批量識別。

“打碼平臺”這一專業(yè)服務便應運而生。

不要誤會,并不是下面這種手殘的打碼。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

“打碼平臺”通常會與“曬密”軟件作者合作:

1)黑產團伙把盜取的帳號密碼信息導入到“曬密”軟件,“曬密”軟件模擬登錄協(xié)議,向互聯網公司服務器發(fā)送登錄請求。

2)服務器檢測到登錄異常時,會下發(fā)驗證碼,進行安全策略攔截。

3)“曬密”軟件將收到的驗證碼圖片發(fā)送給“打碼平臺”,請求將圖片轉化為字符。

4)打碼平臺后臺破解驗證碼,將字符結果返回“曬密”軟件,完成“曬密”(撞庫)流程。

5)這些“曬密”后得到的用戶信息,則可能被騙子直接用于實施詐騙犯罪。

“快啊答題”背后的產業(yè)鏈

最近,市面上最大打碼平臺“快啊答題”被警方一窩端掉,“快啊答題”打碼平臺所涉及的從撞庫到曬密再到打碼的整個黑色產業(yè)鏈被網絡安全專家一一解析:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲“撞庫→曬密→打碼”產業(yè)鏈 示例圖

早期的打碼平臺,對驗證碼的識別基本是通過“人工+ OCR 降維識別圖片”完成。但是,互聯網公司的驗證碼安全策略升級后,包括出現像 12306 這樣識別難度高的驗證碼體系,“人工+OCR”方式的識別效率降低、成本升高,一段時期內,確實降低了黑產犯罪。

但是,黑產人員并不會因為一條路被堵死,就放棄犯罪,他們又想出了更前沿的手法來應對。

目前市面上最大的“快啊答題”打碼平臺就是典型代表,他們運用目前最流行的人工智能 AI 技術訓練機器,大大提高了識別驗證碼的精準度,也極大提升了犯罪嫌疑人在單位時間內識別驗證碼的數量。

通過“快啊答題”打碼平臺管理后臺的統(tǒng)計信息顯示,其2017年一季度破解驗證碼259億次,總累計破解驗證碼1200 億次。這套 AI 系統(tǒng)識別驗證碼成功率非常高,以下圖紅框標識處為例,當天的整體識別率會輸出成日志文件,通過隨機調取某日的日志文件,該日整體驗證碼識別率高達 83.4%。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

“快啊答題”打碼平臺基于主流 AI 深度學習 Caffe 框架,使用 vgg16 卷積核神經網絡模型,可以直接輸入原始圖像(避免了對圖像的復雜前期預處理),并能通過深度的機器學習來獲得較高的驗證碼識別率。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲分布式 AI 驗證碼識別系統(tǒng)簡易流程介紹

由于不同方式生成的驗證碼風格迥異,且經常變換,為了實現精準識別,提高準確度,“快啊答題”收集了大量不同風格的樣本,并開發(fā)了驗證碼接收與分發(fā)模塊,輸入端對接打碼平臺,輸出端根據驗證碼類型輪詢選擇并推送到相應的驗證碼識別模型,驗證碼識別完成,返回驗證碼字符串到打碼平臺,打碼平臺確認是否識別正確,并將結果反饋至該分布式AI驗證碼識別系統(tǒng)進行進一步優(yōu)化。

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲圖為識別平臺自身的管理界面

1、生成方法

打碼平臺犯罪團伙通過以下步驟,迅速低成本地獲得海量驗證碼訓練數據:

(1)從互聯網公開渠道獲取字體樣本,輸出數字、字母、字母+數字、中文等不同類型驗證碼識別模型,獲得的公開字體庫,并且搜集背景圖片,如壁紙/風景類圖片。

(2)通過工具將不同字體的驗證碼進行加工處理(加干擾、變形等)后,寫入到背景圖片中,生成帶標定的訓練樣本。

由于目標問題是不定長度的字符序列識別,生成的訓練樣本的字符個數也是不定長度的,可以是1-6個任意字符,最多支持6個標簽的識別。黑產人員用一系列的驗證碼生成工具,來生成不同風格的驗證碼圖片,如下圖:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

▲作者通過工具生成的訓練樣本示例

(3)打碼平臺犯罪團伙基于收集到的超過10000個字體庫,通過網絡采集和字庫背景生成訓練樣本,針對驗證碼識別業(yè)務,積累超過 5000 萬的樣本庫,覆蓋常見驗證碼模型。由此訓練得到的模型具有非常強的適用性,即便新型的驗證碼變種,也可達到較高識別率。

2、多標簽訓練

“快啊答題”打碼平臺的AI系統(tǒng),能將一張驗證碼圖片作為一個整體,將單字識別轉換成單圖多標簽、端到端的識別出驗證碼中的所有字符。

針對網絡上主流驗證碼圖片一般不超過 6 個字符的特點,該AI系統(tǒng)設計6個標簽的分類,對少于 6 個字符的驗證碼圖片,未含字符的標簽會判定為負樣本不予輸出。因此,最終的輸出結果只包含給定字符的有效標簽。

也就是,原本的OCR識別只能簡單識別圖形上的文字,而在文字變化后識別率就大大降低。而使用Caffe框架,就可以對圖形內的局部特征進行分類提取。

“快啊答題”打碼平臺基于海量訓練樣本,建立了多標簽分類網絡來訓練驗證碼的識別網絡。漢字的網絡訓練周期為1個月左右,而英文+數字的網絡訓練周期則只需要1個星期。

另外,“快啊答題”打碼平臺還會通過搜集反饋回來的失敗樣本,以及人工打碼的標定數據,來實時訓練和更新識別網絡,不斷迭代訓練進行優(yōu)化,進一步提高神經網絡模型的識別能力。

然后,他們就被抓了

在以往的對抗黑產過程中,由于犯罪行為認定、法律適用等問題,即使對下游從事詐騙的團伙開展打擊,但在針對“打碼平臺”這一犯罪上游環(huán)節(jié)上,能真正認定為共同犯罪,形成的實際判例非常少,無法實現全鏈條打擊。

下游團伙借助“打碼平臺”死灰復燃,也是多類網絡黑灰產屢禁不止的原因之一。在市場上,“快啊答題”打碼平臺通過對接曬密軟件,以15元/10000驗證碼的價格,收取下游使用曬密軟件的黑產犯罪團伙費用,而后再按比例進行分成。

像“快啊答題”這類的打碼平臺,不僅破壞了互聯網公司的驗證碼安全體系,也直接或間接的為更多網絡黑產提供了幫助。

最后,“快啊答題”平臺負責人及核心人員被公安機關以提供侵入、非法控制計算機信息系統(tǒng)程序工具罪批準逮捕。雷鋒網注:騰訊守護者計劃安全團隊協(xié)助警方打掉市面上最大打碼平臺“快啊答題”,挖掘出一條從撞庫盜號、破解驗證碼到販賣公民信息、實施網絡詐騙的全鏈條黑產。該資料由騰訊守護者計劃安全團隊提供給雷鋒網,雷鋒網編輯并補充了部分資料。

今天中午,宅宅新來的同事“宅二妹”提議來一局“大家來找茬”升級版的游戲。

本著吃完了飯沒事做的誠實本能,我敷衍地答應了,畢竟像宅宅的這種火眼金睛十級選手,呵呵,開玩笑呢,來吧,盧瑟!

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

然后,宅二妹丟出了一張圖像,一臉神秘的微笑:

請找出圖中的白百何

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

還好之前白百何出了大新聞,看上去不是特別難。宅宅迅速地找了出來:

一秒分辨出楊臣剛、王大治和孫楠,這個黑產居然用AI 來

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2017-07-14
一秒分辨出孿生明星:這個黑產居然用AI來"打碼"
今天中午,宅宅新來的同事“宅二妹”提議來一局“大家來找茬”升級版的游戲。本著吃完了飯沒事做的誠實本能,我敷衍地答應了,畢竟像宅宅的這種火眼金睛十級選手,呵呵,開

長按掃碼 閱讀全文