亚洲色无码一二三区在线,成人色综合综合网站

大數(shù)據(jù)

作者：chenjiandongx

B 站我想大家都熟悉吧，其實 B 站的爬蟲網(wǎng)上一搜一大堆。不過?紙上得來終覺淺，絕知此事要躬行，我碼故我在。最終爬取到數(shù)據(jù)總量為?760萬?條。

準備工作

首先打開 B 站，隨便在首頁找一個視頻點擊進去。常規(guī)操作，打開開發(fā)者工具。這次是目標是通過爬取 B 站提供的 api 來獲取視頻信息，不去解析網(wǎng)頁，解析網(wǎng)頁的速度太慢了而且容易被封 ip。

勾選 JS 選項，F(xiàn)5 刷新

大數(shù)據(jù)

找到了 api 的地址

大數(shù)據(jù)

復(fù)制下來，去除沒必要的內(nèi)容，得到?https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633?，用瀏覽器打開，會得到如下的 json 數(shù)據(jù)

大數(shù)據(jù)

動手寫碼

好了，到這里代碼就可以碼起來了，通過 request 不斷的迭代獲取數(shù)據(jù)，為了讓爬蟲更高效，可以利用多線程。

核心代碼

result = []req = requests.get(url, headers=headers, timeout=6).json()time.sleep(0.6)     # 延遲，避免太快 ip 被封try:    data = req['data']    video = Video(        data['aid'],        # 視頻編號        data['view'],       # 播放量        data['danmaku'],    # 彈幕數(shù)        data['reply'],      # 評論數(shù)        data['favorite'],   # 收藏數(shù)        data['coin'],       # 硬幣數(shù)        data['share']       # 分享數(shù)    )    with lock:        result.append(video)except:    pass

迭代爬取

urls = ["http://api.bilibili.com/archive_stat/stat?aid={}".format(i)     for i in range(10000)] with futures.ThreadPoolExecutor(32) as executor:    # 多線程     executor.map(run, urls)

不要一次性爬取全部鏈接，我是利用兩個進程，這樣就是多進程+多線程了。一個進程一次大概爬取 50w 條數(shù)據(jù)。100w 條數(shù)據(jù)的話大概一個多小時吧。分多次爬取，分別將數(shù)據(jù)保存為不同的文件名，最后再匯總。

運行的效果大概是這樣的，數(shù)字是已經(jīng)已經(jīng)爬取了多少條鏈接，其實完全可以在一天或者兩天內(nèi)就把全站信息爬完的。

大數(shù)據(jù)

至于爬取后要怎么處理就看自己愛好了，我是先保存為 csv 文件，然后再匯總插入到數(shù)據(jù)庫。

匯總的 csv 文件

大數(shù)據(jù)

數(shù)據(jù)庫表

大數(shù)據(jù)

由于這些內(nèi)容是我在幾個月前爬取的，所以數(shù)據(jù)其實有些滯后了。

數(shù)據(jù)總量

大數(shù)據(jù)

查詢播放量前十的視頻

大數(shù)據(jù)

查詢回復(fù)量前十的視頻

大數(shù)據(jù)

各種花樣查詢?nèi)尉x擇??！視頻的鏈接為?https://www.bilibili.com/video/av?+ v_aid

免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

如何快速爬取B站全站視頻信息

下一篇