作者:sexycoder
最近入門了一下scrapy,找了一個(gè)網(wǎng)站練手,半天的時(shí)間爬取了簡(jiǎn)書20w用戶數(shù)據(jù)和40w的follow關(guān)系。這些存在mysql里面的閑著也是閑著,想做一些有意思的數(shù)據(jù)統(tǒng)計(jì)和社交關(guān)系分析。
最受歡迎的作者
我統(tǒng)計(jì)了簡(jiǎn)書上面粉絲數(shù)最多和被喜歡次數(shù)最多的用戶,簡(jiǎn)書上最受歡迎的作者,如下圖所示:
我把最受歡迎的作者的放到一張圖上面,橫坐標(biāo)表示粉絲數(shù),縱坐標(biāo)表示被喜歡的次數(shù),如下圖所示。可以很明顯的看出來(lái),這些最受歡迎的作者里面,大多數(shù)的作者還是聚集在圖的左下角,but,還有幾個(gè)超級(jí)受歡迎的,他們分別分布在圖的右側(cè)和上側(cè)。他們分別是,劉淼,彭小六,簡(jiǎn)黛玉。很可惜,截圖上不能附上作者的名字。
這是同濟(jì)最受歡迎的作者的原始數(shù)據(jù),我也貼在這里,如下圖所示,數(shù)據(jù)爬取的時(shí)間是 2017年10月20日左右。下圖的這四列分別是,uid,昵稱,粉絲數(shù),被喜歡數(shù)。
最能寫的作者
統(tǒng)計(jì)了發(fā)表文章數(shù)最多的top20作者,如下圖所示:
排名第一的這位孤鳥差魚 ( http://www.jianshu.com/u/a4bb86f4ba07),寫了1799篇文章??!我的天!但是這里有一個(gè)bug,這位作者雖然能寫,但是每篇文章被喜歡的次數(shù)很低,基本上是個(gè)位數(shù)??赡苁且晃还陋?dú)but高產(chǎn)的作者。
平均每個(gè)字被喜歡次數(shù)坐高的作者
從上面的一個(gè)統(tǒng)計(jì)里面吸取到的一個(gè)靈感,雖然上面的作者很能寫,但是被喜歡的次數(shù)卻很低,這一次統(tǒng)計(jì)的是平均每個(gè)字被喜歡次數(shù)坐高的作者。如下圖所示:
這個(gè)結(jié)果就更加意外了,排在前面的這幾個(gè)大哥,就寫了一個(gè)字,but 收獲了48個(gè)喜歡?。。?!每個(gè)字被喜歡的比例是1:48!??!于是,很好奇這位大哥,這一個(gè)字寫得是什么,跑去圍觀。。
用戶的粉絲數(shù)分布的比例
分析了一下每個(gè)用戶的粉絲數(shù),絕大多數(shù)用戶的粉絲數(shù)只有10人以下,而粉絲數(shù)分布在[10,20]之間的用戶明顯少了很多,簡(jiǎn)直是銳減?。?!這也基本上符合一個(gè)社交網(wǎng)絡(luò)的結(jié)果,絕大多數(shù)的人都是圍觀者,都是內(nèi)容或者是消息的的接收者。擁有大量粉絲的人,往往很少,這一部分的人是這個(gè)社交網(wǎng)絡(luò)的核心,是信息或者是消息的創(chuàng)造者,擁有更加強(qiáng)大的話語(yǔ)權(quán)。

- 第九屆華為ICT大賽中國(guó)總決賽收官 84支隊(duì)伍晉級(jí)全球總決賽
- 聯(lián)想集團(tuán)黃建恒:SSG業(yè)務(wù)已連續(xù)15個(gè)季度雙位數(shù)增長(zhǎng)
- 聯(lián)想集團(tuán)ISG總裁:已將多款暢銷服務(wù)器進(jìn)行升級(jí)
- 全球超大規(guī)模數(shù)據(jù)中心數(shù)量五年翻倍,2024年新增137個(gè)!
- 華為楊超斌:行業(yè)智能化是開啟產(chǎn)業(yè)新紀(jì)元的磅礴引擎
- 華為郭振興:2025年行業(yè)數(shù)智化將呈現(xiàn)五大特征
- 加速行業(yè)智能化!華為攜手伙伴共筑解決方案競(jìng)爭(zhēng)力,共贏時(shí)代新機(jī)遇
- 華為李鵬:AI正深刻改變每一個(gè)行業(yè),攜手伙伴共贏全面智能化時(shí)代
- 華為汪濤:全面推進(jìn)“全面智能化”戰(zhàn)略,發(fā)展伙伴“同路人”共贏智能未來(lái)
- 因聚而生,眾智有為:華為中國(guó)合作伙伴大會(huì)2025圓滿舉行
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。