基于貝葉斯生存分析的《冰與火之歌》人物死亡率分析

《冰與火之歌》書(shū)迷遍布全球。該小說(shuō)憑借其豐富的人物設(shè)置受到廣大書(shū)迷青睞。然而,在馬丁( Martin )筆下,無(wú)論好人、壞人,主角、配角都難逃命運(yùn)的捉弄。除不計(jì)其數(shù)的無(wú)名小卒外,馬丁的世界里有916位有名字的角色,其中三分之一都已以各種方式結(jié)束了自己在小說(shuō)中的生命。本文中,我們將進(jìn)一步探究小說(shuō)人物的死亡模式,建立貝葉斯生存模型來(lái)預(yù)測(cè)各角色的死亡概率。

本文數(shù)據(jù)來(lái)自冰與火之歌維基( A Wiki of Ice and Fire )。依據(jù)該數(shù)據(jù)我們創(chuàng)建了截至目前書(shū)中出現(xiàn)的916名角色的數(shù)據(jù)集。用人物首次出現(xiàn)的章節(jié),性別,是否為貴族,所屬勢(shì)力,死亡的章節(jié)(若已故)作為解釋變量來(lái)預(yù)測(cè)這些角色在未來(lái)兩本書(shū)中的存活情況。

方法論

采用Weibull 分布外推在7本書(shū)中的各個(gè)角色的生存概率。Weibull分布提供了一種建立危險(xiǎn)函數(shù)( hazard function )模型的方法。而危險(xiǎn)函數(shù)主要測(cè)量人物在特定“書(shū)齡”上的死亡概率。Weibull分布主要依賴與兩個(gè)參數(shù),k和lambda,這兩個(gè)參數(shù)決定了Weibull分布的形狀。

在參數(shù)估計(jì)之前我們選取均勻分布作為先驗(yàn)概率。對(duì)于尚存角色,分析k和lambda如何描述人物的存活狀況;對(duì)于已故人物,分析參數(shù)如何預(yù)測(cè)人物死亡時(shí)間。

對(duì)守夜人( Night’s Watch ),生存概率的后驗(yàn)分布如圖1。

圖1:lambda的分布比較緊密(在0.27附近),K的分布比較寬松。

接下來(lái),本文通過(guò)生存曲線分析人物的生存情況。為與生存曲線相聯(lián)系,計(jì)算k和lambda的均值以及90%的置信區(qū)間。進(jìn)一步,繪制原始數(shù)據(jù)和基于后驗(yàn)均值的生存曲線以及置信區(qū)間。

個(gè)人分析:雪諾( Jon Snow )

采用貝葉斯生存分析方法可以預(yù)測(cè)個(gè)性化人物(例如雪諾)的生存情況。在卷五:魔龍的狂舞( A Dancewith Dragons )結(jié)尾,守夜人生存的置信區(qū)間為0.36到0.56。Jon能活下來(lái)的估計(jì)并不樂(lè)觀。即使Jon可以順利活過(guò)第5本書(shū),他在接下來(lái)的兩本書(shū)中存活的概率將降到0.3到0.51。

圖2:置信區(qū)間緊緊圍繞在真實(shí)數(shù)據(jù)周圍,均值為合理預(yù)測(cè)。

值得注意的的是Jon并非守夜人的普通一員。他受過(guò)良好的教育,擁有精良的武器和戰(zhàn)斗技能。接下來(lái),將樣本選為守夜人中家族地位顯赫,教育良好的貴族。守夜人中只有11人為貴族。所以置信區(qū)間(如圖3所示)非常分散,最優(yōu)近似( Best Estimate )顯示貴族背景并不能提高守夜人的生存率。

圖3:當(dāng)只有貴族角色時(shí),生存曲線的置信區(qū)間顯著加寬,概率置信區(qū)間下限非常接近0。

家族因素

接下來(lái),我們分家族研究人物的生存情況。這里包括9個(gè)主要家族,守夜人,野人( the Wildlings ),和其他( a “None” category,指無(wú)法歸入某類勢(shì)力的人物)。

圖4 :Arryn (藍(lán)),Lannister (金),None (綠)及Stark (灰)的生存概率。

圖5:Tyrell (綠),Tully (藍(lán)),Baratheon (橘)及Night’sWatch (灰)生存概率。

圖6:Martell (橘),Targaryen (栗色),Greyjoy (黃)及Wildling (紫色)生存概率。

圖4、5、6的置信區(qū)間表明艾琳家族( Houses Arryn )、提利爾家族( Houses Tyrell )以及馬泰爾家族( Houses Martell )有較高的生存率。主要原因是其遠(yuǎn)離書(shū)中主要沖突,不過(guò)這也意味著這些家族信息較少,我們只有至多5個(gè)死亡成員樣本,所以生存曲線并沒(méi)有包含足夠的樣本點(diǎn)。信息量的稀疏體現(xiàn)為較寬的置信區(qū)間。相反,北境諸侯( in the north )、史塔克家族( the Starks )、守夜人和野人這些家族(或勢(shì)力)有較低的生存曲線和較窄的置信區(qū)間。他們?cè)谇楣?jié)主線中占據(jù)主要篇幅,許多重要人物都是他們的一員。

男女(性別因素)

書(shū)中塑造了豐富的女性角色,但依舊以男性人物為主(男女比例為769:157)。女性生存概率的置信區(qū)間較寬,但是其生存狀態(tài)顯著好于男性。如圖7。

圖7:維斯特洛(Westeros)中女性存活概率高于男性。

地位(階層)

小說(shuō)中貴族和貧民人數(shù)差距很大,其生存曲線也展現(xiàn)出不同態(tài)勢(shì)。如圖8所示,平民傾向于在出場(chǎng)階段迅速死亡,若能安全度過(guò)“介紹期”則將存活較長(zhǎng)時(shí)間,甚至生存概率會(huì)高于部分貴族。

圖8:貴族在介紹期存活的概率較大,但生存概率的下降速度要大于平民。

個(gè)性角色分析

利用本文提及的方法,可以結(jié)合性別,家族,地位等復(fù)合因素提供針對(duì)個(gè)體角色的粗糙預(yù)測(cè)模型。在書(shū)中給一個(gè)非常受歡迎的角色是艾莉亞( Arya ),許多讀者關(guān)心她在書(shū)中的命運(yùn)。史塔克家族的貴族女性中還包括一些值得注意的角色如珊莎( Sansa )和布雷妮( Brienne,宣誓效忠于史塔克家族,雖然她后來(lái)才被介紹)。另外,皇后瑟曦( Cersei )和可憐的彌賽拉( Myrcella )也十分令人著迷。為了得到生存曲線的準(zhǔn)確區(qū)間估計(jì),我們將貴族女子和平民女子的數(shù)據(jù)加以綜合。

圖9:各組置信區(qū)間都比較寬松。與史塔克家族相比,蘭尼斯特( Lannister )家族的貴族女性死亡可能性更高。雖然信息不明確,但艾莉亞會(huì)比瑟曦活得久一些

此外我們還關(guān)心兩個(gè)小角色,野人公主瓦邇( Val )和神秘的魁蜥( Quaithe )。她們并不是故事一開(kāi)始就出現(xiàn),所以分析相對(duì)比較復(fù)雜。瓦邇?cè)谡鹿?jié)2.1中被引入,她在整個(gè)時(shí)序中存活的概率在0.1到0.53之間??嵩谡鹿?jié)1.2中首次出現(xiàn),她的生存概率為0.58到0.85,明顯高于瓦邇。

圖10:代表一些小角色的生存曲線,魁蜥和瓦邇有不同的生存曲線。

有足夠的數(shù)據(jù)能夠區(qū)分大多數(shù)男性角色的家族、性別和地位,以繪制他們的生存曲線。圖11顯示,蘭尼斯特兄弟的生存曲線居中,在第七本書(shū)的生存概率為0.35到0.79。達(dá)里奧( Daario )生存曲線的置信區(qū)間較寬,但考慮到他是在章節(jié)2.5中才出現(xiàn),所以存活概率較大。曼斯( Mance )的存活概率最不容樂(lè)觀。曼斯在章節(jié)2.2故事中登場(chǎng),他的存活概率為0.19到0.56。

添加媒體

圖11:不同地位、聯(lián)盟的男性角色的生存曲線。

有一些角色,我們期望看到他們一命嗚呼,但是圖12顯示他們還要活很久。希恩( Theon)似乎會(huì)痛苦的活著直到到結(jié)局。瓦爾德·弗雷( Walder Frey )在章節(jié)0.4中初次登場(chǎng),存活的可能性為0.44到0.72之間。目前為止,霍斯特·徒利( Hoster Tully )可能是唯一一個(gè)死于衰老的人,所以弗雷將有可能活到結(jié)局

圖12:不同地位、聯(lián)盟的男性的生存曲線。

總結(jié)

孰生孰死在故事中充滿變數(shù),但從現(xiàn)有數(shù)據(jù)中,我們可以觀察到不同組別下人物生死的模式。對(duì)于一些特定角色,尤其是男性角色,我們可以對(duì)他們?cè)谖磥?lái)的故事中的遭遇做簡(jiǎn)單預(yù)測(cè)。但對(duì)于數(shù)據(jù)較少的、非主要家族的女性來(lái)說(shuō),預(yù)測(cè)的準(zhǔn)確性則有待商榷。

本文內(nèi)容翻譯并編輯自 Bayesian Survival Analysis in A Song of Ice and Fire,by Erin Pierce and Ben Kahle. 原文鏈接:http://www.reddit.com/r/statistics/comments/31oz8n/bayesian_survival_analysis_in_a_song_of_ice_and/.compact翻譯:新妍 校對(duì):Jude via:數(shù)據(jù)工匠

End.

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2015-06-23
基于貝葉斯生存分析的《冰與火之歌》人物死亡率分析
《冰與火之歌》書(shū)迷遍布全球。該小說(shuō)憑借其豐富的人物設(shè)置受到廣大書(shū)迷青睞。然而,在馬丁( Martin )筆下,無(wú)論好人、壞人,主角、配角都難逃命運(yùn)的捉弄。除不計(jì)其數(shù)的無(wú)名小卒外,馬丁的世界里有916位

長(zhǎng)按掃碼 閱讀全文