以吸煙和精神壓力為例 因果與相關(guān)之爭

因果關(guān)系與相關(guān)關(guān)系的異同

因果關(guān)系和相關(guān)關(guān)系在分析過程中應(yīng)用廣泛。 然而,一部分人在不了解兩種方法的支撐邏輯時(shí)往往將兩種關(guān)系等同看待。 顯然,人們被困于因果和相關(guān)的內(nèi)在聯(lián)系而不能正確的使用它們。 雖然在英文發(fā)音上兩者比較近似,但其適用分析的現(xiàn)象卻大有不同,它們基本的含義也有很大區(qū)別。

為了理清楚因果與相關(guān)關(guān)系的區(qū)別,我們下面進(jìn)行一些小小的測驗(yàn)。分析以下例子中的現(xiàn)象, 然后判斷在兩個事務(wù)(X 和 Y)之間是否存在必然因果關(guān)系。答案在測試后公布。

例1: X:學(xué)生受教育的等級 Y:畢業(yè)后的薪水

前提:學(xué)校B學(xué)生畢業(yè)后拿到的平均工資更高,接受學(xué)校B的教育是導(dǎo)致工作較好的原因嗎?

例 2:X: 吸煙 Y:精神壓力水平

前提: 吸煙的人精神壓力水平較大,那么吸煙會產(chǎn)生壓力嗎?

例3:X:有孩子 Y:成熟水平

前提:有孩子的人更加成熟,有孩子是成熟的原因嗎?

例4:X:海拔 Y: 高度

前提:海拔越高的地方我們感覺越冷。這是不是意味著海拔是導(dǎo)致溫度低的原因?

我希望上面的例子已經(jīng)激發(fā)了你閱讀本文的熱情。 雖然,因果與相關(guān)的區(qū)別是一個老掉牙的話題,但是人們依舊不能很好的掌控這些術(shù)語。 本文將試圖通過最簡單的方式解釋因果和相關(guān)關(guān)系。

在這篇文章中,我將通過了解是否只有相關(guān)關(guān)系或者存在必然因果關(guān)系來區(qū)分因果關(guān)系和相關(guān)關(guān)系的區(qū)別。 考慮到我們往往采用黑箱操作進(jìn)行分析,所以想讓分析基礎(chǔ)更牢靠的話,了解這些概念是非常必要的。 一些技術(shù)并沒有展現(xiàn)在分析中,但它們的應(yīng)用卻貫穿整個工業(yè)。

測試答案:

例1:必然因果關(guān)系不存在。例如,如果只有天賦比較高的人才會有機(jī)會接受B學(xué)校的教育,而天賦比較高的人更容易獲得高的薪資水平。因此這些高智商的小伙伴即使不接受B學(xué)校的教育也能得到很高的薪水。所以薪水高有其他備選因素。

例2:必然因果關(guān)系不存在。我們可以基于逆因果關(guān)系來否定該命題。例如,壓力大導(dǎo)致一個人吸煙。

例3:必然因果關(guān)系不存在。同樣我們可以采用逆因果關(guān)系來否定該命題。例如:成熟的人才準(zhǔn)備要孩子。我們也可以將成熟與否歸結(jié)于年齡。年齡越大,越傾向于要孩子,也越來越成熟。

例4:必然因果關(guān)系不存在。再用逆因果關(guān)系來分析該命題有些不可能??赏ㄟ^相互獨(dú)立關(guān)系和備擇原因分析來拒絕該命題。

那么什么是建立必然因果關(guān)系的關(guān)鍵呢?

備擇原因:如果備擇原因(Z)既影響X又影響Y(即Z=>X &Z=>Y同時(shí)成立),則拒絕X是導(dǎo)致Y的必然原因。

逆因果關(guān)系:如果不是X影響Y,而是Y影響X,則不能推出X是導(dǎo)致Y的必然原因。

相互獨(dú)立:一些時(shí)候,X與Y之間可能只是單純的相關(guān)而沒有任何因果聯(lián)系。

怎樣提取因果關(guān)系帶來的影響呢?

在很多領(lǐng)域(例如制藥),研究因果效應(yīng)非常中重要。在闡述方法前,我們先了解一些定義:

1)隨機(jī)試驗(yàn)數(shù)據(jù):一個試驗(yàn)定義為給不同的條件分配觀測單元。條件的不同往往是對觀測單元的控制手段不同。通過試驗(yàn)獲得的數(shù)據(jù)為隨機(jī)試驗(yàn)數(shù)據(jù)。

2)觀測數(shù)據(jù): 很多時(shí)候進(jìn)行隨機(jī)試驗(yàn)是一種奢侈,我們只能獲得已有的數(shù)據(jù)資源。這些數(shù)據(jù)已經(jīng)產(chǎn)生,并且不能設(shè)定發(fā)生條件。

提取觀測數(shù)據(jù)中的因果效應(yīng)是非常難且不確定的。為得到確定的因果關(guān)系,我們需要進(jìn)行隨機(jī)試驗(yàn)。

為什么觀測數(shù)據(jù)不能確定其因果關(guān)系呢?

1)觀測數(shù)據(jù)的獲得不是隨機(jī)的,我們不能總結(jié)出其中的因果效應(yīng)

2)舉個例子來說,學(xué)生從學(xué)校B畢業(yè)會有高薪資水平,這不能表示薪資水平與接受B學(xué)校教育的因果關(guān)系,因?yàn)榻邮蹷學(xué)校教育是有前提的。

3)如果我們隨機(jī)的選擇學(xué)生去參加B學(xué)校的教育,那么接受B學(xué)校教育和薪資水平之間的因果關(guān)系才比較牢靠。

為什么不能總是進(jìn)行隨機(jī)試驗(yàn)?zāi)兀?/b>

1)有時(shí)試驗(yàn)成本非常昂貴。

2)很多時(shí)候,并不是所有的試驗(yàn)都可以進(jìn)行。例如你想知道抽煙是否會產(chǎn)生壓力,這樣你需要迫使正常的人吸煙,這往往是不能實(shí)現(xiàn)的。

在這些情況下,應(yīng)如何利用觀測數(shù)據(jù)進(jìn)行因果效應(yīng)提取呢?

針對觀測數(shù)據(jù)的因果效應(yīng)提取有很多研究。大部分研究的目標(biāo)是消除未知因素的影響。在這里我將羅列一些被廣泛應(yīng)用的方法。

1、 面板模型:如果未觀測的變量在某一維度上是不變的,那么這個方法將非常簡單。例如,如果未觀測的變量不隨時(shí)間發(fā)生變化,我們可以建立面板模型用以剔除其他未觀測因素的影響。B學(xué)校=>高薪資的例子中,我們假設(shè)所有其他因素不隨時(shí)間變化。然后進(jìn)行如下處理:

(1) 將薪資y對優(yōu)質(zhì)學(xué)校(用上標(biāo)T表示)以及未觀測因素(用上標(biāo)U表示)做回歸。

(2) 未觀測因素不隨時(shí)間變化,簡化模型如下:

(3) 差分剔除未觀測因素的影響:

得到接受優(yōu)質(zhì)學(xué)校教育和薪資水平的因果關(guān)系系數(shù)。

2、 模擬控制:觀測數(shù)據(jù)最大的問題在于我們沒有獲得控制樣本和非控制樣本。以吸煙的例子來說,一個人不能同時(shí)吸煙又不吸煙。

但是,如果我們找到控制樣本的對應(yīng)的非控制樣本,比較相對應(yīng)的觀測數(shù)據(jù),將有助于提取因果效應(yīng)。這是工業(yè)生產(chǎn)中運(yùn)用的最多的方法。

對應(yīng)的非控制樣本可以采用最近鄰法則,k-d 樹,或其他方法獲得。讓我們來舉一個例子,設(shè)有兩組相同年齡、性別和收入等的人。一組開始吸煙,另一組不吸煙。在其他條件不變的情況下,一段時(shí)間內(nèi)兩組人員的壓力水平可以進(jìn)行比較。

雖然,上述方法在理論上聽起來非常鼓舞人心,但是只改變一個變量而其他變量不變的對應(yīng)樣本非常難以獲得,這往往導(dǎo)致因果效應(yīng)的提取錯誤。這將在以后更深入的文章中進(jìn)行討論。

3、 工具變量法(IV):這也許是我將介紹的最困難的方法。步驟如下:

(1)找到原因結(jié)果對

(2)找到一種因素與原因因素有關(guān)但與結(jié)果因素對原因因素回歸得到殘差無關(guān)。這種因素被稱為工具變量。

(3)用工具變量估計(jì)原因變量

(4)用估計(jì)的原因變量回歸結(jié)果變量,得到真實(shí)的原因與結(jié)果對之間的因果相應(yīng)

在觀測數(shù)據(jù)中,采用回歸分析方法得到的原因因素和結(jié)果因素之間系數(shù)關(guān)系是有偏的。采用工具變量法,可以得到一個無偏的系數(shù)估計(jì)結(jié)果。在吸煙與精神壓力的例子中,我們認(rèn)為可能存在逆向的結(jié)果。如果我們可以找到和煙草消費(fèi)量有關(guān)和精神壓力無關(guān)的變量,也許我們能獲得吸煙與精神壓力之間真實(shí)因果關(guān)系。例如,我們發(fā)現(xiàn)監(jiān)管稅會提高煙草的價(jià)格并降低煙草的消費(fèi)。那么我們可以將監(jiān)管稅作為工具變量而研究吸煙和精神壓力之間的關(guān)系。

4、 回歸的非連續(xù)性設(shè)計(jì):這是我(作者非譯者)最喜歡的方法。該方法使得觀察數(shù)據(jù)接近隨機(jī)試驗(yàn)數(shù)據(jù)。

在下圖中,存在控制條件與非控制條件在人口比率上的一個斷點(diǎn)。假設(shè)我們想檢驗(yàn)獎學(xué)金對學(xué)生成績的影響。注意,獎學(xué)金一般提供給預(yù)科考試成績在80%以上的學(xué)生。這里將會產(chǎn)生一個扭曲。例如聰明的學(xué)生將繼續(xù)他們的智慧。因此將非常難剝離出獎學(xué)金與后期考試成績的關(guān)系。

但是,如果我們只比較成績稍微低于80%(比如79.9%)和成績稍微高于80%(比如80.1%)的學(xué)生,將產(chǎn)生不一樣的結(jié)果。假設(shè)成績在79.9%與成績在80.1%的學(xué)生的差異不明顯。唯一影響他們后期考試成績的只有獎學(xué)金這一個因素。這樣的研究就類似于隨機(jī)設(shè)計(jì)實(shí)驗(yàn)中的控制變量法了。

采用該方法將很好地推斷出因果效應(yīng)。不過,獲得一個有斷點(diǎn)的維度是非常的困難。

翻譯:F.xy

原文作者:TAVISH SRIVASTAVA

原文鏈接:http://www.analyticsvidhya.com/blog/2015/06/establish-causality-events/

End.

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2015-06-23
以吸煙和精神壓力為例 因果與相關(guān)之爭
為了理清楚因果與相關(guān)關(guān)系的區(qū)別,我們下面進(jìn)行一些小小的測驗(yàn)。分析以下例子中的現(xiàn)象, 然后判斷在兩個事務(wù)(X 和 Y)之間是否存在必然因果關(guān)系。答案在測試后公布。

長按掃碼 閱讀全文