1973 年秋天,加州大學柏克萊分校公布了研究所錄取統計,立刻引發軒然大波:男性申請者有 44% 被錄取,女性卻只有 35%。這是性別歧視的鐵證嗎?當研究者深入分析各學院的數據後,卻發現了一個令人震驚的事實——在大多數學院中,女性的錄取率反而更高。這就是統計學中最令人困惑也最重要的現象之一:辛普森悖論。

一、什麼是辛普森悖論?

悖論的定義

辛普森悖論(Simpson's Paradox)是指在分組數據中觀察到的趨勢,在合併數據後可能消失甚至逆轉的統計現象。[1] 換句話說,當我們把數據拆開來看時得到一個結論,合起來看時卻得到完全相反的結論。

這不是數學錯誤,也不是統計謬誤——它是一個真實存在的數學現象,揭示了聚合數據可能隱藏的危險陷阱。

數學解釋:加權平均的陷阱

辛普森悖論的核心在於加權平均的非直觀特性。讓我們用數學來說明。

假設我們比較兩個群體 A 和 B 在兩個子類別 1 和 2 中的成功率:

  • 群體 A 在類別 1 的成功率:pA1,樣本數 nA1
  • 群體 A 在類別 2 的成功率:pA2,樣本數 nA2
  • 群體 B 在類別 1 的成功率:pB1,樣本數 nB1
  • 群體 B 在類別 2 的成功率:pB2,樣本數 nB2

即使 pA1 > pB1pA2 > pB2(A 在兩個類別都勝過 B),合併後的整體成功率卻可能是:

PA = (nA1 · pA1 + nA2 · pA2) / (nA1 + nA2) < PB = (nB1 · pB1 + nB2 · pB2) / (nB1 + nB2)

關鍵在於樣本分佈的不對稱性:如果 A 的樣本大量集中在成功率較低的類別,而 B 的樣本集中在成功率較高的類別,即使 A 在每個類別都表現更好,整體加權後仍可能輸給 B。[2]

二、經典案例

案例一:UC Berkeley 1973 年錄取風波

這是辛普森悖論最著名的實例,也是統計學教科書的必備案例。[3]

表面數據:性別歧視的「鐵證」

性別申請人數錄取人數錄取率
男性8,4423,73844%
女性4,3211,51235%

看起來確實存在嚴重的性別歧視——男性錄取率高出女性 9 個百分點!

深入分析:真相大白

然而,當統計學家 Peter BickelEugene HammelJ. William O'Connell 逐一檢視各學院的數據時,卻發現了截然不同的圖景。以下是兩個學院的簡化數據:

學院性別申請人數錄取人數錄取率
工程學院男性82551162%
女性1088982%
英文系男性373226%
女性341247%

在工程學院,女性錄取率(82%)遠高於男性(62%)!在英文系,女性錄取率(7%)也略高於男性(6%)。事實上,在 85 個科系中的大多數,女性的錄取率都高於或等於男性

悖論的成因

那麼,為什麼整體數據顯示男性錄取率更高?答案在於申請分佈的差異

  • 女性傾向申請競爭激烈、錄取率較低的科系(如人文社會科學)
  • 男性傾向申請錄取率較高的科系(如工程、自然科學)

這種申請模式的差異——而非招生歧視——才是整體錄取率差距的主因。[4]

🎮 試試看:辛普森悖論模擬器

調整下方參數,親自體驗辛普森悖論如何發生。預設值模擬了 UC Berkeley 的情境。

📚 系所 A(理工學院)

📖 系所 B(文學院)

📊 計算結果

系所 A
👨 男生
47.5%
👩 女生
70%
女生錄取率較高 ✓
系所 B
👨 男生
10%
👩 女生
20%
女生錄取率較高 ✓
🏫 總體錄取率
👨 男生
40%
👩 女生
30%
男生錄取率較高 ✓
⚠️
悖論出現!

女生在兩個系所的錄取率都較高,但總體錄取率反而較低!

目前無悖論

分組趨勢與總體趨勢一致。調整參數試試看能否製造悖論!

💡 為什麼會這樣?

案例二:LeBron James vs. Karl Malone

籃球統計是辛普森悖論的另一個絕佳展示場。讓我們比較兩位 NBA 傳奇球星的投籃命中率。

分項數據

球員二分球命中率三分球命中率
LeBron James54.7%34.6%
Karl Malone52.3%27.4%

無論是二分球還是三分球,LeBron 的命中率都高於 Malone。按照直覺,LeBron 的整體投籃命中率應該更高,對吧?

整體數據的逆轉

然而,當我們計算整體投籃命中率時:

  • LeBron James:約 50.4%
  • Karl Malone:約 51.6%

Malone 的整體命中率反而更高!

原因分析

關鍵在於出手分佈

  • LeBron 的三分球出手佔比遠高於 Malone
  • 三分球的命中率天然低於二分球
  • 因此,即使 LeBron 在兩種投籃類型都更準,大量出手低命中率的三分球拉低了他的整體數據

這個例子生動地說明:單一整體數字可能嚴重扭曲真相。評估球員能力時,必須考慮出手選擇的結構差異。

案例三:腎結石治療

醫學領域的辛普森悖論案例尤其值得警惕,因為它直接關乎患者的健康甚至生命。

1986 年的經典研究

Charig 等人在 1986 年發表的研究比較了兩種腎結石治療方法:傳統的開放手術(Treatment A)和微創的經皮腎取石術(Treatment B)。[5]

治療方式整體成功率
開放手術(A)78%(273/350)
微創手術(B)83%(289/350)

表面看來,微創手術(B)效果更好。但當按腎結石大小分組後:

結石大小開放手術(A)微創手術(B)
小結石(<2cm)93%(81/87)87%(234/270)
大結石(≥2cm)73%(192/263)69%(55/80)

無論結石大小,開放手術的成功率都更高!悖論的成因在於:醫生傾向對病情較輕(小結石)的患者採用微創手術,對病情較重(大結石)的患者採用傳統手術。這種分配偏差造成了整體數據的逆轉。

三、更多實例

棒球打擊率

棒球統計是辛普森悖論的溫床。最著名的例子是 1995-1996 年的 Derek JeterDavid Justice 打擊率之爭。[6]

1995 年和 1996 年,Justice 的打擊率在兩年都高於 Jeter。但合併兩年數據後,Jeter 的整體打擊率反而更高!原因是 Jeter 在他表現較好的 1996 年有更多打數,而 Justice 的打數分佈相反。

COVID-19 疫苗效力數據

2021 年,以色列的 COVID-19 數據引發了疫苗懷疑論者的質疑:在某些統計中,疫苗接種者的死亡率似乎高於未接種者![7]

然而,這是辛普森悖論的典型呈現。由於以色列疫苗接種率極高(尤其在高齡族群),大量老年人已接種疫苗。老年人本身的基礎死亡風險就高,因此在未分年齡組的數據中,接種者的死亡人數看起來較多。

當按年齡分組分析後,真相浮現:在每個年齡組中,疫苗接種者的死亡率都顯著低於未接種者

死刑判決與種族

1983 年,Radelet 研究了佛羅里達州的死刑判決數據,發現了令人不安的種族差異。[8]

整體數據顯示:殺害白人的兇手比殺害黑人的兇手更可能被判死刑。這似乎暗示了對受害者的種族偏見。但當按兇手的種族分組後,白人兇手和黑人兇手的死刑判決率在各組內呈現不同的模式。這個案例的複雜性在於:決定使用哪個分層來解讀數據,本身就是一個價值判斷

四、歷史溯源

Karl Pearson(1899):最早的觀察

辛普森悖論的歷史比「辛普森」這個名字更悠久。

Karl Pearson(1857-1936),現代統計學的奠基人之一,在 1899 年研究遺傳與自然選擇時,已經注意到類似的現象。[9] 他發現,當數據來自不同的子群體時,合併後的相關性可能與各子群體內的相關性方向相反。

Udny Yule(1903):混淆效應

George Udny Yule(1871-1951)在 1903 年更系統地分析了這個問題。[10] 他指出,當存在「潛在變數」(latent variable)時,兩個變數之間的表面關聯可能是虛假的。這個概念後來被稱為「尤爾效應」(Yule Effect)或「混淆」(confounding)。

Edward Simpson(1951):正式命名

Edward H. Simpson(1922-2019)是英國統計學家,他在 1951 年發表的論文正式描述了這個悖論。[11]

有趣的是,Simpson 本人對這個悖論以他命名感到意外。在一次採訪中,他謙虛地表示:「我只是把已知的東西寫下來而已。」[12] 但他的論文確實是第一篇以簡潔明瞭的方式展示這個現象的學術著作,因此「辛普森悖論」這個名稱逐漸流傳開來。

Judea Pearl:因果革命

Judea Pearl(1936-),2011 年圖靈獎得主,將辛普森悖論提升到了全新的哲學高度。[13]

Pearl 認為,辛普森悖論不僅僅是一個統計問題,而是一個因果推論問題。他指出:「沒有一個純粹的統計標準能告訴我們何時應該合併數據、何時應該分層分析。答案取決於我們對因果結構的理解。」

Pearl 發展出因果圖(Causal Diagrams)和do-calculus,為解決辛普森悖論提供了數學框架。在他的理論中,是否應該控制某個變數,取決於該變數在因果網路中的位置——它是混淆變數(confounder)、中介變數(mediator)還是碰撞變數(collider)。[14]

五、為什麼會發生?

混淆變數(Confounding Variable)

辛普森悖論最常見的成因是混淆變數的存在。混淆變數是指同時影響自變數和應變數的第三方因素。

以 UC Berkeley 案例為例:

  • 自變數:申請者的性別
  • 應變數:錄取與否
  • 混淆變數:申請的科系

因為性別影響了科系選擇(女性傾向申請競爭激烈的科系),而科系又影響了錄取率,所以單純比較男女整體錄取率會產生誤導。

混淆變數因果圖:第三方變數同時影響 X 和 Y
混淆變數(Confounder)的因果圖:變數 Z 同時影響 X 和 Y,在不控制 Z 的情況下,X 和 Y 之間會呈現虛假關聯。

基數效應(Base Rate Effect)

另一個關鍵因素是各組樣本大小的不對稱。即使在每個子組中 A 都優於 B,如果 A 的樣本大量集中在「低基準率」的組,而 B 的樣本集中在「高基準率」的組,整體加權後 B 仍可能勝出。

這就像一個學生在兩場小考都考 90 分,另一個學生都考 80 分。但如果第一個學生的小考佔總分 10%,大考(考 60 分)佔 90%;而第二個學生的小考佔 90%,大考(考 70 分)佔 10%,則第二個學生的總分更高。

六、如何避免被誤導?

1. 永遠追問「數據背後的結構」

當看到統計數據時,不要只看最終數字。追問:

  • 這個數據是如何聚合的?
  • 有沒有被隱藏的分組?
  • 各組的樣本大小是否相當?

2. 建立因果模型

Pearl 的建議是:在分析數據之前,先畫出你認為的因果關係圖。這有助於識別哪些變數是混淆變數、哪些應該控制、哪些不應該控制。

3. 分層分析(Stratified Analysis)

當懷疑存在混淆變數時,進行分層分析是標準做法。但請記住:分層的依據應該基於因果推論,而非只是統計便利。

4. 警惕「整體數據」的政治用途

辛普森悖論經常被政客和利益團體利用來支持他們的立場。了解這個悖論,可以幫助你識別這種操縱。[15]

七、數據素養的重要性

在這個數據驅動的時代,辛普森悖論的教訓比以往更加重要。

對個人的啟示

每次看到新聞報導引用統計數據來支持某個論點時,請暫停一下,問自己:

  • 這個數據有沒有分組分析?
  • 整體趨勢是否可能是假象?
  • 有沒有被忽略的混淆變數?

對專業人士的啟示

對於數據分析師、研究者和決策者而言,理解辛普森悖論是基本功。在發布研究結果或做出決策時,必須考慮:

  • 我的數據聚合方式是否合適?
  • 我有沒有進行必要的分層分析?
  • 我的結論是否經得起因果推論的檢驗?

對社會的啟示

辛普森悖論提醒我們:數據不會自己說話,數據需要被正確地解讀。在公共政策、醫療決策、社會議題上,我們不能盲目相信統計數字,而必須培養批判性的數據思維。

結語:數據的謙遜

辛普森悖論不僅僅是一個有趣的數學現象,它是對人類認知的一記警鐘。

它告訴我們:表面的模式可能是虛假的。當我們合併數據時,可能會創造出根本不存在的趨勢。

它提醒我們:統計不能替代因果思考。數據只能告訴我們「是什麼」,而非「為什麼」。要理解因果關係,需要超越數據本身的思考。

它教導我們:對數據保持謙遜。再精確的數字,也可能在不恰當的聚合下說謊。我們應該對統計結論保持健康的懷疑。

從 1899 年 Pearson 的最初觀察,到 1951 年 Simpson 的正式描述,再到 Pearl 的因果革命——這段跨越一個多世紀的學術探索,最終指向一個深刻的洞見:理解世界需要的不僅是數據,還有關於數據如何產生的因果知識

下次當你看到一個令人驚訝的統計數據時,請記住 UC Berkeley 的故事、LeBron 和 Malone 的投籃、以及那些腎結石患者的治療結果。問問自己:這個數據背後,是否隱藏著一個辛普森悖論?

References

  1. Simpson, E. H. (1951). "The interpretation of interaction in contingency tables." Journal of the Royal Statistical Society, Series B, 13(2), 238-241.
  2. Pearl, J. (2014). "Comment: Understanding Simpson's Paradox." The American Statistician, 68(1), 8-13.
  3. Bickel, P. J., Hammel, E. A., & O'Connell, J. W. (1975). "Sex Bias in Graduate Admissions: Data from Berkeley." Science, 187(4175), 398-404.
  4. Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4th ed.). W. W. Norton & Company, Chapter 2.
  5. Charig, C. R., Webb, D. R., Payne, S. R., & Wickham, J. E. A. (1986). "Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy." British Medical Journal, 292(6524), 879-882.
  6. Samuels, M. L. (1993). "Simpson's Paradox and Related Phenomena." Journal of the American Statistical Association, 88(421), 81-88.
  7. Morris, J. A. (2021). "Simpson's Paradox and COVID-19 vaccine efficacy." The BMJ, 374:n1912.
  8. Radelet, M. L. (1981). "Racial Characteristics and the Imposition of the Death Penalty." American Sociological Review, 46(6), 918-927.
  9. Pearson, K., Lee, A., & Bramley-Moore, L. (1899). "Mathematical contributions to the theory of evolution. VI. Genetic (reproductive) selection." Philosophical Transactions of the Royal Society of London. Series A, 192, 257-330.
  10. Yule, G. U. (1903). "Notes on the theory of association of attributes in statistics." Biometrika, 2(2), 121-134.
  11. Simpson, E. H. (1951). "The interpretation of interaction in contingency tables." Journal of the Royal Statistical Society, Series B, 13(2), 238-241.
  12. Wagner, C. H. (1982). "Simpson's Paradox in Real Life." The American Statistician, 36(1), 46-48.
  13. Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press.
  14. Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books.
  15. Hernán, M. A., Clayton, D., & Keiding, N. (2011). "The Simpson's paradox unraveled." International Journal of Epidemiology, 40(3), 780-785.
返回洞見