1946 年,美國明尼蘇達州羅徹斯特市的梅奧診所(Mayo Clinic),一位名叫約瑟夫·伯克森(Joseph Berkson)的醫生兼統計學家發現了一個令人困惑的現象:根據醫院數據,患有糖尿病的病人似乎較不容易罹患膽囊炎。難道糖尿病對膽囊具有某種保護作用?伯克森的答案是:不,這是數據來源本身造成的幻象。這個發現揭示了統計學中最隱蔽也最危險的陷阱之一——後來以他的名字命名的「伯克森悖論」。

一、什麼是伯克森悖論?

悖論的定義

伯克森悖論(Berkson's Paradox)是指由於樣本選擇的方式,在原本獨立或正相關的兩個變數之間,產生虛假的負相關關係。[1] 更直白地說:當我們只觀察被「篩選」過的樣本時,可能會看到根本不存在的關聯。

這種現象也被稱為「碰撞偏差」(Collider Bias)或「選擇偏差」(Selection Bias)。在因果推論的術語中,當我們對一個「碰撞變數」(collider)進行條件化時,就會在原本不相關的變數之間創造出虛假的關聯。[2]

與辛普森悖論的區別

伯克森悖論經常與辛普森悖論混淆,但兩者的機制截然不同:

  • 辛普森悖論:聚合數據時,因混淆變數(confounder)的影響,使趨勢逆轉。問題在於「如何正確合併數據」。
  • 伯克森悖論:因樣本選擇機制,在原本無關的變數間創造虛假關聯。問題在於「數據從何而來」。

用因果圖來說明:辛普森悖論涉及混淆變數(共同原因),而伯克森悖論涉及碰撞變數(共同結果)。在辛普森悖論中,我們應該控制混淆變數;在伯克森悖論中,我們不應該對碰撞變數進行條件化——但往往我們的樣本已經被條件化了。[3]

碰撞變數因果圖:X 和 Y 同時指向 Z
碰撞變數(Collider)的因果圖:X 和 Y 都指向 Z。當我們對 Z 條件化(例如只觀察住院病人),會在原本獨立的 X 和 Y 之間創造虛假的負相關。

數學解釋:條件機率的陷阱

讓我們用數學來理解伯克森悖論。假設有兩個獨立的疾病 A 和 B,在一般人群中:

P(A) = pAP(B) = pB,且 P(A ∩ B) = pA · pB(獨立性)

現在,假設我們只觀察住院病人。一個人會住院的條件是:患有 A、患有 B、或同時患有兩者。設住院條件為 H = A ∪ B

在住院病人中,已知某人患有疾病 A 的條件下,他患有疾病 B 的機率是:

P(B | A, H) = P(A ∩ B | H) / P(A | H)

經過計算,可以證明:[4]

P(B | A, H) < P(B | H)

這意味著:在住院病人中,患有 A 的人反而較不可能患有 B——即使在一般人群中,A 和 B 完全獨立!這個負相關是純粹由選擇機制創造的幻象。

直觀的解釋是:如果一個人已經因為疾病 A 住院了,他「不需要」疾病 B 來解釋他為何在醫院。反過來說,如果他沒有 A,他更可能是因為 B 而住院。這種「解釋消除」(explaining away)效應正是伯克森悖論的核心。[5]

二、經典醫學案例

糖尿病與膽囊炎:伯克森的原始發現

伯克森在 1946 年發表的經典論文《用列聯表分析醫院數據的局限性》(The Limitations of Applying Fourfold Table Analysis to Hospital Data)中,首次系統性地描述了這個問題。[6]

他分析了梅奧診所的住院數據,發現一個令人困惑的模式:

群體膽囊炎發生率
糖尿病患者較低
非糖尿病患者較高

如果天真地解讀這個數據,我們會得出結論:糖尿病對膽囊有保護作用。但伯克森指出,這個「發現」完全是選擇偏差造成的假象。

偏差的機制

問題在於:被研究的樣本是住院病人,而非一般人群。一個人會被納入研究的條件是「住院」,而住院的原因可能是糖尿病、膽囊炎,或兩者兼有。

  • 在住院病人中,如果一個人有糖尿病,他就已經有了住院的「理由」,不需要膽囊炎來解釋他的住院。
  • 相反,如果一個住院病人沒有糖尿病,他更可能是因為其他原因(如膽囊炎)而住院。
  • 因此,在這個被選擇的樣本中,糖尿病和膽囊炎呈現負相關——但這完全是樣本選擇造成的。

伯克森的洞見在於:醫院不是社會的縮影。基於醫院數據的研究結論,可能完全無法推廣到一般人群。

呼吸系統疾病與骨折

類似的偏差在其他醫學研究中也被發現。假設我們在醫院中研究呼吸系統疾病與骨折的關係,可能會發現負相關:有呼吸疾病的病人較少有骨折。

這並不意味著氣喘能保護你免於摔斷腿!而是因為:

  • 大多數人既沒有呼吸疾病也沒有骨折,他們不會出現在醫院樣本中。
  • 進入醫院樣本的人,至少要有一個問題。
  • 如果他們因為呼吸疾病住院,就不「需要」骨折來解釋住院;反之亦然。

肥胖悖論:一個當代爭議

近年來,流行病學中出現了一個令人困惑的發現:在某些慢性病患者群體中(如心臟病、腎臟病患者),肥胖的人反而有較低的死亡率——這被稱為「肥胖悖論」(Obesity Paradox)。[7]

許多研究者懷疑這是伯克森悖論在作祟。邏輯如下:

  • 肥胖和其他風險因素都會導致心臟病。
  • 一個肥胖的心臟病患者,可能「不需要」太多其他風險因素就發病了。
  • 一個體重正常的心臟病患者,可能需要更多其他風險因素(如遺傳、吸菸)才會發病。
  • 因此,在心臟病患者這個被選擇的群體中,肥胖者可能整體風險因素較少。

2016 年發表在《美國醫學會雜誌》的研究表明,當控制選擇偏差後,肥胖悖論在很大程度上消失了。[8] 這個案例提醒我們:即使在頂尖醫學期刊上,伯克森悖論仍可能潛伏其中。

三、日常生活中的伯克森悖論

「為什麼帥氣的人往往不夠體貼?」——約會市場悖論

這可能是伯克森悖論最生活化的例子。許多人抱怨:「為什麼長得好看的人往往個性差?」或者「為什麼有才華的人往往難相處?」

假設一個人是否值得約會取決於兩個獨立的特質:外表吸引力(A)和性格討喜(B)。在一般人群中,這兩者可能是獨立的——帥氣的人和普通人一樣,有好脾氣的也有壞脾氣的。

但是,當我們「篩選」約會對象時:

  • 我們通常只會約會那些至少有一個優點的人(外表吸引人性格討喜)。
  • 在這個被篩選的群體中,如果一個人很帥,他就已經滿足了約會的「門檻」,不需要好脾氣。
  • 如果一個約會對象不夠帥,他能出現在約會池中,更可能是因為他性格特別好。

結果:在我們實際約會的對象中,外表和性格呈現負相關——但這是選擇機制造成的,不是真實的人群規律。[9]

這個例子說明:我們對世界的觀察,往往受限於我們接觸到的樣本。如果你總是覺得「好看的人都很難搞」,也許問題不在於這個世界,而在於你接觸到的是一個被篩選過的樣本。

約會市場悖論散點圖
約會市場悖論示意圖:在全部人群中,外表和性格是獨立的。但在「約會池」這個被篩選的樣本中,兩者呈現負相關——因為進入約會池需要至少有一項優點。

好萊塢電影:為什麼高成本電影評價反而差?

影評人和觀眾常常抱怨:為什麼那些投資數億美元的大片,評價往往不如小成本獨立電影?難道錢越多拍得越差?

這裡又是伯克森悖論。能夠上映的電影,必須通過某種「品質門檻」——要麼劇本夠好,要麼明星夠多,要麼特效夠炫,要麼製作成本夠高。

  • 一部高成本電影,光靠砸錢就能上映,不需要特別好的劇本。
  • 一部低成本電影要能上映,通常需要劇本特別優秀或有其他突出之處。

因此,在「上映電影」這個被篩選的群體中,成本和品質呈現負相關。但如果我們能看到所有被製作的電影(包括那些沒能上映的低成本爛片),這種相關性就會消失。

學術界:頂尖期刊的奇怪引用分布

為什麼發表在頂尖期刊的論文,引用數的分布有時候看起來很奇怪?為什麼有些「低影響」的主題反而能登上頂刊?

一篇論文要能發表在頂尖期刊,需要滿足某種「卓越門檻」——要麼研究主題極度重要,要麼方法論創新,要麼數據獨特,要麼分析精妙。

  • 如果一篇論文的主題本身就是當紅議題(會帶來大量引用),它對方法論創新的要求可能較低。
  • 如果一篇論文的主題相對冷門,它能登上頂刊,往往是因為方法論或分析特別精妙。

結果:在頂刊中,熱門主題的論文和方法論創新呈現負相關。這不是因為研究熱門議題的學者不夠創新,而是篩選機制使然。[10]

社交媒體:為什麼網紅的生活看起來都很完美?

滑動 Instagram 或小紅書,你會發現網紅們似乎都過著完美生活:既漂亮又有錢,既有趣又快樂。這真的反映現實嗎?

成為「網紅」本身就是一個強力的篩選機制。一個人要能在社交媒體上獲得大量追蹤,需要滿足某種「吸引力門檻」——外表、財富、生活方式、幽默感,至少要有一樣特別突出。

在一般人群中,這些特質可能是獨立的。但在「網紅」這個被高度篩選的群體中:

  • 如果一個網紅外表普通,他能走紅很可能是因為內容特別有趣或生活方式特別吸引人。
  • 如果一個網紅長得特別好看,他不需要其他方面同樣出色就能獲得追蹤。

但整體而言,能夠進入你視野的人,都是在某個維度上「超過門檻」的人。你看到的是被篩選後的頂端樣本,而非人群的真實分布。這也部分解釋了為什麼瀏覽社交媒體會讓人感到焦慮和不滿足。

四、「寒門出貴子」的統計學解釋

「寒門出貴子」是一個古老的說法,意指出身貧寒的人反而更容易成就大業。類似的觀察包括:「成功人士中,來自困難背景的人比例很高」或「頂尖 CEO 中有很多人小時候家境不好」。

這是真的嗎?還是伯克森悖論在作祟?

選擇偏差:只看到「成功」的樣本

假設成功取決於兩個因素:先天優勢(P,如家庭背景、社會資源)和個人能力(T,如智力、毅力、運氣)。一個人要「成功」,需要 P + T 超過某個門檻。

  • 出身優渥的人(高 P),只需要普通的個人能力就能成功。
  • 出身貧寒的人(低 P),需要極高的個人能力才能成功。

現在,當我們只觀察「成功人士」這個群體時:

  • 來自富裕家庭的成功者,能力分布較廣——從普通到極高都有。
  • 來自貧困家庭的成功者,幾乎都是能力極強的人——因為只有能力極強才能彌補背景劣勢。

因此,在「成功者」這個被篩選的群體中,家庭背景和個人能力呈現負相關。貧窮出身的成功者平均能力更強,給人「寒門出貴子」的印象。

但這不代表貧窮家庭「更容易」培養出成功人士!如果我們看的是全部人口,富裕家庭孩子的平均成就仍然更高。我們只是沒看到那些出身貧寒、能力普通、因此沒能成功的大多數人。

媒體敘事的放大效應

這種偏差被媒體進一步放大。「富二代繼承家業」不是好故事,但「窮小子白手起家」是勵志經典。媒體傾向報導逆襲故事,進一步加深了「寒門出貴子」的印象。

真正的教訓是:當我們觀察一個被篩選的群體時,看到的模式可能完全是篩選機制的產物,而非因果關係。

五、歷史背景:約瑟夫·伯克森其人

從數學到醫學

約瑟夫·伯克森(Joseph Berkson, 1899-1982)是一位獨特的學者——同時擁有醫學和統計學的專業訓練。[11]

伯克森出生於紐約市,在紐約市立學院取得物理學學位後,繼續在哥倫比亞大學攻讀物理學碩士。然而,他的興趣逐漸轉向醫學,最終在約翰霍普金斯大學取得醫學博士學位。

1931 年,伯克森加入梅奧診所(Mayo Clinic),成為該機構的統計學部門負責人。他在這個位置上工作了超過 40 年,直到 1973 年退休。梅奧診所是當時世界上最大的醫療機構之一,擁有豐富的病人數據,這為伯克森的統計研究提供了理想的素材。

1946 年論文的誕生

伯克森在分析梅奧診所的數據時,發現了許多看似矛盾的關聯。當時的研究者經常使用「四格表」(fourfold table,即 2×2 列聯表)來分析疾病之間的關係,但伯克森意識到這種方法存在根本性的問題。

1946 年,他在《生物計量公報》(Biometrics Bulletin)上發表了那篇開創性的論文。[6] 在論文中,伯克森不僅描述了這個偏差現象,還用數學證明了它的存在,並提供了具體的數值例子。

值得注意的是,伯克森並不是在抽象的數學環境中發現這個問題的——他是在實際的臨床數據分析中碰到了無法解釋的怪異模式,然後才追溯到選擇偏差這個根源。這種「從實踐中發現問題」的研究路徑,至今仍是科學發現的重要模式。

後續發展與影響

伯克森悖論的影響遠超出醫學統計。隨著因果推論理論的發展,特別是 Judea Pearl 和他的同事們對「因果圖」(Directed Acyclic Graphs, DAGs)的系統化研究,伯克森悖論被理解為「碰撞偏差」的一個特例。[3]

在因果圖的框架中,當一個變數是兩個其他變數的「共同結果」(碰撞變數)時,對這個變數進行條件化會在原本獨立的兩個變數之間創造虛假關聯。這個理論框架幫助研究者識別和避免各種形式的選擇偏差。

今天,伯克森悖論已成為流行病學方法論課程的必修內容,是所有醫學研究者必須理解的基本概念。[12]

六、如何避免伯克森悖論

1. 追問「樣本從何而來」

這是最重要的問題。在接受任何統計結論之前,先問:

  • 這個研究的樣本是如何選擇的?
  • 什麼樣的人會進入這個樣本?什麼樣的人會被排除?
  • 進入樣本的條件,與我研究的變數有沒有關係?

如果樣本的選擇機制與研究變數有關,就要警惕伯克森悖論的可能。

2. 隨機抽樣的重要性

伯克森悖論之所以發生,是因為樣本不是從目標人群中隨機抽取的。理想情況下,研究應該使用隨機抽樣,確保樣本能代表目標人群。

當然,隨機抽樣並不總是可行的——我們不能隨機分配誰去住院。在這種情況下,研究者必須明確承認樣本的局限性,避免過度推廣結論。

3. 繪製因果圖

Judea Pearl 倡導的因果圖是識別伯克森悖論的有力工具。[13] 在分析數據之前,先畫出你認為的因果關係圖:

  • 識別所有的碰撞變數(colliders)
  • 檢查你是否無意中對碰撞變數進行了條件化
  • 如果是,考慮這會如何影響你的結論

4. 使用敏感性分析

當無法完全消除選擇偏差時,可以進行敏感性分析:假設偏差存在,它需要多大才能改變我的結論?如果只需要很小的偏差就能推翻結論,那結論就不穩健。[14]

5. 批判性思考數據來源

最終,避免伯克森悖論需要的是批判性思維。不要盲目相信數據——要思考數據是如何產生的、有什麼局限性、可能存在什麼偏差。

記住:數據不會自己說話,數據需要在正確的框架下被解讀

結語:看見看不見的

伯克森悖論教給我們的,遠不止一個統計技巧。它是關於認識論的深刻教訓——我們對世界的認識,總是受限於我們能觀察到的樣本。

在醫院裡,我們看到的是病人;在約會市場上,我們遇到的是願意約會的人;在成功者名單上,我們讀到的是那些成功了的人。我們看不見的,往往比我們看見的更重要

那些沒有生病的健康人、那些沒有出現在約會市場的人、那些沒能成功的普通人——他們的存在塑造了我們觀察到的模式,儘管他們從未出現在我們的視野中。

伯克森在 1946 年的洞見,提醒我們永遠要問:「誰不在這個數據中?」 這個問題的答案,往往是理解數據真正含義的關鍵。

在這個數據爆炸的時代,我們比以往任何時候都更容易被表面的模式所誤導。理解伯克森悖論,不僅能讓我們成為更好的數據分析者,也能讓我們成為更謹慎的觀察者——對世界,也對我們自己的認知局限。

References

  1. Berkson, J. (1946). Limitations of the application of fourfold table analysis to hospital data. Biometrics Bulletin, 2(3), 47-53.
  2. Hernán, M. A., Hernández-Díaz, S., & Robins, J. M. (2004). A structural approach to selection bias. Epidemiology, 15(5), 615-625.
  3. Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). Cambridge University Press, Chapter 6.
  4. Westfall, J., & Yarkoni, T. (2016). Statistically controlling for confounding constructs is harder than you think. PloS One, 11(3), e0152719.
  5. Elwert, F., & Winship, C. (2014). Endogenous selection bias: The problem of conditioning on a collider variable. Annual Review of Sociology, 40, 31-53.
  6. Berkson, J. (1946). Limitations of the application of fourfold table analysis to hospital data. Biometrics Bulletin, 2(3), 47-53. 這篇論文首次系統描述了後來被稱為「伯克森悖論」的現象。
  7. Banack, H. R., & Kaufman, J. S. (2014). The obesity paradox: Understanding the effect of obesity on mortality among individuals with cardiovascular disease. Preventive Medicine, 62, 96-102.
  8. Stokes, A., & Preston, S. H. (2015). Smoking and reverse causation create an obesity paradox in cardiovascular disease. Obesity, 23(12), 2485-2490.
  9. Fithian, W., Elmore, R., & Li, S. (2015). Bias in the estimation of false discovery rates from contingency tables. The Annals of Applied Statistics, 9(4), 1921-1948. 類似的選擇偏差機制在多個領域中被發現。
  10. Rohrer, J. M. (2018). Thinking clearly about correlations and causation: Graphical causal models for observational data. Advances in Methods and Practices in Psychological Science, 1(1), 27-42.
  11. Salsburg, D. (2001). The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. W. H. Freeman. 第 19 章討論了伯克森的貢獻。
  12. Rothman, K. J., Greenland, S., & Lash, T. L. (2008). Modern Epidemiology (3rd ed.). Lippincott Williams & Wilkins, Chapter 9.
  13. Pearl, J., & Mackenzie, D. (2018). The Book of Why: The New Science of Cause and Effect. Basic Books, Chapter 6.
  14. VanderWeele, T. J., & Ding, P. (2017). Sensitivity analysis in observational research: Introducing the E-value. Annals of Internal Medicine, 167(4), 268-274.
返回洞見