#287 · Simpson's Paradox · Short Articles

A trend appears in every subgroup of your data, but reverses when you combine them. This is not a glitch—it is Simpson's Paradox, and it has fooled scientists, courts, and hospitals for decades.

In 1973, the University of California, Berkeley faced a lawsuit. The numbers seemed damning: 44% of male applicants were admitted, but only 35% of female applicants. The difference was too large to be chance. The university braced for a verdict of systemic sex bias.

But when statisticians Peter Bickel and his team dug into the departmental data, the story flipped. In four of the six largest departments, women were actually admitted at a higher rate than men. In the other two, the difference was negligible. The apparent bias was an illusion—a statistical mirage now known as Simpson's Paradox.

Two clear glass jars filled with blue and white beads sit on a wooden table Illustration · AI-generated (FLUX.1-dev)

The paradox defined

Edward H. Simpson, a British statistician, formalised the phenomenon in a 1951 paper. But the idea had surfaced earlier: Karl Pearson in 1899 and Udny Yule in 1903 had noted similar reversals. The paradox occurs when a trend appears in several separate groups but disappears or reverses when the groups are combined. The culprit is a hidden variable—a confounder—that distorts the aggregate picture.

A university admissions office in the 1970s has stacks of plain folders sorted into very d Illustration · AI-generated (FLUX.1-dev)

At Berkeley, the confounder was departmental selectivity. Women tended to apply to competitive departments like English, which had low admission rates overall. Men flocked to engineering, which accepted a higher proportion. When you averaged across departments without weighting by size, the male advantage appeared. When you compared within each department, the bias vanished—or tilted slightly in favour of women.

Kidney stones and batting averages

A medical study on kidney stone treatments provides another classic example. Two treatments, A and B, were compared. For small stones, Treatment A succeeded 93% of the time, Treatment B only 87%. For large stones, Treatment A succeeded 73%, Treatment B 69%. In both subgroups, A was better. Yet when the data were pooled, Treatment B appeared superior: 78% versus 83%. How?

A courtroom evidence table holds balanced scales Illustration · AI-generated (FLUX.1-dev)

The confounder was stone size. Doctors assigned the more severe cases—large stones—to the more aggressive Treatment A. The easier cases got Treatment B. Because large stones had lower success rates overall, Treatment A's aggregate was dragged down. The lesson: never compare raw totals without accounting for the underlying distribution.

Baseball fans know a similar trick. In 1995 and 1996, Derek Jeter and David Justice swapped batting averages. Justice outhit Jeter both years, but Jeter's combined average was higher. The reason: Jeter had many more at-bats in his better year, weighting the average in his favour.

A baseball dugout bench holds two bats Illustration · AI-generated (FLUX.1-dev)

What we still don't know

Simpson's Paradox is not a mathematical error—it is a warning. The correct interpretation depends on the causal structure of the problem. Judea Pearl has shown that the paradox can be resolved using causal diagrams and the "back-door criterion," which identifies which variables to control for. But the data alone cannot tell you which grouping is meaningful. You need a theory of how the world works.

A statistician rearranges stones from separate shallow trays into one large tray Illustration · AI-generated (FLUX.1-dev)

We still do not have a universal rule for when to trust the subgroups versus the aggregate. The paradox reappears in fields from economics to genetics, often with real-world consequences. A drug that helps every patient subgroup might appear harmful in the overall trial if the subgroups are unbalanced. The only safeguard is careful experimental design and a willingness to ask: what is the hidden variable?

A 2018 study estimated that Simpson's Paradox occurs in about 12% of random path models with two predictors. It is not rare. It is a feature of how weighted averages interact with unequal group sizes.

A careful analyst studies plain strings connecting objects on a table Illustration · AI-generated (FLUX.1-dev)

The deeper lesson

Simpson's Paradox is not a trick question on a statistics exam. It is a recurring pattern in how we misunderstand data. The Berkeley case was dismissed, but only after a painstaking department-by-department analysis. The kidney stone study changed surgical practice. The paradox forces us to admit that numbers do not speak for themselves—they need context, causality, and a clear question. The next time you see a headline about a shocking trend, ask: what is hiding in the subgroups?

你的数据的每个子群中都呈现出一种趋势，但当你将它们合并时趋势却发生了逆转。这不是一个错误——这是辛普森悖论，几十年来它已经欺骗了科学家、法庭和医院。

1973年，加州大学伯克利分校面临一场诉讼。数据显示令人震惊：44%的男性申请者被录取，而女性申请者只有35%。这种差异大得不可能是偶然。大学做好了系统性性别歧视判决的准备。

但当统计学家Peter Bickel及其团队深入研究各院系的数据时，故事发生了反转。在六个最大的院系中，有四个院系女性的录取率实际上高于男性。在另外两个院系中，差异微乎其微。表面的偏见是一种幻觉——一种现在被称为辛普森悖论的统计幻象。

悖论的定义

Edward H. Simpson，一位英国统计学家，在1951年的一篇论文中正式提出了这一现象。但这一想法更早前就已出现：Karl Pearson在1899年和Udny Yule在1903年就注意到了类似的反转。悖论出现在趋势在多个独立群体中出现，但当这些群体合并时，趋势消失或反转。罪魁祸首是一个隐藏变量——一个混杂因素——扭曲了总体的画面。

在伯克利，这个混杂因素是院系的选择性。女性倾向于申请整体录取率较低的竞争性院系，如英语系。而男性则涌向录取率较高的工程系。当你不按院系规模加权地跨院系平均时，男性优势就出现了。当你在每个院系内进行比较时，偏见就消失了——或者稍微偏向女性。

肾结石和打击率

一项关于肾结石治疗的医学研究提供了另一个经典例子。比较了两种治疗方法，A和B。对于小结石，A的成功率为93%，B仅为87%。对于大结石，A的成功率为73%，B为69%。在两个子组中，A都更好。然而，当数据合并时，B似乎更优：78%对83%。为什么？

混杂因素是结石的大小。医生将更严重的病例——大结石——分配给更积极的治疗方法A。较简单的病例则使用了方法B。由于大结石的整体成功率较低，A的总体成功率被拉低了。教训是：在不考虑潜在分布的情况下，永远不要比较原始总数。

棒球球迷知道一个类似的情况。1995年和1996年，Derek Jeter和David Justice互换了打击率。正义这两年的打击率都高于杰特，但杰特的总平均打击率更高。原因在于：杰特在表现更好的年份有更多打击次数，从而加权平均偏向了他。

我们仍然不知道的

辛普森悖论不是数学错误——它是一个警告。正确的解释取决于问题的因果结构。Judea Pearl已经表明，可以通过因果图和“后门准则”来解决悖论，后者可以识别需要控制的变量。但数据本身无法告诉你哪种分组是有意义的。你需要一个关于世界如何运作的理论。

我们仍然没有一个关于何时信任子组而非总体的普遍规则。悖论在从经济学到遗传学的各个领域反复出现，通常伴随着现实世界的影响。一种对每个患者子组都有帮助的药物，如果子组不平衡，可能在总体试验中看起来是有害的。唯一的保障是仔细的实验设计和愿意提出问题：隐藏变量是什么？

2018年的一项研究估计，在具有两个预测变量的随机路径模型中，辛普森悖论大约发生在12%的情况下。它并不罕见。它是加权平均与不等群体规模相互作用的一个特征。

更深层的教训

辛普森悖论不是统计考试中的一个技巧问题。它是我们在误解数据时反复出现的模式。伯克利的案例被驳回，但只是在进行了详尽的院系分析之后。肾结石的研究改变了外科手术实践。悖论迫使我们承认，数字不会自己说话——它们需要背景、因果关系和一个明确的问题。下次你看到关于惊人趋势的头条新闻时，请问：子组中隐藏了什么？

Una tendencia aparece en cada subgrupo de tus datos, pero se invierte cuando los combinas. Esto no es un error—es el Paradoja de Simpson, y ha engañado a científicos, tribunales y hospitales durante décadas.

En 1973, la Universidad de California, Berkeley enfrentó una demanda. Los números parecían condenatorios: el 44% de los solicitantes hombres fueron admitidos, pero solo el 35% de las solicitantes mujeres. La diferencia era demasiado grande para ser casualidad. La universidad se preparó para un veredicto de discriminación sistémica por género.

Pero cuando los estadísticos Peter Bickel y su equipo examinaron los datos departamentales, la historia se invirtió. En cuatro de los seis departamentos más grandes, las mujeres eran en realidad admitidas a una tasa más alta que los hombres. En los otros dos, la diferencia era insignificante. La supuesta discriminación era una ilusión: una mirada estadística ahora conocida como la Paradoja de Simpson.

La paradoja definida

Edward H. Simpson, un estadístico británico, formalizó el fenómeno en un artículo de 1951. Pero la idea ya había surgido anteriormente: Karl Pearson en 1899 y Udny Yule en 1903 habían notado inversiones similares. La paradoja ocurre cuando una tendencia aparece en varios grupos separados, pero desaparece o se invierte cuando los grupos se combinan. El culpable es una variable oculta—un factor de confusión—que distorsiona la imagen general.

En Berkeley, el factor de confusión fue la selectividad departamental. Las mujeres tendían a aplicar a departamentos competitivos como Inglés, que tenían tasas bajas de admisión en general. Los hombres se agrupaban en ingeniería, que aceptaba una proporción más alta. Cuando se promediaba entre los departamentos sin ponderar por tamaño, aparecía la ventaja masculina. Cuando se comparaba dentro de cada departamento, la discriminación desaparecía—o se inclinaba ligeramente a favor de las mujeres.

Cálculos renales y promedios de bateo

Un estudio médico sobre tratamientos para cálculos renales proporciona otro ejemplo clásico. Dos tratamientos, A y B, fueron comparados. Para piedras pequeñas, el tratamiento A tuvo éxito el 93% de las veces, el tratamiento B solo el 87%. Para piedras grandes, el tratamiento A tuvo éxito el 73%, el tratamiento B el 69%. En ambos subgrupos, A era mejor. Sin embargo, cuando los datos se combinaron, el tratamiento B parecía superior: 78% versus 83%. ¿Cómo?

El factor de confusión fue el tamaño de las piedras. Los médicos asignaban los casos más graves—piedras grandes—al tratamiento más agresivo A. Los casos más fáciles recibían el tratamiento B. Debido a que las piedras grandes tenían tasas más bajas de éxito en general, el promedio general del tratamiento A se arrastraba hacia abajo. La lección: nunca compares totales crudos sin tener en cuenta la distribución subyacente.

Los fanáticos del béisbol conocen un truco similar. En 1995 y 1996, Derek Jeter y David Justice intercambiaron promedios de bateo. Justice superó a Jeter ambos años, pero el promedio combinado de Jeter fue más alto. La razón: Jeter tuvo muchas más oportunidades de bateo en su mejor año, ponderando el promedio a su favor.

Lo que aún no sabemos

La paradoja de Simpson no es un error matemático—es una advertencia. La interpretación correcta depende de la estructura causal del problema. Judea Pearl ha demostrado que la paradoja puede resolverse usando diagramas causales y el "criterio de la puerta trasera", que identifica qué variables controlar. Pero los datos solos no pueden decirte qué agrupación es significativa. Necesitas una teoría de cómo funciona el mundo.

Todavía no tenemos una regla universal sobre cuándo confiar en los subgrupos versus el agregado. La paradoja reaparece en campos desde la economía hasta la genética, a menudo con consecuencias reales. Un medicamento que beneficia a cada subgrupo de pacientes podría parecer perjudicial en la prueba general si los subgrupos están desbalanceados. El único salvavidas es un diseño experimental cuidadoso y la disposición de preguntar: ¿cuál es la variable oculta?

Un estudio de 2018 estimó que la paradoja de Simpson ocurre en aproximadamente el 12% de los modelos de ruta aleatorios con dos predictores. No es raro. Es una característica de cómo las medias ponderadas interactúan con tamaños desiguales de grupo.

La lección más profunda

La paradoja de Simpson no es una pregunta trampa en un examen de estadística. Es un patrón recurrente en cómo malinterpretamos los datos. El caso de Berkeley fue desestimado, pero solo después de un análisis minucioso por departamento. El estudio sobre cálculos renales cambió la práctica quirúrgica. La paradoja nos obliga a admitir que los números no hablan por sí mismos—necesitan contexto, causalidad y una pregunta clara. La próxima vez que veas un titular sobre una tendencia impactante, pregunta: ¿qué se esconde en los subgrupos?

Uma tendência aparece em cada subgrupo dos seus dados, mas inverte-se quando os combina. Isto não é um erro—é o Paradoxo de Simpson, e ele enganou cientistas, tribunais e hospitais há décadas.

Em 1973, a Universidade da Califórnia, em Berkeley, enfrentou uma ação judicial. Os números pareciam condenatórios: 44% dos candidatos homens foram admitidos, mas apenas 35% das candidatas mulheres. A diferença era muito grande para ser mera coincidência. A universidade se preparava para uma sentença de discriminação sistemática baseada no sexo.

Mas quando estatísticos Peter Bickel e sua equipe analisaram os dados por departamento, a história mudou. Em quatro dos seis maiores departamentos, as mulheres eram admitidas com uma taxa maior do que os homens. Nos outros dois, a diferença era insignificante. A suposta discriminação era uma ilusão — uma miragem estatística conhecida hoje como Paradoxo de Simpson.

A definição do paradoxo

Edward H. Simpson, um estatístico britânico, formalizou o fenômeno em um artigo de 1951. Mas a ideia já havia surgido anteriormente: Karl Pearson em 1899 e Udny Yule em 1903 haviam notado reversões semelhantes. O paradoxo ocorre quando uma tendência aparece em vários grupos separados, mas desaparece ou se inverte quando os grupos são combinados. O culpado é uma variável oculta — um fator de confusão — que distorce a imagem agregada.

Em Berkeley, o fator de confusão foi a seletividade dos departamentos. As mulheres tendiam a se candidatar a departamentos concorridos, como Inglês, que tinham baixas taxas de admissão em geral. Os homens se concentravam em engenharia, que aceitava uma proporção maior. Quando se calculava a média entre os departamentos sem levar em conta o tamanho deles, a vantagem masculina aparecia. Quando se comparava dentro de cada departamento, a discriminação desaparecia — ou se inclinava ligeiramente a favor das mulheres.

Cálculos renais e médias de rebatidas

Um estudo médico sobre tratamentos para cálculos renais fornece outro exemplo clássico. Dois tratamentos, A e B, foram comparados. Para cálculos pequenos, o Tratamento A teve sucesso em 93% das vezes, enquanto o Tratamento B teve sucesso apenas em 87%. Para cálculos grandes, o Tratamento A teve sucesso em 73%, e o Tratamento B em 69%. Em ambos os subgrupos, A era melhor. No entanto, quando os dados foram agregados, o Tratamento B parecia superior: 78% contra 83%. Como?

O fator de confusão foi o tamanho dos cálculos. Os médicos atribuíram os casos mais graves — cálculos grandes — ao Tratamento A mais agressivo. Os casos mais fáceis receberam o Tratamento B. Como os cálculos grandes tinham taxas de sucesso globais mais baixas, a média agregada do Tratamento A foi puxada para baixo. A lição: nunca compare totais brutos sem considerar a distribuição subjacente.

Fãs de beisebol conhecem um truque semelhante. Em 1995 e 1996, Derek Jeter e David Justice trocaram as médias de rebatidas. Justice superou Jeter nos dois anos, mas a média combinada de Jeter foi maior. A razão: Jeter teve muitos mais turnos no ano em que jogou melhor, o que inclinou a média a seu favor.

O que ainda não sabemos

O Paradoxo de Simpson não é um erro matemático — é um aviso. A interpretação correta depende da estrutura causal do problema. Judea Pearl demonstrou que o paradoxo pode ser resolvido usando diagramas causais e o "critério da porta traseira", que identifica quais variáveis devem ser controladas. Mas os dados sozinhos não dizem qual agrupamento é significativo. Você precisa de uma teoria de como o mundo funciona.

Ainda não temos uma regra universal sobre quando confiar nos subgrupos ou na média agregada. O paradoxo reaparece em campos desde a economia até a genética, muitas vezes com consequências reais. Um medicamento que ajuda cada subgrupo de pacientes pode parecer prejudicial no teste geral se os subgrupos estiverem desequilibrados. A única proteção é o cuidadoso projeto experimental e a disposição para perguntar: qual é a variável oculta?

Um estudo de 2018 estimou que o Paradoxo de Simpson ocorre em cerca de 12% dos modelos de caminhos aleatórios com dois preditores. Ele não é raro. É uma característica de como médias ponderadas interagem com tamanhos desiguais de grupos.

A lição mais profunda

O Paradoxo de Simpson não é uma questão de pegadinha em um exame de estatística. É um padrão recorrente no modo como mal interpretamos dados. O caso de Berkeley foi arquivado, mas apenas após uma análise detalhada por departamento. O estudo sobre cálculos renais mudou a prática cirúrgica. O paradoxo nos força a admitir que os números não falam por si — precisam de contexto, causalidade e uma pergunta clara. Da próxima vez que vir um título sobre uma tendência chocante, pergunte: o que está escondido nos subgrupos?

あなたのデータのすべてのサブグループに傾向が現れるが、それらを合わせると逆転してしまう。これはバグではない。これはシンプソンのパラドックスであり、何十年もの間、科学者や裁判所、病院さえも惑わしてきている。

1973年、カリフォルニア大学バークレー校は訴訟に巻き込まれた。数字は明らかに不利に見えた。男性の申請者の44％が受け入れられていたのに対し、女性の申請者は35％だった。その差は偶然ではあり得ない。大学は体系的な性差別を指摘された判決に備えた。

しかし統計学者Peter Bickelとそのチームが学部ごとのデータを掘り下げると、物語は逆転した。6つの大きな学部のうち4つでは、実際には女性の受け入れ率が男性より高かった。残りの2学部でも差は微々たるものだった。明らかにされたはずの偏見は幻だった。いわゆるシンプソンのパラドックスという統計の蜃気楼だった。

パラドックスの定義

Edward H. Simpsonというイギリスの統計学者が、この現象を1951年の論文で形式化した。しかし、この考え方はそれ以前にも登場していた。Karl Pearsonが1899年、Udny Yuleが1903年に類似した逆転現象に言及していた。このパラドックスは、いくつかのグループ内で傾向が現れるにもかかわらず、グループを合わせるとその傾向が消えたり逆転したりするときに起こる。原因は隠れた変数—交絡因子—であり、それが全体像を歪ませるのだ。

バークレーでは、交絡因子は学部の選考難易度だった。女性は全体的に低い受け入れ率を示す英文学のような競争が激しい学部に応募していた。男性はエンジニアリングのような高い割合で受け入れられる学部に殺到していた。学部ごとの人数を考慮せずに単純平均をとると、男性の有利が現れた。学部ごとに比較すると、偏見は消えたり、わずかに女性有利になったりした。

腎結石と打率

腎結石治療に関する医学的研究は、もう一つの典型的な例を提供する。治療法AとBを比較した。小さな結石では、治療法Aは93％の成功率だったが、治療法Bは87％だった。大きな結石では、治療法Aは73％、治療法Bは69％だった。どちらのサブグループでもAのほうがよかった。しかしデータをまとめると、治療法Bのほうが優れているように見えた。78％対83％だった。なぜか？

交絡因子は結石の大きさだった。医師はより深刻な症例—大きな結石—をより積極的な治療法Aに割り当て、簡単な症例には治療法Bを割り当てた。大きな結石では全体的に成功率が低いため、治療法Aの集計値が引き下げられた。教訓はこうだ。基礎となる分布を考慮せずに生データを比較してはいけない。

野球ファンなら類似のトリックを知っているだろう。1995年と1996年、Derek JeterとDavid Justiceの打率が入れ替わった。どちらの年もジャスティスの打率はジェターを上回ったが、合計ではジェターのほうが高かった。理由はこうだ。ジェターは打率がよかった年で多くの打席をこなしていたため、平均が彼に有利に働いた。

まだわかっていないこと

シンプソンのパラドックスは数学的誤りではない。警告である。正しい解釈は問題の因果構造に依存する。Judea Pearlは、因果図と「バックドア基準」を使ってこのパラドックスを解決できる示した。この基準は、どの変数を制御すべきかを特定するものだ。しかし、データだけではどのグループ分けが意味を持つのかを教えてくれない。世界がどう機能するのかという理論が必要だ。

私たちはまだ、サブグループと集計のどちらを信じるべきかの普遍的なルールを持っていない。このパラドックスは経済学から遺伝学に至るまで、さまざまな分野で再現され、しばしば現実世界に影響を及ぼす。すべての患者サブグループに効果がある薬が、サブグループがアンバランスであれば、全体の試験では有害に見えるかもしれない。唯一の安全策は、慎重な実験設計と、隠れた変数とは何かを問う姿勢である。

2018年の研究では、シンプソンのパラドックスは2つの予測変数を持つランダムなパスモデルの約12％に現れることが推定された。これは珍しいことではない。それは加重平均が不均等なグループサイズと相互作用する仕組みの特徴である。

深い教訓

シンプソンのパラドックスは統計の試験問題のひっかけではない。それは、私たちはどのようにデータを誤解するかという繰り返しのパターンである。バークレーのケースは却下されたが、それは学部ごとの詳細な分析が行われた後のことだった。腎結石の研究は手術の実践を変えた。このパラドックスは、数字が自ら語るわけではないことを我々に認めさせる。文脈、因果関係、明確な問いが必要だ。次に衝撃的なトレンドについての見出しが目に留まったら、サブグループに隠れているものは何かを尋ねてみよう。

يظهر اتجاه في كل مجموعة فرعية من بياناتك، لكنه يتبدل عندما تدمجها. هذا ليس خطأً تقنيًا — بل هو تناقض سيمبسون، وهو ما خدع العلماء والمحاكم والمستشفيات على مدى عقود.

في سنة 1973، واجهت جامعة كاليفورنيا في بيركلي دعوى قضائية. بدا أن الأرقام مؤذية: تم قبول 44% من المتقدمين الذكور، لكن فقط 35% من المتقدمات الإناث. كانت الفجوة كبيرة جداً لدرجة أن تكون عشوائية. وقد استعدت الجامعة لحكم يدينها بتحيز جنسي نظامي.

لكن عندما تعمق العلماء الإحصائيون Peter Bickel وفريقه في بيانات الأقسام، انقلبت القصة. في أربع من ستة أقسام كبيرة، تم قبول الإناث فعلاً بنسة أعلى من الذكور. وفي القسمين الآخرين، كانت الفجوة قليلة جداً. كان التحيز الواضح هو هُوَالةٌ—مُضَلِّلاً إحصائياً معروفاً الآن باسم "تناقض سِمْبسون".

تعريف التناقض

Edward H. Simpson، عالم إحصائي بريطاني، رسمياً نظم الظاهرة في ورقة بحثية سنة 1951. لكن الفكرة ظهرت سابقاً: Karl Pearson سنة 1899 وUdny Yule سنة 1903 لاحظا عكسات مشابهة. يحدث التناقض عندما يظهر اتجاه في مجموعات منفصلة، لكنه يختفي أو يعاكس عندما تُدمج المجموعات. والسبب هو متغير مخفي—عامل مُخلِّط—يُلغي الصورة العامة.

في حالة بيركلي، كان العامل المُخلِّط هو اختيار الأقسام. عادةً ما تقدم الإناث إلى أقسام تنافسية مثل الأدب الإنكليزي، التي كانت معدلات قبولها منخفضة بشكل عام. بينما تتجه الذكور إلى الهندسة، التي تقبل نسباً أعلى. عندما تُحسب المتوسطات عبر الأقسام دون مراعاة حجمها، ظهرت الميزة الذكورية. لكن عندما تُقارن داخل كل قسم، اختفى التحيز أو مال قليلاً لصالح الإناث.

الحصى الكلوية والنسب في لعبة البيسبول

توفّر دراسة طبية عن علاجات الحصى الكلوية مثالاً كلاسيكياً آخر. قورنت علاجتان، أ و ب. بالنسبة للحصى الصغيرة، نجحت العلاج أ 93% من الوقت، بينما نجحت العلاج ب فقط 87%. أما بالنسبة للحصى الكبيرة، فقد نجحت العلاج أ 73%، والعلاج ب 69%. في كلتا الفئتين الفرعيتين، كانت العلاج أ أفضل. ومع ذلك، عندما دُمجت البيانات، ظهرت العلاج ب أفضل: 78% مقابل 83%. كيف؟

كان العامل المُخلِّط هو حجم الحصى. قام الأطباء بوضع الحالات الأكثر خطورة—الحصى الكبيرة—في العلاج أ الأكثر عدوانية. بينما أعطيت الحالات الأسهل العلاج ب. لأن الحصى الكبيرة كانت معدلات نجاحها منخفضة بشكل عام، انخفض المتوسط العام للعلاج أ. الدرس: لا تقارن الأرقام الخام دون مراعاة التوزيع الكامن.

يعرف عشاق البيسبول خدعة مشابهة. في 1995 و1996، تبادل Derek Jeter وDavid Justice نسب اللكم. تفوق جاستس على جيتر في كلا العامين، لكن متوسط جيتر المجمّع كان أعلى. السبب: كان لجيتر عدد أكبر من مرات اللعب في عامه الأفضل، مما زاد من متوسطه.

ما لا نزال لا نعرفه

تناقض سِمْبسون ليس خطأً رياضياً—إنه تحذير. تعتمد التفسير الصحيح على البنية السببية للمسألة. أظهر Judea Pearl أن التناقض يمكن حلّه باستخدام مخططات سببية والمعيار "الباب الخلفي"، الذي يحدد المتغيرات التي يجب التحكم بها. لكن البيانات وحدها لا تستطيع أن تخبرك أي تجميع هو ذو دلالة. تحتاج إلى نظرية عن كيفية عمل العالم.

لا يزال لدينا قاعدة عالمية لمعرفة متى نثق بالمجموعات الفرعية أو بالمتوسط العام. يظهر التناقض مجدداً في مجالات من الاقتصاد إلى الجينات، غالباً مع عواقب واقعية. قد يبدو عقار مفيداً لكل مجموعة فرعية من المرضى ضاراً في التجربة العامة إذا كانت المجموعات غير متوازنة. والضمان الوحيد هو تصميم تجريبي دقيق وإرادة لطرح السؤال: ما هو المتغير المخفي؟

دراسة نُشرت سنة 2018 توقعت أن تناقض سِمْبسون يحدث في حوالي 12% من النماذج العشوائية للمسارات مع متغيرين. إنه ليس نادراً. إنه ميزة في كيفية تفاعل المتوسطات المرتبطة بأحجام المجموعات غير المتكافئة.

الدرس الأعمق

تناقض سِمْبسون ليس سؤالاً مزرياً في امتحان الإحصاء. إنه نمط متكرر في كيفية فهمنا الخاطئ للبيانات. تم رفض قضية بيركلي، لكن ذلك كان بعد تحليل دقيق لكل قسم على حدة. غيرت دراسة الحصى الكلوية ممارسات الجراحة. يجبرنا التناقض على الاعتراف بأن الأرقام لا تتحدث من تلقاء نفسها—تحتاج إلى سياق وعلاقة سببية وسؤال واضح. في المرة القادمة التي ترى فيها عنواناً عن اتجاه صادم، اسأل: ما الذي يختبئ في المجموعات الفرعية؟

Une tendance apparaît dans chaque sous-groupe de vos données, mais s'inverse lorsqu'on les combine. Ce n'est pas un bug — c'est le paradoxe de Simpson, et il a trompé scientifiques, tribunaux et hôpitaux pendant des décennies.

En 1973, l'université de Californie à Berkeley faisait face à un procès. Les chiffres semblaient accablants : 44 % des candidats masculins étaient admis, mais seulement 35 % des candidats féminins. La différence était trop grande pour être due au hasard. L'université s'apprêtait à subir un verdict d'injustice systémique liée au sexe.

Mais lorsque des statisticiens Peter Bickel et son équipe ont analysé les données par département, l'histoire s'est retournée. Dans quatre des six plus grands départements, les femmes étaient en réalité admises à un taux plus élevé que les hommes. Dans les deux autres, la différence était négligeable. La prétendue discrimination était une illusion — une mirage statistique désormais connu sous le nom de paradoxe de Simpson.

Le paradoxe défini

Edward H. Simpson, un statisticien britannique, a formalisé le phénomène dans un article de 1951. Mais l'idée avait déjà été évoquée antérieurement : Karl Pearson en 1899 et Udny Yule en 1903 avaient noté des inversions similaires. Le paradoxe se produit lorsque l'on observe une tendance dans plusieurs groupes séparés, mais qu'elle disparaît ou s'inverse lorsqu'on combine les groupes. Le responsable est une variable cachée — un facteur de confusion — qui déforme l'image globale.

À Berkeley, le facteur de confusion était la sélectivité des départements. Les femmes tendaient à postuler à des départements compétitifs comme l'anglic, qui avaient des taux d'admission globalement faibles. Les hommes, eux, se dirigeaient vers l'ingénierie, qui acceptait une proportion plus élevée. Lorsque l'on faisait la moyenne entre les départements sans pondérer selon leur taille, l'avantage masculin apparaissait. Lorsque l'on comparait au sein de chaque département, la discrimination disparaissait — ou penchait même légèrement en faveur des femmes.

Calculs rénaux et moyennes de frappe

Une étude médicale sur les traitements des calculs rénaux fournit un autre exemple classique. Deux traitements, A et B, ont été comparés. Pour les petits calculs, le traitement A réussissait 93 % du temps, le B seulement 87 %. Pour les grands calculs, le A réussissait 73 %, le B 69 %. Dans les deux sous-groupes, le A était meilleur. Pourtant, lorsqu'on regroupait les données, le B semblait supérieur : 78 % contre 83 %. Comment cela ?

Le facteur de confusion était la taille des calculs. Les médecins affectaient les cas les plus graves — les grands calculs — au traitement plus agressif A. Les cas plus faciles recevaient le B. Puisque les grands calculs avaient des taux de réussite globalement plus faibles, la moyenne du A a été tirée vers le bas. La leçon : ne jamais comparer des totaux bruts sans tenir compte de la distribution sous-jacente.

Les amateurs de baseball connaissent un tour similaire. En 1995 et 1996, Derek Jeter et David Justice ont échangé leurs moyennes de frappe. Justice avait une meilleure moyenne que Jeter les deux années, mais la moyenne combinée de Jeter était plus élevée. La raison : Jeter avait beaucoup plus de coups d'essai dans l'année où il jouait mieux, ce qui a fait pencher la moyenne en sa faveur.

Ce que nous ne savons toujours pas

Le paradoxe de Simpson n'est pas une erreur mathématique — c'est un avertissement. L'interprétation correcte dépend de la structure causale du problème. Judea Pearl a montré que le paradoxe pouvait être résolu en utilisant des diagrammes causaux et le « critère de la porte arrière », qui identifie lesquelles des variables doivent être contrôlées. Mais les données seules ne vous disent pas laquelle des regroupements est pertinent. Vous avez besoin d'une théorie de la façon dont le monde fonctionne.

Nous n'avons toujours pas de règle universelle pour savoir quand faire confiance aux sous-groupes ou à l'agrégat. Le paradoxe refait surface dans des domaines allant de l'économie à la génétique, souvent avec des conséquences concrètes. Un médicament qui aide chaque sous-groupe de patients peut sembler nuisible dans l'essai global si les sous-groupes sont déséquilibrés. La seule protection est une conception expérimentale rigoureuse et une volonté d'interroger : quelle est la variable cachée ?

Une étude de 2018 a estimé que le paradoxe de Simpson se produit dans environ 12 % des modèles de chemins aléatoires avec deux prédicteurs. Ce n'est pas rare. C'est une caractéristique de la façon dont les moyennes pondérées interagissent avec des tailles de groupes inégales.

La leçon plus profonde

Le paradoxe de Simpson n'est pas une question piège sur un examen de statistiques. C'est un motif récurrent de la façon dont nous mal interprétons les données. Le cas de Berkeley a été rejeté, mais uniquement après une analyse minutieuse par département. L'étude sur les calculs rénaux a changé la pratique chirurgicale. Le paradoxe nous force à admettre que les chiffres ne parlent pas d'eux-mêmes — ils ont besoin de contexte, de causalité, et d'une question claire. La prochaine fois que vous verrez un titre sur une tendance choquante, demandez-vous : qu'y a-t-il de caché dans les sous-groupes ?

Sebuah tren muncul dalam setiap subkelompok data Anda, tetapi berbalik arah ketika Anda menggabungkannya. Ini bukan kegagalan—itu adalah Paradox Simpson, dan selama beberapa dekade telah menipu para ilmuwan, pengadilan, dan rumah sakit.

Pada tahun 1973, Universitas California, Berkeley menghadapi gugatan hukum. Angka-angkanya tampaknya merendahkan: 44% dari pendaftar laki-laki diterima, tetapi hanya 35% dari pendaftar perempuan. Perbedaannya terlalu besar untuk bisa dianggap kebetulan. Universitas bersiap menghadapi vonis bias seksual sistemik.

Namun ketika statistikawan Peter Bickel dan timnya menggali data departemen, ceritanya berubah. Dalam empat dari enam departemen terbesar, perempuan sebenarnya diterima dengan tingkat yang lebih tinggi dibanding laki-laki. Dalam dua departemen lainnya, perbedaannya tidak berarti. Bias yang tampak adalah ilusi—satu penipuan statistik yang kini dikenal sebagai paradoks Simpson.

Paradoks yang didefinisikan

Edward H. Simpson, seorang statistikawan Inggris, memformalkan fenomena ini dalam sebuah karya tahun 1951. Tetapi ide ini muncul lebih awal: Karl Pearson pada tahun 1899 dan Udny Yule pada tahun 1903 telah mencatat balik arah serupa. Paradoks ini terjadi ketika suatu tren tampak dalam beberapa kelompok terpisah, tetapi menghilang atau terbalik ketika kelompok-kelompok tersebut digabung. Pelaku di baliknya adalah variabel tersembunyi—pengganggu—yang mengaburkan gambaran agregat.

Di Berkeley, pengganggunya adalah selektivitas departemen. Perempuan cenderung mendaftar ke departemen yang kompetitif seperti Sastra Inggris, yang memiliki tingkat penerimaan rendah secara keseluruhan. Laki-laki berbondong-bondong ke teknik, yang menerima proporsi yang lebih tinggi. Ketika rata-rata dihitung di antara departemen tanpa mempertimbangkan ukuran, keunggulan laki-laki muncul. Ketika dibandingkan dalam setiap departemen, bias menghilang—atau sedikit miring ke arah perempuan.

Batu ginjal dan rata-rata pukulan

Sebuah studi medis tentang pengobatan batu ginjal memberikan contoh klasik lainnya. Dua pengobatan, A dan B, dibandingkan. Untuk batu kecil, Pengobatan A berhasil 93% dari waktu, Pengobatan B hanya 87%. Untuk batu besar, Pengobatan A berhasil 73%, Pengobatan B 69%. Dalam kedua kelompok, A lebih baik. Namun ketika data digabung, Pengobatan B tampak lebih unggul: 78% versus 83%. Bagaimana?

Pengganggunya adalah ukuran batu. Dokter menetapkan kasus yang lebih parah—batu besar—ke Pengobatan A yang lebih agresif. Kasus yang lebih ringan mendapatkan Pengobatan B. Karena batu besar memiliki tingkat keberhasilan yang lebih rendah secara keseluruhan, rata-rata agregat Pengobatan A tertarik ke bawah. Pelajaran: jangan pernah membandingkan total mentah tanpa memperhitungkan distribusi dasarnya.

Pecinta bisbol mengenal trik serupa. Pada tahun 1995 dan 1996, Derek Jeter dan David Justice menukar rata-rata pukulan mereka. Justice mengungguli Jeter di kedua tahun, tetapi rata-rata gabungan Jeter lebih tinggi. Alasannya: Jeter memiliki banyak pukulan lebih banyak di tahun yang lebih baik, sehingga rata-ratanya lebih berat kepadanya.

Apa yang masih belum kita ketahui

Paradoks Simpson bukanlah kesalahan matematis—itu adalah peringatan. Interpretasi yang benar tergantung pada struktur sebab-akibat dari masalah tersebut. Judea Pearl telah menunjukkan bahwa paradoks ini dapat dipecahkan dengan menggunakan diagram sebab-akibat dan "kriteria pintu belakang", yang mengidentifikasi variabel apa yang harus dikontrol. Tetapi data sendiri tidak bisa memberi tahu Anda kelompok mana yang bermakna. Anda membutuhkan teori tentang bagaimana dunia bekerja.

Kita masih belum memiliki aturan universal tentang kapan harus mempercayai kelompok-kelompok tersebut dibandingkan agregatnya. Paradoks ini muncul kembali di berbagai bidang dari ekonomi hingga genetika, sering kali dengan konsekuensi nyata. Obat yang membantu setiap kelompok pasien mungkin tampak berbahaya dalam uji coba keseluruhan jika kelompok-kelompok tersebut tidak seimbang. Satu-satunya perlindungan adalah desain eksperimen yang hati-hati dan keinginan untuk bertanya: apa variabel tersembunyinya?

Sebuah studi tahun 2018 memperkirakan bahwa paradoks Simpson terjadi sekitar 12% dari model jalur acak dengan dua prediktor. Ini bukan langka. Ini adalah fitur bagaimana rata-rata terbobot berinteraksi dengan ukuran kelompok yang tidak sama.

Pelajaran yang lebih dalam

Paradoks Simpson bukanlah soal sulit di ujian statistik. Ini adalah pola berulang dalam bagaimana kita salah memahami data. Kasus Berkeley ditolak, tetapi hanya setelah analisis teliti per departemen. Studi batu ginjal mengubah praktik bedah. Paradoks ini memaksa kita mengakui bahwa angka tidak berbicara sendiri—mereka membutuhkan konteks, sebab-akibat, dan pertanyaan yang jelas. Kali berikutnya Anda melihat judul berita tentang tren mengejutkan, tanyakan: apa yang tersembunyi di dalam kelompok-kelompoknya?

Ein Trend zeigt sich in jeder Untergruppe Ihrer Daten, kehrt sich aber um, wenn Sie diese zusammenfügen. Dies ist kein Fehler – es ist der Simpsonsche Paradoxon, und er hat Wissenschaftler, Gerichte und Krankenhäuser bereits seit Jahrzehnten getäuscht.

1973 stand die University of California, Berkeley vor einer Klage. Die Zahlen schienen überzeugend: 44 % der männlichen Bewerber wurden aufgenommen, doch nur 35 % der weiblichen. Der Unterschied war zu groß, um Zufall zu sein. Die Universität bereitete sich auf ein Urteil wegen systematischer Geschlechterdiskriminierung vor.

Doch als Statistiker Peter Bickel und sein Team die Abteilungsdaten untersuchten, drehte sich die Geschichte. In vier von sechs größten Abteilungen wurden Frauen tatsächlich mit einer höheren Quote aufgenommen als Männer. In den anderen beiden war der Unterschied vernachlässigbar. Die scheinbare Diskriminierung war eine Illusion – ein statistisches Phänomen, das heute als Simpson-Paradoxon bekannt ist.

Das Paradoxon definiert

Edward H. Simpson, ein britischer Statistiker, formalisierte das Phänomen in einer Arbeit aus dem Jahr 1951. Doch die Idee war bereits früher aufgetaucht: Karl Pearson stellte 1899 und Udny Yule 1903 ähnliche Umkehrungen fest. Das Paradoxon tritt auf, wenn ein Trend in mehreren getrennten Gruppen sichtbar wird, aber verschwindet oder sich umkehrt, wenn man die Gruppen zusammenfasst. Die Ursache ist eine versteckte Variable – ein Konfunder –, der das Gesamtbild verzerrt.

An der Berkeley war der Konfunder die Abteilungsselektivität. Frauen bewarben sich tendenziell für wettbewerbsstarke Abteilungen wie Englisch, die insgesamt niedrige Aufnahmequoten hatten. Männer wählten hingegen Technik, die eine höhere Quote hatte. Als man die Durchschnittswerte über alle Abteilungen ohne Berücksichtigung der Größenverhältnisse berechnete, zeigte sich ein Vorteil für Männer. Wenn man jedoch innerhalb jeder Abteilung verglich, verschwand die Diskriminierung – oder neigte sich leicht zugunsten der Frauen.

Nierensteine und Schlagwerte

Ein medizinisches Studie zu Nierensteinbehandlungen liefert ein weiteres klassisches Beispiel. Zwei Behandlungen, A und B, wurden verglichen. Bei kleinen Steinen gelang Behandlung A in 93 % der Fälle, Behandlung B nur in 87 %. Bei großen Steinen lag A bei 73 %, B bei 69 %. In beiden Untergruppen war A besser. Doch als die Daten zusammengefasst wurden, schien B überlegen: 78 % gegen 83 %. Wie kam das?

Der Konfunder war die Steingröße. Ärzte wählten bei den schwereren Fällen – großen Steinen – die aggressivere Behandlung A. Bei den einfacheren Fällen wählten sie B. Da große Steine insgesamt niedrigere Erfolgsquoten hatten, sank der Durchschnitt von A. Die Lektion: Man darf nie Rohdaten vergleichen, ohne die zugrundeliegende Verteilung zu berücksichtigen.

Baseball-Fans kennen ein ähnliches Phänomen. In den Jahren 1995 und 1996 tauschten Derek Jeter und David Justice ihre Schlagwerte. Justice hatte in beiden Jahren besser als Jeter, doch Jeters kombinierter Durchschnitt war höher. Der Grund: Jeter hatte in seinem besseren Jahr deutlich mehr Schlagabgaben, was den Durchschnitt zugunsten seiner selbst gewichtet.

Was wir immer noch nicht wissen

Das Simpson-Paradoxon ist kein mathematischer Fehler – es ist eine Warnung. Die richtige Interpretation hängt von der kausalen Struktur des Problems ab. Judea Pearl hat gezeigt, dass das Paradoxon mithilfe von kausalen Diagrammen und dem „Back-door-Kriterium“ gelöst werden kann, das angibt, welche Variablen kontrolliert werden müssen. Doch die Daten allein können nicht sagen, welche Gruppierung sinnvoll ist. Man braucht eine Theorie davon, wie die Welt funktioniert.

Wir haben immer noch keine universelle Regel dafür, wann man die Untergruppen oder die Gesamtdaten vertrauen soll. Das Paradoxon taucht in Bereichen von der Ökonomie bis zur Genetik immer wieder auf, oft mit realen Folgen. Ein Medikament, das jede Untergruppe von Patienten hilft, könnte in der Gesamtdatenanalyse schädlich erscheinen, wenn die Untergruppen ungleich sind. Die einzige Sicherheit ist eine sorgfältige experimentelle Gestaltung und die Bereitschaft, die Frage zu stellen: Welche versteckte Variable ist es?

Eine Studie aus dem Jahr 2018 schätzte, dass das Simpson-Paradoxon in etwa 12 % der zufälligen Pfadmodelle mit zwei Prädiktoren auftritt. Es ist nicht selten. Es ist eine Eigenschaft davon, wie gewichtete Durchschnitte mit ungleichen Gruppengrößen interagieren.

Die tiefere Lehre

Das Simpson-Paradoxon ist nicht eine Fangfrage in einem Statistikkurs. Es ist ein sich wiederholendes Muster, wie wir Daten falsch verstehen. Der Fall an der Berkeley wurde abgelehnt, doch nur nach einer mühsamen Analyse pro Abteilung. Die Studie zu Nierensteinen veränderte die chirurgische Praxis. Das Paradoxon zwingt uns, einzusehen, dass Zahlen für sich allein nicht sprechen – sie benötigen Kontext, Kausalität und eine klare Frage. Das nächste Mal, wenn du eine Schlagzeile über einen schockierenden Trend liest, frag: Was verbirgt sich in den Untergruppen?

В каждом подмножестве ваших данных наблюдается определённая тенденция, но она меняется на противоположную, если объединить их. Это не ошибка — это парадокс Симпсона, и десятилетиями он вводил в заблуждение учёных, суды и больницы.

В 1973 году университет Калифорнии в Беркли столкнулся с судебным иском. Числа казались убедительными: 44% мужчин-претендентов были приняты, но только 35% женщин. Разница была слишком большой, чтобы быть случайной. Университет готовился к решению о систематическом половом предвзятом отношении.

Но когда статистики Peter Bickel и его команда изучили данные по факультетам, история изменилась. В четырех из шести крупнейших факультетов женщин принимали с более высокой скоростью, чем мужчин. В других двух разница была незначительной. Существовавший предвзятый подход оказался иллюзией — статистическим миражем, известным теперь как парадокс Симпсона.

Определение парадокса

Edward H. Simpson, британский статистик, сформулировал это явление в статье 1951 года. Но идея появлялась раньше: Karl Pearson в 1899 году и Udny Yule в 1903 году отмечали аналогичные обратные эффекты. Парадокс возникает, когда тенденция проявляется в нескольких отдельных группах, но исчезает или меняет направление, когда группы объединяются. Причиной является скрытая переменная — фактор-смешение, искажающий общую картину.

В Беркли смешащим фактором оказалась избирательность факультетов. Женщины чаще подавали заявки на конкурентоспособные факультеты, такие как английский, где общие ставки поступления были низкими. Мужчины стремились к инженерному делу, где принимали большее количество претендентов. Когда средние значения рассчитывались по факультетам без учета их размера, преимущество мужчин проявлялось. Но при сравнении внутри каждого факультета предвзятость исчезала — или слегка склонялась в пользу женщин.

Почечные камни и показатели бейсболистов

Еще один классический пример — медицинское исследование методов лечения почечных камней. Два метода, A и B, сравнивались. Для мелких камней метод A был успешным в 93% случаев, метод B — только в 87%. Для крупных камней метод A был успешным в 73%, метод B — в 69%. В обеих подгруппах метод A был лучше. Однако, когда данные объединялись, метод B выглядел предпочтительнее: 78% против 83%. Как так?

Смешающим фактором оказался размер камней. Врачи назначали более серьезные случаи — крупные камни — более агрессивному методу A. Простые случаи получали метод B. Поскольку крупные камни в целом имели более низкие ставки успеха, общий результат метода A был понижен. Урок: никогда не сравнивайте общие итоги без учета распределения.

Бейсбольные болельщики знают похожий трюк. В 1995 и 1996 годах Derek Jeter и David Justice меняли свои показатели. Джастис превосходил Джеятера в оба года, но суммарный показатель Джеятера был выше. Причина: у Джеятера было гораздо больше попыток в его лучшем году, что сдвинуло средний показатель в его пользу.

То, чего мы до сих пор не знаем

Парадокс Симпсона не является математической ошибкой — это предупреждение. Правильная интерпретация зависит от причинной структуры проблемы. Judea Pearl показал, что парадокс можно разрешить с помощью причинных диаграмм и критерия "задней двери", который определяет, какие переменные следует контролировать. Но данные сами по себе не могут сказать вам, какая группировка имеет смысл. Вам нужна теория о том, как устроен мир.

Мы до сих пор не имеем универсального правила, когда стоит доверять подгруппам, а когда — общим данным. Парадокс повторяется в областях от экономики до генетики, часто с реальными последствиями. Лекарство, которое помогает каждой подгруппе пациентов, может выглядеть вредным в общем исследовании, если подгруппы несбалансированы. Единственной защитой является тщательный экспериментальный дизайн и готовность задавать вопрос: какая скрытая переменная?

В 2018 году было оценено, что парадокс Симпсона возникает в примерно 12% случайных моделей путей с двумя предикторами. Это не редкость. Это особенность взаимодействия взвешенных средних с неравными размерами групп.

Глубокий урок

Парадокс Симпсона — это не головоломка на экзамене по статистике. Это повторяющийся паттерн в том, как мы неправильно понимаем данные. Случай в Беркли был отклонен, но только после тщательного анализа по факультетам. Исследование по почечным камням изменило хирургическую практику. Парадокс заставляет нас признать, что цифры не говорят сами за себя — они нуждаются в контексте, причинности и ясном вопросе. В следующий раз, когда вы увидите заголовок о шокирующей тенденции, задумайтесь: что скрывается в подгруппах?

데이터의 모든 하위 집단에서 어떤 경향이 나타나지만, 이를 통합하면 방향이 뒤바뀌는 경우가 있다. 이는 결함이 아니다. 이는 심슨의 역설(Simpson's Paradox)이며, 수십 년간 과학자, 법원, 병원을 속여왔다.

1973년, 캘리포니아 대학교 버클리 캠퍼스는 소송에 직면했다. 수치가 충격적이었다. 남성 지원자의 44%는 합격했지만, 여성 지원자의 합격률은 35%에 불과했다. 이 차이는 우연의 결과일 수 없었다. 대학은 체계적인 성 차별 판결을 앞두고 긴장했다.

그러나 통계학자 Peter Bickel과 그의 팀이 학과별 데이터를 분석하자 상황은 뒤바뀌었다. 여섯 개 중 네 개의 가장 큰 학과에서는 여성의 합격률이 남성보다 높았다. 나머지 두 학과에서도 차이는 미미했다. 표면상의 차별은 환상이었다—이제 ‘심슨 역설’로 알려진 통계적 환상이었다.

역설의 정의

Edward H. Simpson이라는 영국의 통계학자는 1951년 논문에서 이 현상을 체계적으로 정리했다. 하지만 이 개념은 그보다 이전에도 등장했다. Karl Pearson가 1899년, Udny Yule가 1903년에 비슷한 역전 현상을 지적한 바 있다. 이 역설은 특정한 그룹 내에서 나타나는 경향이 그룹을 통합했을 때 사라지거나 반전되는 경우에 발생한다. 원인은 숨겨진 변수—혼동 요인—로, 이 요인이 전체적인 그림을 왜곡한다.

버클리의 경우, 혼동 요인은 학과의 선발 경쟁률이었다. 여성들은 전체적으로 낮은 합격률을 기록한 영문학과 같은 경쟁이 치열한 학과에 더 많이 지원했다. 남성들은 전체적으로 높은 합격률을 기록한 공학과 같은 학과에 몰렸다. 학과별로 크기를 고려하지 않고 평균을 내면 남성에게 유리한 결과가 나타났다. 그러나 학과별로 비교하면 차별은 사라졌거나, 오히려 여성에게 약간 유리했다.

신장 결석과 타율

신장 결석 치료법에 대한 의학 연구는 또 하나의 고전적 예시를 제공한다. 두 가지 치료법 A와 B를 비교했다. 작은 결석의 경우, 치료법 A는 93%의 성공률을 기록했고, 치료법 B는 87%였다. 큰 결석의 경우, 치료법 A는 73%, 치료법 B는 69%였다. 두 하위 그룹 모두에서 A가 더 효과적이었다. 그런데 데이터를 통합하면 치료법 B가 더 우수해 보였다. 78% 대 83%였다. 어떻게 이런 일이 벌어졌을까?

혼동 요인은 결석의 크기였다. 의사들은 더 심각한 경우—큰 결석—에 치료법 A를 적용했다. 더 쉬운 경우는 치료법 B를 적용했다. 큰 결석은 전체적으로 낮은 성공률을 보이므로, 치료법 A의 통합 성공률이 끌어내려졌다. 교훈은 명확하다. 기본적인 총합만을 비교하기 전에 내재된 분포를 고려해야 한다는 점이다.

야구 팬들은 비슷한 현상을 잘 알고 있다. 1995년과 1996년, Derek Jeter와 David Justice의 타율이 뒤바뀌었다. 조스티는 두 해 모두 제터보다 타율이 높았지만, 제터의 통합 타율이 더 높게 나왔다. 이유는 간단하다. 제터는 타율이 더 높은 해에 더 많은 타석을 가졌기 때문이다. 이로 인해 평균이 그의 이익에 기울어졌다.

여전히 알지 못하는 것들

심슨 역설은 수학적 오류가 아니다. 경고다. 올바른 해석은 문제의 인과 구조에 달려 있다. Judea Pearl는 인과 관계를 도식화하는 ‘인과도’와 ‘후문 기준(back-door criterion)’을 사용하면 역설을 해결할 수 있음을 보여주었다. 하지만 데이터만으로는 어떤 그룹 분류가 의미 있는지 알 수 없다. 세계가 어떻게 작동하는지를 설명하는 이론이 필요하다.

우리는 여전히 하위 그룹과 통합 그룹 중 어느 쪽을 믿어야 할지에 대한 보편적인 규칙을 가지고 있지 않다. 이 역설은 경제학에서 유전학에 이르기까지 다양한 분야에서 반복되며, 종종 실제 세계에 영향을 미친다. 모든 하위 그룹에게 도움이 되는 약물이 전체 시험에서는 해로워 보일 수도 있다. 유일한 방어책은 신중한 실험 설계와 함께, ‘숨겨진 변수는 무엇인가?’라는 질문을 던지는 용기다.

2018년 연구에 따르면, 두 개의 예측 변수가 있는 임의의 경로 모델 중 약 12%에서 심슨 역설이 발생한다고 추정된다. 이는 드문 일이 아니다. 가중 평균이 불균형한 그룹 크기와 상호작용할 때 나타나는 통계학의 고유한 특징이다.

더 깊은 교훈

심슨 역설은 통계학 시험의 트릭 문제가 아니다. 우리가 데이터를 오해하는 방식에 나타나는 반복적인 패턴이다. 버클리 사건은 결국 무효 판결을 받았지만, 학과별로 꼼꼼한 분석을 거친 후였다. 신장 결석 연구는 외과 수술 실무를 바꾸었다. 이 역설은 수치가 스스로 말해주는 것이 아니라는 사실을 우리에게 강요한다. 수치는 맥락, 인과 관계, 그리고 명확한 질문이 필요하다. 다음 번에 충격적인 추세에 대한 기사 제목을 본다면, ‘하위 그룹에는 무엇이 숨어 있을까?’라고 물어보자.

आपके डेटा के प्रत्येक उपसमूह में एक प्रवृत्ति दिखाई देती है, लेकिन जब आप उन्हें एक साथ जोड़ देते हैं तो वह पलट जाती है। यह एक खामी नहीं है—यह सिम्पसन की परिप्रेक्ष्य है, और दशकों तक वैज्ञानिकों, अदालतों और अस्पतालों को धोखा दे चुकी है।

1973 में, कैलिफोर्निया विश्वविद्यालय, बर्कले पर कानूनी मुकदमा चल रहा था। संख्याएं बुरी लग रही थीं: 44% पुरुष आवेदकों को स्वीकृति दी गई थी, लेकिन केवल 35% महिला आवेदकों को। अंतर बहुत बड़ा था कि यह संयोग हो सके। विश्वविद्यालय ने एक प्रणालीगत लिंग अभिकरण के फैसले के लिए तैयारी कर ली थी।

लेकिन जब सांख्यिकीविद Peter Bickel और उनकी टीम विभागीय डेटा में गहराई से जांच करने लगे, तो कहानी बदल गई। छह सबसे बड़े विभागों में से चार में, महिलाओं को वास्तव में पुरुषों की तुलना में अधिक दर पर स्वीकृति दी गई थी। अन्य दो में, अंतर नगण्य था। दिखावटी अभिकरण एक भ्रम था—एक अब सिम्पसन के विरोधाभास के रूप में जाने जाने वाला सांख्यिकीय भ्रम।

विरोधाभास की परिभाषा

Edward H. Simpson, एक ब्रिटिश सांख्यिकीविद, ने 1951 के एक पेपर में इस परिघटना को औपचारिक रूप दिया। लेकिन विचार पहले भी सामने आ चुका था: Karl Pearson ने 1899 में और Udny Yule ने 1903 में इसी तरह के पलटाव का उल्लेख किया था। विरोधाभास तब होता है जब एक प्रवृत्ति कई अलग-अलग समूहों में दिखाई देती है, लेकिन जब समूहों को मिला दिया जाता है, तो यह गायब हो जाती है या उलट जाती है। दोषी एक छिपा हुआ चर होता है—एक सह-मिश्रक—जो समूहीकृत चित्र को विकृत कर देता है।

बर्कले में, सह-मिश्रक विभागीय चयन की दक्षता थी। महिलाएं अक्सर अंग्रेजी जैसे प्रतिस्पर्धी विभागों में आवेदन करती थीं, जिनकी कुल आवेदन दर कम थी। पुरुष इंजीनियरिंग की ओर झुके, जो एक उच्च अनुपात को स्वीकृत करता था। जब आप विभागों के आकार के अनुसार औसत बनाए बिना औसत बनाते हैं, तो पुरुषों का लाभ दिखाई देता है। जब आप प्रत्येक विभाग में तुलना करते हैं, तो अभिकरण गायब हो जाता है—या महिलाओं के पक्ष में थोड़ा झुक जाता है।

गुर्दे के पत्थर और बैटिंग औसत

गुर्दे के पत्थर के उपचार पर एक चिकित्सा अध्ययन एक अन्य विख्यात उदाहरण प्रस्तुत करता है। दो उपचार, A और B की तुलना की गई। छोटे पत्थरों के लिए, उपचार A 93% बार सफल रहा, उपचार B केवल 87% बार। बड़े पत्थरों के लिए, उपचार A 73% बार सफल रहा, उपचार B 69% बार। दोनों उपसमूहों में, A बेहतर था। लेकिन जब डेटा को एकत्रित कर दिया गया, तो उपचार B बेहतर लगा: 78% बनाम 83%। कैसे?

सह-मिश्रक पत्थर का आकार था। डॉक्टरों ने गंभीर मामलों—बड़े पत्थरों—को अधिक आक्रामक उपचार A के लिए निर्धारित किया। आसान मामलों को उपचार B मिला। क्योंकि बड़े पत्थरों की कुल सफलता दर कम थी, उपचार A का समूहीकृत औसत नीचे खींच लिया गया। सबक: कभी भी अपने आधार वितरण को ध्यान में रखे बिना कच्चे टोटल की तुलना न करें।

क्रिकेट के प्रशंसकों को एक ऐसा ही तरीका पता है। 1995 और 1996 में, Derek Jeter और David Justice के बैटिंग औसतों में बदलाव हुआ। जस्टिस ने जेटर की तुलना में दोनों वर्षों में अधिक दर पर बल्लेबाजी की, लेकिन जेटर का संयुक्त औसत अधिक था। कारण: जेटर ने अपने बेहतर वर्ष में अधिक बार बल्लेबाजी की, जिससे उसका औसत उसके पक्ष में झुक गया।

हम अभी तक जो नहीं जानते

सिम्पसन के विरोधाभास के बारे में गणितीय त्रुटि नहीं है—यह एक चेतावनी है। सही व्याख्या समस्या की कारण रचना पर निर्भर करती है। Judea Pearl ने दिखाया है कि कारण आरेखों और "बैक-डोर मानदंड" के उपयोग से विरोधाभास को हल किया जा सकता है, जो यह निर्धारित करता है कि किन चरों को नियंत्रित करना चाहिए। लेकिन डेटा अकेले आपको बता नहीं सकते कि कौन सा समूह सार्थक है। आपको दुनिया के काम करने के सिद्धांत की आवश्यकता है।

हम अभी भी एक सार्वभौमिक नियम के बारे में नहीं जानते कि कब उपसमूहों के विपरीत समूहीकृत डेटा को भरोसा करना चाहिए। विरोधाभास अर्थशास्त्र से लेकर आनुवांशिकी तक के क्षेत्रों में दोहराता है, अक्सर वास्तविक दुनिया के परिणामों के साथ। एक दवा जो प्रत्येक उपसमूह के मरीजों को मदद करती है, अगर उपसमूह असंतुलित होते हैं, तो कुल परीक्षण में हानिकारक लग सकती है। एकमात्र सुरक्षा ध्यान से नियोजित प्रयोगात्मक डिज़ाइन और एक स्पष्ट प्रश्न पूछने की इच्छा है: छिपा हुआ चर क्या है?

2018 के एक अध्ययन ने अनुमान लगाया कि लगभग 12% यादृच्छिक पाथ मॉडल में जहां दो पूर्ववर्तियों होते हैं, सिम्पसन का विरोधाभास होता है। यह दुर्लभ नहीं है। यह भारित औसतों के साथ असमान समूह आकारों के बारी-बारी से बातचीत का एक लक्षण है।

गहरा सबक

सिम्पसन के विरोधाभास के बारे में एक सांख्यिकी परीक्षा का झूठा प्रश्न नहीं है। यह एक पुनरावृत्ति पैटर्न है जिसमें हम डेटा को गलत तरीके से समझते हैं। बर्कले के मामले को अस्वीकृत कर दिया गया था, लेकिन केवल एक धैर्यपूर्वक विभाग-दर-विभाग विश्लेषण के बाद। गुर्दे के पत्थर का अध्ययन शल्य चिकित्सा अभ्यास में बदलाव कर दिया। विरोधाभास हमें मान्य करने के लिए मजबूर करता है कि संख्याएं अपने आप में बोल नहीं सकती हैं—उन्हें संदर्भ, कारण और एक स्पष्ट प्रश्न की आवश्यकता है। अगली बार जब आप किसी चौंकाने वाली प्रवृत्ति के बारे में एक शीर्षक देखें, तो पूछें: उपसमूहों में क्या छिपा हुआ है?