#280 · The Prisoner's Dilemma

A mathematical proof that two perfectly rational individuals might choose to betray each other, even when cooperation offers a better reward, the Prisoner's Dilemma explains why the world remains locked in arms races and price wars.

Two suspects are held in separate cells. The evidence against them is thin, enough only to secure a one-year sentence for a minor infraction. The prosecutor, seeking a conviction on the major charge, offers each a bargain: testify against your partner and go free, while they serve three years. If both testify, they both get two years. If both remain silent, they both take the one-year hit. In the silence of the interrogation wing, the logic of the situation begins to exert a cold, mathematical pressure. If your partner is silent, you should betray them to go free. If your partner betrays you, you must betray them back to avoid the full three-year term. For the individual, the logic is unassailable. For the pair, it is a disaster.

This parable was not born in a police station, but in the sun-drenched offices of the RAND Corporation in Santa Monica. In January 1950, two mathematicians named Merrill Flood and Melvin Dresher formulated a simple game to test how people actually made choices. They were working in the shadow of the early Cold War, a period where the survival of the species seemed to hinge on the strategic calculations of two superpowers. They brought in two colleagues, Armen Alchian and John Williams, to play 100 rounds of the game. To their surprise, the players did not always betray each other. They found a way to cooperate, much to the annoyance of John von Neumann, who had pioneered the field of game theory and expected more ruthless efficiency.

Two separate interrogation rooms sit in the same old police station corridor Illustration · AI-generated (FLUX.1-dev)

Later that year, a Princeton mathematician named Albert W. Tucker was asked to explain these experiments to a group of psychologists at Stanford. To make the abstract matrices of Flood and Dresher relatable, he invented the story of the two prisoners. In doing so, he created the most influential thought experiment of the twentieth century.

The logic of betrayal

The dilemma is defined by a specific payoff hierarchy. In the language of the discipline, the reward for mutual cooperation (R) must be lower than the temptation to defect (T), but the punishment for mutual defection (P) must be better than the 'sucker's payoff' (S) of being betrayed. Mathematically, the order is T > R > P > S. This creates a Nash equilibrium at mutual defection. In a single-round game, there is no 'safe' way to cooperate. To trust is to risk the worst possible outcome, while to betray is to ensure you never receive the sucker's payoff.

A 1950s RAND-style research office contains mathematicians gathered around a table with po Illustration · AI-generated (FLUX.1-dev)

This structure explains more than just criminal psychology; it models the logic of the Cold War arms race. If both nations disarm, they both save billions and increase global safety. But if one disarms and the other does not, the disarmed nation faces existential ruin. Therefore, both nations continue to build missiles they hope never to use, spending vast sums to achieve a state of mutual suspicion that is objectively worse than mutual trust. The same logic applies to price wars between firms, where competing to lower prices eventually erodes the profits of everyone involved, yet neither side can afford to be the first to stop.

A physical landscape model on a tabletop shows two small decision tokens sliding into a sh Illustration · AI-generated (FLUX.1-dev)

The shadow of the future

The bleakness of the single-round dilemma changes when the game is played repeatedly. In the late 1970s, Robert Axelrod, a political scientist at the University of Michigan, organised a series of computer tournaments to find the best strategy for the 'iterated' version of the game. He invited experts to submit programs that would play against each other thousands of times. The winner was not a complex, predatory algorithm, but a simple four-line program called Tit for Tat, submitted by Anatol Rapoport.

A late-1970s computer lab at the University of Michigan shows researchers running iterated Illustration · AI-generated (FLUX.1-dev)

Tit for Tat followed a transparently simple rule: cooperate on the first move, then do whatever the opponent did on the previous move. It was nice (never the first to defect), retaliatory (it punished defection immediately), and forgiving (it returned to cooperation as soon as the opponent did). Axelrod argued that Tit for Tat succeeded because it fostered the 'shadow of the future'. When players know they will meet again, the long-term benefit of a cooperative relationship outweighs the short-term gain of a single betrayal. This insight provided a mathematical basis for the evolution of altruism in evolutionary biology, explaining how cooperation can emerge in a world of selfish genes.

What we still don't know

We do not yet understand the full impact of 'zero-determinant' strategies. In 2012, William Press and Freeman Dyson discovered a class of strategies that allow a player to unilaterally dictate the score of their opponent, regardless of what the opponent does. This discovery unsettled decades of belief that Tit for Tat-style reciprocity was the evolutionary pinnacle, suggesting that under certain conditions, a sophisticated bully can still dominate a cooperative population.

Two business rivals sit across a narrow conference table Illustration · AI-generated (FLUX.1-dev)

We also lack a complete model for how these dilemmas scale to millions of participants. While two-player games are well-mapped, 'N-player' dilemmas—such as global climate change or the management of the oceans—behave differently. In these scenarios, the impact of a single person's defection is diluted, making the 'Tragedy of the Commons' far harder to solve with simple reciprocity.

A reef cleaning station shows small cleaner fish working around the gills of a much larger Illustration · AI-generated (FLUX.1-dev)

Finally, the role of human neurobiology remains a frontier. Real humans cooperate far more often than the 'rational' models of classical economics predict. Experiments in neuroeconomics suggest that the human brain receives a distinct dopamine reward for mutual cooperation, implying that our evolution has hard-wired us to feel the 'shadow of the future' as a physical sensation. We are still mapping the circuitry that allows us to ignore the math and take the risk of trust.

Cooperation is not a default state of nature, but a hard-won equilibrium. It requires a memory of the past and a stake in the future. Without those, the bars of the dilemma remain firmly in place.

一个数学证明表明，两个完全理性的个体可能会选择互相背叛，即使合作能带来更好的结果。这就是“囚徒困境”，它解释了为何世界始终陷入军备竞赛和价格战的僵局。

两个嫌疑人被关在不同的牢房里。针对他们的证据很薄弱，仅足以让他们因小过失被判一年监禁。检察官为了能在大罪名上定罪，向他们每人提出交易：如果你出卖你的同伙，你就可以被释放，而你的同伙将服刑三年。如果两人都出卖对方，他们都将被判两年；如果两人都保持沉默，他们都将被判一年。在审讯室的沉默中，这种情境的逻辑开始施加一种冰冷的数学压力。如果你的同伙保持沉默，你应该背叛他们以获得自由；如果你的同伙背叛了你，你必须背叛他们以避免三年的刑期。对个人来说，这种逻辑是无懈可击的；但对两人来说，却是一场灾难。

这个寓言并非诞生于警察局，而是在阳光明媚的RAND Corporation办公室中诞生的。1950年1月，两位数学家梅里尔·弗洛德和梅尔文·德雷舍设计了一个简单的游戏，以测试人们如何做出选择。他们正处于冷战初期的阴影之下，那时物种的存亡似乎取决于两个超级大国的战略计算。他们邀请了两位同事阿梅恩·阿尔奇安和约翰·威廉姆斯进行100轮游戏。令他们惊讶的是，玩家并不总是互相背叛。他们找到了一种合作的方式，这让John von Neumann感到恼火，后者是game theory领域的先驱，原本期望看到更无情的效率。

同年晚些时候，一位普林斯顿大学的数学家Albert W. Tucker被邀请向斯坦福大学的一群心理学家解释这些实验。为了使弗洛德和德雷舍的抽象矩阵变得易于理解，他创造了两个囚犯的故事。通过这样做，他创造了二十世纪最具影响力的思维实验。

背叛的逻辑

这个困境由特定的收益层次结构定义。用该学科的语言来说，相互合作的回报（R）必须低于背叛的诱惑（T），但相互背叛的惩罚（P）必须优于被背叛的“傻瓜回报”（S）。数学上，顺序是T > R > P > S。这在相互背叛时产生了一个Nash equilibrium。在单轮游戏中，合作没有“安全”的方式。信任意味着冒着最糟糕结果的风险，而背叛则能确保你永远不会成为傻瓜。

这种结构解释的不仅仅是犯罪心理学；它还模拟了冷战军备竞赛的逻辑。如果两个国家都裁军，他们都能节省数十亿资金并提高全球安全。但如果一个国家裁军而另一个不裁军，裁军的国家将面临生存危机。因此，两个国家继续建造他们希望永远不用的导弹，花费巨额资金来实现一种相互猜疑的状态，这在客观上比相互信任要糟糕得多。同样的逻辑也适用于企业之间的价格战，竞争压低价格最终会侵蚀所有人的利润，但任何一方都无法承担第一个停止降价的风险。

未来的阴影

当游戏重复进行时，单轮困境的悲观情绪会发生变化。在20世纪70年代末，Robert Axelrod，密歇根大学的一位政治学家，组织了一系列计算机比赛，以寻找“迭代”版本游戏的最佳策略。他邀请专家提交程序，让它们相互对抗数千次。获胜的并不是一个复杂、掠夺性的算法，而是一个名为Tit for Tat的简单四行程序，由阿纳托尔·拉波波特提交。

“以牙还牙”遵循一个透明而简单的规则：第一回合合作，之后模仿对手上一回合的行动。它既友善（从不率先背叛），又报复性强（立即惩罚背叛），还宽容（一旦对手合作就恢复合作）。阿克塞尔罗德认为，“以牙还牙”之所以成功，是因为它培育了“未来的阴影”。当玩家知道他们还会再次相遇时，长期合作关系的收益超过了单次背叛的短期收益。这一洞见为evolutionary biology中利他主义的进化提供了数学基础，解释了在自私基因的世界中，合作是如何出现的。

我们仍然不知道的

我们尚未完全理解“零行列式”策略的影响。2012年，威廉·普雷斯和弗里曼·戴森发现了一类策略，允许玩家单方面决定对手的得分，无论对手采取什么行动。这一发现打破了数十年来“以牙还牙”式互惠是进化顶点的信念，表明在某些条件下，一个复杂的霸凌者仍能支配一个合作群体。

我们还缺乏一个完整的模型来说明这些困境如何扩展到数百万参与者。虽然双人游戏已被充分研究，但“N人”困境——如全球气候变化或海洋管理——的行为却不同。在这些情境中，一个人背叛的影响被稀释了，使得用简单的互惠来解决“公地悲剧”变得更加困难。

最后，人类神经生物学的作用仍然是一个前沿领域。现实中的合作频率远高于经典经济学“理性”模型的预测。神经经济学实验表明，人类大脑在相互合作时会获得一种特殊的多巴胺奖励，这表明我们的进化已经将“未来的阴影”编码为一种身体感觉。我们仍在绘制那些让我们能够忽略数学并承担信任风险的神经回路。

合作并不是自然的默认状态，而是一种艰难赢得的平衡。它需要对过去的记忆和对未来的承诺。没有这些，困境的牢笼将依然牢固。

Una prueba matemática que demuestra cómo dos individuos perfectamente racionales podrían elegir traicionarse mutuamente, aun cuando la cooperación ofrezca una recompensa mejor, el Dilema del Prisionero explica por qué el mundo permanece atrapado en carreras armamentísticas y guerras de precios.

Dos sospechosos están recluidos en celdas separadas. La evidencia en su contra es escasa, suficiente solo para obtener una condena de un año por una infracción menor. El fiscal, deseoso de una condena por el cargo mayor, ofrece a cada uno un trato: delate a su compañero y saldrá libre, mientras que el otro cumplirá tres años. Si ambos testifican, ambos obtendrán dos años. Si ambos permanecen en silencio, ambos recibirán la pena de un año. En el silencio de la sección de interrogatorios, la lógica de la situación comienza a ejercer una presión fría y matemática. Si su compañero permanece en silencio, debería traicionarlo para salir libre. Si su compañero lo traiciona, debe traicionarlo a su vez para evitar la pena completa de tres años. Para el individuo, la lógica es imbatible. Para el par, es un desastre.

Esta parábola no nació en una comisaría, sino en las oficinas soleadas de la RAND Corporation en Santa Mónica. En enero de 1950, dos matemáticos llamados Merrill Flood y Melvin Dresher formularon un juego sencillo para probar cómo las personas realmente toman decisiones. Trabajaban en la sombra de la guerra fría temprana, un periodo en el que la supervivencia de la especie parecía depender de los cálculos estratégicos de dos superpotencias. Llamaron a dos colegas, Armen Alchian y John Williams, para que jugaran 100 rondas del juego. Para su sorpresa, los jugadores no siempre se traicionaban. Encontraron una forma de cooperar, mucho para la molestia de John von Neumann, quien había sentado las bases del campo de la game theory y esperaba una eficiencia más cruel.

Ese mismo año, un matemático de Princeton llamado Albert W. Tucker fue invitado a explicar estos experimentos a un grupo de psicólogos en Stanford. Para hacer las matrices abstractas de Flood y Dresher más comprensibles, inventó la historia de los dos presos. Al hacerlo, creó el experimento mental más influyente del siglo veinte.

La lógica de la traición

El dilema está definido por una jerarquía específica de recompensas. En el lenguaje de la disciplina, la recompensa por cooperación mutua (R) debe ser menor que la tentación de traicionar (T), pero la sanción por traición mutua (P) debe ser mejor que la 'recompensa del tonto' (S) de ser traicionado. Matemáticamente, el orden es T > R > P > S. Esto crea un Nash equilibrium en la traición mutua. En un juego de una sola ronda, no hay manera segura de cooperar. Confiar implica correr el riesgo del peor resultado posible, mientras que traicionar garantiza que nunca recibas la recompensa del tonto.

Esta estructura explica más que la psicología criminal; modela la lógica de la carrera armamentística de la guerra fría. Si ambos países se desarmaran, ambos ahorrarían miles de millones y aumentarían la seguridad global. Pero si uno se desarma y el otro no, el país desarmado enfrenta una ruina existencial. Por lo tanto, ambos siguen construyendo misiles que esperan nunca usar, gastando sumas enormes para lograr un estado de sospecha mutua que es objetivamente peor que la confianza mutua. La misma lógica se aplica a las guerras de precios entre empresas, donde competir para bajar los precios termina erosionando las ganancias de todos, pero ningún bando puede permitirse ser el primero en detenerse.

La sombra del futuro

La tristeza del dilema de una sola ronda cambia cuando el juego se juega repetidamente. A finales de los años setenta, Robert Axelrod, un científico político de la Universidad de Michigan, organizó una serie de torneos por computadora para encontrar la mejor estrategia para la versión 'iterada' del juego. Invitó a expertos a enviar programas que jugaran entre sí miles de veces. El ganador no fue un algoritmo complejo y predador, sino un sencillo programa de cuatro líneas llamado Tit for Tat, enviado por Anatol Rapoport.

El programa Tit for Tat seguía una regla transparentemente simple: coopere en el primer movimiento, y luego haga lo que el oponente hizo en el movimiento anterior. Era amable (nunca el primero en traicionar), retributivo (castigaba inmediatamente la traición) y perdonador (regresaba a la cooperación tan pronto como el oponente lo hiciera). Axelrod argumentó que Tit for Tat tuvo éxito porque fomentó la 'sombra del futuro'. Cuando los jugadores saben que se encontrarán nuevamente, el beneficio a largo plazo de una relación cooperativa supera la ganancia a corto plazo de una traición única. Esta visión proporcionó una base matemática para la evolución del altruismo en evolutionary biology, explicando cómo la cooperación puede surgir en un mundo de genes egoístas.

Lo que aún no sabemos

Todavía no entendemos el impacto completo de las estrategias 'zero-determinant'. En 2012, William Press y Freeman Dyson descubrieron una clase de estrategias que permiten a un jugador dictar unilateralmente la puntuación de su oponente, independientemente de lo que el oponente haga. Este descubrimiento alteró décadas de creencia de que la reciprocidad estilo Tit for Tat era el pico evolutivo, sugiriendo que, bajo ciertas condiciones, un bullicioso sofisticado aún puede dominar una población cooperativa.

También carecemos de un modelo completo para entender cómo estos dilemas se escalan a millones de participantes. Mientras que los juegos de dos jugadores están bien mapeados, los dilemas de 'N jugadores'—como el cambio climático global o la gestión de los océanos—se comportan de manera diferente. En estos escenarios, el impacto de la traición de una sola persona se diluye, haciendo que la 'Tragedia de los Comunes' sea mucho más difícil de resolver con la reciprocidad simple.

Finalmente, el papel de la neurobiología humana sigue siendo un campo por explorar. Los humanos reales cooperan con mucha más frecuencia de lo que los modelos 'racionales' de la economía clásica predicen. Experimentos en neuroeconomía sugieren que el cerebro humano recibe una recompensa dopaminérgica distinta por la cooperación mutua, lo que implica que nuestra evolución nos ha programado para sentir la 'sombra del futuro' como una sensación física. Todavía estamos mapeando la red neuronal que nos permite ignorar las matemáticas y asumir el riesgo de la confianza.

La cooperación no es un estado natural por defecto, sino un equilibrio logrado con esfuerzo. Requiere una memoria del pasado y un interés en el futuro. Sin esos, las barras del dilema permanecen firmemente en su lugar.

Uma prova matemática de que duas pessoas perfeitamente racionais poderiam escolher trair-se mutuamente, mesmo quando a cooperação oferece uma recompensa melhor, a Dilema do Prisioneiro explica por que o mundo permanece preso em corridas armamentistas e guerras de preços.

Dois suspeitos são mantidos em celas separadas. As provas contra eles são frágeis, suficientes apenas para garantir uma condenação de um ano por uma infração menor. O promotor, buscando uma condenação por uma acusação maior, oferece a cada um um acordo: denuncie seu parceiro e saia livre, enquanto este cumpra três anos. Se ambos denunciarem, ambos receberão duas anos. Se ambos permanecerem em silêncio, ambos cumprirão a pena de um ano. Na quietude da ala de interrogatório, a lógica da situação começa a exercer uma pressão fria e matemática. Se seu parceiro estiver em silêncio, você deve trai-lo para sair livre. Se seu parceiro o trair, você deve trair de volta para evitar a pena completa de três anos. Para o indivíduo, a lógica é inatacável. Para o par, é um desastre.

Esta parábola não nasceu em uma delegacia, mas nas salas ensolaradas do RAND Corporation em Santa Monica. Em janeiro de 1950, dois matemáticos chamados Merrill Flood e Melvin Dresher formularam um jogo simples para testar como as pessoas realmente tomavam decisões. Eles trabalhavam sob a sombra da Guerra Fria inicial, um período em que a sobrevivência da espécie parecia depender dos cálculos estratégicos de duas superpotências. Eles convidaram dois colegas, Armen Alchian e John Williams, para jogar 100 rodadas do jogo. Para sua surpresa, os jogadores nem sempre se traíram. Eles encontraram uma maneira de cooperar, muito à irritação de John von Neumann, que havia pioneirizado o campo do game theory e esperava uma eficiência mais implacável.

Mais tarde naquele ano, um matemático de Princeton chamado Albert W. Tucker foi convidado a explicar esses experimentos a um grupo de psicólogos em Stanford. Para tornar as matrizes abstratas de Flood e Dresher compreensíveis, ele inventou a história dos dois prisioneiros. Ao fazer isso, ele criou o experimento mental mais influente do século XX.

A lógica da traição

O dilema é definido por uma hierarquia específica de recompensas. Na linguagem da disciplina, a recompensa pela cooperação mútua (R) deve ser menor do que a tentação de trair (T), mas a punição pela traição mútua (P) deve ser melhor do que a "recompensa do bobo" (S) de ser traído. Matematicamente, a ordem é T > R > P > S. Isso cria um Nash equilibrium na traição mútua. Em um jogo de única rodada, não há forma "segura" de cooperar. Confiar é correr o risco do pior resultado possível, enquanto trair garante que você nunca receba a recompensa do bobo.

Essa estrutura explica mais do que apenas a psicologia criminal; ela modela a lógica da corrida armamentista da Guerra Fria. Se ambas as nações desarmarem, ambas economizam bilhões e aumentam a segurança global. Mas se uma desarmar e a outra não, a nação desarmada enfrenta uma ruína existencial. Portanto, ambas as nações continuam a construir mísseis que esperam nunca usar, gastando quantias enormes para atingir um estado de suspeita mútua que é objetivamente pior do que a confiança mútua. A mesma lógica se aplica às guerras de preços entre empresas, onde a competição para reduzir preços acaba corroendo os lucros de todos envolvidos, mas nenhum lado pode se dar ao luxo de ser o primeiro a parar.

A sombra do futuro

A desolação do dilema de uma única rodada muda quando o jogo é jogado repetidamente. No final dos anos 1970, Robert Axelrod, um cientista político da Universidade de Michigan, organizou uma série de torneios de computador para encontrar a melhor estratégia para a versão "iterada" do jogo. Ele convidou especialistas a submeter programas que jogariam entre si milhares de vezes. O vencedor não foi um algoritmo complexo e predador, mas um programa simples de quatro linhas chamado Tit for Tat, submetido por Anatol Rapoport.

Tit for Tat seguiu uma regra transparentemente simples: coopere na primeira jogada, depois faça o que o oponente fez na jogada anterior. Ele era amigável (nunca o primeiro a trair), retaliatório (punia a traição imediatamente) e perdoável (retornava à cooperação assim que o oponente o fizesse). Axelrod argumentou que Tit for Tat teve sucesso porque fomentou a "sombra do futuro". Quando os jogadores sabem que se encontrarão novamente, o benefício de longo prazo de uma relação cooperativa supera o ganho de curto prazo de uma única traição. Essa revelação forneceu uma base matemática para a evolução da altruísmo em evolutionary biology, explicando como a cooperação pode surgir em um mundo de genes egoístas.

O que ainda não sabemos

Ainda não compreendemos o impacto total das estratégias "zero-determinante". Em 2012, William Press e Freeman Dyson descobriram uma classe de estratégias que permite a um jogador determinar unilateralmente a pontuação de seu oponente, independentemente do que o oponente faça. Essa descoberta abalou décadas de crença de que a reciprocidade do tipo Tit for Tat era o ápice evolutivo, sugerindo que, em certas condições, um bully sofisticado ainda pode dominar uma população cooperativa.

Também não temos um modelo completo para entender como esses dilemas se escalam para milhões de participantes. Enquanto os jogos de dois jogadores estão bem mapeados, os dilemas de "N-jogadores"—como a mudança climática global ou a gestão dos oceanos—comportam-se de forma diferente. Nesses cenários, o impacto da traição de uma única pessoa é diluído, tornando a "Tragédia dos Comuns" muito mais difícil de resolver com reciprocidade simples.

Finalmente, o papel da neurobiologia humana permanece uma fronteira. Humanos reais cooperam muito mais frequentemente do que os modelos "racionais" da economia clássica prevêem. Experimentos em neuroeconomia sugerem que o cérebro humano recebe uma recompensa distinta de dopamina pela cooperação mútua, sugerindo que nossa evolução nos programou geneticamente para sentir a "sombra do futuro" como uma sensação física. Ainda estamos mapeando a circuitaria que nos permite ignorar a matemática e correr o risco da confiança.

A cooperação não é um estado natural de coisas, mas um equilíbrio conquistado. Ela requer uma memória do passado e um interesse no futuro. Sem esses, as grades do dilema permanecem firmemente em seu lugar.

يُفسر معضلة السجين، وهو برهان رياضي يُظهر أن فردين عاقلين تمامًا قد يختاران خيانة بعضهما البعض حتى وإن كانت التحالف أفضل من حيث المكافأة، سبب بقاء العالم مُحاصَرًا في سباق التسلح وحروب الأسعار.

يُحتجز شخصان مشتبه بهما في زنزانات منفصلة. الأدلة ضدهما ضعيفة، كافية فقط لضمان حكم بالسجن لمدة سنة واحدة بتهمة طفيفة. يسعى المدّعي العام إلى إدانتهما بتهمة أكبر، فيعرض على كل منهما صفقة: اتهم شريكك واسأل عن حريتك، بينما يقضي الشريك ثلاث سنوات. إذا اعترفا كلاهما، فسيقضيان سنتين. وإذا بقيا صامتين، فسيواجهان الحكم لمدة سنة واحدة. في صمت جناح الاستجواب، تبدأ منطقية الوضع بفرض ضغط بارد وحسابي. إذا بقي شريكك صامتًا، عليك خانته للحصول على الحرية. وإذا خانك شريكك، عليك أن تخونه أيضًا لتجنب الحكم الكامل لمدة ثلاث سنوات. ومن منظور الفرد، فإن المنطق لا يُنكر. أما بالنسبة للزوجين، فهو كارثة.

ولم تُولَد هذه القصة التوضيحية في قسم شرطة، بل في مكاتب مشمسة تابعة لـ RAND Corporation في سانتا مونيكا. في يناير 1950، وضع رياضيان اثنان يُدعى ميريل فلود وميلفين دريشر لعبة بسيطة لاختبار طريقة اتخاذ الأشخاص لقراراتهم فعليًا. كانوا يعملون في ظل الحرب الباردة المبكرة، فترة تعلقت فيها بقاء الأنواع بالحسابات الاستراتيجية لقوتين عظميين. جلبا زميلين اثنين، أرمن ألكهيان وجان ويليامز، ليلعبا 100 جولة من اللعبة. إلى إحباط John von Neumann، الذي كان قد أسس مجال game theory وانتظر كفاءة أكثر قسوة، لم يخن اللاعبون بعضهم البعض دائمًا. وجدوا طريقة للتعاون.

في وقت لاحق من ذلك العام، طُلب من عالم رياضيات من جامعة برينستون يُدعى Albert W. Tucker أن يشرح هذه التجارب لفريق من علماء النفس في جامعة ستانفورد. لجعل المصفوفات التجريدية لفلود ودريشر ذات صلة، ابتكر قصة الشخصين السجينين. وبذلك، خلق تجربة فكرية الأكثر تأثيرًا في القرن العشرين.

منطق الخيانة

يُعرّف المأزق بسلسلة محددة من المكافآت. في لغة التخصص، يجب أن تكون مكافأة التعاون المتبادل (R) أقل من الرغبة في الخيانة (T)، لكن العقوبة الناتجة عن الخيانة المتبادلة (P) يجب أن تكون أفضل من "العائد على الخاسر" (S) الناتج عن الخيانة. رياضيًا، يكون الترتيب هو T > R > P > S. وهذا يخلق Nash equilibrium في حالة الخيانة المتبادلة. في جولة واحدة، لا توجد طريقة آمنة للتعاون. فالثقة تُعرض لخطر أسوأ نتيجة ممكنة، بينما الخيانة تضمن ألا تتلقى أبدًا العائد على الخاسر.

تُفسر هذه البنية أكثر من مجرد نفسيات الجريمة؛ فهي تُحاكي منطق سباق التسلح في الحرب الباردة. إذا تخلت كلتا الدولتين عن الأسلحة، فستوفر كليهما مليارات الدولارات وتكافئ السلامة العالمية. لكن إذا تخلت إحدى الدولتين ورفضت الأخرى ذلك، فستواجه الدولة المخلة بالأسلحة ريعًا وجوديًا. لذلك، تستمر الدولتان في بناء الصواريخ التي تتمنى ألا تستخدمها، وتصرف مبالغ هائلة لتحقيق حالة من الشك المتبادل التي تُعتبر أسوأ بشكل موضوعي من الثقة المتبادلة. ينطبق نفس المنطق على الحروب التسعيرية بين الشركات، حيث أن التنافس على خفض الأسعار في النهاية يُضعف الأرباح لكل الأطراف المشاركة، ومع ذلك لا يمكن لأي طرف تحمل أن يكون أول من يتوقف.

ظل المستقبل

تغير قتامة المأزق في الجولة الواحدة عندما تُلعب اللعبة مرارًا وتكرارًا. في أواخر سبعينيات القرن العشرين، نظَّم Robert Axelrod، عالم سياسي في جامعة ميتشيغان، سلسلة من بطولات الحاسوب لتحديد أفضل استراتيجية للنسخة "المتكررة" من اللعبة. دعاه إلى خبراء ليُقدِّموا برامج تلعب ضد بعضها آلاف المرات. فازت ليست خوارزمية معقدة وتنافسية، بل برنامج بسيط يحتوي على أربع خطوات يُدعى Tit for Tat، تم تقديمه من قبل أناتول رابوפורט.

يُتبع تيت فور تات قاعدة بسيطة وواضحة: تعاون في أول حركة، ثم افعل ما فعله الخصم في الحركة السابقة. كان لطيفًا (لم يخن أولًا)، وردًا على العدوان (يُعاقب على الخيانة فورًا)، وغفرانًا (يعود إلى التعاون فور أن يعود الخصم). وحَجَّ Axelrod أن تيت فور تات نجح لأنها عززت "ظل المستقبل". عندما يعلم اللاعبون أنهم سيلتقون مرة أخرى، فإن الفائدة طويلة المدى من العلاقة التعاونية تفوق المكاسب قصيرة المدى من الخيانة الواحدة. وقدم هذا الاستنتاج أساسًا رياضيًا لتطور التعاطف في evolutionary biology، مُفسِّرًا كيف يمكن أن يظهر التعاون في عالم الجينات الأنانية.

ما لا نزال لا نعرفه

لا نفهم بعد التأثير الكامل لاستراتيجيات "المحددات الصفرية". في عام 2012، اكتشف ويليام بريس وفريمان دايسون فئة من الاستراتيجيات تسمح للاعب بفرض نتيجة على خصمه بشكل أحادي، بغض النظر عن ما يفعله الخصم. أثار هذا الاكتشاف ارتباكًا في العقدين الماضيين من الاعتقاد بأن تيت فور تات كان قمة التطور التشاركي، مشيرًا إلى أن الظروف المناسبة قد تسمح لبوليسي متطور بالهيمنة على سكان تعاونيين.

نفتقر أيضًا إلى نموذج كامل لفهم كيف تتوسع هذه المأزقات إلى ملايين المشاركين. بينما تكون ألعاب اللاعبين الاثنين جيدة التخطيط، فإن "المأزقات متعددة اللاعبين" مثل تغير المناخ العالمي أو إدارة المحيطات تختلف. في هذه السيناريوهات، تُخفف تأثيرات خيانة فرد واحد من حدة المشكلة، مما يجعل "كارثة الأراضي المشتركة" أكثر صعوبة في الحل عبر التعاون البسيط.

أخيرًا، فإن دور علم الأعصاب البشري لا يزال مجالًا مفتوحًا. يتعاون البشر الحقيقيون بكثرة أكبر مما تتنبأ به نماذج الاقتصاد الكلاسيكي "العقلانية". تشير التجارب في علم الاقتصاد العصبي إلى أن الدماغ البشري يتلقى مكافأة دوبامينية مميزة من التعاون المتبادل، مما يشير إلى أن تطورنا قد جعلنا نشعر بـ "ظل المستقبل" كإحساس جسدي. لا يزال نحن نرسم الدوائر العصبية التي تسمح لنا بتجاهل الرياضيات ومواجهة مخاطرة الثقة.

التعاون ليس حالة طبيعية مسبقة، بل هو توازن مكتسب بجد. يتطلب ذاكرة عن الماضي ومشاركة في المستقبل. دون هذين، تظل قضبان المأزق محصنة.

Une preuve mathématique selon laquelle deux individus parfaitement rationnels pourraient choisir de se trahir mutuellement, même lorsque la coopération offre une meilleure récompense, l'[[Dilemma]] explique pourquoi le monde reste enfermé dans des courses à l'armement et des guerres des prix.

Deux suspects sont enfermés dans des cellules séparées. Les preuves contre eux sont maigres, suffisantes toutefois pour leur valoir une peine d'un an pour une infraction mineure. Le procureur, cherchant à obtenir une condamnation pour une charge majeure, propose à chacun un marché : témoigner contre son partenaire et sortir libre, tandis que ce dernier passera trois ans en prison. Si les deux témoignent, ils obtiennent tous deux deux ans de prison. Si les deux gardent le silence, ils subissent tous deux la peine d'un an. Dans le silence de l'aile d'interrogatoire, la logique de la situation commence à exercer une pression froide, mathématique. Si votre partenaire garde le silence, vous devriez le trahir pour sortir libre. Si votre partenaire vous trahit, vous devez le trahir à votre tour pour éviter la peine maximale de trois ans. Pour l'individu, la logique est inattaquable. Pour le couple, c'est une catastrophe.

Cette parabole n'est pas née dans une gendarmerie, mais dans les bureaux ensoleillés du RAND Corporation à Santa Monica. En janvier 1950, deux mathématiciens nommés Merrill Flood et Melvin Dresher ont formulé un jeu simple pour tester la manière dont les gens prennent réellement leurs décisions. Ils travaillaient à l'ombre de la guerre froide naissante, une période où la survie de l'espèce semblait dépendre des calculs stratégiques de deux superpuissances. Ils ont fait appel à deux collègues, Armen Alchian et John Williams, pour jouer 100 manches du jeu. À leur surprise, les joueurs ne se trahissaient pas toujours. Ils ont trouvé un moyen de coopérer, à la grande irritation de John von Neumann, qui avait pionné le domaine de la game theory et s'attendait à une efficacité plus cruelle.

Plus tard cette même année, un mathématicien de Princeton nommé Albert W. Tucker a été prié d'expliquer ces expériences à un groupe de psychologues de Stanford. Pour rendre les matrices abstraites de Flood et Dresher plus accessibles, il a inventé l'histoire des deux prisonniers. En le faisant, il a créé l'expérience de pensée la plus influente du vingtième siècle.

La logique de la trahison

Le dilemme est défini par une hiérarchie de récompenses spécifique. Dans le langage de la discipline, la récompense pour la coopération mutuelle (R) doit être inférieure à la tentation de trahir (T), mais la punition pour la trahison mutuelle (P) doit être meilleure que la « récompense du couillon » (S) d'être trahi. Mathématiquement, l'ordre est T > R > P > S. Cela crée un Nash equilibrium à la trahison mutuelle. Dans un jeu à une seule manche, il n'existe pas de manière « sûre » de coopérer. Faire confiance, c'est risquer le pire résultat possible, tandis que trahir garantit que vous ne subirez jamais la récompense du couillon.

Cette structure explique bien plus que la psychologie criminelle ; elle modélise la logique de la course aux armements de la guerre froide. Si les deux nations désarment, elles économisent toutes deux des milliards et augmentent la sécurité mondiale. Mais si l'une désarme et pas l'autre, la nation désarmée fait face à une ruine existentielle. Ainsi, les deux nations continuent à construire des missiles qu'elles espèrent ne jamais utiliser, dépensant des sommes énormes pour atteindre un état de méfiance mutuelle qui est objectivement pire que la confiance mutuelle. La même logique s'applique aux guerres des prix entre entreprises, où la concurrence pour abaisser les prix finit par éroder les profits de tous, mais aucun des deux côtés ne peut se permettre d'être le premier à s'arrêter.

L'ombre du futur

L'aspect sombre du dilemme à une seule manche change lorsque le jeu est joué de manière répétée. À la fin des années 1970, Robert Axelrod, un scientifique politique à l'Université du Michigan, a organisé une série de tournois informatiques pour trouver la meilleure stratégie pour la version « itérée » du jeu. Il a invité des experts à soumettre des programmes qui joueraient des milliers de fois les uns contre les autres. Le gagnant n'était pas un algorithme complexe et prédateur, mais un programme simple de quatre lignes appelé Tit for Tat, soumis par Anatol Rapoport.

Tit for Tat suivait une règle transparentement simple : coopérer au premier coup, puis reproduire ce que l'adversaire avait fait au coup précédent. Il était bienveillant (jamais le premier à trahir), réactif (il punissait immédiatement la trahison), et indulgent (il revenait à la coopération dès que l'adversaire le faisait). Axelrod a soutenu que Tit for Tat a réussi parce qu'il favorisait l'« ombre du futur ». Quand les joueurs savent qu'ils se reverront, le bénéfice à long terme d'une relation coopérative l'emporte sur le gain à court terme d'une simple trahison. Cette idée a fourni une base mathématique à l'évolution de l'altruisme en evolutionary biology, expliquant comment la coopération peut émerger dans un monde de gènes égoïstes.

Ce que nous ne savons toujours pas

Nous ne comprenons pas encore pleinement l'impact des stratégies à « déterminant nul ». En 2012, William Press et Freeman Dyson ont découvert une classe de stratégies permettant à un joueur d'imposer unilatéralement le score de son adversaire, indépendamment de ce que fait ce dernier. Cette découverte a bouleversé des décennies de croyance selon laquelle la réciprocité du type Tit for Tat était le sommet évolutif, suggérant que, sous certaines conditions, un malfaiteur sophistiqué peut encore dominer une population coopérative.

Nous manquons également d'un modèle complet pour comprendre comment ces dilemmes s'appliquent à des millions de participants. Bien que les jeux à deux joueurs soient bien cartographiés, les dilemmes à N joueurs — tels que le changement climatique mondial ou la gestion des océans — se comportent différemment. Dans ces scénarios, l'impact d'une trahison individuelle est dilué, rendant la « tragédie des communs » bien plus difficile à résoudre avec une simple réciprocité.

Enfin, le rôle de la neurobiologie humaine reste une frontière. Les êtres humains réels coopèrent bien plus fréquemment que les modèles « rationnels » de l'économie classique ne le prévoient. Des expériences en neuroéconomie suggèrent que le cerveau humain reçoit une récompense dopaminergique distincte pour la coopération mutuelle, ce qui implique que notre évolution nous a programmés pour ressentir l'« ombre du futur » comme une sensation physique. Nous cartographions encore les circuits qui nous permettent d'ignorer les maths et de prendre le risque de la confiance.

La coopération n'est pas un état naturel, mais une équilibre difficilement gagné. Elle exige une mémoire du passé et un intérêt pour le futur. Sans ceux-ci, les barreaux du dilemme restent fermement en place.

Sebuah bukti matematis bahwa dua individu yang sepenuhnya rasional mungkin memilih untuk saling mengkhianati, meskipun kerja sama menawarkan imbalan yang lebih baik, Dilema Tahanan menjelaskan mengapa dunia tetap terjebak dalam perlombaan senjata dan perang harga.

Dua tersangka ditahan di sel terpisah. Bukti terhadap mereka tipis, cukup hanya untuk memastikan hukuman satu tahun karena pelanggaran kecil. Jaksa penuntut, yang ingin memperoleh vonis atas dakwaan utama, menawarkan kesepakatan kepada masing-masing: saksi di hadapan partner Anda dan bebaslah, sementara mereka menjalani hukuman tiga tahun. Jika keduanya bersaksi, mereka berdua mendapatkan dua tahun. Jika keduanya tetap diam, mereka berdua menerima hukuman satu tahun. Dalam keheningan sayap pemeriksaan, logika situasi mulai menimbulkan tekanan dingin yang matematis. Jika partner Anda diam, Anda sebaiknya mengkhianati mereka untuk bebas. Jika partner Anda mengkhianati Anda, Anda harus mengkhianati mereka kembali untuk menghindari hukuman penuh tiga tahun. Bagi individu, logika ini tidak terbantahkan. Bagi pasangan, ini adalah bencana.

Parabel ini tidak lahir di sebuah stasiun polisi, tetapi di kantor-kantor yang terkena sinar matahari dari RAND Corporation di Santa Monica. Pada Januari 1950, dua matematikawan bernama Merrill Flood dan Melvin Dresher merumuskan sebuah permainan sederhana untuk menguji bagaimana sebenarnya orang membuat pilihan. Mereka bekerja dalam bayangan Perang Dingin awal, masa di mana kelangsungan hidup spesies tampaknya bergantung pada perhitungan strategis dua negara adikuasa. Mereka memanggil dua rekan, Armen Alchian dan John Williams, untuk bermain 100 putaran permainan tersebut. Kejutan bagi mereka, para pemain tidak selalu saling mengkhianati. Mereka menemukan cara untuk bekerja sama, yang sangat mengganggu John von Neumann, yang telah memulai bidang game theory dan mengharapkan efisiensi yang lebih brutal.

Akhir tahun itu, seorang matematikawan dari Princeton bernama Albert W. Tucker diminta menjelaskan eksperimen-eksperimen ini kepada sekelompok psikolog di Stanford. Untuk membuat matriks abstrak Flood dan Dresher lebih mudah dipahami, ia menciptakan cerita dua tahanan. Dengan demikian, ia menciptakan eksperimen pemikiran yang paling berpengaruh abad ke-20.

Logika pengkhianatan

Dilema ini didefinisikan oleh hierarki pembayaran tertentu. Dalam bahasa disiplin ini, hadiah untuk kerja sama bersama (R) harus lebih rendah dari godaan untuk mengkhianati (T), tetapi hukuman untuk pengkhianatan bersama (P) harus lebih baik daripada 'hadiah korban' (S) dari pengkhianatan. Secara matematis, urutan ini adalah T > R > P > S. Ini menciptakan Nash equilibrium di pengkhianatan bersama. Dalam permainan satu putaran, tidak ada cara 'aman' untuk bekerja sama. Untuk percaya berarti mengambil risiko terburuk, sementara untuk mengkhianati memastikan Anda tidak pernah menerima hadiah korban.

Struktur ini menjelaskan lebih dari sekadar psikologi kriminal; ini memodelkan logika perlombaan senjata Perang Dingin. Jika kedua negara mengurangi senjata, mereka berdua menghemat miliaran dolar dan meningkatkan keselamatan global. Namun jika satu negara mengurangi senjata dan yang lain tidak, negara yang mengurangi senjata menghadapi kehancuran eksistensial. Oleh karena itu, kedua negara terus membangun rudal yang mereka harap tidak pernah digunakan, menghabiskan jumlah besar uang untuk mencapai keadaan saling curiga yang secara objektif lebih buruk daripada saling percaya. Logika yang sama berlaku pada perang harga antara perusahaan, di mana bersaing untuk menurunkan harga akhirnya mengikis keuntungan semua pihak terlibat, tetapi tidak ada pihak yang mampu mengorbankan diri menjadi yang pertama berhenti.

Bayangan masa depan

Kelamnya dilema satu putaran berubah ketika permainan dimainkan berulang kali. Di akhir tahun 1970-an, Robert Axelrod, seorang ilmuwan politik di University of Michigan, mengadakan serangkaian turnamen komputer untuk menemukan strategi terbaik untuk versi 'iterasi' permainan ini. Ia mengundang para ahli untuk mengirimkan program yang akan bermain satu sama lain ribuan kali. Pemenangnya bukanlah algoritma kompleks yang ganas, tetapi program sederhana empat baris yang disebut Tit for Tat, yang dikirimkan oleh Anatol Rapoport.

Tit for Tat mengikuti aturan yang sangat sederhana: bekerjalah sama di langkah pertama, lalu lakukan apa pun yang lawan lakukan di langkah sebelumnya. Ini bersifat baik (tidak pernah menjadi yang pertama mengkhianati), reaktif (segera menghukum pengkhianatan), dan pemaaf (kembali bekerja sama segera setelah lawan melakukannya). Axelrod berargumen bahwa Tit for Tat berhasil karena memupuk 'bayangan masa depan'. Ketika para pemain tahu mereka akan bertemu kembali, manfaat jangka panjang dari hubungan kerja sama mengatasi keuntungan jangka pendek dari satu kali pengkhianatan. Wawasan ini memberikan dasar matematis bagi evolusi altruisme di evolutionary biology, menjelaskan bagaimana kerja sama bisa muncul di dunia gen-gen egois.

Apa yang kita masih tidak tahu

Kita belum memahami dampak penuh dari strategi-strategi 'zero-determinant'. Pada tahun 2012, William Press dan Freeman Dyson menemukan kelas strategi yang memungkinkan seorang pemain untuk secara sepihak menentukan skor lawannya, terlepas dari apa yang dilakukan lawan. Temuan ini mengganggu keyakinan selama puluhan tahun bahwa keberimbangan saling balas seperti Tit for Tat adalah puncak evolusi, menunjukkan bahwa di bawah kondisi tertentu, seorang penindas yang canggih masih bisa mendominasi populasi yang bekerja sama.

Kita juga tidak memiliki model lengkap untuk memahami bagaimana dilema-dilema ini berkembang ke jutaan peserta. Sementara permainan dua pemain sudah dipetakan dengan baik, dilema 'N-pemain'—seperti perubahan iklim global atau pengelolaan lautan—berbeda. Dalam skenario-skenario ini, dampak pengkhianatan satu orang terasa lebih ringan, membuat 'Tragedi Akses Umum' jauh lebih sulit diatasi hanya dengan balas dendam sederhana.

Akhirnya, peran neurobiologi manusia tetap menjadi wilayah eksplorasi. Manusia nyata jauh lebih sering bekerja sama daripada prediksi model 'rasional' ekonomi klasik. Eksperimen dalam neuroekonomi menunjukkan bahwa otak manusia menerima hadiah dopamin yang khas dari kerja sama bersama, mengisyaratkan bahwa evolusi kita telah memprogram kita secara alami untuk merasakan 'bayangan masa depan' sebagai sensasi fisik. Kita masih memetakan sirkuit yang memungkinkan kita mengabaikan matematika dan mengambil risiko kepercayaan.

Kerja sama bukanlah keadaan alami yang default, tetapi keseimbangan yang sulit diraih. Ia memerlukan ingatan tentang masa lalu dan kepentingan dalam masa depan. Tanpa keduanya, batang-batang dilema tetap terpasang kuat.

Ein mathematischer Beweis dafür, dass zwei vollkommen rationale Individuen dazu entschließen könnten, einander zu verraten, obwohl die Kooperation eine bessere Belohnung verspricht: Das Gefangenendilemma erklärt, warum die Welt festgehalten bleibt in Waffen- und Preiskriegen.

Zwei Verdächtige sitzen in getrennten Zellen. Der Beweis gegen sie ist dünn, gerade genug, um eine einjährige Haftstrafe wegen einer Bagatelle zu rechtfertigen. Der Staatsanwalt, der eine Verurteilung wegen der schwereren Anklage erzielen möchte, bietet jedem eine Vereinbarung an: Zeuge gegen deinen Partner aus und geh frei, während dieser drei Jahre absitzt. Wenn beide aussagen, erhalten beide zwei Jahre. Wenn beide schweigen, müssen beide die einjährige Strafe hinnehmen. In der Stille der Vernehmungsabteilung beginnt die Logik der Situation eine kalte, mathematische Druckwirkung auszuüben. Wenn dein Partner schweigt, solltest du ihn verraten, um frei zu gehen. Wenn dein Partner dich verrät, musst du ihn ebenfalls verraten, um nicht die volle Dreijahresstrafe abzusitzen. Für den Einzelnen ist die Logik unanfechtbar. Für das Paar ist es eine Katastrophe.

Diese Parabel entstand nicht in einer Polizeistation, sondern in den sonnenüberfluteten Büros des RAND Corporation in Santa Monica. Im Januar 1950 formulierte ein Mathematikpaar namens Merrill Flood und Melvin Dresher ein einfaches Spiel, um herauszufinden, wie Menschen ihre Entscheidungen tatsächlich treffen. Sie arbeiteten in der Schattenzeit des frühen Kalten Krieges, einer Epoche, in der das Überleben der Spezies scheinbar von den strategischen Berechnungen zweier Supermächte abhing. Sie holten zwei Kollegen, Armen Alchian und John Williams, herbei, um 100 Runden des Spiels zu spielen. Überraschenderweise betraten die Spieler sich nicht immer gegenseitig. Sie fanden eine Möglichkeit, zusammenzuarbeiten, was John von Neumann sehr ärgerlich fand, der das Feld der game theory begründet hatte und eine höhere rücksichtslose Effizienz erwartete.

Später im selben Jahr wurde ein Princeton-Mathematiker namens Albert W. Tucker gebeten, diese Experimente einer Gruppe von Psychologen an der Stanford-Universität zu erklären. Um die abstrakten Matrizen von Flood und Dresher verständlich zu machen, erfand er die Geschichte der beiden Gefangenen. Damit schuf er das einflussreichste Gedankenexperiment des zwanzigsten Jahrhunderts.

Die Logik des Verrats

Das Dilemma ist durch eine spezifische Gewinhhierarchie definiert. In der Fachsprache muss die Belohnung für gemeinsame Zusammenarbeit (R) niedriger sein als die Versuchung, zu defektieren (T), aber die Strafe für gemeinsame Defektion (P) muss besser sein als die „Sümpferbelohnung“ (S), die man erhält, wenn man verraten wird. Mathematisch ergibt sich die Reihenfolge T > R > P > S. Dies schafft ein Nash equilibrium bei gemeinsamer Defektion. In einem Einzelrunden-Spiel gibt es keine „sichere“ Möglichkeit, zusammenzuarbeiten. Zu vertrauen bedeutet, das schlimmste mögliche Ergebnis zu riskieren, während Verrat sicherstellt, dass man niemals die Sümpferbelohnung erhält.

Diese Struktur erklärt mehr als nur kriminelle Psychologie; sie modelliert die Logik des Kalten Krieges. Wenn beide Nationen sich entwaffnen, sparen sie beide Milliarden und erhöhen die globale Sicherheit. Wenn jedoch eine Nation sich entwaffnet und die andere nicht, sieht sich die entwaffnete Nation existenzieller Ruin gegenüber. Daher bauen beide Nationen weiterhin Raketen, die sie hoffentlich niemals einsetzen, und investieren riesige Summen, um einen Zustand gegenseitigen Misstrauens zu erreichen, der objektiv schlechter ist als gegenseitiges Vertrauen. Dieselbe Logik gilt für Preiskriege zwischen Unternehmen, bei denen das Wettbewerben um niedrigere Preise schließlich die Gewinne aller Beteiligten aushöhlt, doch keiner Partei kann sich leisten, als Erster aufzuhören.

Der Schatten der Zukunft

Die Düsternis des Einzelrundendilemmas ändert sich, wenn das Spiel wiederholt gespielt wird. Ende der 1970er Jahre organisierte Robert Axelrod, ein Politikwissenschaftler an der Universität Michigan, eine Reihe von Computerspielen, um die beste Strategie für die „iterierte“ Version des Spiels zu finden. Er lud Experten ein, Programme einzureichen, die sich gegenseitig tausendfach gegenüberstellen sollten. Der Gewinner war nicht ein komplexes, raubtierhaftes Algorithmus, sondern ein einfaches Vierzeilenprogramm namens Tit for Tat, das von Anatol Rapoport eingereicht wurde.

Tit for Tat folgte einer transparent einfachen Regel: kooperiere in der ersten Runde, und mache anschließend das, was der Gegner in der vorherigen Runde getan hat. Es war freundlich (nie der Erste, der defektiert), rückschlagend (es strafte Defektion sofort) und verzeihend (es kehrte zur Kooperation zurück, sobald der Gegner dies tat). Axelrod argumentierte, dass Tit for Tat erfolgreich war, weil es den „Schatten der Zukunft“ förderte. Wenn Spieler wissen, dass sie sich erneut begegnen, überwiegt der langfristige Gewinn einer kooperativen Beziehung den kurzfristigen Vorteil eines einzelnen Verrats. Diese Erkenntnis lieferte eine mathematische Grundlage für die Evolution von Altruismus in evolutionary biology, und erklärte, wie Kooperation in einer Welt aus egoistischen Genen entstehen kann.

Was wir immer noch nicht wissen

Wir verstehen noch nicht den vollen Einfluss der „zero-determinant“-Strategien. Im Jahr 2012 entdeckten William Press und Freeman Dyson eine Klasse von Strategien, die es einem Spieler ermöglichen, unilaterell den Punktestand seines Gegners zu bestimmen, unabhängig davon, was der Gegner tut. Diese Entdeckung störte Jahrzehnte an Überzeugung, dass die Tit-for-Tat-Reciprozität der evolutionäre Gipfel sei, und deutete an, dass unter bestimmten Bedingungen ein sophistizierter Bully immer noch eine kooperative Bevölkerung dominieren kann.

Wir verfügen auch nicht über ein vollständiges Modell dafür, wie sich diese Dilemmata auf Millionen von Teilnehmern skalieren lassen. Während Zweier-Spiele gut kartografiert sind, verhalten sich „N-Spieler“-Dilemmata – wie der globale Klimawandel oder die Meeresressourcenverwaltung – anders. In diesen Szenarien wird der Einfluss einer einzelnen Defektion verdünnt, wodurch die „Tragödie der Allmende“ weitaus schwerer mit einfacher Reciprozität zu lösen ist.

Schließlich bleibt die Rolle der menschlichen Neurobiologie eine Grenze. Reale Menschen kooperieren weitaus häufiger, als die „rationalen“ Modelle der klassischen Ökonomie vorhersagen. Experimente in der Neuroökonomie deuten darauf hin, dass das menschliche Gehirn eine klare Dopaminbelohnung für gemeinsame Kooperation erhält, was darauf hindeutet, dass unsere Evolution uns dazu veranlagt hat, den „Schatten der Zukunft“ als physisches Gefühl wahrzunehmen. Wir kartieren noch immer die Schaltkreise, die es uns ermöglichen, die Mathematik zu ignorieren und das Risiko des Vertrauens einzugehen.

Kooperation ist kein natürlicher Ausgangszustand, sondern ein mühsam errungenes Gleichgewicht. Es erfordert ein Gedächtnis an die Vergangenheit und ein Interesse an der Zukunft. Ohne diese, bleiben die Gitterstäbe des Dilemmas fest in der Tür.

Математическое доказательство, согласно которому два совершенно рациональных человека могут предпочесть предать друг друга, даже если сотрудничество сулит лучшее вознаграждение, парадокс заключённых объясняет, почему мир остаётся запертым в гонках вооружений и ценовых войнах.

Двое подозреваемых содержатся в отдельных камерах. Доказательства против них слабы, достаточно только, чтобы получить один год заключения за небольшое нарушение. Прокурор, стремясь добиться признания по более серьезному обвинению, предлагает каждому сделку: дать показания против вашего партнера и выйти на свободу, тогда как он проведет три года. Если оба дадут показания, то оба получат по два года. Если оба молчат, то оба проведут по году. В тишине следственного изолятора логика ситуации начинает оказывать холодное математическое давление. Если ваш партнер молчит, вы должны предать его, чтобы выйти на свободу. Если ваш партнер предает вас, вы должны предать его в ответ, чтобы избежать полного трехлетнего срока. Для отдельной личности логика неоспорима. Для пары — это катастрофа.

Эта притча не родилась в полицейском участке, а в солнечных кабинетах RAND Corporation в Сан-Монике. В январе 1950 года два математика по имени Меррилл Флуд и Мелвин Дрешер сформулировали простую игру, чтобы проверить, как люди на самом деле принимают решения. Они работали в тени раннего холодной войны, периода, когда выживание вида казалось зависящим от стратегических расчетов двух сверхдержав. Они привлекли двух коллег, Армена Алчиана и Джона Уильямса, чтобы те сыграли 100 партий в эту игру. К их удивлению, игроки не всегда предавали друг друга. Они нашли способ сотрудничать, что сильно обеспокоило John von Neumann, который заложил основы game theory и ожидал большей жестокой эффективности.

Позже в этом же году математик из Принстона по имени Albert W. Tucker был приглашен объяснить эти эксперименты группе психологов в Стэнфорде. Чтобы сделать абстрактные матрицы Флуда и Дрешера понятными, он придумал историю о двух заключенных. Сделав это, он создал самый влиятельный мысленный эксперимент двадцатого века.

Логика предательства

Дилемма определяется конкретной иерархией вознаграждений. На языке дисциплины, вознаграждение за взаимное сотрудничество (R) должно быть меньше, чем соблазн отказаться (T), но наказание за взаимный отказ (P) должно быть лучше, чем «плата дурака» (S) от предательства. Математически порядок следующий: T > R > P > S. Это создает Nash equilibrium при взаимном отказе. В однократной игре нет «безопасного» способа сотрудничать. Доверять — значит рисковать худшим возможным результатом, тогда как предать — значит гарантировать, что вы никогда не получите плату дурака.

Эта структура объясняет не только преступную психологию, но и логику гонки вооружений холодной войны. Если обе страны разоружаются, то обе экономят миллиарды и повышают глобальную безопасность. Но если одна разоружается, а другая нет, то разоруженная страна сталкивается с существенным разрушением. Поэтому обе страны продолжают строить ракеты, которые надеются никогда не использовать, тратя огромные суммы на достижение состояния взаимного подозрения, которое объективно хуже, чем взаимное доверие. Ту же логику можно применить к ценовым войнам между фирмами, где конкуренция по снижению цен в конечном итоге разрушает прибыль всех, но ни одна сторона не может позволить себе быть первой, кто остановится.

Тень будущего

Мрачность однократной дилеммы меняется, когда игру играют многократно. В конце 70-х годов Robert Axelrod, политолог из университета Мичигана, организовал серию компьютерных турниров, чтобы найти лучшую стратегию для «итеративной» версии игры. Он пригласил экспертов подать программы, которые будут играть друг против друга тысячи раз. Победителем не стала сложная, хищная алгоритм, а простая программа из четырех строк под названием Tit for Tat, поданная Анатолем Рапопортом.

Тит-фор-тат следовало прозрачно простому правилу: сотрудничать на первом ходу, а затем делать то, что соперник делал на предыдущем ходу. Это было дружелюбным (никогда не первым отказываться), реталиатором (немедленно наказывало за отказ), и прощальным (возвращалось к сотрудничеству, как только соперник делал это). Аксельрод утверждал, что Тит-фор-тат победил, потому что он способствовал «тене будущего». Когда игроки знают, что они снова встретятся, долгосральная выгода от кооперативного сотрудничества превосходит краткосрочную выгоду от однократного предательства. Эта находка дала математическую основу для эволюции альтруизма в evolutionary biology, объясняя, как сотрудничество может возникнуть в мире эгоистичных генов.

То, что мы до сих пор не знаем

Мы еще не понимаем полного влияния «нулево-детерминантных» стратегий. В 2012 году Уильям Пресс и Фриман Дайсон обнаружили класс стратегий, которые позволяют игроку односторонне определить результат своего соперника, независимо от того, что делает соперник. Это открытие нарушило десятилетия убеждений, что стратегия типа Тит-за-Тат была эволюционной вершиной, предполагая, что при определенных условиях, изощренный хулиган все еще может доминировать над кооперативным населением.

У нас также нет полной модели того, как эти дилеммы масштабируются до миллионов участников. Хотя двухигровые игры хорошо изучены, «дилеммы N-игроков» — такие как глобальное изменение климата или управление океанами — ведут себя иначе. В этих сценариях влияние отказа одного человека размывается, делая «Трагедию общественных благ» намного сложнее решить с помощью простой взаимности.

Наконец, роль человеческой нейробиологии остается фронтиром. Реальные люди сотрудничают гораздо чаще, чем предсказывают «рациональные» модели классической экономики. Эксперименты в нейроэкономике предполагают, что человеческий мозг получает определенное вознаграждение дофамином за взаимное сотрудничество, что подразумевает, что наша эволюция заложила в нас чувствовать «тень будущего» как физическое ощущение. Мы все еще отображаем схему, которая позволяет нам игнорировать математику и рискнуть доверием.

Сотрудничество не является естественным состоянием, а является твердо завоеванным равновесием. Это требует памяти о прошлом и доли в будущем. Без этого, прутья дилеммы остаются твердо на месте.

एक गणितीय साबित करने वाला कि दो बिल्कुल समझदार व्यक्ति सहयोग एक बेहतर पुरस्कार प्रदान करता है इसके बावजूद भी एक दूसरे के खिलाफ खुले तौर पर कार्रवाई कर सकते हैं, कारावार की समस्या समझाती है कि दुनिया हथियारों की दौड़ और मूल्य युद्ध में क्यों फंसी रहती है।

दो आरोपितों को अलग-अलग कमरों में रखा गया है। उनके खिलाफ साक्ष्य बहुत कमजोर हैं, जिन्हें केवल एक छोटे अपराध के लिए एक वर्ष की सजा दिलाने के लिए पर्याप्त है। एक मुख्य आरोप पर दोषी पाए जाने की कोशिश करते हुए अभियोजक ने प्रत्येक को एक सौदा पेश किया: अपने साथी के खिलाफ गवाही दो और छूट ले लो, जबकि वे तीन वर्ष बर्बाद करें। यदि दोनों गवाही देते हैं, तो दोनों को दो वर्ष मिलेंगे। यदि दोनों चुप रहते हैं, तो दोनों एक वर्ष के लिए दोषी पाए जाएंगे। पूछताछ के अंगूठे में चुप्पी के बीच, परिस्थिति की तर्कशक्ति ठंडी, गणितीय दबाव के रूप में लगने लगती है। यदि आपका साथी चुप रहता है, तो आपको उसे छोड़कर जाना चाहिए। यदि आपका साथी आपके खिलाफ गवाही देता है, तो आपको उसे बदले में छोड़कर तीन वर्ष के पूरे शिकंजे से बचना चाहिए। व्यक्ति के लिए तर्क अपरिहार्य है। जोड़े के लिए यह एक आपदा है।

यह उपमा पुलिस स्टेशन में नहीं बनी, बल्कि सैन टामास में सूरज वाले कार्यालयों में RAND Corporation में बनी। जनवरी 1950 में, मेरिल फ्लूड और मेलविन ड्रेशर नामक दो गणितज्ञों ने लोगों द्वारा वास्तव में चुनाव कैसे किए जाते हैं, इसे परखने के लिए एक सरल खेल बनाया। वे प्रारंभिक ठंडे युद्ध के छाया में काम कर रहे थे, जिस अवधि में प्रजाति का जीवित रहना दो शक्तिशाली शक्तियों की रणनीतिक गणनाओं पर निर्भर प्रतीत हो रहा था। उन्होंने दो सहयोगियों, अर्मेन अल्चियन और जॉन विलियम्स को खेल के 100 राउंड खेलने के लिए बुलाया। उनके अपेक्षा के विपरीत, खिलाड़ियों ने हमेशा एक-दूसरे के खिलाफ गवाही नहीं दी। उन्होंने सहयोग करने का एक तरीका ढूंढ लिया, जिससे John von Neumann को बहुत आक्रोशित हो गया, जिन्होंने game theory के क्षेत्र की शुरुआत की थी और अधिक निर्दयी दक्षता की उम्मीद की थी।

उसी वर्ष के बाद, प्रिंसटन के एक गणितज्ञ Albert W. Tucker को स्टैनफोर्ड में मनोवैज्ञानिकों के एक समूह के लिए इन प्रयोगों की व्याख्या करने के लिए कहा गया। फ्लूड और ड्रेशर के अमूर्त मैट्रिक्स को समझने योग्य बनाने के लिए, उन्होंने दो कैदियों की कहानी बनाई। ऐसा करते हुए, उन्होंने बीसवीं शताब्दी के सबसे प्रभावशाली विचार प्रयोग को बनाया।

बेवफाई की तर्कशक्ति

दिलील को एक विशिष्ट लाभ अनुक्रम द्वारा परिभाषित किया जाता है। विषय की भाषा में, पारस्परिक सहयोग (R) के लिए पुरस्कार कम होना चाहिए बेवफाई के आकर्षण (T) की तुलना में, लेकिन पारस्परिक बेवफाई (P) की सजा बेवफाई (S) के 'सुकर के पुरस्कार' से बेहतर होनी चाहिए। गणितीय रूप से, क्रम T > R > P > S होता है। यह पारस्परिक बेवफाई में एक Nash equilibrium बनाता है। एकल राउंड खेल में, सहयोग करने का कोई 'सुरक्षित' तरीका नहीं है। विश्वास करना सबसे खराब परिणाम के जोखिम को उठाना होता है, जबकि बेवफाई करना सुकर के पुरस्कार को प्राप्त करने से बचना सुनिश्चित करता है।

यह संरचना केवल अपराधी मनोविज्ञान की व्याख्या करती है; ठंडे युद्ध के हथियार विकास के तर्क का मॉडल भी बनाती है। यदि दोनों राष्ट्र हथियार त्याग देते हैं, तो दोनों बिलियन की बचत करते हैं और वैश्विक सुरक्षा बढ़ाते हैं। लेकिन यदि एक हथियार त्याग देता है और दूसरा नहीं, तो त्यागकर राष्ट्र अस्तित्व के विनाश का सामना करता है। इसलिए, दोनों राष्ट्र ऐसे मिसाइलों का निर्माण करते रहते हैं जिनका उपयोग करने की उम्मीद नहीं होती, बड़ी राशि खर्च करके एक ऐसी परिस्थिति बनाते हैं जो पारस्परिक विश्वास की तुलना में वस्तुनिष्ठ रूप से खराब होती है। इसी तर्क का लागू होता है व्यवसायों के बीच कीमत युद्ध में, जहां कीमतों को कम करने की प्रतिस्पर्धा अंततः सभी लगे लाभ को नष्ट कर देती है, लेकिन कोई भी पक्ष रुकने का पहला कदम उठाने के लिए अपने आपको उचित नहीं मानता।

भविष्य की छाया

एकल राउंड दिलील की दुर्गमता बदल जाती है जब खेल बार-बार खेला जाता है। 1970 के अंत में, Robert Axelrod, मिशिगन विश्वविद्यालय के एक राजनीतिक विज्ञानी ने 'पुनरावृत्ति' खेल के लिए सबसे अच्छी रणनीति ढूंढने के लिए कंप्यूटर टूर्नामेंट की एक श्रृंखला आयोजित की। उन्होंने विशेषज्ञों को हजारों बार एक-दूसरे के खिलाफ खेलने वाले कार्यक्रमों को भेजने के लिए आमंत्रित किया। विजेता एक जटिल, शिकारी एल्गोरिथ्म नहीं था, बल्कि एक सरल चार-रेखा कार्यक्रम था जिसे Tit for Tat कहा गया, जिसे एनाटोल रैपोपोर्ट द्वारा प्रस्तुत किया गया था।

टिट फॉर टैट एक पारदर्शी रूप से सरल नियम का पालन करता था: पहले चलने पर सहयोग करें, फिर पिछले चलने पर विपरीत पक्ष के कार्य को दोहराएं। यह अच्छा था (कभी भी पहले बेवफाई नहीं करता), प्रतिशोधी था (यह तुरंत बेवफाई की सजा देता था) और क्षमाशील था (यह तुरंत विपरीत पक्ष के सहयोग में लौट आता था)। एक्सेलरॉड ने तर्क दिया कि टिट फॉर टैट सफल रहा क्योंकि यह 'भविष्य की छाया' को प्रोत्साहित करता था। जब खिलाड़ियों को जानकारी होती है कि वे फिर मिलेंगे, तो एक सहयोगात्मक संबंध का लंबी अवधि का लाभ एकल बेवफाई के तुरंत लाभ से बेहतर होता है। यह दृष्टिकोण ने evolutionary biology में अल्ट्रूइजम के विकास के लिए गणितीय आधार प्रदान किया, जिसमें स्वार्थी जीनों के दुनिया में सहयोग कैसे उभर सकता है, इसे समझाता है।

हम अभी तक नहीं जानते

हम अभी तक 'शून्य-निर्धारक' रणनीतियों के पूर्ण प्रभाव को नहीं समझ पाए हैं। 2012 में, विलियम प्रेस और फ्रीमैन डायसन ने एक रणनीतियों के वर्ग की खोज की जो खिलाड़ी को अपने विपरीत पक्ष के स्कोर को एकलता से निर्धारित करने की अनुमति देती है, भले ही विपरीत पक्ष क्या करे। इस खोज ने दशकों तक टिट फॉर टैट-शैली की पारस्परिकता के आत्मविश्वास के विश्वास को बेअसर कर दिया, जिसका सुझाव है कि निश्चित परिस्थितियों में, एक जटिल बुली का एक सहयोगात्मक जनसंख्या पर शासन करना अभी भी संभव है।

हमारे पास इन दिलीलों के लाखों भागीदारों में पैमाने के लिए पूर्ण मॉडल भी नहीं है। जबकि दो खिलाड़ियों के खेल अच्छी तरह से मैप किए गए हैं, 'एन-खिलाड़ी' दिलीलें—जैसे वैश्विक जलवायु परिवर्तन या महासागरों के प्रबंधन—अलग-अलग व्यवहार करती हैं। इन परिदृश्यों में, एक व्यक्ति की बेवफाई का प्रभाव तनु हो जाता है, जिससे 'सामान्य के दुःख' को सरल पारस्परिकता के साथ हल करना बहुत कठिन हो जाता है।

अंत में, मानव तंत्रिका जैविकी का भूमिका अभी भी एक सीमा है। वास्तविक मनुष्य विश्वसनीय मॉडलों के अनुमान से बहुत अधिक बार सहयोग करते हैं। न्यूरो-अर्थशास्त्र के प्रयोग इंगित करते हैं कि मानव मस्तिष्क को पारस्परिक सहयोग के लिए एक अलग डोपामाइन पुरस्कार मिलता है, जिसका तात्पर्य हमारे विकास ने हमें भौतिक अनुभव के रूप में 'भविष्य की छाया' का अनुभव करने के लिए स्थायी रूप से डिज़ाइन किया है। हम अभी भी उस सर्किट की जांच कर रहे हैं जो हमें गणित को अनदेखा करने और विश्वास के जोखिम को उठाने की अनुमति देता है।

सहयोग प्रकृति की एक प्राकृतिक अवस्था नहीं है, बल्कि एक कठिन लड़ाई का संतुलन है। इसके लिए अतीत की एक स्मृति और भविष्य में एक हिस्सा होना आवश्यक है। उनके बिना, दिलील के बार के अभी भी ठीक से बंद हैं।

협력이 더 나은 결과를 가져올 때에도 두 완전히 이성적인 개인이 서로 배신할 수 있다는 수학적 증명인 '옥죄는 딜레마'는 세계가 무기 경쟁과 가격 전쟁에 갇혀 있는 이유를 설명해 준다.

두 용의자는 별도의 감방에 갇혀 있다. 그들에게 대항하는 증거는 미약해서 단순한 위반으로 1년의 형량을 확보하는 데 그친다. 검사는 주요 혐의로 유죄 판결을 받기를 원해서 각각에게 거래를 제안한다. 동료를 고발하면 가석방되며, 동료는 3년을 복역하게 된다. 둘 다 고발하면 둘 다 2년을 받는다. 둘 다 침묵하면 둘 다 1년의 형량을 받는다. 조사실의 침묵 속에서 상황의 논리는 차가운 수학적 압력을 행사하기 시작한다. 동료가 침묵하면, 당신은 자신을 가석방시키기 위해 그들을 배신해야 한다. 동료가 당신을 배신하면, 당신은 3년의 전체 형량을 피하기 위해 그들을 배신해야 한다. 개인에게는 논리는 불가결하다. 쌍으로 보면, 그것은 재앙이다.

이 비유는 경찰서에서 탄생한 것이 아니라, 산타모니카의 RAND Corporation에서 태양이 가득한 사무실에서 탄생했다. 1950년 1월, 메릴 플러드와 멜빈 드레서라는 두 수학자는 사람들이 실제로 선택을 어떻게 내리는지 테스트하기 위해 간단한 게임을 만들었다. 그들은 초기 냉전 시기, 두 초강대국의 전략적 계산에 종족의 생존이 달려 있었던 시기에 그림자를 드리운 채 일하고 있었다. 그들은 두 동료인 아르멘 알차이안과 존 윌리엄스를 불러 100라운드의 게임을 하게 했다. 놀랍게도, 참가자들은 항상 서로를 배신하지 않았다. 그들은 협력하는 방법을 찾았고, John von Neumann에게는 매우 짜증 나는 일이었는데, 그는 game theory 분야를 선구적으로 개척했으며, 더 냉혹한 효율성을 기대하고 있었다.

그 해 후반, 프린스턴의 수학자 Albert W. Tucker는 스탠포드의 심리학자 그룹에게 이러한 실험을 설명하라는 요청을 받았다. 플러드와 드레서의 추상적인 매트릭스를 실감나게 만들기 위해, 그는 두 피고인의 이야기를 만들었다. 그렇게 함으로써, 그는 20세기 최고로 영향력 있는 사고 실험을 창조했다.

배신의 논리

이 딜레마는 특정한 보상 계급 구조에 의해 정의된다. 학문의 언어로 말하면, 상호 협력의 보상(R)은 배신의 유혹(T)보다 낮아야 한다. 그러나 상호 배신의 벌금(P)은 배신당한 사람의 보상(S)보다 더 나아야 한다. 수학적으로는 T > R > P > S의 순서가 된다. 이는 상호 배신에서 Nash equilibrium를 창출한다. 단일 라운드 게임에서는 협력하는 '안전한' 방법이 없다. 신뢰는 최악의 결과를 위험에 빠뜨리며, 배신은 당신이 결코 '배신 당한 사람'의 보상을 받지 않도록 보장한다.

이 구조는 단순히 범죄 심리학만 설명하는 것이 아니라, 냉전 시기의 무기 경쟁 논리를 모델링한다. 두 국가 모두가 해체하면 양측 모두 수십억을 절약하고 전 세계 안전을 증가시킬 수 있다. 그러나 한 국가가 해체하고 다른 국가가 해제하지 않는다면, 해제한 국가는 존재적 파멸을 맞이한다. 따라서, 양측은 사용하길 원하지 않는 미사일을 계속 제작하며, 상호 불신의 상태를 달성하기 위해 막대한 비용을 지불한다. 이 상태는 상호 신뢰보다 객관적으로 더 나쁜 상태다. 동일한 논리는 회사 간의 가격 전쟁에도 적용된다. 가격을 낮추는 경쟁은 결국 모든 관련자들의 이익을 약화시키지만, 어느 한쪽도 첫 번째로 중단할 여유가 없다.

미래의 그림자

단일 라운드 딜레마의 어두운 측면은 게임이 반복될 때 바뀐다. 1970년대 말, 미시간 대학의 정치학자인 Robert Axelrod는 '반복' 버전의 게임에서 최고의 전략을 찾기 위해 일련의 컴퓨터 토너먼트를 조직했다. 그는 전문가들을 초청하여 서로 수천 번 대결하는 프로그램을 제출하도록 했다. 우승자는 복잡하고 포식적인 알고리즘이 아니라, 아나톨 라포트가 제출한 간단한 네 줄짜리 프로그램인 Tit for Tat이었다.

타이 포 타트는 투명하게 간단한 규칙을 따랐다. 첫 번째 움직임에서는 협력하고, 이후에는 상대방의 이전 움직임을 따라하는 것이다. 이 전략은 친절했으며(첫 번째로 배신하지 않았다), 보복적이었으며(즉시 배신을 처벌했다), 그리고 용서적이었으며(상대방이 협력하면 다시 협력했다). 악셀로드는 타이 포 타트가 성공한 이유는 '미래의 그림자'를 촉진했기 때문이라고 주장했다. 참가자들이 다시 만나게 될 것을 알고 있을 때, 장기적인 협력 관계의 이익이 단기적인 배신의 이익보다 더 크다. 이 통찰은 evolutionary biology에서 이기적인 유전자 세계에서 협력이 어떻게 발생할 수 있는지를 설명하는 수학적 기초를 제공했다.

여전히 모르는 것들

우리는 아직 '제로-디터미넌트' 전략의 전체적인 영향을 이해하지 못하고 있다. 2012년, 윌리엄 프레스와 프리먼 다이슨은 어떤 상대방이 무엇을 하든, 참가자가 단방향으로 상대방의 점수를 일방적으로 결정할 수 있는 전략의 범주를 발견했다. 이 발견은 수십 년 동안 타이 포 타트 스타일의 상호주의가 진화적 정점이라고 믿어졌던 신념을 불안정하게 만들었다. 특정 조건 하에서는, 정교한 괴물이 협력적인 인구를 여전히 지배할 수 있다는 것을 시사한다.

우리는 또한 수백만 명의 참가자로 확장될 때 이러한 딜레마의 전체 모델도 여전히 완성되지 않았다. 두 사람의 게임은 잘 매핑되어 있지만, 'N-플레이어' 딜레마—예를 들어, 글로벌 기후 변화나 해양 관리—는 다르게 작동한다. 이러한 시나리오에서는 단일 개인의 배신이 희석되기 때문에, 단순한 상호주의로 '공유지의 비극'을 해결하는 것이 훨씬 더 어렵다.

마지막으로, 인간 신경생물학의 역할은 여전히 탐구해야 할 영역이다. 실제 인간은 고전 경제학의 '이성적' 모델이 예측하는 것보다 훨씬 더 자주 협력한다. 신경경제학 실험은 인간의 뇌가 상호 협력에 대해 구체적인 도파민 보상을 받는다는 것을 시사한다. 이는 우리의 진화가 '미래의 그림자'를 물리적 감각으로 느끼도록 유전자적으로 고정시켰음을 암시한다. 우리는 여전히 신뢰의 위험을 감수하고 수학을 무시할 수 있게 해주는 회로를 매핑하고 있다.

협력은 자연의 기본 상태가 아니다. 그것은 어렵게 이룬 균형이다. 그것은 과거의 기억과 미래에 대한 이해가 필요하다. 그것이 없으면, 딜레마의 막대기들은 여전히 단단하게 고정되어 있다.

協力がより良い報酬をもたらす状況においてさえ、完全に合理的な二人の個人が互いを裏切る道を選び得るという数学的証明――「囚人のジレンマ」は、世界がなぜ軍拡競争や価格競争の連鎖に囚われ続けているのかを解き明かす。

2人の容疑者が別々の独房に拘束されている。彼らに対する証拠は薄く、軽微な違反で1年の刑を確定させるのが精一杯だ。重大な容疑での有罪判決を目論む検察官は、両者に取引を持ちかける。仲間に不利な証言をすれば釈放するが、仲間は3年の刑に服すことになる、と。もし双方が証言すれば、2人とも2年の刑を受ける。もし双方が沈黙を守れば、2人とも1年の刑で済む。取調棟の静寂の中、状況が孕む論理が冷徹な数学的圧力を加え始める。もし仲間が黙っているなら、釈放されるために裏切るべきだ。もし仲間が自分を裏切るなら、3年のフル刑期を避けるために裏切り返さなければならない。個人にとって、その論理は非の打ち所がない。だが、二人一組にとっては破滅である。

この寓話は警察署で生まれたのではない。サンタモニカにあるRAND Corporationの日当たりの良いオフィスで誕生したのだ。1950年1月、メリル・フラッドとメルヴィン・ドレッシャーという2人の数学者が、人々が実際にどのように選択を行うかをテストするための単純なゲームを考案した。彼らは冷戦初期の暗雲の下で働いていた。それは、種の存続が2つの超大国の戦略的計算にかかっているように思われた時期だった。彼らは同僚のアーメン・アルキアンとジョン・ウィリアムズを呼び寄せ、そのゲームを100回試行させた。驚いたことに、プレイヤーたちは常に裏切り合うわけではなかった。彼らは協力する方法を見つけ出したのだ。John von Neumannにとっては、いささか心外な結果であった。彼はgame theoryの分野を切り開き、より冷酷な効率性を期待していたからだ。

その年の後半、プリンストン大学の数学者Albert W. Tuckerは、スタンフォード大学の心理学者グループにこれらの実験を説明するよう求められた。フラッドとドレッシャーの抽象的な行列を親しみやすくするために、彼は2人の囚人の物語を作り上げた。そうすることで、彼は20世紀で最も影響力のある思考実験を生み出したのである。

裏切りの論理

このジレンマは、特定の利得階層によって定義される。専門用語を使えば、相互協力による報酬（R）は、裏切りへの誘惑（T）よりも低くなければならないが、相互の裏切りによる罰（P）は、裏切られた側の「カモの報い」（S）よりもましでなければならない。数学的には、T > R > P > S という順序になる。これにより、相互の裏切りにおいてNash equilibriumが形成される。1回限りのゲームでは、協力するための「安全な」道は存在しない。信頼することは最悪の結果を招くリスクを負うことであり、裏切ることは決して「カモの報い」を受けないようにすることである。

この構造は、犯罪心理学以上のものを説明している。それは冷戦下の軍拡競争の論理をモデル化しているのだ。もし両国が軍縮すれば、双方が数十億ドルを節約でき、世界の安全性は高まる。しかし、一方が軍縮し、もう一方が軍縮しなければ、軍縮した国は存亡の危機に直面する。それゆえ、両国は決して使わないことを願いながらミサイルを造り続け、客観的には相互信頼よりも劣る相互不信の状態を維持するために莫大な費用を投じる。同じ論理は、企業間の価格競争にも当てはまる。低価格化を競い合うことは最終的に関係者全員の利益を損なうが、どちらの側も最初に手を引く余裕はないのである。

未来の影

1回限りのジレンマの暗澹たる状況は、ゲームが繰り返し行われることで変化する。1970年代後半、ミシガン大学の政治学者Robert Axelrodは、「反復型」のゲームにおける最善の戦略を見つけるために、一連のコンピュータ・トーナメントを企画した。彼は専門家たちを招待し、互いに数千回対戦するプログラムの提出を求めた。勝者は、複雑で捕食的なアルゴリズムではなく、アナトール・ラパポートが提出したTit for Tatという名のわずか4行の単純なプログラムであった。

「しっぺ返し」は、きわめて明快なルールに従っていた。最初の1手は協力し、その後は相手が前の手で行ったことをそのまま実行する、というものだ。それは「親切（自分から先に裏切らない）」であり、「報復的（裏切りには即座に罰を与える）」であり、そして「寛容（相手が協力に戻ればすぐに協力に戻る）」であった。アクセルロッドは、「しっぺ返し」が成功したのは、それが「未来の影」を育んだからだと主張した。プレイヤーが再び出会うことを知っているとき、協力関係を築く長期的な利益は、一度の裏切りによる短期的な利得を上回る。この洞察は、evolutionary biologyにおける利他主義の進化に数学的根拠を与え、利己的な遺伝子の世界でいかにして協力が芽生え得るかを説明した。

未だ知られざるもの

我々は「ゼロ決定」戦略の完全な影響をまだ理解していない。2012年、ウィリアム・プレスとフリーマン・ダイソンは、相手が何をしようとも、一方的に相手のスコアを決定できる一連の戦略を発見した。この発見は、「しっぺ返し」のような互恵性が進化の頂点であるという数十年来の信念を揺るがした。特定の条件下では、洗練された「いじめっ子」が協力的な集団を支配し続けることができることを示唆しているからだ。

また、これらのジレンマが数百万人の参加者にスケールアップした際にどのようになるかについても、完全なモデルを欠いている。2人用のゲームは詳細に解明されているが、地球規模の気候変動や海洋管理といった「N人用」のジレンマは、異なる挙動を示す。これらのシナリオでは、一人の裏切りによる影響が希釈されるため、「コモンズの悲劇」を単純な互恵性で解決することははるかに困難になる。

最後に、人間の神経生物学の役割も未踏の領域である。現実の人間は、古典経済学の「合理的」モデルが予測するよりも、はるかに頻繁に協力し合う。神経経済学の実験によれば、人間の脳は相互協力に対して独特のドーパミン報酬を受け取ることが示唆されており、我々の進化は「未来の影」を身体的な感覚として感じるようにハードウェアとして組み込まれていることを暗示している。我々は、数学を無視して信頼というリスクを取ることを可能にする回路を、今もなお地図に描き続けている最中なのだ。

協力は自然のデフォルト状態ではなく、苦労の末に勝ち取られた均衡である。それは過去の記憶と、未来への利害関係を必要とする。それらがなければ、ジレンマという名の格子は、今も堅固に閉ざされたままであろう。

The Prisoner's Dilemma