← all shorts

Math

Zipf's Law

#189 · 5 min read

In any library, the most common word appears twice as often as the second, and three times as often as the third. This mathematical ghost, known as Zipf’s Law, governs everything from the populations of our largest cities to the distribution of global wealth.

In the Brown Corpus of American English, a million-word snapshot of 1960s prose, the word 'the' appears exactly 69,971 times. It is the undisputed king of the lexicon, accounting for nearly seven per cent of all word occurrences. The second-place contender, 'of', appears 36,411 times—almost exactly half as often. The third, 'and', arrives at 28,852. By the time you reach the tenth most common word, it occurs roughly one-tenth as often as the first. This is not a coincidence of English grammar, but the signature of a rigid mathematical architecture.

This pattern is a classic power law, a relationship where the frequency of an item is inversely proportional to its rank. If you plot the frequency against the rank on a log-log graph, the data points do not wander; they form a stark, straight line descending at a forty-five-degree angle. While the observation had been noted by stenographers and physicists earlier in the century, it was the Harvard University linguist George Kingsley Zipf who, in the 1930s and 40s, demonstrated its startling ubiquity.

The universal hierarchy

Zipf’s Law is indifferent to the medium. It holds for the vocabulary of James Joyce’s *Ulysses* as firmly as it does for the source code of a software package or the metadata of a census report. If you rank the cities of a country by population, the largest city is typically twice the size of the second and ten times the size of the tenth. In the United States, the 2020 census showed New York City at 8.8 million people, followed by Los Angeles at 3.8 million—a ratio that has held steady for decades despite the chaotic movements of millions of individuals.

The same ghost appears in the ledger of global economics, where it is often discussed as the Pareto principle, or the 80/20 rule. It dictates that roughly eighty per cent of the wealth is held by twenty per cent of the population, a distribution that recurs in the number of citations in scientific papers, the volume of traffic to websites, and the size of forest fires. The law suggests that complexity, when left to its own devices, organises itself into a predictable, tiered structure.

The path of least resistance

Zipf himself believed the law was rooted in human psychology. He proposed the 'Principle of Least Effort', arguing that both speakers and listeners instinctively seek to minimise their workload. A speaker wants a small vocabulary of versatile words; a listener wants a large vocabulary of specific, unambiguous ones. The resulting compromise, Zipf argued, is the power law distribution we observe. It is the mathematical equilibrium of efficiency.

Other theorists suggest the law is a byproduct of how systems grow, a process called preferential attachment. In this model, the rich get richer: a city that is already large attracts more migrants; a word that is already common is more likely to be used again. In 1957, the psychologist George Miller offered a more humbling explanation. He showed that if a monkey were to type randomly on a keyboard, with the space bar being hit at a fixed probability, the resulting 'words' would follow Zipf’s Law perfectly. The law, Miller argued, might not be a deep insight into the human mind, but a simple consequence of how we define a word.

What we still don't know

We do not know why the exponent of the law—the slope of that straight line—tends to hover so closely to 1.0. While many systems follow a power law, Zipf’s Law is a specific, 'clean' version of it that appears more often than probability alone would suggest.

We do not know if the law is a fundamental constraint on information or merely a statistical shadow. While it holds for natural languages, it breaks down in some East Asian languages where characters and words do not map cleanly to Western definitions. In these cases, the data curves, refusing to fit the straight-jacket of the power law.

And we do not know if the law can truly distinguish between sense and nonsense. The Voynich Manuscript, a mysterious fifteenth-century text written in an undeciphered script, follows Zipf’s Law with eerie precision. To some, this proves it is a real language waiting to be cracked; to others, it suggests a sophisticated hoaxer who understood the statistical rhythms of speech.

Mathematical patterns often provide a sense of order, but Zipf's Law provides a sense of inevitability. Whether we are building cities or writing novels, we are, it seems, filling out a pre-written form. The words change, but the proportions remain the same.

在任何图书馆中,最常见的词语出现的频率是第二常见的两倍,第三常见的三倍。这种被称为齐普夫定律的数学幽灵,支配着从我们最大城市的人口分布到全球财富分配的一切。

在《布朗语料库》中,这是一个百万词级的1960年代英语语篇快照,单词“the”出现了正好69971次。它是词汇表中无可争议的王者,占所有单词出现次数的近百分之七。排名第二的单词“of”出现了36411次——几乎正好是“the”出现次数的一半。排名第三的“and”出现了28852次。当你到达排名第十的单词时,它的出现频率大约是第一名的十分之一。这并非英语语法的偶然现象,而是严格数学架构的标志。

这种模式是一种经典的power law,即一个项目的频率与其排名成反比的关系。如果你在双对数图上将频率与排名绘制出来,数据点并不会四处游移;它们会形成一条笔直、陡峭的斜线,角度为四十五度。尽管早在本世纪初,速记员和物理学家就注意到了这一现象,但真正在1930年代和40年代证明其广泛存在性的,是Harvard University语言学家George Kingsley Zipf

普遍的等级

齐普夫定律对媒介毫不在意。它对詹姆斯·乔伊斯的《尤利西斯》的词汇与软件包的源代码或人口普查报告的元数据一样有效。如果你按照人口数量对一个国家的城市进行排名,最大的城市通常比第二大城市大两倍,比第十大城市大十倍。2020年的人口普查显示,美国纽约市有880万人,紧随其后的是洛杉矶,有380万人——尽管数以百万计的人口在不断流动,这一比例已经保持了几十年的稳定。

同样的幽灵也出现在全球经济的账本中,通常被称为Pareto principle,或者80/20法则。它规定,大约80%的财富由20%的人口持有,这种分布也出现在科学论文的引用次数、网站的流量以及森林火灾的规模中。这一定律表明,复杂性在不受干预的情况下,会自行组织成一种可预测的层级结构。

最少阻力的路径

齐普夫本人认为,该定律根植于人类心理学。他提出了“最小努力原则”,认为说话者和听者都会本能地寻求最小化自己的工作量。说话者希望使用一个小型的多功能词汇表;听者则希望拥有一个大型的、具体而明确的词汇表。齐普夫认为,这种妥协的结果就是我们观察到的幂律分布。这是效率的数学平衡。

其他理论家则认为,该定律是系统如何增长的副产品,这个过程被称为preferential attachment。在这个模型中,强者愈强:一个已经很大的城市会吸引更多移民;一个已经很常见的单词更可能被再次使用。1957年,心理学家乔治·米勒提出了一个更为谦逊的解释。他证明,如果一只猴子随机地在键盘上打字,且空格键以固定的概率被按下,那么产生的“单词”会完美地遵循齐普夫定律。米勒认为,这一定律可能并不是对人类心理的深刻洞察,而是我们如何定义单词的简单结果。

我们仍不知道的事情

我们不知道为什么定律的指数——即那条直线的斜率——总是非常接近于1.0。虽然许多系统都遵循幂律,但齐普夫定律是其中一种特定且“干净”的版本,它的出现频率比概率本身所暗示的更高。

我们不知道这一定律是信息的基本约束,还是仅仅是一种统计上的影子。虽然它适用于自然语言,但在一些东亚语言中,它会失效,因为这些语言中的字符和单词与西方的定义并不完全对应。在这些情况下,数据会弯曲,拒绝适应幂律的“紧身衣”。

我们也不知道这一定律是否真的能区分有意义和无意义的内容。Voynich Manuscript,一部神秘的十五世纪文本,使用了一种未被破译的书写系统,却以令人不安的精确性遵循着齐普夫定律。对一些人来说,这证明它是一种等待破解的真实语言;对另一些人来说,这表明它是一个了解语言统计节奏的高明骗局。

数学模式常常给人一种秩序感,但齐普夫定律给人一种必然性的感觉。无论我们是在建造城市还是撰写小说,似乎都在填写一份早已写好的表格。词语在变,但比例始终如一。

En cualquier biblioteca, la palabra más común aparece el doble de frecuentemente que la segunda y el triple de veces que la tercera. Este fantasma matemático, conocido como la Ley de Zipf, rige desde las poblaciones de nuestras ciudades más grandes hasta la distribución de la riqueza mundial.

En el Corpus Brown de inglés estadounidense, una instantánea de un millón de palabras de la prosa de los años sesenta, la palabra "the" aparece exactamente 69.971 veces. Es el rey indiscutible del léxico, representando casi el siete por ciento de todas las ocurrencias de palabras. El segundo lugar lo ocupa "of", que aparece 36.411 veces—casi exactamente la mitad de frecuentemente. El tercero, "and", llega a 28.852. Para el momento en que se alcanza la décima palabra más común, su frecuencia es aproximadamente una décima parte de la primera. Este no es un accidente de la gramática inglesa, sino la firma de una arquitectura matemática rígida.

Este patrón es un ejemplo clásico de power law, una relación en la que la frecuencia de un elemento es inversamente proporcional a su rango. Si se representa gráficamente la frecuencia frente al rango en una escala logarítmica, los puntos de datos no se desvían; forman una línea recta y nítida que desciende a un ángulo de cuarenta y cinco grados. Aunque la observación había sido notada anteriormente en el siglo por taquígrafos y físicos, fue el lingüista George Kingsley Zipf Harvard University quien, en las décadas de 1930 y 1940, demostró su asombrosa universalidad.

La jerarquía universal

La ley de Zipf es indiferente al medio. Se cumple tan firmemente para el vocabulario de *Ulises* de James Joyce como para el código fuente de un paquete de software o los metadatos de un informe censal. Si se clasifican las ciudades de un país por población, la ciudad más grande suele ser el doble de grande que la segunda y diez veces más grande que la décima. En los Estados Unidos, el censo de 2020 mostró a Nueva York con 8,8 millones de personas, seguida por Los Ángeles con 3,8 millones—una proporción que ha permanecido estable durante décadas a pesar de los caóticos movimientos de millones de individuos.

El mismo espíritu aparece en la contabilidad de la economía global, donde a menudo se discute como la Pareto principle, o la regla del 80/20. Dicta que aproximadamente el ochenta por ciento de la riqueza es poseída por el veinte por ciento de la población, una distribución que se repite en el número de citas en artículos científicos, el volumen de tráfico a sitios web y el tamaño de los incendios forestales. La ley sugiere que la complejidad, cuando se deja actuar por sí misma, se organiza en una estructura predecible y escalonada.

El camino de menor resistencia

Zipf mismo creía que la ley tenía sus raíces en la psicología humana. Propuso el "Principio de Menor Esfuerzo", argumentando que tanto los hablantes como los oyentes buscan instintivamente minimizar su carga de trabajo. Un hablante quiere un vocabulario pequeño de palabras versátiles; un oyente quiere un vocabulario amplio de palabras específicas y no ambiguas. El compromiso resultante, sostenía Zipf, es la distribución de potencia que observamos. Es el equilibrio matemático de la eficiencia.

Otros teóricos sugieren que la ley es un subproducto de cómo crecen los sistemas, un proceso llamado preferential attachment. En este modelo, los ricos se enriquecen más: una ciudad que ya es grande atrae más migrantes; una palabra que ya es común es más probable que se utilice de nuevo. En 1957, el psicólogo George Miller ofreció una explicación más humilde. Mostró que si un mono tecleara al azar en un teclado, con la tecla de espacio pulsada a una probabilidad fija, las "palabras" resultantes seguirían perfectamente la ley de Zipf. Según Miller, la ley podría no ser una profunda revelación sobre la mente humana, sino una consecuencia simple de cómo definimos una palabra.

Lo que aún no sabemos

No sabemos por qué el exponente de la ley—la pendiente de esa línea recta—tiende a mantenerse tan cerca de 1,0. Aunque muchos sistemas siguen una ley de potencia, la ley de Zipf es una versión específica y "limpia" de ella que aparece con más frecuencia de lo que la probabilidad sola sugeriría.

No sabemos si la ley es una restricción fundamental sobre la información o simplemente una sombra estadística. Aunque se cumple para los lenguajes naturales, se desvanece en algunos lenguajes asiáticos orientales donde los caracteres y las palabras no se corresponden claramente con las definiciones occidentales. En estos casos, los datos se curvan, rechazando encajar en el corsé recto de la ley de potencia.

Y no sabemos si la ley puede realmente distinguir entre sentido y sinsentido. El Voynich Manuscript, un misterioso texto del siglo quince escrito en un alfabeto indescifrable, sigue la ley de Zipf con una precisión inquietante. Para algunos, esto prueba que es un lenguaje real esperando a ser descifrado; para otros, sugiere un bromista sofisticado que entendía los ritmos estadísticos del habla.

Los patrones matemáticos a menudo proporcionan un sentido de orden, pero la ley de Zipf proporciona un sentido de inevitabilidad. Ya sea que estemos construyendo ciudades o escribiendo novelas, parece que estamos completando un formulario previamente escrito. Las palabras cambian, pero las proporciones permanecen las mismas.

Em qualquer biblioteca, a palavra mais comum aparece duas vezes mais frequentemente do que a segunda e três vezes mais do que a terceira. Este fantasma matemático, conhecido como a Lei de Zipf, governa tudo, desde as populações das nossas maiores cidades até a distribuição da riqueza global.

No Corpus Brown da língua inglesa americana, uma amostra de um milhão de palavras da prosa dos anos 60, a palavra "the" aparece exatamente 69.971 vezes. É o rei indiscutível do léxico, representando quase sete por cento de todas as ocorrências de palavras. O segundo colocado, "of", aparece 36.411 vezes—quase exatamente metade da frequência. O terceiro, "and", chega a 28.852. Ao chegar à décima palavra mais comum, ela ocorre aproximadamente uma décima parte da frequência da primeira. Isso não é uma coincidência da gramática inglesa, mas a assinatura de uma arquitetura matemática rígida.

Esse padrão é um clássico power law, uma relação onde a frequência de um item é inversamente proporcional ao seu posto. Se você traçar a frequência contra o posto em um gráfico log-log, os pontos de dados não se desviam; eles formam uma linha reta e nítida descendo a um ângulo de quarenta e cinco graus. Embora a observação já tivesse sido notada por taquigrafos e físicos no início do século, foi o linguista Harvard University George Kingsley Zipf que, nas décadas de 1930 e 40, demonstrou sua presença assustadora e universal.

A hierarquia universal

A Lei de Zipf é indiferente ao meio. Ela se mantém firme na vocabulário de *Ulisses* de James Joyce, assim como na codificação de um pacote de software ou nos metadados de um relatório censitário. Se você classificar as cidades de um país por população, a maior cidade é tipicamente duas vezes maior que a segunda e dez vezes maior que a décima. Na década de 2020, o censo dos Estados Unidos mostrou Nova York com 8,8 milhões de pessoas, seguida por Los Angeles com 3,8 milhões—uma proporção que se manteve estável por décadas, apesar dos movimentos caóticos de milhões de indivíduos.

O mesmo fantasma surge na contabilidade da economia global, onde é frequentemente discutido como o Pareto principle, ou a regra 80/20. Ele determina que aproximadamente oitenta por cento da riqueza é detida por vinte por cento da população, uma distribuição que se repete no número de citações em artigos científicos, no volume de tráfego para sites e no tamanho de incêndios florestais. A lei sugere que a complexidade, quando deixada a si mesma, organiza-se em uma estrutura previsível e hierárquica.

O caminho de menor resistência

Zipf acreditava que a lei estava enraizada na psicologia humana. Ele propôs o "Princípio do Menor Esforço", argumentando que tanto os falantes quanto os ouvintes buscam instintivamente minimizar seu esforço. Um falante deseja uma pequena vocabulário de palavras versáteis; um ouvinte deseja uma grande vocabulário de palavras específicas e inambíguas. O compromisso resultante, argumentou Zipf, é a distribuição de lei de potência que observamos. É o equilíbrio matemático da eficiência.

Outros teóricos sugerem que a lei é um subproduto de como os sistemas crescem, um processo chamado preferential attachment. Nesse modelo, os ricos ficam mais ricos: uma cidade já grande atrai mais migrantes; uma palavra já comum é mais propensa a ser usada novamente. Em 1957, o psicólogo George Miller ofereceu uma explicação mais humilde. Ele mostrou que se um macaco digitasse aleatoriamente em um teclado, com a tecla de espaço sendo acionada com uma probabilidade fixa, as "palavras" resultantes seguiriam a Lei de Zipf perfeitamente. A lei, argumentou Miller, talvez não fosse uma profunda revelação sobre a mente humana, mas uma consequência simples de como definimos uma palavra.

O que ainda não sabemos

Não sabemos por que o expoente da lei—o declive daquela linha reta—tende a se manter tão próximo de 1,0. Embora muitos sistemas sigam uma lei de potência, a Lei de Zipf é uma versão específica e "limpa" dela que aparece com mais frequência do que a probabilidade sozinha sugeriria.

Não sabemos se a lei é uma restrição fundamental sobre a informação ou apenas uma sombra estatística. Embora ela se mantenha nas línguas naturais, ela quebra em algumas línguas asiáticas orientais onde caracteres e palavras não se mapeiam claramente para as definições ocidentais. Nesses casos, os dados curvam-se, recusando-se a se encaixar no molde rígido da lei de potência.

E não sabemos se a lei pode realmente distinguir entre sentido e nonsense. O Voynich Manuscript, um texto misterioso do século quinze escrito em um alfabeto indescifrado, segue a Lei de Zipf com uma precisão inquietante. Para alguns, isso prova que é uma língua real à espera de ser decifrada; para outros, sugere um farsante sofisticado que compreendeu os ritmos estatísticos da fala.

Padrões matemáticos frequentemente fornecem um senso de ordem, mas a Lei de Zipf fornece um senso de inevitabilidade. Seja construindo cidades ou escrevendo romances, parece que estamos preenchendo um formulário já escrito. As palavras mudam, mas as proporções permanecem as mesmas.

في أي مكتبة، يظهر أكثر كلمة شيوعًا ضعف تكرار الثانية، وثلاثة أضعاف تكرار الثالثة. هذا المُعَمَّى الرياضي المعروف بقانون زِيُوف يحكم كل شيء من تعداد سكان أكبر مدننا إلى توزيع الثروة العالمية.

في "مصدر براون" للكتابة الأمريكية، وهو عينة تضم مليون كلمة من النصوص في ستينيات القرن العشرين، تظهر كلمة "the" بالضبط 69,971 مرة. وهي ملك غير منافس لها في القاموس، حيث تشكل ما يقارب 7% من جميع حالات ظهور الكلمات. تأتي الكلمة الثانية، "of"، في المرتبة الثانية بـ36,411 مرة ظهور—أي تقريباً نصف عدد مرات ظهور الكلمة الأولى. والثالثة، "and"، تظهر 28,852 مرة. وبحلول وصولك إلى الكلمة العاشرة الأكثر شيوعاً، تظهر هذه الكلمة بحوالي十分之一 من عدد مرات ظهور الكلمة الأولى. هذه ليست مصادفة في تركيب اللغة الإنجليزية، بل هي توقيع على بنية رياضية صارمة.

هذا النمط هو نموذج power law، علاقة تربط بين تكرار عنصر معين وترتيبه بشكل عكسي. إذا رسمت العلاقة بين التكرار والترتيب على مخطط لوغاريتمي-لوغاريتمي، فإن نقاط البيانات لا تتنقل بل تشكل خطًا واضحًا مستقيمًا ينحدر بزاوية 45 درجة. بينما كانت الملاحظة قد لفتت الانتباه مسبقًا من قبل سcribes وعلماء الفيزياء في بداية القرن، إلا أن Harvard University اللغوي George Kingsley Zipf، في ثلاثينيات واربعينيات القرن العشرين، أظهر بشكل مذهل انتشارها الواسع.

التسلسل العالمي

قانون زيف يتجاهل الوسيط. فهو ينطبق على مفردات كتاب "أوليمس" لجيمس جوييس بنفس القدر من القوة التي ينطبق بها على رمز مصدر برنامج حاسوبي أو البيانات الوصفية للتقرير السكاني. إذا قمت بترتيب مدن الدولة حسب عدد سكانها، فإن المدينة الأكبر حجمًا تكون عادة ضعف حجم الثانية وعشرة أضعاف حجم العاشرة. في الولايات المتحدة، أظهرت بيانات تعداد 2020 أن مدينة نيويورك بلغ عدد سكانها 8.8 مليون نسمة، تليها لوس أنجلوس بـ3.8 مليون نسمة، وهو نسب ثابت استمر لعقود على الرغم من الحركة العشوائية لملايين الأفراد.

نفس الظاهرة تظهر في سجل الاقتصاد العالمي، حيث يُشار إليها عادة باسم Pareto principle، أو قاعدة 80/20. فهي تحدد أن حوالي 80% من الثروة تُحتفظ بها من قبل 20% من السكان، وتكرر هذه التوزيع في عدد الاقتباسات في الأوراق البحثية، حجم الزيارات لمواقع الإنترنت، وحجم حرائق الغابات. يشير القانون إلى أن التعقيد، عندما يُترك لذاته، ينظم نفسه إلى هيكل متوقع ومُقَسَّم.

مسار أقل مقاومة

كان زيف نفسه يعتقد أن القانون مُرتبط بال psychology البشري. فقد اقترح "مبدأ أقل جهد"، مؤكدًا أن المتكلمين والمستمعين يسعون بشكل غريزي إلى تقليل عبء عملهم. يريد المتحدث مفردات قليلة من الكلمات متعددة الاستخدامات؛ بينما يريد المستمع مفردات واسعة من الكلمات المحددة وغير المبهمة. والنتيجة النهائية، بحسب زيف، هي توزيع قانون القوة الذي نلاحظه. وهو ما يُعد التوازن الرياضي للكفاءة.

يؤكد نظريون آخرون أن القانون هو نتيجة جانبية لطريقة نمو الأنظمة، وهي عملية تُعرف باسم preferential attachment. في هذا النموذج، تزداد الثراء ثراءً: المدينة الكبيرة تجذب المزيد من المهاجرين؛ الكلمة الشائعة أكثر احتمالًا للظهور مجددًا. في عام 1957، قدم عالم النفس جورج ميلر تفسيرًا أكثر تواضعًا. فقد أظهر أنه إذا أدخلت قردًا يكتب عشوائيًا على لوحة مفاتيح، مع ضغط مفتاح المسافات باحتمال ثابت، فإن "الكلمات" الناتجة ستتبع قانون زيف بدقة مثيرة. فقد أشار ميلر إلى أن القانون ربما لا يكون رؤية عميقة في عقل الإنسان، بل مجرد نتيجة بسيطة لطريقة تعريفنا لكلمة.

ما لا نزال لا نعرفه

لا نعرف سبب اتجاه الأس في القانون—معدل ميل تلك الخط المستقيم—للاستقرار بالقرب من 1.0. بينما تتبع العديد من الأنظمة قانون القوة، إلا أن قانون زيف هو نسخة محددة و"نظيفة" من هذا القانون تظهر أكثر مما تشير إليه الاحتمالات وحدها.

لا نعرف إن كان القانون قيدًا أساسيًا على المعلومات أو مجرد ظل إحصائي. بينما ينطبق القانون على اللغات الطبيعية، إلا أنه ينكسر في بعض اللغات الآسيوية الشرقية حيث لا تتوافق الأحرف والكلمات بشكل واضح مع التعريفات الغربية. في هذه الحالات، تميل البيانات إلى الانحناء، رافضة الالتزام بقيود قانون القوة.

ولا نعرف إن كان القانون يستطيع فعلاً التمييز بين المعنى واللامعنى. Voynich Manuscript، نص غامض من القرن الخامس عشر المكتوب بخط غير مفهوم، يتبع قانون زيف بدقة مخيفة. بالنسبة لبعض الناس، هذا يثبت أنه لغة حقيقية تنتظر كسرها؛ بينما يشير آخرون إلى أن هذا يُظهر محتالًا ذا معرفة متقدمة بالأنسجام الإحصائية للكلام.

غالبًا ما توفر الأنماط الرياضية شعورًا بالترتيب، لكن قانون زيف يمنح شعورًا بالضرورة. سواء كنا نبني مدنًا أو نكتب روايات، فإننا، يبدو، نملأ نموذجًا مكتوبًا مسبقًا. تتغير الكلمات، لكن النسب تظل كما هي.

図書館のどの資料においても、最も頻出する単語は二番目に多い単語の2倍、三番目の単語の3倍の出現頻度を持つ。この数学的な幽霊はジップの法則と呼ばれ、私たちの最大都市の人口から世界の富の分布に至るまで、あらゆるものを支配している。

アメリカ英語のブラウン語彙では、1960年代の文章を100万語にわたって分析した結果、「the」という語が正確に69,971回登場した。語彙の王者であり、すべての語の出現回数のほぼ7%を占めている。2位の「of」は36,411回、ほぼ半分の頻度で登場する。3位の「and」は28,852回である。10位の語に達する頃には、その出現回数は1位の10分の1程度になる。これは英語の文法の偶然ではない。これは、厳密な数学的構造の特徴である。

このパターンはpower lawと呼ばれるもので、あるアイテムの出現頻度がその順位に逆比例する関係である。対数グラフに順位と頻度をプロットすると、データ点がさまよったりしない。45度の角度で直線的に下がる明確な直線を描く。この観察は、この世紀の前半に秘書や物理学者たちによって既に指摘されていたが、Harvard Universityの言語学者George Kingsley Zipfが1930年代と40年代に、この法則が驚くほど普遍的であることを示した。

普遍的な階層

ジップの法則は、媒体に無関心である。ジェームズ・ジョイスの『ユリシーズ』の語彙に適用されても、ソフトウェアパッケージのソースコードや人口調査のメタデータにも同様に当てはまる。国中の都市を人口順にランク付けすると、最大の都市は通常、2位の都市の2倍、10位の都市の10倍の規模になる。米国では2020年の国勢調査で、ニューヨーク市の人口は880万人で、次に多いロサンゼルスは380万人だった。これは何十年もの間に数千万人の人々が混沌とした動きをしながらも、その比率が一貫していることを示している。

同じような法則はグローバル経済の記録にも現れ、しばしばPareto principle、または80/20の法則として議論される。それは、約80%の富が人口の20%に集中していることを示す。この分布は、科学論文の引用数、ウェブサイトへのアクセス量、森林火災の規模など、さまざまな場面で現れる。この法則は、複雑さが自らの力に任せられると、予測可能な階層構造に自発的に組織されることを示唆している。

最も抵抗の少ない道

ジップ自身はこの法則が人間の心理に基づいていると考えた。彼は「最小努力の原理」を提案し、話者も聞き手も、本能的に作業量を最小限に抑えようとする傾向があると主張した。話者は多用途の語彙を少数で済ませたいし、聞き手は明確で曖昧さのない特定の語彙を多数持っていたい。ジップは、この妥協によって、私たちは観測されるべきべき乗分布が生まれると主張した。それは効率の数学的均衡である。

別の理論家たちは、この法則がシステムの成長の副産物であると考えている。これをpreferential attachmentと呼ぶ。このモデルでは、豊かな者はさらに豊かになる。すでに大きな都市はさらに多くの移民を引き寄せ、すでに一般的な語は再び使われる可能性が高くなる。1957年、心理学者のジョージ・ミラーは、もっと謙虚な説明を提示した。彼は、あるサルがキーボードをランダムに打鍵し、スペースキーを一定の確率で押すと、その結果として生じる「語」がジップの法則に完璧に従うことを示した。ミラーは、この法則が人間の心への深い洞察ではなく、単に語をどう定義するかという単純な結果である可能性があると主張した。

まだわかっていないこと

私たちは、この法則の指数—つまりその直線の傾き—がなぜ1.0に非常に近い値を維持するのか、まだ知らない。多くのシステムはべき乗分布に従うが、ジップの法則はその特定で「きれいな」バージョンであり、確率論だけでは説明できないほど頻繁に現れる。

私たちは、この法則が情報への基本的な制約であるのか、あるいは単なる統計的な影なのか、まだ知らない。自然言語ではこの法則が成り立つが、漢字や語彙が西洋の定義と明確に一致しない東アジアの言語では、この法則は崩れる。このようなケースでは、データは直線的なべき乗分布の束縛を拒否し、曲線を描く。

そして、私たちはこの法則が本当に意味と無意味を区別できるのか、まだ知らない。Voynich Manuscriptという、15世紀に書かれた謎の未解読の文字は、ジップの法則に驚くほど正確に従っている。ある人にとっては、これは解読待ちの実際の言語であることを証明しているが、別の人にとっては、統計的リズムを理解していた巧妙ないたずら者によるものであることを示唆している。

数学的パターンはしばしば秩序の感覚を与えるが、ジップの法則は必然性の感覚を与える。都市を建設するのも小説を書くのも、私たちはどうやら、すでに書かれたフォームを埋めているようだ。言葉は変わるが、その比率は同じままである。

Dans toute bibliothèque, le mot le plus fréquent apparaît deux fois plus souvent que le second, trois fois plus souvent que le troisième. Ce spectre mathématique, connu sous le nom de loi de Zipf, régit tout, depuis les populations de nos plus grandes villes jusqu'à la distribution de la richesse mondiale.

Dans le corpus Brown de l'anglais américain, un aperçu de un million de mots de la prose des années 1960, le mot « the » apparaît exactement 69 971 fois. Il est le roi incontesté du lexique, représentant près de sept pour cent de toutes les occurrences de mots. Le second, « of », apparaît 36 411 fois — presque exactement la moitié. Le troisième, « and », arrive à 28 852. Lorsque l'on atteint le dixième mot le plus courant, il apparaît environ dix fois moins fréquemment que le premier. Ce n'est pas une coïncidence de la grammaire anglaise, mais la signature d'une architecture mathématique rigoureuse.

Ce modèle est un classique power law, une relation où la fréquence d'un élément est inversement proportionnelle à son rang. Si l'on trace la fréquence en fonction du rang sur un graphique log-log, les points de données ne se dispersent pas ; ils forment une ligne droite, nette, descendant à un angle de quarante-cinq degrés. Bien que cette observation ait été notée par des sténographes et des physiciens dès le début du siècle, c'est le linguiste Harvard University George Kingsley Zipf qui, dans les années 1930 et 1940, a démontré son ubiquité saisissante.

La hiérarchie universelle

La loi de Zipf est indifférente au support. Elle s'applique aussi rigoureusement au vocabulaire de *Ulysse* de James Joyce qu'au code source d'un logiciel ou aux métadonnées d'un rapport de recensement. Si l'on classe les villes d'un pays par population, la plus grande est généralement deux fois plus grande que la deuxième et dix fois plus grande que la dixième. Selon le recensement américain de 2020, New York City comptait 8,8 millions d'habitants, suivie de Los Angeles avec 3,8 millions — un rapport qui a tenu bon pendant des décennies malgré les mouvements chaotiques de millions d'individus.

Le même fantôme apparaît dans le registre de l'économie mondiale, où il est souvent discuté sous le nom de Pareto principle, ou règle des 80/20. Elle stipule que près de 80 pour cent de la richesse sont détenus par 20 pour cent de la population, une distribution qui se retrouve dans le nombre de citations dans les articles scientifiques, le volume de trafic sur les sites web et la taille des incendies de forêt. La loi suggère que la complexité, lorsqu'elle est laissée à elle-même, s'organise en une structure prédéterminée et hiérarchisée.

Le chemin de la moindre résistance

Zipf lui-même croyait que la loi était ancrée dans la psychologie humaine. Il proposa le « Principe de la Moindre Peine », arguant que les locuteurs et les auditeurs cherchent instinctivement à minimiser leur charge de travail. Un locuteur souhaite un vocabulaire réduit de mots polyvalents ; un auditeur, un vocabulaire vaste de mots précis et non ambigus. Le compromis résultant, selon Zipf, est la distribution en loi de puissance que nous observons. C'est l'équilibre mathématique de l'efficacité.

D'autres théoriciens suggèrent que la loi est un sous-produit de la manière dont les systèmes croissent, un processus appelé preferential attachment. Dans ce modèle, les riches deviennent plus riches : une ville déjà grande attire plus d'immigrants ; un mot déjà courant est plus susceptible d'être utilisé à nouveau. En 1957, le psychologue George Miller proposa une explication plus modeste. Il démontra qu'un singe tapant au hasard sur un clavier, avec la barre d'espace pressée à une probabilité fixe, produirait des « mots » suivant parfaitement la loi de Zipf. Selon Miller, la loi ne serait peut-être pas une profonde insight sur l'esprit humain, mais une conséquence simple de la manière dont nous définissons un mot.

Ce que nous ne savons toujours pas

Nous ne savons pas pourquoi l'exposant de la loi — la pente de cette droite — tend à rester si proche de 1,0. Bien que de nombreux systèmes suivent une loi de puissance, la loi de Zipf en est une version spécifique, « propre », qui apparaît plus fréquemment que la probabilité seule ne le suggérerait.

Nous ne savons pas si la loi est une contrainte fondamentale de l'information ou simplement une ombre statistique. Bien qu'elle s'applique aux langues naturelles, elle s'effondre dans certaines langues d'Asie de l'Est, où les caractères et les mots ne correspondent pas clairement aux définitions occidentales. Dans ces cas, les données s'effondrent, refusant de s'adapter à l'emprisonnement rigide de la loi de puissance.

Et nous ne savons pas si la loi peut vraiment distinguer entre le sens et le non-sens. Le Voynich Manuscript, un texte mystérieux du XVe siècle rédigé dans un script indéchiffré, suit la loi de Zipf avec une précision inquiétante. Pour certains, cela prouve qu'il s'agit d'une véritable langue en attente d'être déchiffrée ; pour d'autres, cela suggère un hoaxeur sophistiqué qui comprenait les rythmes statistiques de la parole.

Les modèles mathématiques offrent souvent un sentiment d'ordre, mais la loi de Zipf donne un sentiment d'inévitabilité. Que nous construisions des villes ou écrivions des romans, il semble que nous remplissions un formulaire pré-écrit. Les mots changent, mais les proportions restent les mêmes.

Di setiap perpustakaan, kata yang paling umum muncul dua kali lebih sering daripada kata kedua, dan tiga kali lebih sering daripada kata ketiga. Hantu matematis ini, yang dikenal sebagai Hukum Zipf, mengatur segala sesuatu mulai dari populasi kota-kota terbesar kita hingga distribusi kekayaan global.

Dalam Brown Corpus dari Bahasa Inggris Amerika, cuplikan satu juta kata dari prosa tahun 1960-an, kata 'the' muncul tepat 69.971 kali. Ini adalah raja tak terbantahkan dari leksikon, mengakomodasi hampir tujuh persen dari semua kejadian kata. Penantang kedua, 'of', muncul 36.411 kali—hampir tepat setengah dari frekuensi pertama. Yang ketiga, 'and', tiba di angka 28.852. Saat Anda mencapai kata kesepuluh paling umum, frekuensinya sekitar sepuluh persen dari frekuensi pertama. Ini bukan kebetulan dari tata bahasa Inggris, tetapi tanda dari arsitektur matematis yang ketat.

Pola ini adalah klasik power law, hubungan di mana frekuensi suatu item berbanding terbalik dengan peringkatnya. Jika Anda menggambar grafik log-log frekuensi terhadap peringkat, titik-titik data tidak bergerak sembarangan; mereka membentuk garis lurus tajam yang turun dengan sudut empat puluh lima derajat. Meskipun pengamatan ini telah dicatat oleh stenografer dan fisikawan sejak awal abad ini, adalah Harvard University linguis George Kingsley Zipf yang, pada 1930-an dan 1940-an, membuktikan keberadaannya yang mengejutkan secara umum.

Hierarchy universal

Hukum Zipf tidak membedakan media. Hukum ini berlaku sekuat untuk kosa kata dari *Ulysses* karya James Joyce seperti halnya untuk kode sumber paket perangkat lunak atau metadata laporan sensus. Jika Anda menilai kota-kota suatu negara berdasarkan populasi, kota terbesar biasanya dua kali ukuran kota kedua dan sepuluh kali ukuran kota kesepuluh. Dalam sensus 2020 Amerika Serikat, New York City tercatat 8,8 juta penduduk, diikuti oleh Los Angeles dengan 3,8 juta—rasio yang telah stabil selama dekade meskipun perpindahan jutaan individu terjadi secara kacau.

Sosok yang sama muncul dalam catatan ekonomi global, yang sering dibahas sebagai Pareto principle, atau aturan 80/20. Hukum ini menetapkan bahwa sekitar delapan puluh persen kekayaan dimiliki oleh dua puluh persen populasi, distribusi yang muncul kembali dalam jumlah kutipan pada makalah ilmiah, volume lalu lintas ke situs web, dan ukuran kebakaran hutan. Hukum ini menunjukkan bahwa kompleksitas, jika dibiarkan sendiri, akan mengorganisasi dirinya ke dalam struktur yang dapat diprediksi dan berlapis.

Jalur resistensi terkecil

Zipf sendiri percaya hukum ini berasal dari psikologi manusia. Dia mengusulkan 'Prinsip Usaha Terkecil', berargumen bahwa baik pembicara maupun pendengar secara instinktif berusaha meminimalkan beban kerja mereka. Pembicara ingin kosa kata yang kecil tetapi fleksibel; pendengar ingin kosa kata yang besar dan spesifik, tidak ambigu. Kompromi yang terbentuk, menurut Zipf, adalah distribusi hukum pangkat yang kita amati. Ini adalah keseimbangan matematis dari efisiensi.

Teoretisi lain menyarankan hukum ini adalah efek samping dari cara sistem berkembang, proses yang disebut preferential attachment. Dalam model ini, yang kaya semakin kaya: kota yang sudah besar menarik lebih banyak migran; kata yang sudah umum lebih mungkin digunakan kembali. Pada 1957, psikolog George Miller menawarkan penjelasan yang lebih rendah. Dia menunjukkan bahwa jika seekor monyet mengetik secara acak di keyboard, dengan tombol spasi diketik pada probabilitas tetap, kata-kata 'acak' yang terbentuk akan mengikuti Hukum Zipf secara sempurna. Menurut Miller, hukum ini mungkin bukan wawasan mendalam tentang pikiran manusia, tetapi konsekuensi sederhana dari cara kita mendefinisikan sebuah kata.

Apa yang kita masih tidak tahu

Kita tidak tahu mengapa eksponen hukum—kemiringan garis lurus itu—cenderung berada sangat dekat dengan 1,0. Meskipun banyak sistem mengikuti hukum pangkat, Hukum Zipf adalah versi spesifik, 'bersih' dari hukum tersebut yang muncul lebih sering dari yang diharapkan secara statistik.

Kita tidak tahu apakah hukum ini adalah keterbatasan dasar terhadap informasi atau hanya bayangan statistik. Meskipun berlaku untuk bahasa alami, hukum ini gagal pada beberapa bahasa Asia Timur, di mana karakter dan kata tidak selalu sesuai dengan definisi Barat. Dalam kasus ini, data melengkung, menolak untuk sesuai dengan bingkai lurus hukum pangkat.

Dan kita tidak tahu apakah hukum ini benar-benar dapat membedakan antara makna dan kebodohan. Voynich Manuscript, teks abad kelima belas yang misterius ditulis dalam aksara yang belum terpecahkan, mengikuti Hukum Zipf dengan presisi yang mengganggu. Bagi sebagian orang, ini membuktikan bahwa itu adalah bahasa asli yang menunggu diterjemahkan; bagi yang lain, ini menunjukkan penipuan canggih yang memahami ritme statistik ucapan.

Pola matematis sering memberikan rasa tertib, tetapi Hukum Zipf memberikan rasa keharusan. Apakah kita membangun kota atau menulis novel, tampaknya kita mengisi formulir yang sudah ditulis sebelumnya. Kata-kata berubah, tetapi proporsinya tetap sama.

В любой библиотеке самое частое слово встречается в два раза чаще, чем второе, и в три раза чаще, чем третье. Этот математический призрак, известный как закон Ципфа, управляет всем — от численности населения наших крупнейших городов до распределения мирового богатства.

В корпусе Брауна, миллиардном снимке английской прозы 1960-х годов, слово «the» встречается ровно 69 971 раз. Это несомненный король лексикона, составляющий почти семь процентов от общего числа упоминаний. Второе место занимает слово «of», которое встречается 36 411 раз — почти вдвое реже. Третье место — у слова «and» с 28 852 упоминаниями. К моменту, когда вы дойдёте до десятого по частоте слова, его частота составит примерно одну десятую от частоты первого. Это не случайность английской грамматики, а признак строгой математической архитектуры.

Это явление — классический power law, соотношение, при котором частота элемента обратно пропорциональна его рангу. Если вы построите график зависимости частоты от ранга в логарифмических координатах, точки данных не будут блуждать; они образуют резкую прямую линию, падающую под углом в сорок пять градусов. Хотя наблюдение было отмечено ещё в начале века стенографистами и физиками, именно Harvard University лингвист George Kingsley Zipf в 1930-х и 1940-х годах продемонстрировал его поразительную универсальность.

Универсальная иерархия

Закон Ципфа равнодушен к среде. Он работает так же надёжно для словарного состава «Улисса» Джеймса Джойса, как и для исходного кода программного обеспечения или метаданных демографического отчёта. Если ранжировать города страны по численности населения, крупнейший город обычно в два раза больше второго и в десять раз больше десятого. В США перепись 2020 года показала, что Нью-Йорк насчитывает 8,8 млн человек, за ним следует Лос-Анджелес с 3,8 млн — соотношение, которое оставалось стабильным десятилетиями, несмотря на хаотическое перемещение миллионов людей.

Тот же призрак проявляется в бухгалтерии мировой экономики, где его часто называют Pareto principle или правилом 80/20. Он утверждает, что около 80 процентов богатства принадлежит 20 процентам населения, и такое же распределение повторяется в количестве ссылок на научные работы, объёме трафика на веб-сайтах и размере лесных пожаров. Закон предполагает, что сложность, предоставленная сама себе, организуется в предсказуемую, иерархическую структуру.

Путь наименьшего сопротивления

Сам Ципф считал, что закон коренится в человеческой психологии. Он предложил «Принцип наименьших усилий», утверждая, что и говорящие, и слушающие инстинктивно стремятся минимизировать свою нагрузку. Говорящий хочет иметь небольшой запас универсальных слов, а слушающий — большой запас конкретных, неоднозначных. Результатом компромисса, по мнению Ципфа, является степенное распределение, которое мы наблюдаем. Это математическое равновесие эффективности.

Другие теоретики считают, что закон — побочный продукт того, как системы растут, процесс, называемый preferential attachment. В этой модели богатые становятся богаче: город, который уже велик, привлекает больше мигрантов; слово, которое уже часто используется, вероятнее будет использоваться снова. В 1957 году психолог Джордж Миллер предложил более скромное объяснение. Он показал, что если обезьяна будет случайно печатать на клавиатуре, нажимая клавишу пробела с фиксированной вероятностью, то получившиеся «слова» будут строго соответствовать закону Ципфа. По мнению Миллера, закон может не быть глубоким проникновением в человеческий разум, а быть простым следствием того, как мы определяем слово.

То, чего мы до сих пор не знаем

Мы не знаем, почему показатель закона — наклон этой прямой — склонен держаться так близко к 1,0. Хотя многие системы подчиняются степенному закону, закон Ципфа — это конкретная, «чистая» его версия, которая появляется чаще, чем можно было бы ожидать на основе вероятности.

Мы не знаем, является ли закон фундаментальным ограничением информации или просто статистической тенью. Хотя он работает для естественных языков, он нарушается в некоторых восточноазиатских языках, где символы и слова не соответствуют чётко западным определениям. В этих случаях данные искривляются, отказываясь уместиться в «строгий» фрейм степенного закона.

И мы не знаем, может ли закон действительно отличать смысл от бессмыслицы. Voynich Manuscript, загадочный текст XV века, написанный на неизвестном языке, следует закону Ципфа с тревожной точностью. Для одних это доказывает, что это настоящий язык, ждущий расшифровки; для других — свидетельство продвинутого мошенника, понимающего статистические ритмы речи.

Математические закономерности часто дают чувство порядка, но закон Ципфа даёт чувство неизбежности. Независимо от того, строим ли мы города или пишем романы, похоже, мы заполняем заранее написанную форму. Слова меняются, но пропорции остаются прежними.

In jeder Bibliothek erscheint das am häufigsten verwendete Wort doppelt so oft wie das zweithäufigste und dreimal so oft wie das dritthäufigste. Dieses mathematische Phänomen, bekannt als Zipfsches Gesetz, bestimmt alles von den Bevölkerungen unserer größten Städte bis zur Verteilung des globalen Reichtums.

Im Brown-Korpus der amerikanischen Sprache, einem Millionen-Wörter-Einblick in die Prosa der 1960er Jahre, erscheint das Wort „the“ genau 69.971-mal. Es ist der unangefochtene König des Wortschatzes und macht beinahe sieben Prozent aller Wörterschreibungen aus. Der Zweite, „of“, erscheint 36.411-mal – fast exakt halb so oft. Der Dritte, „and“, kommt auf 28.852. Wenn man das zehnterplatzierte Wort erreicht, tritt es ungefähr ein Zehntel so oft auf wie das erste. Dies ist keine Zufälligkeit der englischen Grammatik, sondern das Zeichen einer strengen mathematischen Architektur.

Dieses Muster ist ein klassischer power law, eine Beziehung, bei der die Häufigkeit eines Elements umgekehrt proportional zu seiner Rangposition ist. Wenn man die Häufigkeit gegen den Rang auf einem Log-Log-Diagramm aufträgt, wandern die Datenpunkte nicht; sie bilden eine klare, gerade Linie, die mit einem Winkel von fünfundvierzig Grad abfällt. Während die Beobachtung bereits im Laufe des Jahrhunderts von Stenografen und Physikern bemerkt worden war, war es der Harvard University-Linguist George Kingsley Zipf, der in den 1930er und 1940er Jahren seine erstaunliche Allgegenwart demonstrierte.

Die universelle Hierarchie

Zipfs Gesetz ist indifferent gegenüber dem Medium. Es gilt ebenso fest für das Vokabular von James Joyces *Ulysses*, wie es es für den Quellcode einer Software oder die Metadaten eines Zensusberichts tut. Wenn man die Städte eines Landes nach Bevölkerungsstand rangiert, ist die größte Stadt typischerweise doppelt so groß wie die zweitgrößte und zehnmal so groß wie die zehntgrößte. Im Jahr 2020 zeigte der US-Zensus New York City mit 8,8 Millionen Menschen, gefolgt von Los Angeles mit 3,8 Millionen – ein Verhältnis, das sich über Jahrzehnte hinweg gehalten hat, trotz der chaotischen Bewegungen von Millionen Individuen.

Der gleiche Geist erscheint in der Bilanz der globalen Wirtschaft, wo er oft als Pareto principle oder 80/20-Regel besprochen wird. Er besagt, dass ungefähr achtzig Prozent des Reichtums von zwanzig Prozent der Bevölkerung besessen werden, eine Verteilung, die sich in der Anzahl der Zitate in wissenschaftlichen Artikeln, dem Verkehrsvolumen zu Webseiten und der Größe von Waldbränden wiederholt. Das Gesetz legt nahe, dass Komplexität, wenn sie ihrem eigenen Kurs überlassen wird, sich in eine vorhersehbare, geschichtete Struktur organisiert.

Der Weg des geringsten Widerstands

Zipf selbst glaubte, dass das Gesetz auf der menschlichen Psychologie beruhe. Er stellte das „Prinzip des geringsten Aufwands“ vor und argumentierte, dass Sprecher und Zuhörer instinktiv versuchen, ihre Arbeitsbelastung zu minimieren. Ein Sprecher möchte ein kleines Vokabular mit vielseitigen Wörtern; ein Zuhörer möchte ein großes Vokabular mit spezifischen, eindeutigen Wörtern. Das daraus resultierende Kompromiss, so Zipf, ist die Potenzverteilung, die wir beobachten. Es ist das mathematische Gleichgewicht der Effizienz.

Andere Theoretiker vermuten, dass das Gesetz eine Nebenerscheinung davon ist, wie Systeme wachsen, ein Prozess, der preferential attachment genannt wird. In diesem Modell wird das Reiche immer reicher: Eine Stadt, die bereits groß ist, zieht mehr Einwanderer an; ein Wort, das bereits verbreitet ist, wird eher erneut verwendet. Im Jahr 1957 bot der Psychologe George Miller eine bescheidenere Erklärung. Er zeigte, dass, wenn ein Affe zufällig auf einer Tastatur tippen würde, wobei die Leertaste mit fester Wahrscheinlichkeit gedrückt wird, die resultierenden „Wörter“ Zipfs Gesetz perfekt folgen würden. Das Gesetz, argumentierte Miller, könnte kein tiefes Erkenntnis über das menschliche Denken sein, sondern nur eine einfache Konsequenz davon, wie wir ein Wort definieren.

Was wir immer noch nicht wissen

Wir wissen nicht, warum der Exponent des Gesetzes – die Steigung jener Geraden – so eng um 1,0 pendelt. Während viele Systeme eine Potenzverteilung folgen, ist Zipfs Gesetz eine spezifische, „saubere“ Version davon, die häufiger auftritt, als allein die Wahrscheinlichkeit es voraussagen würde.

Wir wissen nicht, ob das Gesetz eine grundlegende Einschränkung der Information ist oder lediglich ein statistisches Schattenbild. Während es für natürliche Sprachen gilt, bricht es in einigen ostasiatischen Sprachen zusammen, in denen Zeichen und Wörter nicht klar auf westliche Definitionen abbilden. In diesen Fällen verläuft die Datenlinie, weigert sich, in das gerade Korsett der Potenzverteilung zu passen.

Und wir wissen nicht, ob das Gesetz zwischen Sinn und Unsinn unterscheiden kann. Das Voynich Manuscript, ein geheimnisvoller Text des 15. Jahrhunderts, geschrieben in einem unentzifferten Schriftsystem, folgt Zipfs Gesetz mit erschreckender Präzision. Für einige ist dies ein Beweis dafür, dass es eine echte Sprache ist, die noch entschlüsselt werden muss; für andere deutet es auf einen geschickten Betrüger hin, der die statistischen Rhythmen der Sprache verstand.

Mathematische Muster liefern oft ein Gefühl der Ordnung, aber Zipfs Gesetz vermittelt ein Gefühl der Unvermeidlichkeit. Ob wir Städte bauen oder Romane schreiben, scheinen wir, wie es aussieht, ein bereits geschriebenes Formular auszufüllen. Die Wörter ändern sich, aber die Proportionen bleiben gleich.

किसी भी पुस्तकालय में, सबसे अधिक आम शब्द दूसरे शब्द की तुलना में दोगुना अक्सर और तीसरे शब्द की तुलना में तीन गुना अक्सर आता है। यह गणितीय भूत, जिसे जिप्फ़ सूत्र के नाम से जाना जाता है, हमारे सबसे बड़े शहरों की आबादी से लेकर वैश्विक धन के वितरण तक सबको शासित करता है।

अमेरिकी अंग्रेजी के ब्राउन कॉर्पस में, 1960 के दशक के एक लाख शब्दों के नमूने में, शब्द 'the' के ठीक 69,971 बार आने का अनुमान है। यह शब्द शब्दकोश का अविवादित राजा है, जिसके लगभग सात प्रतिशत शब्दों के उपयोग का अनुमान है। दूसरे स्थान पर आने वाला शब्द 'of' ठीक 36,411 बार आता है—लगभग आधा बार। तीसरा, 'and', 28,852 बार आता है। जब आप दसवें सबसे आम शब्द तक पहुंच जाते हैं, तो यह पहले के एक-दसवें के बराबर होता है। यह अंग्रेजी व्याकरण का एक असंगत नियम नहीं है, बल्कि एक कठोर गणितीय ढांचे का चिह्न है।

यह पैटर्न एक क्लासिक power law है, जहां एक वस्तु की आवृत्ति उसके रैंक के विपरीत अनुपात में होती है। यदि आप आवृत्ति को रैंक के साथ लॉग-लॉग ग्राफ पर बनाते हैं, तो डेटा बिंदु भटकते नहीं हैं; वे एक सीधी रेखा बनाते हैं जो चालीस-पांच डिग्री के कोण पर नीचे की ओर जाती है। जबकि शताब्दी के पहले भाग में इसका अवलोकन शारीरिक लेखकों और भौतिकविदों द्वारा नोट किया गया था, तो यह Harvard University भाषाविद George Kingsley Zipf थे, जिन्होंने 1930 के दशक और 1940 के दशक में इसकी अद्भुत व्यापकता को दिखाया था।

सार्वभौमिक श्रेणीकरण

ज़िप्फ़ के नियम माध्यम के प्रति अनिर्णयात्मक है। यह जेम्स जॉय्स के *यूलिसेस* के शब्दकोश के लिए उतना ही ठीक है जितना कि एक सॉफ्टवेयर पैकेज के स्रोत कोड या जनगणना रिपोर्ट के मेटाडेटा के लिए है। यदि आप देश के शहरों की आबादी के आधार पर रैंक करते हैं, तो सबसे बड़ा शहर आमतौर पर दूसरे का दोगुना और दसवें का दस गुना बड़ा होता है। संयुक्त राज्य अमेरिका में, 2020 की जनगणना ने न्यूयॉर्क शहर को 8.8 मिलियन लोगों के साथ दिखाया, जिसके बाद लॉस एंजिल्स 3.8 मिलियन के साथ आता है—एक अनुपात जो दशकों तक बरकरार रहा है, भले ही मिलियन लोगों के अस्थायी आवागमन के बावजूद।

यही भूत वैश्विक अर्थव्यवस्था के लेखा-परख में भी दिखाई देता है, जहां इसे अक्सर Pareto principle, या 80/20 नियम के रूप में चर्चा की जाती है। यह नियम निर्धारित करता है कि लगभग आठी प्रतिशत संपत्ति जनसंख्या के बीस प्रतिशत द्वारा धारण की जाती है, जो वैज्ञानिक पेपर में उद्धृतियों की संख्या, वेबसाइटों पर ट्रैफ़िक की मात्रा और जंगल के आगों के आकार में दोहराया जाता है। यह नियम संक्षिप्त करता है कि जटिलता, जब अपने आप के साथ छोड़ दी जाती है, तो एक भविष्यवाणी योग्य, तहवाल वाली संरचना में स्वयं को संगठित करती है।

सबसे कम प्रतिरोध वाला मार्ग

ज़िप्फ़ खुद के लिए नियम का विश्वास मनोविज्ञान पर आधारित था। उन्होंने 'सबसे कम प्रयास के सिद्धांत' का प्रस्ताव दिया, जिसमें तर्क दिया कि बोलने वाले और सुनने वाले अपने कार्य भार को न्यूनतम करने के लिए अनुभव के आधार पर खोजते हैं। एक बोलने वाला एक छोटे शब्दकोश के बहुमुखी शब्दों की आवश्यकता करता है; एक सुनने वाला एक बड़े शब्दकोश के विशिष्ट, अस्पष्ट शब्दों की आवश्यकता करता है। ज़िप्फ़ के तर्क से, परिणामी समझौता हम देखते हैं कि शक्ति नियम वितरण है। यह दक्षता के गणितीय संतुलन है।

अन्य सिद्धांतकारों का मानना है कि नियम इस तरह के प्रणालियों के विकास का एक उपजा हुआ नतीजा है, जिसे preferential attachment कहा जाता है। इस मॉडल में, धनी और धनी हो जाते हैं: एक शहर जो पहले से बड़ा है, अधिक प्रवासियों को आकर्षित करता है; एक शब्द जो पहले से आम है, दोबारा उपयोग करने की अधिक संभावना है। 1957 में, मनोवैज्ञानिक जॉर्ज मिलर ने एक अधिक अवहेलनापूर्ण स्पष्टीकरण प्रस्तुत किया। उन्होंने दिखाया कि यदि कोई बंदर एक कीबोर्ड पर यादृच्छिक रूप से टाइप करे, जहां स्पेस बार को एक निश्चित संभावना के साथ दबाया जाता है, तो परिणामी 'शब्द' ज़िप्फ़ के नियम का पूरी तरह से अनुसरण करते हैं। मिलर के तर्क से, नियम मनुष्य के मन के गहरे अंतर्दृष्टि के बजाय यह एक शब्द की परिभाषा के तरीके का एक सरल परिणाम हो सकता है।

जो हम अभी भी नहीं जानते

हम नहीं जानते कि नियम का घातांक—उस सीधी रेखा का ढलान—क्यों लगभग 1.0 के करीब बना रहता है। जबकि कई प्रणालियां एक शक्ति नियम का अनुसरण करती हैं, ज़िप्फ़ का नियम इसका एक विशिष्ट, 'शुद्ध' संस्करण है जो संभावना के अकेले के तुलना में अधिक बार दिखाई देता है।

हम नहीं जानते कि नियम जानकारी पर एक मौलिक प्रतिबंध है या केवल एक सांख्यिकीय छाया है। जबकि यह प्राकृतिक भाषाओं के लिए लागू होता है, तो कुछ पूर्वी एशियाई भाषाओं में यह तोड़ दिया जाता है जहां चरित्र और शब्द पश्चिमी परिभाषाओं के साथ स्पष्ट रूप से मेल नहीं खाते हैं। इन मामलों में, डेटा घुमावदार होता है, शक्ति नियम के सीधे कमीज़ के फिट होने के असंगत होता है।

और हम नहीं जानते कि क्या नियम वास्तव में अर्थ और अर्थहीनता के बीच अंतर कर सकता है। Voynich Manuscript, एक रहस्यमयी पंद्रहवीं शताब्दी का लिखित एक अविच्छेद्य लिपि, ज़िप्फ़ के नियम का भयानक सटीकता से अनुसरण करता है। कुछ के लिए, यह एक वास्तविक भाषा को तोड़ने के लिए साबित करता है; दूसरों के लिए, यह एक जटिल ठग का संकेत है जो बोली के सांख्यिकीय ताल को समझता था।

गणितीय पैटर्न अक्सर एक आदेश की भावना प्रदान करते हैं, लेकिन ज़िप्फ़ का नियम अनिवार्यता की भावना प्रदान करता है। क्या हम शहरों का निर्माण कर रहे हैं या उपन्यास लिख रहे हैं, तो हम लगता है कि एक पहले से लिखे गए फॉर्म को भर रहे हैं। शब्द बदल जाते हैं, लेकिन अनुपात वही रहते हैं।

어떤 도서관에서도 가장 흔한 단어는 두 번째로 흔한 단어보다 두 배, 세 번째로 흔한 단어보다 세 배 더 자주 나타납니다. 이 수학적 유령은 ‘자프의 법칙’으로 알려져 있으며, 우리 최대 도시들의 인구 분포에서부터 전 세계 부의 분배에 이르기까지 모든 현상에 적용됩니다.

미국 영어의 브라운 코퍼스(Brown Corpus)는 1960년대 문장의 백만 단어 분량 스냅샷으로, 여기서 'the'라는 단어는 정확히 69,971번 나타납니다. 이는 어휘계의 분명한 왕이며, 모든 단어 출현의 거의 7퍼센트를 차지합니다. 두 번째로 자주 나타나는 'of'는 36,411번 등장하는데, 거의 절반에 해당합니다. 세 번째는 'and'로 28,852번입니다. 순위가 10위로 내려가면, 1위 단어의 10분의 1 정도로 자주 나타납니다. 이는 영어 문법의 우연한 결과가 아니라, 엄격한 수학적 구조의 특징입니다.

이러한 패턴은 고전적인 power law입니다. 여기서 아이템의 빈도는 순위에 반비례합니다. 로그-로그(log-log) 그래프에 빈도와 순위를 그려보면, 데이터 포인트들이 떠돌지 않고, 45도 각도로 낮아지는 날카로운 직선을 형성합니다. 이 관찰은 20세기 초기의 기록사와 물리학자들에 의해 이미 언급된 바 있지만, Harvard University 언어학자 George Kingsley Zipf가 1930년대와 40년대에 이 패턴이 놀랄 정도로 보편적임을 입증했습니다.

보편적인 계급 구조

지프의 법칙(Zipf's Law)은 매체에 무관합니다. 제임스 조이스(James Joyce)의 『울리세스』(Ulysses) 어휘만큼이나, 소프트웨어 패키지의 소스 코드나 인구 조사 보고서의 메타데이터에도 똑같이 적용됩니다. 한 국가의 도시를 인구 순으로 정렬하면, 가장 큰 도시는 보통 두 번째 도시의 두 배 크기이고, 열 번째 도시의 열 배 크기입니다. 2020년 미국 인구 조사에서 뉴욕시는 880만 명, 다음으로 라스베이거스는 380만 명을 기록했는데, 수십 년간 수많은 개인들의 혼란스러운 이동에도 불구하고 이 비율은 계속 유지되고 있습니다.

동일한 유령은 글로벌 경제의 장부에도 나타나며, 이는 종종 Pareto principle 또는 80/20 법칙으로 논의됩니다. 이 법칙은 약 80퍼센트의 부가 20퍼센트의 인구에 의해 보유되어 있다는 점을 규정합니다. 이 분포는 과학 논문의 인용 횟수, 웹사이트 방문자 수, 산림 화재의 규모 등에도 반복됩니다. 이 법칙은 복잡성이 스스로에게 맡겨졌을 때 예측 가능한 계급 구조로 스스로 조직된다는 것을 시사합니다.

가장 작은 저항의 길

지프 자신은 이 법칙이 인간 심리에 뿌리를 두고 있다고 믿었습니다. 그는 '최소 노력 원리'(Principle of Least Effort)를 제안하면서, 말하는 사람과 듣는 사람이 본능적으로 작업량을 최소화하려 한다고 주장했습니다. 말하는 사람은 다용도 단어로 구성된 작은 어휘를 원하고, 듣는 사람은 구체적이고 모호하지 않은 단어로 구성된 큰 어휘를 원합니다. 이 양자의 타협점이 우리가 관찰하는 멱법칙(power law) 분포가 되며, 효율성의 수학적 균형이 됩니다.

다른 이론가들은 이 법칙이 시스템이 성장하는 방식의 부산물이라는 preferential attachment이라는 모델을 제안합니다. 이 모델에서, 부자는 더욱 부자가 됩니다. 이미 큰 도시는 더 많은 이민자를 끌어들입니다. 이미 흔한 단어는 다시 사용될 가능성이 더 큽니다. 1957년 심리학자 조지 밀러(George Miller)는 더 겸손한 설명을 제시했습니다. 그는 키보드에서 무작위로 타이핑하는 원숭이가 고정된 확률로 스페이스 바를 누르면, 그 결과로 생성된 '단어'들이 지프의 법칙을 완벽하게 따를 것이라고 보였습니다. 밀러는 이 법칙이 인간의 마음에 대한 깊은 통찰이 아니라, 우리가 단어를 정의하는 방식의 간단한 결과일 수도 있다고 주장했습니다.

여전히 알 수 없는 것들

우리는 이 법칙의 지수, 즉 그 직선의 기울기가 왜 1.0에 가까운 수준에서 계속 유지되는지 모릅니다. 많은 시스템이 멱법칙을 따르지만, 지프의 법칙은 확률만으로 설명할 수 있는 빈도보다 더 자주 나타나는 특별하고 '깨끗한' 버전입니다.

우리는 이 법칙이 정보에 대한 근본적인 제약인지, 단지 통계적 그림자에 불과한지 여전히 모릅니다. 자연어에 적용되지만, 중국어, 일본어, 한국어처럼 문자와 단어가 서양의 정의와 명확하게 매핑되지 않는 동아시아 언어에서는 이 법칙이 붕괴됩니다. 이러한 경우, 데이터는 곧바로 멱법칙의 틀에 맞지 않게 곡선을 그립니다.

우리는 이 법칙이 진정으로 의미와 무의미를 구분할 수 있는지도 모릅니다. Voynich Manuscript는 미해독된 스크립트로 쓰인 15세기의 신비한 문서로, 지프의 법칙을 놀랄 만큼 정확하게 따릅니다. 일부는 이 문서가 해독을 기다리는 진짜 언어임을 입증하는 것이며, 다른 이들은 이 문서가 말의 통계적 리듬을 이해한 사기꾼이 만든 정교한 위작임을 시사한다고 말합니다.

수학적 패턴은 종종 질서의 감각을 줍니다. 그러나 지프의 법칙은 필연성의 감각을 줍니다. 도시를 건설하거나 소설을 쓰든, 우리는 보입니다. 마치 미리 쓰여진 양식을 작성하고 있는 듯합니다. 단어는 바뀌지만, 비율은 여전히 같습니다.

Mentioned in this article

Sources

  1. Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Addison-Wesley.
  2. Newman, M. E. J. (2005). "Power laws, Pareto distributions and Zipf's law." Contemporary Physics, 46(5), 323–351.
  3. Gabaix, X. (1999). "Zipf's Law for Cities: An Explanation." Quarterly Journal of Economics, 114(3), 739–767.
  4. Miller, G. A. (1957). "Some effects of intermittent silence." American Journal of Psychology, 70(2), 311–314.
Production storyboard

The 90-second video script behind this article.

EN script

HI script

Har language me, sabse common word ke use ke frequency lagbhag do baar second ke word ke use se hai, clockwork ke tarah.

  1. 01

    A dim 1940s Harvard office with a heavy wooden desk buried under thousands of blank index cards, sorted into steep and shallow piles beside a mechanical adding machine.

  2. 02

    A physical power-law demonstration made from white ceramic dots arranged along a descending diagonal groove cut into a dark slate slab, photographed as a tabletop object rather than a display.

  3. 03

    A night aerial view from high above a country, where a few vast city clusters blaze with light while many small settlements glimmer sparsely across the dark landscape.

  4. 04

    An aged typewriter sits on a plain table with a sheet fed into the carriage, but the page is turned away so only texture and curled paper edges are visible.

  5. 05

    A vellum manuscript spread lies under archive glass, its botanical colors and curling shapes visible as soft, unreadable texture rather than legible marks.

  6. 06

    Floor-to-ceiling library shelves are arranged by book height so the spines form a smooth descending curve from towering volumes to tiny pamphlets, all turned or softened so no titles are visible.