← all shorts

Psychology

The McGurk Effect

#065 · 5 min read

A man's lips form the syllable 'ga' as a loudspeaker plays 'ba,' illustrating the McGurk Effect where hearing 'ba' overrides visual perception, resulting in the perception of 'da.'

Watch a man's lips form the syllable 'ga' while a loudspeaker plays 'ba.' You will hear 'da' — a sound that exists in neither track. Knowing the trick does not break it.

In 1976, a developmental psychologist at the University of Surrey named Harry McGurk was running an experiment on how infants pick up speech from their mothers' faces. He asked his research assistant, John MacDonald, to dub a video so the lip movements and the audio did not match — a control, basically, to see whether babies noticed the mismatch. When they played the tape back to check it, they noticed something stranger than anything the babies were doing. The adults in the room were hearing a third syllable. Not the one on the soundtrack, not the one on the lips. A new one, invented somewhere between the eye and the ear.

They wrote it up for *Nature* under a title that has aged into deadpan comedy: "Hearing lips and seeing voices." The paper was two pages long. It changed how cognitive scientists thought about perception.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

The classic demonstration goes like this. Record an audio track of a speaker saying the syllable /ba/. Film the same speaker saying /ga/. Lay the /ba/ audio over the /ga/ video. Listeners overwhelmingly report hearing /da/ — a phoneme that is present in neither input. Close your eyes and the illusion vanishes; you hear /ba/, cleanly. Open them and /da/ comes back. The effect survives knowing about it. It survives reading this paragraph. It survives a PhD in phonetics.

What the brain is doing

Speech, it turns out, is not an auditory phenomenon. It is an audiovisual one, and the brain treats it that way from very early in processing. The mouth shape for /ba/ requires the lips to close completely; /ga/ is articulated at the back of the throat with the lips open; /da/ sits between them, made with the tongue on the ridge behind the teeth. Faced with a closed-lip sound paired with an open-lip mouth, the brain refuses to throw either signal away. It splits the difference and picks a phoneme whose articulation is consistent with both — or at least less inconsistent than the alternatives.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

This kind of cross-modal integration is now thought to happen in the superior temporal sulcus, a fold of cortex above the ear that lights up in fMRI scans whenever audio and visual speech are combined. Damage there, or temporarily disrupt it with transcranial magnetic stimulation, and the McGurk effect weakens or disappears. The illusion is not a glitch in some peripheral lip-reading module. It is a load-bearing piece of how typical brains parse a conversation.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

The effect is not universal. Native speakers of Mandarin and Japanese show it less reliably than native English speakers, and the strength varies with age, hearing loss, and even how well the listener can see the speaker's face. Children under about ten show a weaker effect than adults: the integration gets stronger with practice, not weaker. There is a real and replicated autism spectrum literature showing reduced susceptibility, which has been used — cautiously — as a window into how multisensory binding develops.

Why this matters more than a party trick

The usual gloss on McGurk is that perception is constructed rather than received, and that is true as far as it goes. But the deeper point is about confidence. When you hear /da/ in the dubbed clip, you do not feel as though you are guessing. You do not experience the brain's hedge between two conflicting inputs. You experience a single, crisp, certain syllable, indistinguishable in subjective character from a /da/ spoken cleanly into a microphone. The construction is invisible from the inside.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

This is the property that makes the effect philosophically interesting. Most perceptual illusions — the Müller-Lyer arrows, the rotating dancer — announce themselves as illusions even while they fool you. The McGurk effect does not. It is a forgery the brain does not flag.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

In the real world, of course, the brain is usually right to weight the mouth heavily. In a noisy café or over a bad phone line, lip-reading materially improves comprehension; deaf and hard-of-hearing listeners rely on it constantly. McGurk is what that helpful machinery looks like when you feed it a contradiction.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

What we still don't know

Why does the effect vary so much between individuals? Two adults watching the same clip, with the same hearing and the same first language, can report different syllables — and replication studies have found the rate at which listeners hear /da/ rather than /ba/ ranges anywhere from forty per cent to nearly all of them, depending on the stimulus and the population.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

We do not know how much of normal, undubbed conversation is being silently corrected by visual input. Estimates exist, but they are estimates. The contribution is presumably large in noise and small in quiet, but the curve has never been mapped cleanly.

We do not know whether the effect can be unlearned. A 2018 attempt to train listeners out of it, by John F. Magnotti and colleagues at Baylor, produced modest, short-lived shifts. The default integration reasserts itself within days.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

And we do not really know what else the brain is quietly composing. Speech is the case we happened to test, because McGurk had a video editor and a research question about infants. The architecture is presumably more general.

A fifty-year-old illusion, discovered by accident in a dubbing error, is still the cleanest demonstration we have that the voice in your head is not a recording.

راقب شفتي رجل وهما تشكلان مقطع «غا» بينما يبث مكبر الصوت «با». ستسمع «دا» — وهو صوت ليس موجوداً في أي من المسارين. ومعرفة الخدعة لا تفسدها.

في عام 1976، كان عالم نفس نمائي في University of Surrey يُدعى Harry McGurk يجري تجربة حول كيفية التقاط الرُّضع للغة من وجوه أمهاتهم. طلب من مساعده البحثي، جون ماكدونالد، دبلجة مقطع فيديو بحيث لا تتطابق حركات الشفاه مع الصوت — وهو إجراء ضبط، في الأساس، لمعرفة ما إذا كان الرُّضع يلاحظون هذا التباين. وعندما أعادا تشغيل الشريط للمراجعة، لاحظا شيئاً أغرب من أي شيء كان يفعله الرُّضع. فالبالغون في الغرفة كانوا يسمعون مقطعاً صوتياً ثالثاً. ليس المقطع الموجود في الشريط، وليس المقطع الذي تشير إليه حركة الشفاه. بل مقطعاً جديداً، ابتكره الدماغ في مكان ما بين العين والأذن.

قاما بتدوين النتائج لمجلة *Nature* تحت عنوان تحوّل مع مرور الوقت إلى كوميديا ساخرة: "سماع الشفاه ورؤية الأصوات". كانت الورقة البحثية مكوّنة من صفحتين، لكنها غيّرت الطريقة التي ينظر بها علماء الإدراك المعرفي إلى مفهوم التصور.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

تتم التجربة الكلاسيكية على النحو التالي: سُجِّل مقطع صوتي لشخص ينطق المقطع /ba/، وصُوِّر الشخص نفسه وهو ينطق المقطع /ga/، ثم وُضع صوت /ba/ فوق فيديو /ga/. أفاد المستمعون بشكل ساحق بأنهم سمعوا المقطع /da/ — وهو صوت لغوي (فونيم) غير موجود في أي من المدخلين. أغلق عينيك فتختفي الخدعة؛ وتسمع /ba/ بوضوح. افتحهما فيعود المقطع /da/ للظهور. يستمر هذا التأثير حتى بعد معرفتك به. ويستمر حتى بعد قراءتك لهذه الفقرة. ويستمر حتى لو كنت حاصلاً على درجة الدكتوراه في علم الصوتيات.

ما الذي يفعله الدماغ

تبيّن أن الكلام ليس ظاهرة سمعية، بل هو ظاهرة سمعية بصرية، ويعامله الدماغ على هذا النحو منذ مراحل المعالجة المبكرة جداً. يتطلب نطق /ba/ انطباق الشفتين تماماً؛ بينما يُنطق /ga/ من مؤخرة الحلق مع انفراج الشفتين؛ ويقع /da/ بينهما، إذ يُنطق بوضع اللسان على الحافة خلف الأسنان. عند مواجهة صوت يتطلب انطباق الشفاه مع حركة شفاه مفتوحة، يرفض الدماغ التخلي عن أي من الإشارتين، فيختار حلاً وسطاً ويستقر على فونيم يتوافق نطقه مع كلتيهما — أو على الأقل يكون أقل تناقضاً من البدائل الأخرى.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

يُعتقد الآن أن هذا النوع من التكامل بين الحواس يحدث في superior temporal sulcus، وهو طيّة في القشرة المخية فوق الأذن تضيء في صور الرنين المغناطيسي الوظيفي كلما تم دمج الكلام السمعي والبصري. فإذا تضرر ذلك الجزء، أو تَعطّل مؤقتاً عبر التحفيز المغناطيسي عبر الجمجمة، يضعف تأثير "ماكغورك" أو يتلاشى. إن هذا الوهم ليس خللاً في وحدة جانبية لقراءة الشفاه، بل هو جزء أساسي ومؤثر في كيفية تحليل الدماغ الطبيعي للمحادثات.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

لا يعد هذا التأثير عالمياً. فالمتحدثون الأصليون للغة الماندرين واليابانية يظهرونه بشكل أقل موثوقية مقارنة بالمتحدثين الأصليين للإنجليزية، كما تختلف قوته باختلاف العمر، وفقدان السمع، وحتى بمدى قدرة المستمع على رؤية وجه المتحدث. يُظهر الأطفال دون سن العاشرة تقريباً تأثيراً أضعف من البالغين: فالتكامل يزداد قوة مع الممارسة، لا ضعفاً. هناك أدبيات حقيقية ومكررة حول autism spectrum تُظهر انخفاضاً في القابلية للتأثر، استُخدِمَت — بحذر — كنافذة لفهم كيفية تطور الربط متعدد الحواس.

لماذا يهم هذا الأمر أكثر من مجرد خدعة في الحفلات

التفسير المعتاد لتأثير ماكغورك هو أن الإدراك عملية بناء وليس مجرد استقبال، وهذا صحيح إلى حد ما. لكن النقطة الأعمق تتعلق بالثقة. عندما تسمع /da/ في المقطع المدبلج، لا تشعر وكأنك تخمّن. أنت لا تختبر حالة التردد التي يمر بها الدماغ بين مدخلين متناقضين، بل تختبر مقطعاً صوتياً واحداً، واضحاً، ومؤكداً، لا يمكن تمييزه من حيث طبيعته الذاتية عن مقطع /da/ نُطق بوضوح في ميكروفون. إن عملية البناء هذه غير مرئية من الداخل.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

هذه هي الخاصية التي تجعل التأثير مثيراً للاهتمام فلسفياً. فمعظم الأوهام الإدراكية — مثل أسهم مولر-لاير، أو الراقصة الدوارة — تعلن عن نفسها كأوهام حتى بينما تخدعك. أما تأثير ماكغورك فلا يفعل ذلك. إنه تزوير لا يكتشفه الدماغ.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

في العالم الحقيقي، بطبيعة الحال، يكون الدماغ محقاً عادةً في إعطاء وزن كبير لحركة الفم. ففي مقهى صاخب أو عبر خط هاتف رديء، تُحسّن قراءة الشفاه الفهم بشكل ملموس؛ ويعتمد عليها الصم وضعاف السمع باستمرار. وما "ماكغورك" إلا مظهر لتلك الآلية المساعدة عندما تُغذيها بمعلومة متناقضة.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

ما لا نزال لا نعرفه

لماذا يختلف التأثير كثيراً بين الأفراد؟ يمكن لشخصين بالغين يشاهدان المقطع نفسه، ويتمتعان بالسمع نفسه وباللغة الأم نفسها، أن يبلغا عن سماع مقاطع مختلفة — وقد وجدت دراسات التكرار أن المعدل الذي يسمع به المستمعون /da/ بدلاً من /ba/ يتراوح بين أربعين في المئة إلى الجميع تقريباً، اعتماداً على المثير والسكان.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

نحن لا نعرف مقدار المحادثات العادية غير المدبلجة التي يتم تصحيحها صمتاً عبر المدخلات البصرية. توجد تقديرات، لكنها تظل تقديرات. من المفترض أن تكون المساهمة كبيرة في الضجيج وصغيرة في الهدوء، لكن المنحنى لم يُرسم بدقة قط.

ولا نعرف ما إذا كان من الممكن التخلص من هذا التأثير. محاولة عام 2018 لتدريب المستمعين على تجاوزه، من قِبل John F. Magnotti وزملائه في بايلور، أنتجت تحولات طفيفة وقصيرة الأمد. إذ يعود التكامل الافتراضي للظهور مرة أخرى في غضون أيام.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

ولا نعرف حقاً ما الذي يقوم الدماغ بتأليفه في صمت أيضاً. الكلام هو الحالة التي صادف أن اختبرناها، لأن ماكغورك كان لديه محرّر فيديو وسؤال بحثي عن الرُّضع. ومن المفترض أن تكون البنية المعمارية للدماغ أكثر شمولاً من ذلك.

لا يزال هذا الوهم، البالغ من العمر خمسين عاماً والذي اكتُشف بالصدفة في خطأ دبلجة، هو أوضح دليل نمتلكه على أن الصوت في رأسك ليس تسجيلاً.

Observe cómo los labios de un hombre forman la sílaba «ga» mientras un altavoz reproduce «ba». Escuchará «da», un sonido que no existe en ninguna de las dos pistas. Conocer el truco no lo invalida.

En 1976, un psicólogo del desarrollo de la University of Surrey llamado Harry McGurk realizaba un experimento sobre cómo los bebés captan el habla a partir de los rostros de sus madres. Pidió a su asistente de investigación, John MacDonald, que doblara un vídeo de modo que los movimientos labiales y el audio no coincidieran; básicamente, un control para ver si los bebés notaban la discrepancia. Al reproducir la cinta para comprobarla, notaron algo más extraño que cualquier cosa que estuvieran haciendo los bebés. Los adultos en la sala estaban escuchando una tercera sílaba. No la de la banda sonora, no la de los labios. Una nueva, inventada en algún lugar entre el ojo y el oído.

Redactaron el informe para *Nature* bajo un título que ha envejecido hasta convertirse en una comedia impasible: "Oír labios y ver voces". El artículo tenía dos páginas de extensión. Cambió la forma en que los científicos cognitivos pensaban sobre la percepción.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

La demostración clásica es así. Grabe una pista de audio de un hablante diciendo la sílaba /ba/. Filme al mismo hablante diciendo /ga/. Superponga el audio /ba/ sobre el vídeo /ga/. Los oyentes informan abrumadoramente que escuchan /da/, un fonema que no está presente en ninguna de las dos entradas. Cierre los ojos y la ilusión se desvanece; escucha /ba/, limpiamente. Ábralos y el /da/ regresa. El efecto sobrevive al hecho de conocerlo. Sobrevive a la lectura de este párrafo. Sobrevive a un doctorado en fonética.

Lo que hace el cerebro

El habla, resulta, no es un fenómeno auditivo. Es audiovisual, y el cerebro lo trata de esa manera desde etapas muy tempranas del procesamiento. La forma de la boca para /ba/ requiere que los labios se cierren por completo; /ga/ se articula en la parte posterior de la garganta con los labios abiertos; /da/ se sitúa entre ambas, hecha con la lengua sobre la cresta detrás de los dientes. Ante un sonido de labios cerrados emparejado con una boca de labios abiertos, el cerebro se niega a descartar ninguna de las dos señales. Divide la diferencia y elige un fonema cuya articulación sea coherente con ambas, o al menos menos incoherente que las alternativas.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

Hoy en día se cree que este tipo de integración intermodal ocurre en el superior temporal sulcus, un pliegue de la corteza sobre el oído que se ilumina en las resonancias magnéticas cuando se combinan el habla auditiva y la visual. Si se daña esa zona, o se interrumpe temporalmente mediante estimulación magnética transcraneal, el efecto McGurk se debilita o desaparece. La ilusión no es un fallo en algún módulo periférico de lectura labial. Es una pieza fundamental de cómo los cerebros típicos analizan una conversación.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

El efecto no es universal. Los hablantes nativos de mandarín y japonés lo muestran de forma menos fiable que los hablantes nativos de inglés, y la intensidad varía con la edad, la pérdida auditiva e incluso con la capacidad del oyente para ver el rostro del hablante. Los niños menores de unos diez años muestran un efecto más débil que los adultos: la integración se fortalece con la práctica, no se debilita. Existe una literatura real y replicada sobre el autism spectrum que muestra una menor susceptibilidad, la cual se ha utilizado —con cautela— como una ventana hacia cómo se desarrolla la unión multisensorial.

Por qué esto importa más que un truco de salón

La interpretación habitual sobre McGurk es que la percepción se construye en lugar de recibirse, y eso es cierto hasta cierto punto. Pero el punto más profundo trata sobre la confianza. Cuando escucha /da/ en el clip doblado, no siente como si estuviera adivinando. No experimenta la duda del cerebro entre dos entradas en conflicto. Experimenta una sílaba única, nítida y segura, indistinguible en su carácter subjetivo de un /da/ pronunciado limpiamente frente a un micrófono. La construcción es invisible desde el interior.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

Esta es la propiedad que hace que el efecto sea filosóficamente interesante. La mayoría de las ilusiones perceptivas —las flechas de Müller-Lyer, la bailarina giratoria— se anuncian como ilusiones incluso mientras le engañan. El efecto McGurk no lo hace. Es una falsificación que el cerebro no detecta.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

En el mundo real, por supuesto, el cerebro suele tener razón al otorgar un gran peso a la boca. En una cafetería ruidosa o a través de una mala línea telefónica, la lectura labial mejora sustancialmente la comprensión; los oyentes sordos o con dificultades auditivas confían en ella constantemente. McGurk es lo que parece esa maquinaria útil cuando se le alimenta con una contradicción.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

Lo que todavía no sabemos

¿Por qué varía tanto el efecto entre los individuos? Dos adultos que ven el mismo clip, con la misma audición y el mismo idioma materno, pueden reportar sílabas diferentes, y los estudios de replicación han descubierto que la tasa a la que los oyentes escuchan /da/ en lugar de /ba/ oscila entre el cuarenta por ciento y casi la totalidad de ellos, dependiendo del estímulo y de la población.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

No sabemos cuánto de la conversación normal, no doblada, está siendo corregida silenciosamente por la entrada visual. Existen estimaciones, pero son solo estimaciones. La contribución es presumiblemente grande con ruido y pequeña en silencio, pero la curva nunca se ha trazado con precisión.

No sabemos si el efecto se puede desaprender. Un intento de 2018 para entrenar a los oyentes para evitarlo, realizado por John F. Magnotti y sus colegas en Baylor, produjo cambios modestos y de corta duración. La integración predeterminada se restablece en cuestión de días.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

Y realmente no sabemos qué más está componiendo silenciosamente el cerebro. El habla es el caso que resultó que probamos, porque McGurk tenía un editor de vídeo y una pregunta de investigación sobre bebés. La arquitectura es presumiblemente más general.

Una ilusión de cincuenta años, descubierta por accidente en un error de doblaje, sigue siendo la demostración más clara que tenemos de que la voz en tu cabeza no es una grabación.

看着一个人的嘴唇做出“ga”的口型,而扩音器里却播放着“ba”的声音,你听到的却是“da”——一个在两个音轨中都不存在的声音。即使识破了这种戏法,它依然奏效。

1976年,一位在University of Surrey工作的儿童发展心理学家Harry McGurk正在进行一项实验,旨在研究婴儿如何通过母亲的面部表情习得语言。他让研究助理约翰·麦克唐纳(John MacDonald)为一段视频配音,使口型与音频不匹配——这本是一项旨在观察婴儿是否会注意到这种错位的对照实验。然而,当他们回放录像进行检查时,却发现了一个比婴儿的反应还要奇怪的现象。房间里的成年人竟然听到了第三个音节。它既不是配音轨里的音节,也不是口型所对应的音节。这是一个全新的音节,是在眼与耳的交互中凭空产生的。

他们将这项研究写成论文投稿至《自然》(*Nature*)杂志,标题颇具冷幽默意味:“听唇见声”(Hearing lips and seeing voices)。这篇论文仅有两页长,却彻底改变了认知科学家对感知的理解。

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

经典的演示是这样的:录下一段说话者发出/ba/音节的音频,再拍摄同一位说话者发出/ga/音节的视频。将/ba/的音频叠加在/ga/的视频上播放。听者会极其一致地报告说听到了/da/——这是一个在两个输入源中均不存在的音素。闭上眼睛,幻觉瞬间消失;你会清晰地听到/ba/。睁开眼睛,/da/又回来了。即便事先知道真相,这种效应依然存在。读过这段文字后,它依然存在。哪怕拥有语音学博士学位,它依然存在。

大脑在做什么

事实证明,语言并非一种纯粹的听觉现象。它是一种视听觉现象,大脑从处理过程的极早期阶段就开始以这种方式来对待它。/ba/的口型要求双唇完全闭合;/ga/的发音则在喉咙后部,双唇张开;/da/介于两者之间,是通过舌尖抵住齿龈脊发出的。当面临“闭唇音”与“开唇口型”的配对时,大脑拒绝舍弃任何一种信号。它取了折中方案,挑选出了一个在发音方式上与两者均相容——或者至少比其他选择更不相容——的音素。

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

这种跨模态整合目前被认为发生在superior temporal sulcus,即耳上方的大脑皮层褶皱区域。在功能性磁共振成像(fMRI)扫描中,每当视觉与听觉语言信息相结合时,该区域就会被激活。如果该区域受损,或通过经颅磁刺激(TMS)对其进行暂时干扰,麦格克效应(McGurk effect)就会减弱或消失。这种幻觉并非某种外周唇读模块的故障,而是典型大脑解析对话时的一个承重组件。

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

这种效应并非普遍存在。母语为汉语和日语的人感受到的效应不如母语为英语的人稳定,且效应强度会随年龄、听力损失程度,甚至听者观察说话者面部的能力而变化。十岁以下的儿童所感受到的效应弱于成年人:这种整合能力是随着实践而增强,而非减弱的。目前已有真实且可重复的autism spectrum文献表明,自闭症群体对该效应的易感性较低,这一发现已被谨慎地用作洞察多感官整合能力如何发展的窗口。

为什么这不仅仅是个派对小把戏

对麦格克效应通常的解读是,感知是构建出来的而非直接接收的,这话没错。但更深刻的意义在于“置信度”。当你在配音视频中听到/da/时,你并不会觉得自己在猜测。你并没有感受到大脑在两种冲突输入之间的权衡。你体验到的是一个单一、清脆、确定的音节,其主观特征与对着麦克风清晰说出的/da/毫无二致。这种构建过程从内部是不可见的。

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

正是这一特性使得该效应在哲学上饶有趣味。大多数感知错觉——如缪勒-莱耶错觉(Müller-Lyer arrows)或旋转舞者(rotating dancer)——在欺骗你的同时,也会宣示自己是错觉。但麦格克效应不会。它是一个大脑不会标记出来的伪造品。

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

当然,在现实世界中,大脑重度依赖口型是有道理的。在嘈杂的咖啡馆或通话质量极差的电话线上,唇读能实质性地提升理解力;听障人士时刻依赖着这一功能。麦格克效应展现的,正是这种辅助性机制在面对矛盾输入时的运作方式。

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

我们依然未知的事物

为什么该效应在个体之间存在如此大的差异?两名成年人观看同一段视频,听力水平与母语相同,却可能报告出不同的音节——复现研究发现,听者将/ba/听成/da/的比率从百分之四十到几乎百分之百不等,这取决于刺激源和被试群体。

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

我们尚不清楚正常的、未经配音的对话中有多少内容在被视觉输入默默修正。虽然存在估算数据,但终究只是估算。在嘈杂环境下,这种修正贡献极大;在安静环境下则较小,但其曲线从未被清晰地绘制出来。

我们也不知道这种效应是否可以被消除。2018年,John F. Magnotti及其贝勒大学的同事曾试图通过训练来消除听者的这种反应,但仅产生了微小且短暂的改变。这种默认的整合机制在几天内就会卷土重来。

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

而且,我们确实不知道大脑还在悄悄合成些什么。语言只是我们恰好进行测试的案例,这纯粹是因为麦格克手头正好有视频剪辑软件,并且他当时正在研究婴儿。这种神经结构想必具有更普遍的意义。

这一场五十年前因配音错误而偶然发现的幻觉,至今仍是我们手中最直接的证据,证明你脑海中的声音并非一段录音。

Observe os lábios de um homem formarem a sílaba 'ga' enquanto um alto-falante reproduz 'ba'. Você ouvirá 'da' — um som que não existe em nenhuma das faixas. Conhecer o truque não o desfaz.

Em 1976, um psicólogo do desenvolvimento na University of Surrey chamado Harry McGurk conduzia uma experiência sobre como os bebés captam a fala através dos rostos das suas mães. Pediu ao seu assistente de investigação, John MacDonald, para dobrar um vídeo de modo a que os movimentos labiais e o áudio não coincidissem — essencialmente, um controlo para verificar se os bebés notavam a discrepância. Quando reproduziram a cassete para a rever, notaram algo mais estranho do que qualquer coisa que os bebés estivessem a fazer. Os adultos na sala estavam a ouvir uma terceira sílaba. Não a que estava na banda sonora, não a que estava nos lábios. Uma nova, inventada algures entre o olho e o ouvido.

Escreveram sobre o assunto para a *Nature* sob um título que envelheceu para se tornar uma comédia impávida: "Ouvir lábios e ver vozes". O artigo tinha duas páginas. Mudou a forma como os cientistas cognitivos pensavam sobre a perceção.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

A demonstração clássica é a seguinte. Grave uma faixa de áudio de um orador a dizer a sílaba /ba/. Filme o mesmo orador a dizer /ga/. Coloque o áudio /ba/ sobre o vídeo /ga/. Os ouvintes relatam, de forma esmagadora, que ouvem /da/ — um fonema que não está presente em nenhuma das entradas. Feche os olhos e a ilusão desaparece; ouve /ba/, de forma nítida. Abra-os e /da/ regressa. O efeito sobrevive ao conhecimento do mesmo. Sobrevive à leitura deste parágrafo. Sobrevive a um doutoramento em fonética.

O que o cérebro está a fazer

A fala, ao que parece, não é um fenómeno auditivo. É audiovisual, e o cérebro trata-a dessa forma desde muito cedo no processamento. A forma da boca para /ba/ exige que os lábios se fechem completamente; /ga/ é articulado na parte de trás da garganta com os lábios abertos; /da/ situa-se entre eles, feito com a língua na crista atrás dos dentes. Confrontado com um som de lábios fechados emparelhado com uma boca de lábios abertos, o cérebro recusa-se a descartar qualquer um dos sinais. Divide a diferença e escolhe um fonema cuja articulação é consistente com ambos — ou pelo menos menos inconsistente do que as alternativas.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

Pensa-se agora que este tipo de integração intermodal ocorre no superior temporal sulcus, uma dobra do córtex acima do ouvido que se ilumina em exames de fMRI sempre que a fala áudio e visual é combinada. Danifique essa zona, ou interrompa-a temporariamente com estimulação magnética transcraniana, e o efeito McGurk enfraquece ou desaparece. A ilusão não é uma falha num qualquer módulo periférico de leitura labial. É uma peça estrutural de como os cérebros típicos analisam uma conversa.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

O efeito não é universal. Os falantes nativos de mandarim e japonês demonstram-no de forma menos fiável do que os falantes nativos de inglês, e a força varia com a idade, a perda auditiva e até com a capacidade do ouvinte de ver o rosto do orador. As crianças com menos de dez anos apresentam um efeito mais fraco do que os adultos: a integração torna-se mais forte com a prática, não mais fraca. Existe uma literatura real e replicada sobre o autism spectrum que mostra uma suscetibilidade reduzida, a qual tem sido usada — cautelosamente — como uma janela para a forma como a ligação multissensorial se desenvolve.

Porque é que isto importa mais do que um truque de festa

A interpretação habitual de McGurk é que a perceção é construída em vez de recebida, e isso é verdade até certo ponto. Mas o ponto mais profundo é sobre a confiança. Quando ouve /da/ no clipe dobrado, não sente que está a adivinhar. Não experiencia a hesitação do cérebro entre duas entradas conflituantes. Experience uma única sílaba, nítida e certa, indistinguível em caráter subjetivo de um /da/ falado limpidamente para um microfone. A construção é invisível por dentro.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

Esta é a propriedade que torna o efeito filosoficamente interessante. A maioria das ilusões percetivas — as setas de Müller-Lyer, a dançarina rotativa — anunciam-se como ilusões mesmo enquanto o enganam. O efeito McGurk não. É uma falsificação que o cérebro não assinala.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

No mundo real, claro, o cérebro tem geralmente razão em dar grande peso à boca. Num café barulhento ou através de uma má linha telefónica, a leitura labial melhora materialmente a compreensão; os ouvintes surdos e com dificuldades auditivas dependem dela constantemente. McGurk é o aspeto dessa maquinaria útil quando lhe fornecemos uma contradição.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

O que ainda não sabemos

Porque é que o efeito varia tanto entre indivíduos? Dois adultos a ver o mesmo clipe, com a mesma audição e a mesma língua materna, podem relatar sílabas diferentes — e estudos de replicação descobriram que a taxa a que os ouvintes ouvem /da/ em vez de /ba/ varia de quarenta por cento a quase a totalidade deles, dependendo do estímulo e da população.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

Não sabemos quanta da conversa normal e não dobrada está a ser silenciosamente corrigida pela entrada visual. Existem estimativas, mas são apenas estimativas. A contribuição é presumivelmente grande no ruído e pequena no silêncio, mas a curva nunca foi mapeada de forma clara.

Não sabemos se o efeito pode ser "desaprendido". Uma tentativa de 2018 para treinar os ouvintes para se libertarem do mesmo, por John F. Magnotti e colegas em Baylor, produziu mudanças modestas e de curta duração. A integração predefinida reafirma-se no espaço de dias.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

E não sabemos realmente o que mais o cérebro está a compor silenciosamente. A fala é o caso que calhámos testar, porque McGurk tinha um editor de vídeo e uma questão de investigação sobre bebés. A arquitetura é presumivelmente mais geral.

Uma ilusão com cinquenta anos, descoberta por acaso num erro de dobragem, continua a ser a demonstração mais clara que temos de que a voz na sua cabeça não é uma gravação.

किसी व्यक्ति के होंठों को 'गा' शब्दांश का उच्चारण करते हुए देखें, जबकि लाउडस्पीकर 'बा' बजा रहा हो। आपको 'दा' सुनाई देगा — एक ऐसी ध्वनि जो दोनों में से किसी भी ट्रैक में मौजूद नहीं है। यह जान लेने से कि यह एक चाल है, भ्रम नहीं टूटता।

1976 में, University of Surrey के एक विकासात्मक मनोवैज्ञानिक Harry McGurk इस पर प्रयोग कर रहे थे कि शिशु अपनी माताओं के चेहरों से भाषा कैसे सीखते हैं। उन्होंने अपने शोध सहायक जॉन मैकडोनाल्ड से एक वीडियो को डब करने के लिए कहा ताकि होंठों की हरकत और ऑडियो आपस में मेल न खाएं — यह मूल रूप से एक नियंत्रण था, यह देखने के लिए कि क्या बच्चे इस बेमेलपन को महसूस करते हैं। जब उन्होंने जांचने के लिए टेप वापस चलाया, तो उन्होंने कुछ ऐसा देखा जो बच्चों द्वारा की जा रही किसी भी चीज़ से अधिक अजीब था। कमरे में मौजूद वयस्क एक तीसरा शब्दांश सुन रहे थे। साउंडट्रैक वाला नहीं, होंठों वाला नहीं। एक नया शब्दांश, जिसका आविष्कार आंख और कान के बीच कहीं हुआ था।

उन्होंने इसे *नेचर* पत्रिका के लिए एक ऐसे शीर्षक के साथ लिखा जो अब एक सपाट हास्य में बदल चुका है: "Hearing lips and seeing voices" (होंठों को सुनना और आवाज़ों को देखना)। शोध-पत्र दो पृष्ठ लंबा था। इसने संज्ञान वैज्ञानिकों के धारणा के बारे में सोचने के तरीके को बदल दिया।

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

इसका क्लासिक प्रदर्शन कुछ इस तरह है। किसी वक्ता का /ba/ शब्दांश कहते हुए एक ऑडियो ट्रैक रिकॉर्ड करें। उसी वक्ता का /ga/ कहते हुए वीडियो बनाएं। /ba/ ऑडियो को /ga/ वीडियो के ऊपर लगाएं। सुनने वाले भारी बहुमत में /da/ सुनने की रिपोर्ट करते हैं — एक ऐसा स्वनिम (phoneme) जो दोनों में से किसी भी इनपुट में मौजूद नहीं है। अपनी आंखें बंद करें और भ्रम गायब हो जाता है; आप स्पष्ट रूप से /ba/ सुनते हैं। उन्हें खोलें और /da/ वापस आ जाता है। यह प्रभाव इसे जानने के बाद भी बना रहता है। यह इस पैराग्राफ को पढ़ने के बाद भी बना रहता है। यह फोनेटिक्स में पीएचडी करने के बाद भी बना रहता है।

What the brain is doing

पता चला है कि भाषा कोई श्रवण संबंधी (auditory) घटना नहीं है। यह एक दृश्य-श्रव्य (audiovisual) घटना है, और मस्तिष्क प्रसंस्करण (processing) में बहुत शुरुआत से ही इसके साथ वैसा ही व्यवहार करता है। /ba/ के लिए मुंह का आकार होंठों को पूरी तरह बंद करने की मांग करता है; /ga/ का उच्चारण गले के पिछले हिस्से से होंठ खुले रखकर किया जाता है; /da/ इनके बीच में स्थित है, जिसे दांतों के पीछे के उभार पर जीभ रखकर बनाया जाता है। बंद होंठ वाली ध्वनि को खुले होंठ वाले मुंह के साथ जोड़े जाने पर, मस्तिष्क किसी भी संकेत को छोड़ने से इनकार कर देता है। यह बीच का रास्ता चुनता है और एक ऐसा स्वनिम चुनता है जिसका उच्चारण दोनों के साथ संगत हो — या कम से कम विकल्पों की तुलना में कम असंगत हो।

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

माना जाता है कि इस प्रकार का क्रॉस-मोडल एकीकरण अब superior temporal sulcus में होता है, जो कान के ऊपर स्थित कॉर्टेक्स की एक परत है जो एफएमआरआई स्कैन में तब चमक उठती है जब ऑडियो और विजुअल भाषण को जोड़ा जाता है। वहां क्षति होने पर, या ट्रांसक्रैनियल चुंबकीय उत्तेजना के साथ अस्थायी रूप से बाधित करने पर, मैकगर्क प्रभाव कमजोर हो जाता है या गायब हो जाता है। यह भ्रम किसी परिधीय होंठ-पढ़ने वाले मॉड्यूल में कोई गड़बड़ी नहीं है। यह इस बात का एक महत्वपूर्ण हिस्सा है कि सामान्य मस्तिष्क बातचीत का विश्लेषण कैसे करते हैं।

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

यह प्रभाव सार्वभौमिक नहीं है। मंदारिन और जापानी भाषा के मूल निवासी इसे अंग्रेजी बोलने वाले मूल निवासियों की तुलना में कम विश्वसनीयता से दिखाते हैं, और इसकी शक्ति उम्र, सुनने की क्षमता के नुकसान और यहां तक कि इस बात पर भी निर्भर करती है कि सुनने वाला वक्ता के चेहरे को कितनी अच्छी तरह देख सकता है। लगभग दस वर्ष से कम उम्र के बच्चे वयस्कों की तुलना में कमजोर प्रभाव दिखाते हैं: एकीकरण अभ्यास के साथ मजबूत होता है, कमजोर नहीं। autism spectrum पर वास्तविक और दोहराया गया साहित्य मौजूद है जो कम संवेदनशीलता को दर्शाता है, जिसका उपयोग — सावधानीपूर्वक — इस बात को समझने के लिए एक खिड़की के रूप में किया गया है कि बहु-संवेदी बाइंडिंग कैसे विकसित होती है।

Why this matters more than a party trick

मैकगर्क पर सामान्य व्याख्या यह है कि धारणा प्राप्त होने के बजाय निर्मित होती है, और यह काफी हद तक सच है। लेकिन गहरा बिंदु आत्मविश्वास के बारे में है। जब आप डब की गई क्लिप में /da/ सुनते हैं, तो आपको ऐसा महसूस नहीं होता कि आप अनुमान लगा रहे हैं। आप दो परस्पर विरोधी इनपुट के बीच मस्तिष्क के संकोच का अनुभव नहीं करते हैं। आप एक एकल, स्पष्ट, निश्चित शब्दांश का अनुभव करते हैं, जो व्यक्तिपरक चरित्र में माइक्रोफोन में स्पष्ट रूप से बोले गए /da/ से अलग नहीं होता है। निर्माण अंदर से अदृश्य है।

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

यह वही विशेषता है जो इस प्रभाव को दार्शनिक रूप से दिलचस्प बनाती है। अधिकांश अवधारणात्मक भ्रम — मुलर-लयर तीर, नाचती हुई नर्तकी — आपको मूर्ख बनाते हुए भी खुद को भ्रम के रूप में घोषित करते हैं। मैकगर्क प्रभाव ऐसा नहीं करता है। यह एक जालसाजी है जिसे मस्तिष्क चिह्नित नहीं करता है।

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

वास्तविक दुनिया में, निश्चित रूप से, मस्तिष्क का मुंह को अधिक महत्व देना आमतौर पर सही होता है। किसी शोर-शराबे वाले कैफे में या खराब फोन लाइन पर, होंठ पढ़ना समझ को भौतिक रूप से बेहतर बनाता है; बधिर और कम सुनने वाले लोग लगातार इस पर निर्भर रहते हैं। मैकगर्क वही है जो उस सहायक मशीनरी का रूप ले लेता है जब आप उसे विरोधाभास देते हैं।

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

What we still don't know

व्यक्तियों के बीच प्रभाव इतना अलग क्यों है? एक ही क्लिप देख रहे दो वयस्क, एक ही सुनने की क्षमता और एक ही पहली भाषा के साथ, अलग-अलग शब्दांशों की रिपोर्ट कर सकते हैं — और प्रतिरूपण अध्ययनों (replication studies) ने पाया है कि सुनने वाले जिस दर पर /ba/ के बजाय /da/ सुनते हैं, वह उत्तेजना (stimulus) और आबादी के आधार पर चालीस प्रतिशत से लेकर लगभग सभी तक हो सकती है।

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

हम नहीं जानते कि सामान्य, बिना डब की गई बातचीत का कितना हिस्सा दृश्य इनपुट द्वारा चुपचाप सुधारा जा रहा है। अनुमान मौजूद हैं, लेकिन वे केवल अनुमान ही हैं। शोर में योगदान संभवतः बड़ा है और शांत वातावरण में छोटा, लेकिन वक्र (curve) को कभी भी स्पष्ट रूप से मैप नहीं किया गया है।

हम नहीं जानते कि क्या इस प्रभाव को अन-लर्न किया जा सकता है। 2018 में John F. Magnotti और उनके सहयोगियों द्वारा बेयलर में सुनने वालों को इससे प्रशिक्षित करने के एक प्रयास ने मामूली, अल्पकालिक बदलाव उत्पन्न किए। डिफ़ॉल्ट एकीकरण कुछ ही दिनों में फिर से खुद को स्थापित कर लेता है।

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

और हम वास्तव में यह नहीं जानते कि मस्तिष्क और क्या चुपचाप तैयार कर रहा है। भाषण वह मामला है जिसका हमने परीक्षण किया, क्योंकि मैकगर्क के पास एक वीडियो संपादक था और शिशुओं के बारे में एक शोध प्रश्न था। वास्तुकला संभवतः अधिक सामान्य है।

पचास साल पुराना भ्रम, जो डबिंग की गलती में गलती से खोजा गया था, अभी भी हमारे पास सबसे स्पष्ट प्रदर्शन है कि आपके सिर में मौजूद आवाज़ कोई रिकॉर्डिंग नहीं है।

Perhatikan bibir seorang pria membentuk suku kata 'ga' saat pengeras suara memperdengarkan 'ba.' Anda akan mendengar 'da' — bunyi yang tidak ada di kedua jalur tersebut. Mengetahui triknya tidak akan merusak ilusi itu.

Pada tahun 1976, seorang psikolog perkembangan di University of Surrey bernama Harry McGurk sedang menjalankan eksperimen tentang bagaimana bayi menyerap percakapan dari wajah ibu mereka. Ia meminta asisten penelitinya, John MacDonald, untuk mengisi suara video agar gerakan bibir dan audio tidak sinkron — pada dasarnya sebagai kontrol untuk melihat apakah bayi menyadari ketidakcocokan tersebut. Saat mereka memutar kembali rekamannya untuk memeriksa, mereka menyadari sesuatu yang jauh lebih aneh daripada apa pun yang dilakukan para bayi. Orang-orang dewasa di ruangan itu mendengar suku kata ketiga. Bukan yang ada di jalur suara, bukan yang ada di bibir. Sebuah suku kata baru, yang tercipta di suatu tempat antara mata dan telinga.

Mereka menuliskannya untuk *Nature* dengan judul yang kini menjadi komedi datar: "Mendengar bibir dan melihat suara." Makalah itu panjangnya dua halaman. Ia mengubah cara para ilmuwan kognitif berpikir tentang persepsi.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

Demonstrasi klasiknya seperti ini. Rekam jalur audio seorang pembicara yang mengucapkan suku kata /ba/. Rekam pembicara yang sama sedang mengucapkan /ga/. Tumpuk audio /ba/ di atas video /ga/. Para pendengar sebagian besar melaporkan mendengar /da/ — sebuah fonem yang tidak ada dalam kedua input tersebut. Tutup mata Anda dan ilusi itu lenyap; Anda mendengar /ba/ dengan jelas. Buka mata Anda dan /da/ muncul kembali. Efek ini bertahan meski Anda mengetahuinya. Ia bertahan meski Anda membaca paragraf ini. Ia bertahan meski Anda memiliki gelar PhD dalam fonetik.

Apa yang dilakukan otak

Ternyata, percakapan bukanlah fenomena auditori. Ia adalah fenomena audiovisual, dan otak memperlakukannya seperti itu sejak tahap awal pemrosesan. Bentuk mulut untuk /ba/ mengharuskan bibir menutup sepenuhnya; /ga/ diartikulasikan di bagian belakang tenggorokan dengan bibir terbuka; /da/ berada di antara keduanya, dibuat dengan lidah di punggung gusi di belakang gigi. Dihadapkan dengan suara bibir tertutup yang dipasangkan dengan mulut terbuka, otak menolak untuk membuang salah satu sinyal tersebut. Ia mengambil jalan tengah dan memilih fonem yang artikulasinya konsisten dengan keduanya — atau setidaknya tidak terlalu tidak konsisten dibandingkan alternatif lainnya.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

Integrasi lintas modal semacam ini kini dianggap terjadi di superior temporal sulcus, lipatan korteks di atas telinga yang menyala dalam pemindaian fMRI setiap kali audio dan visual percakapan digabungkan. Jika terjadi kerusakan di sana, atau jika bagian itu diganggu sementara dengan stimulasi magnetik transkranial, maka efek McGurk akan melemah atau menghilang. Ilusi ini bukanlah gangguan pada modul membaca bibir yang periferal. Ia adalah bagian penopang dari bagaimana otak manusia pada umumnya mengurai sebuah percakapan.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

Efek ini tidak universal. Penutur asli bahasa Mandarin dan Jepang menunjukkannya dengan kurang andal dibandingkan penutur asli bahasa Inggris, dan kekuatannya bervariasi tergantung usia, gangguan pendengaran, dan bahkan seberapa baik pendengar dapat melihat wajah pembicara. Anak-anak di bawah usia sekitar sepuluh tahun menunjukkan efek yang lebih lemah daripada orang dewasa: integrasi ini justru semakin kuat dengan latihan, bukan melemah. Ada literatur mengenai autism spectrum yang nyata dan telah direplikasi yang menunjukkan kerentanan yang berkurang, yang telah digunakan — dengan hati-hati — sebagai jendela untuk memahami bagaimana pengikatan multisensori berkembang.

Mengapa ini lebih penting daripada sekadar trik pesta

Interpretasi yang lazim tentang McGurk adalah bahwa persepsi itu dikonstruksi, bukan diterima begitu saja, dan itu benar sejauh yang bisa dipahami. Namun, poin yang lebih dalam adalah tentang keyakinan. Ketika Anda mendengar /da/ dalam klip sulih suara tersebut, Anda tidak merasa seolah-olah Anda sedang menebak. Anda tidak mengalami keraguan otak di antara dua input yang bertentangan. Anda mengalami satu suku kata yang renyah, pasti, dan tidak dapat dibedakan dalam karakter subjektifnya dari /da/ yang diucapkan dengan bersih ke mikrofon. Konstruksi tersebut tidak terlihat dari dalam.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

Inilah properti yang membuat efek ini menarik secara filosofis. Sebagian besar ilusi persepsi — panah Müller-Lyer, penari yang berputar — mengumumkan diri mereka sebagai ilusi bahkan saat mereka menipu Anda. Efek McGurk tidak. Ia adalah pemalsuan yang tidak ditandai oleh otak.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

Di dunia nyata, tentu saja, otak biasanya benar untuk memberikan bobot besar pada mulut. Di kafe yang bising atau melalui sambungan telepon yang buruk, membaca bibir secara material meningkatkan pemahaman; pendengar tunarungu dan yang mengalami gangguan pendengaran mengandalkannya terus-menerus. McGurk adalah wujud dari mesin pembantu tersebut saat Anda memberinya kontradiksi.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

Apa yang belum kita ketahui

Mengapa efek ini sangat bervariasi antarindividu? Dua orang dewasa yang menonton klip yang sama, dengan pendengaran yang sama dan bahasa pertama yang sama, dapat melaporkan suku kata yang berbeda — dan studi replikasi telah menemukan bahwa tingkat di mana pendengar mendengar /da/ daripada /ba/ berkisar antara empat puluh persen hingga hampir semuanya, tergantung pada stimulus dan populasi.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

Kita tidak tahu seberapa banyak percakapan normal yang tidak disulih suara yang diperbaiki secara diam-diam oleh input visual. Estimasi memang ada, tetapi itu hanyalah estimasi. Kontribusinya mungkin besar dalam kebisingan dan kecil dalam keadaan tenang, tetapi kurvanya tidak pernah dipetakan dengan bersih.

Kita tidak tahu apakah efek ini bisa dihilangkan. Upaya tahun 2018 untuk melatih pendengar agar tidak terpengaruh, oleh John F. Magnotti dan rekan-rekannya di Baylor, menghasilkan perubahan kecil yang berumur pendek. Integrasi bawaan kembali muncul dalam hitungan hari.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

Dan kita tidak benar-benar tahu apa lagi yang sedang disusun secara diam-diam oleh otak. Percakapan adalah kasus yang kebetulan kita uji, karena McGurk memiliki penyunting video dan pertanyaan penelitian tentang bayi. Arsitekturnya mungkin jauh lebih umum.

Sebuah ilusi berusia lima puluh tahun, yang ditemukan secara tidak sengaja dalam kesalahan penyulihan suara, masih merupakan demonstrasi terbersih yang kita miliki bahwa suara di kepala Anda bukanlah sebuah rekaman.

Понаблюдайте за тем, как губы человека произносят слог «га», пока из динамиков звучит «ба». Вы услышите «да» — звук, которого нет ни в одном из этих источников. Знание этого трюка его не разрушает.

В 1976 году психолог развития из University of Surrey по имени Harry McGurk проводил эксперимент о том, как младенцы воспринимают речь, глядя на лица своих матерей. Он попросил своего научного ассистента Джона Макдональда сделать дубляж видео так, чтобы движения губ не совпадали с аудио — по сути, это был контрольный тест, чтобы проверить, заметят ли младенцы несоответствие. Когда они прокрутили запись, чтобы проверить результат, они заметили нечто куда более странное, чем любая реакция младенцев. Взрослые в комнате слышали третий слог. Не тот, что был на звуковой дорожке, и не тот, что произносили губы. Новый слог, выдуманный где-то между глазом и ухом.

Они описали это в журнале *Nature* под заголовком, который со временем превратился в невозмутимую комедию: «Слыша губы и видя голоса» (Hearing lips and seeing voices). Статья занимала всего две страницы. Она изменила то, как когнитивные психологи смотрят на восприятие.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

Классическая демонстрация выглядит так. Запишите аудиодорожку, где диктор произносит слог /ба/. Снимите на видео того же диктора, произносящего /га/. Наложите аудио /ба/ на видео с /га/. Слушатели в подавляющем большинстве случаев утверждают, что слышат /да/ — фонему, которой нет ни в одном из входных сигналов. Закройте глаза, и иллюзия исчезнет; вы чисто услышите /ба/. Откройте их, и /да/ вернется. Эффект сохраняется, даже если вы о нем знаете. Он сохраняется после прочтения этого абзаца. Он сохраняется даже при наличии докторской степени по фонетике.

Что делает мозг

Как оказалось, речь — это вовсе не слуховой феномен. Это аудиовизуальное явление, и мозг обращается с ним именно так с самых ранних этапов обработки. Форма рта для /ба/ требует полного смыкания губ; /га/ артикулируется в глубине горла при открытом рте; /да/ находится между ними, оно произносится языком, прижатым к альвеолярному отростку за зубами. Столкнувшись со звуком, требующим сомкнутых губ, и видео с открытым ртом, мозг отказывается отбрасывать какой-либо из сигналов. Он находит среднее решение и выбирает фонему, артикуляция которой соответствует обоим сигналам — или, по крайней мере, является менее противоречивой, чем альтернативы.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

Считается, что такая кросс-модальная интеграция происходит в superior temporal sulcus, складке коры головного мозга над ухом, которая активируется на МРТ-сканировании всякий раз, когда аудио- и визуальная речь объединяются. Если повредить эту область или временно нарушить ее работу с помощью транскраниальной магнитной стимуляции, эффект Макгурка ослабевает или исчезает. Эта иллюзия — не сбой в каком-то периферийном модуле чтения по губам. Это несущая конструкция того, как типичный мозг интерпретирует беседу.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

Эффект не универсален. Носители мандаринского и японского языков демонстрируют его менее надежно, чем носители английского, а его сила зависит от возраста, потери слуха и даже от того, насколько хорошо слушатель может видеть лицо говорящего. У детей до десяти лет эффект проявляется слабее, чем у взрослых: интеграция усиливается с практикой, а не ослабевает. Существует реальная и подтвержденная литература по autism spectrum, демонстрирующая сниженную восприимчивость, что осторожно используется как окно в понимание развития мультисенсорной интеграции.

Почему это больше, чем просто фокус

Обычная интерпретация эффекта Макгурка заключается в том, что восприятие конструируется, а не просто принимается, и это верно, насколько это возможно. Но более глубокий смысл связан с уверенностью. Когда вы слышите /да/ в дублированном ролике, у вас не возникает ощущения, что вы гадаете. Вы не чувствуете, как мозг мечется между двумя противоречивыми входными сигналами. Вы воспринимаете один четкий, ясный слог, который по своим субъективным характеристикам ничем не отличается от /да/, произнесенного в микрофон. Внутри конструкции эти швы невидимы.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

Это свойство делает эффект философски интересным. Большинство перцептивных иллюзий — стрелки Мюллера-Лайера, вращающаяся танцовщица — сами заявляют о себе как об иллюзиях, даже когда обманывают вас. Эффект Макгурка — нет. Это подделка, которую мозг не распознает.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

В реальном мире, конечно, мозг обычно прав, придавая большое значение движениям рта. В шумном кафе или при плохой телефонной связи чтение по губам существенно улучшает понимание; глухие и слабослышащие люди постоянно на него полагаются. Эффект Макгурка — это то, как выглядит этот полезный механизм, когда вы подкармливаете его противоречием.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

Чего мы все еще не знаем

Почему эффект так сильно варьируется у разных людей? Два взрослых человека, смотрящие один и тот же ролик, обладающие одинаковым слухом и родным языком, могут сообщать о разных слогах, а исследования по воспроизведению показали, что частота, с которой слушатели слышат /да/ вместо /ба/, колеблется от сорока процентов до почти ста, в зависимости от стимула и выборки.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

Мы не знаем, какая часть обычной, не дублированной речи негласно корректируется визуальными сигналами. Оценки существуют, но это лишь оценки. По-видимому, вклад визуального канала велик в условиях шума и мал в тишине, но эта зависимость никогда не была четко картирована.

Мы не знаем, можно ли отучиться от этого эффекта. Попытка 2018 года, предпринятая John F. Magnotti и коллегами из Бэйлора, чтобы «обучить» слушателей игнорировать его, дала скромные и кратковременные изменения. Интеграция по умолчанию восстанавливается за считанные дни.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

И мы на самом деле не знаем, что еще мозг сочиняет втихомолку. Речь — это тот случай, который нам довелось проверить, просто потому что у Макгурка был видеомонтажер и научный вопрос про младенцев. Архитектура, вероятно, гораздо более универсальна.

Пятидесятилетняя иллюзия, открытая случайно из-за ошибки при дубляже, до сих пор остается самым наглядным доказательством того, что голос у вас в голове — это не запись.

Beobachten Sie die Lippen eines Mannes, wie sie die Silbe „ga“ formen, während ein Lautsprecher „ba“ wiedergibt. Sie werden „da“ hören – einen Laut, der in keiner der beiden Spuren vorkommt. Den Trick zu kennen, hebt ihn nicht auf.

Im Jahr 1976 führte ein Entwicklungspsychologe an der University of Surrey namens Harry McGurk ein Experiment darüber durch, wie Säuglinge Sprache von den Gesichtern ihrer Mütter aufnehmen. Er bat seinen Forschungsassistenten John MacDonald, ein Video so zu synchronisieren, dass die Lippenbewegungen und der Ton nicht übereinstimmten – im Grunde eine Kontrollbedingung, um zu sehen, ob die Babys die Diskrepanz bemerkten. Als sie das Band zur Überprüfung abspielten, bemerkten sie etwas, das seltsamer war als alles, was die Babys taten. Die Erwachsenen im Raum hörten eine dritte Silbe. Nicht die auf der Tonspur, nicht die auf den Lippen. Eine neue, erfunden irgendwo zwischen Auge und Ohr.

Sie verfassten einen Bericht für *Nature* unter einem Titel, der heute wie eine trockenhumorige Komödie anmutet: "Hearing lips and seeing voices" (Lippen hören und Stimmen sehen). Das Papier war zwei Seiten lang. Es veränderte die Art und Weise, wie Kognitionswissenschaftler über Wahrnehmung dachten.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

Die klassische Demonstration sieht so aus: Nehmen Sie eine Tonspur eines Sprechers auf, der die Silbe /ba/ sagt. Filmen Sie denselben Sprecher dabei, wie er /ga/ sagt. Legen Sie das /ba/-Audio über das /ga/-Video. Die Zuhörer berichten überwiegend, dass sie /da/ hören – ein Phonem, das in keinem der beiden Inputs enthalten ist. Schließen Sie die Augen und die Illusion verschwindet; Sie hören sauber /ba/. Öffnen Sie sie und das /da/ kehrt zurück. Der Effekt überlebt das Wissen darüber. Er überlebt das Lesen dieses Absatzes. Er überlebt einen Doktortitel in Phonetik.

Was das Gehirn tut

Sprache, so stellt sich heraus, ist kein auditives Phänomen. Es ist ein audiovisuelles, und das Gehirn behandelt es bereits in einem sehr frühen Stadium der Verarbeitung als solches. Die Mundform für /ba/ erfordert, dass die Lippen vollständig geschlossen sind; /ga/ wird mit geöffneten Lippen im hinteren Teil des Rachens artikuliert; /da/ liegt dazwischen und wird mit der Zunge am Zahndamm hinter den Zähnen gebildet. Konfrontiert mit einem Laut, der geschlossene Lippen erfordert, gepaart mit einem Mund, der offene Lippen zeigt, weigert sich das Gehirn, eines der Signale zu verwerfen. Es bildet den Mittelwert und wählt ein Phonem, dessen Artikulation mit beidem vereinbar ist – oder zumindest weniger unvereinbar als die Alternativen.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

Man nimmt heute an, dass diese Art der multimodalen Integration im superior temporal sulcus stattfindet, einer Windung der Großhirnrinde oberhalb des Ohres, die bei fMRT-Scans immer dann aufleuchtet, wenn akustische und visuelle Sprache kombiniert werden. Schädigt man diesen Bereich oder stört ihn vorübergehend durch transkranielle Magnetstimulation, so schwächt sich der McGurk-Effekt ab oder verschwindet ganz. Die Illusion ist keine Fehlfunktion eines peripheren Lippenlese-Moduls. Sie ist ein tragendes Element dessen, wie normale Gehirne eine Konversation interpretieren.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

Der Effekt ist nicht universell. Muttersprachler des Mandarin und Japanischen zeigen ihn weniger zuverlässig als englische Muttersprachler, und die Stärke variiert mit dem Alter, mit Hörverlust und sogar damit, wie gut der Zuhörer das Gesicht des Sprechers sehen kann. Kinder unter etwa zehn Jahren zeigen einen schwächeren Effekt als Erwachsene: Die Integration wird mit Übung stärker, nicht schwächer. Es gibt eine reale und replizierte Literatur zum autism spectrum, die eine verringerte Anfälligkeit zeigt, was – vorsichtig – als Fenster dazu genutzt wurde, wie sich multisensorische Bindung entwickelt.

Warum dies mehr als ein Partytrick ist

Die übliche Interpretation des McGurk-Effekts besagt, dass Wahrnehmung eher konstruiert als empfangen wird, und das ist insofern richtig. Aber der tiefere Punkt betrifft das Vertrauen. Wenn Sie im synchronisierten Clip /da/ hören, haben Sie nicht das Gefühl, dass Sie raten. Sie erleben nicht das Zögern des Gehirns zwischen zwei widersprüchlichen Eingaben. Sie erleben eine einzelne, klare, sichere Silbe, die sich in ihrem subjektiven Charakter nicht von einem /da/ unterscheidet, das sauber in ein Mikrofon gesprochen wurde. Die Konstruktion ist von innen heraus unsichtbar.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

Dies ist die Eigenschaft, die den Effekt philosophisch interessant macht. Die meisten Wahrnehmungstäuschungen – die Müller-Lyer-Pfeile, die rotierende Tänzerin – geben sich als Illusionen zu erkennen, selbst während sie einen täuschen. Der McGurk-Effekt tut das nicht. Er ist eine Fälschung, die das Gehirn nicht als solche markiert.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

In der realen Welt hat das Gehirn natürlich meist recht damit, den Mundbewegungen ein hohes Gewicht beizumessen. In einem lauten Café oder bei einer schlechten Telefonleitung verbessert Lippenlesen das Verständnis materiell; gehörlose und schwerhörige Menschen verlassen sich ständig darauf. McGurk zeigt, wie diese hilfreiche Maschinerie aussieht, wenn man ihr einen Widerspruch füttert.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

Was wir immer noch nicht wissen

Warum variiert der Effekt zwischen Individuen so stark? Zwei Erwachsene, die denselben Clip sehen, mit demselben Gehör und derselben Muttersprache, können unterschiedliche Silben melden – und Replikationsstudien haben ergeben, dass die Rate, mit der Zuhörer /da/ statt /ba/ hören, je nach Stimulus und Population zwischen vierzig Prozent und fast allen liegt.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

Wir wissen nicht, wie viel der normalen, unmanipulierten Konversation stillschweigend durch visuelle Eingaben korrigiert wird. Es gibt Schätzungen, aber es sind Schätzungen. Der Beitrag ist bei Lärm vermutlich groß und in der Stille klein, aber die Kurve wurde nie sauber kartiert.

Wir wissen nicht, ob der Effekt verlernt werden kann. Ein Versuch aus dem Jahr 2018, Zuhörer durch John F. Magnotti und Kollegen am Baylor College davon abzutrainieren, brachte nur bescheidene, kurzlebige Veränderungen. Die standardmäßige Integration stellt sich innerhalb weniger Tage wieder ein.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

Und wir wissen nicht wirklich, was das Gehirn noch alles im Stillen zusammensetzt. Sprache ist der Fall, den wir zufällig getestet haben, weil McGurk einen Videoeditor und eine Forschungsfrage zu Säuglingen hatte. Die Architektur ist vermutlich allgemeiner.

Eine fünfzig Jahre alte Illusion, die durch Zufall bei einem Synchronisationsfehler entdeckt wurde, ist immer noch der sauberste Beweis, den wir dafür haben, dass die Stimme in Ihrem Kopf keine Aufnahme ist.

한 남자의 입술이 '가'라는 음절을 만드는 것을 보면서 동시에 스피커에서 흘러나오는 '바'라는 소리를 들어보라. 당신은 두 음원 어디에도 존재하지 않는 '다'라는 소리를 듣게 될 것이다. 그 속임수를 알고 있어도 이 현상은 깨지지 않는다.

1976년, University of Surrey의 발달 심리학자 Harry McGurk는 유아들이 어머니의 얼굴을 보고 어떻게 언어를 습득하는지에 관한 실험을 진행하고 있었다. 그는 연구 조교인 존 맥도널드에게 영상의 입술 움직임과 오디오가 일치하지 않도록 더빙을 요청했다. 기본적으로 아기들이 그 불일치를 알아차리는지 확인하기 위한 대조군 실험이었다. 테이프를 재생해 확인하던 그들은 아기들이 보인 그 어떤 반응보다도 기이한 현상을 발견했다. 방 안에 있던 성인들이 세 번째 음절을 듣고 있었던 것이다. 사운드트랙에 담긴 음절도, 입술 모양이 나타내는 음절도 아니었다. 눈과 귀 사이 어딘가에서 창조된 새로운 음절이었다.

그들은 이 연구 결과를 *Nature*지에 '입술을 듣고 목소리를 보다'라는, 이제는 무덤덤한 유머처럼 느껴지는 제목으로 발표했다. 이 논문은 두 페이지 분량이었다. 하지만 이 논문은 인지 과학자들이 지각을 바라보는 방식을 완전히 바꾸어 놓았다.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

가장 고전적인 시연 방식은 이렇다. 화자가 /ba/ 음절을 말하는 오디오 트랙을 녹음한다. 같은 화자가 /ga/를 말하는 영상을 촬영한다. 이제 /ba/ 오디오를 /ga/ 영상 위에 입힌다. 그러면 청자들은 압도적으로 /da/가 들린다고 보고한다. 두 입력 정보 어디에도 존재하지 않는 음절이다. 눈을 감으면 환상은 사라지고 깨끗하게 /ba/가 들린다. 다시 눈을 뜨면 /da/가 돌아온다. 이 효과는 원리를 알고 있어도 사라지지 않는다. 이 문단을 읽어도 마찬가지이며, 음성학 박사 학위가 있어도 똑같다.

뇌가 하는 일

알고 보니 언어는 청각 현상이 아니었다. 언어는 시청각 현상이며, 뇌는 처리 과정의 극초기 단계부터 언어를 그렇게 취급한다. /ba/를 발음할 때의 입 모양은 입술이 완전히 닫혀야 하며, /ga/는 입술을 벌린 채 목구멍 뒤쪽에서 조음된다. /da/는 그 중간 지점에 위치하며 혀를 치아 뒤쪽 잇몸에 대고 만든다. 닫힌 입술 소리와 벌린 입 모양이 짝을 이루는 상황에 직면하면, 뇌는 두 신호 중 어느 것도 포기하지 않는다. 뇌는 타협안을 찾아 두 발음 모두와 일관성이 있는—혹은 적어도 다른 대안보다는 덜 모순적인—음소를 선택한다.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

이러한 교차 양상 통합은 이제 귀 위쪽 대뇌 피질의 주름인 superior temporal sulcus에서 일어난다고 여겨진다. 이곳은 fMRI 스캔에서 청각과 시각 언어가 결합할 때마다 활성화되는 부위다. 이곳이 손상되거나 경두개 자기 자극을 통해 일시적으로 방해를 받으면 맥거크 효과는 약해지거나 사라진다. 이 환상은 주변적인 입술 읽기 모듈의 오류가 아니다. 이는 일반적인 뇌가 대화를 해석하는 방식의 핵심을 지탱하는 구성 요소다.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

이 효과가 보편적인 것은 아니다. 만다린어나 일본어를 모국어로 사용하는 사람들은 영어를 모국어로 사용하는 사람들보다 이 효과를 일관되게 보이지 않으며, 그 강도는 연령, 난청 정도, 심지어 청자가 화자의 얼굴을 얼마나 잘 볼 수 있는지에 따라서도 달라진다. 약 10세 미만의 아동은 성인보다 약한 효과를 보이는데, 통합 능력은 연습을 통해 약해지는 것이 아니라 강해진다. autism spectrum 관련 연구에서도 이 효과에 대한 민감도가 낮다는 점이 실제 입증되었으며, 이는 다감각 결합이 어떻게 발달하는지를 이해하는 창구로 조심스럽게 활용되어 왔다.

단순한 파티용 마술보다 중요한 이유

맥거크 효과에 대한 일반적인 해석은 지각이란 수동적으로 받아들여지는 것이 아니라 구성되는 것이라는 점이며, 그 말은 그 자체로 옳다. 하지만 더 깊은 의미는 '확신'에 있다. 더빙된 영상에서 /da/를 들을 때, 당신은 무언가를 추측하고 있다는 느낌을 받지 않는다. 두 개의 상충하는 입력 사이에서 뇌가 줄타기를 하고 있다는 경험도 하지 않는다. 당신은 마이크에 대고 깨끗하게 발음된 /da/와 주관적인 성격 면에서 구분할 수 없는, 단일하고 명료하며 확실한 음절을 경험한다. 내부에서 보면 이 구성 과정은 전혀 보이지 않는다.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

이러한 특성이 맥거크 효과를 철학적으로 흥미롭게 만든다. 뮐러-라이어 착시나 회전하는 무용수와 같은 대부분의 지각적 착시는 당신을 속이는 와중에도 스스로가 착시임을 드러낸다. 하지만 맥거크 효과는 그렇지 않다. 그것은 뇌조차 알아채지 못하는 위조다.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

물론 현실 세계에서 뇌가 입술 모양에 큰 비중을 두는 것은 대체로 옳은 판단이다. 소음이 심한 카페나 통화 품질이 나쁜 상황에서 입술 읽기는 이해도를 실질적으로 높여준다. 청각 장애인이나 난청인은 끊임없이 입술 읽기에 의존한다. 맥거크 효과는 그 유용한 기제에 모순된 정보를 입력했을 때 나타나는 모습이다.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

아직 밝혀지지 않은 것들

왜 이 효과는 개인마다 차이가 클까? 같은 영상을 보더라도 청력과 모국어가 같은 두 성인이 서로 다른 음절을 보고할 수 있다. 반복 연구들에 따르면, 청자가 /ba/가 아닌 /da/를 듣는 비율은 자극과 집단에 따라 40%에서 거의 100%에 이르기까지 천차만별이다.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

우리는 일상적인 대화 중 더빙되지 않은 상태에서 시각적 입력에 의해 얼마나 조용히 수정되고 있는지 알지 못한다. 추정치는 존재하지만, 말 그대로 추정치일 뿐이다. 소음이 있을 때 이 기여도가 크고 조용한 환경에서는 작을 것으로 추측되지만, 그 곡선은 명확히 그려진 적이 없다.

우리는 이 효과가 학습을 통해 사라질 수 있는지조차 모른다. 2018년 베일러 대학교의 John F. Magnotti 연구팀이 청자들을 훈련해 이 효과를 제거하려 시도했으나, 그 결과는 미미하고 단기적인 변화에 그쳤다. 며칠 뒤면 다시 원래의 통합 방식이 자리 잡는다.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

또한 우리는 뇌가 또 무엇을 조용히 구성하고 있는지 진정으로 알지 못한다. 언어는 맥거크가 영상 편집기를 가지고 있었고 우연히 유아에 관한 연구 질문을 가졌기 때문에 실험하게 된 사례일 뿐이다. 뇌의 구조는 아마도 더 보편적인 원리를 따를 것이다.

우연히 더빙 오류로 발견된 50년 된 이 착시는, 당신의 머릿속에서 들리는 목소리가 단순한 녹음이 아니라는 점을 증명하는 가장 명확한 사례로 여전히 남아 있다.

男の唇が「ガ」という音を形作るのを眺めながら、スピーカーから流れる「バ」という音を聞いてみよ。するとあなたには「ダ」という音が聞こえるはずだ。どちらのトラックにも存在しない音が。その仕掛けを知っていても、錯覚は解けない。

1976年、University of Surreyの心理学発達研究者であるHarry McGurkは、乳児が母親の顔からどのように言葉を学んでいるかを調べる実験を行っていた。彼は研究助手のジョン・マクドナルドに、唇の動きと音声が一致しない動画の吹き替えを依頼した。これは、赤ちゃんが不一致に気づくかどうかを調べるための、いわば対照実験であった。彼らが確認のためにそのテープを再生したとき、赤ちゃんが反応するよりもさらに奇妙なことに気づいた。その場にいた大人たちが、3つ目の音節を聞き取っていたのである。サウンドトラックの音でも、唇が発している音でもない。目と耳の間のどこかで生み出された、新しい音節だった。

彼らはこの結果を『ネイチャー』誌に投稿した。そのタイトルは、今となっては無表情なユーモアのように響く。「耳で唇を聞き、目で声を見る(Hearing lips and seeing voices)」というものだ。論文はわずか2ページだったが、認知科学における知覚の捉え方を一変させた。

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

古典的なデモンストレーションはこうだ。話者が /ba/ という音節を発する音声を録音する。同じ話者が /ga/ と発する姿を撮影する。そして、/ga/ の映像に /ba/ の音声を重ねる。すると、聞き手の圧倒的多数が /da/ と聞こえたと報告する。どちらの入力にも存在しない音素である。目を閉じればその錯覚は消え、はっきりと /ba/ と聞こえる。目を開ければまた /da/ が戻ってくる。この効果は、その仕組みを知っていても消えない。この段落を読んだ後でも消えない。音声学の博士号を持っていても消えないのだ。

脳は何をしているのか

結局のところ、言葉というのは聴覚現象ではない。それは視聴覚的な現象であり、脳は処理の非常に早い段階からそのように扱っている。/ba/ を発する際の口の形は唇を完全に閉じる必要がある。一方、/ga/ は唇を開いたまま喉の奥で調音される。/da/ はその中間に位置し、歯の裏の隆起に舌を付けて作られる。唇を閉じる音と唇を開く口の動きを組み合わせられると、脳はどちらの信号も捨てようとはしない。脳は両者の妥協点を見出し、その調音方法が両方と矛盾しない――あるいは少なくとも、他の選択肢よりも矛盾が少ない――音素を選択するのである。

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

こうしたクロスモーダルな統合は、現在ではsuperior temporal sulcus(上側頭溝)で起こっていると考えられている。ここは耳の上方に位置する大脳皮質のひだであり、音声と視覚的な言葉が組み合わさるたびに、fMRIスキャンで活動が確認される。そこを損傷したり、経頭蓋磁気刺激法で一時的に妨害したりすると、マクガーク効果は弱まるか消失する。この錯覚は、周辺的な読唇モジュールにおける不具合などではない。ごく一般的な脳が会話を解析する際に不可欠な、荷重を支える部品なのである。

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

この効果は普遍的なものではない。標準的な日本語話者や北京語話者は、英語のネイティブスピーカーほど確実にはこの効果を示さない。また、その強さは年齢や難聴の有無、さらには聞き手がどれだけ話者の顔をはっきりと見ることができるかによっても変化する。10歳未満の子供は大人よりも弱い効果を示す。つまり、統合の力は練習によって強まるのであって、弱まるのではない。また、autism spectrum(自閉症スペクトラム)に関して、この効果への感受性が低いという研究結果も複数あり、これは多感覚の結合がどのように発達するかを探る窓として(慎重にではあるが)利用されてきた。

なぜこれがパーティーの余興以上に重要なのか

マクガーク効果に関する一般的な解釈は「知覚は受動的なものではなく構築されるものである」というものだが、それはあくまで一面に過ぎない。より深い意味は「確信」にある。吹き替え映像で /da/ と聞こえるとき、聞き手は推測しているという感覚を抱かない。相反する二つの入力の間で脳が迷っているという経験もしない。マイクに向かってはっきりと発せられた /da/ と、主観的な性質において区別がつかない、単一の鮮明で確実な音節を経験する。その構築プロセスは、内部からは不可視なのである。

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

この特性こそが、この効果を哲学的に興味深いものにしている。ミュラー・リヤー錯視や回転するダンサーのような多くの知覚的錯覚は、騙されながらもそれが錯覚であると気づかせる。しかしマクガーク効果はそうではない。これは脳が偽物だと見破らない偽造なのだ。

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

もちろん現実世界では、脳が口の動きを重視するのは正しい判断だ。騒がしいカフェや、電話の回線状況が悪いとき、読唇は理解を大きく助ける。耳の不自由な人や難聴者は常にこれに頼っている。マクガーク効果とは、その有益な機能に矛盾した情報を与えたときに現れる姿なのである。

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

まだ解明されていないこと

なぜ個人によってこれほど効果に差があるのか。同じ映像を見て、同じ聴力と言語背景を持つ大人二人であっても、報告する音節が異なる場合がある。追試研究では、聞き手が /ba/ ではなく /da/ と聞き取る割合は、刺激の性質や集団によって40パーセントからほぼ全員まで幅があることが明らかになっている。

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

日常的な、吹き替えではない会話のうち、どの程度が視覚入力によって無意識に補正されているのかは分かっていない。推計は存在するが、あくまで推計に過ぎない。騒音環境ではその貢献度が大きく、静かな場所では小さいはずだが、その曲線は明確にマッピングされたことがない。

また、この効果が訓練によって「学習解除」できるのかも不明だ。ベイラー大学のJohn F. Magnottiらによる2018年の訓練の試みでは、わずかで短期間の変化しか得られなかった。結局、脳は数日のうちに元のデフォルトの統合状態に戻ってしまう。

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

そして、脳が他にどのような情報を静かに構成しているのか、私たちには本当のところ分かっていない。言葉の事例をテストできたのは、マクガークが動画編集者であり、かつ乳児に関する研究上の問いを持っていたという偶然によるものだ。この仕組みは、おそらくもっと一般的なものなのだろう。

吹き替えのミスから偶然発見された50年前のこの錯覚は、あなたの頭の中にある声が録音データではないことを示す、私たちが手にしている最も純粋な証明なのである。

Observez les lèvres d’un homme former la syllabe « ga » tandis qu’un haut-parleur diffuse « ba ». Vous entendrez « da » — un son qui n’existe dans aucune des deux pistes. Connaître le truc ne suffit pas à le briser.

En 1976, un psychologue du développement de l’University of Surrey nommé Harry McGurk menait une expérience sur la manière dont les nourrissons perçoivent le langage à partir des visages de leur mère. Il demanda à son assistant de recherche, John MacDonald, de doubler une vidéo de sorte que les mouvements des lèvres et la bande-son ne concordent pas — un contrôle, essentiellement, pour voir si les bébés remarquaient ce décalage. Lorsqu’ils visionnèrent la bande pour la vérifier, ils remarquèrent quelque chose de plus étrange que tout ce que faisaient les bébés. Les adultes présents dans la pièce entendaient une troisième syllabe. Pas celle de la bande sonore, pas celle des lèvres. Une nouvelle, inventée quelque part entre l’œil et l’oreille.

Ils rédigèrent un rapport pour *Nature* sous un titre qui, avec le temps, est devenu une comédie pince-sans-rire : « Entendre des lèvres et voir des voix ». L’article faisait deux pages. Il a changé la façon dont les spécialistes des sciences cognitives envisageaient la perception.

M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English
M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English dictionarywear · BY 2.0

La démonstration classique se déroule comme suit. Enregistrez une piste audio d’un locuteur prononçant la syllabe /ba/. Filmez le même locuteur prononçant /ga/. Superposez l’audio /ba/ sur la vidéo /ga/. Les auditeurs rapportent massivement entendre /da/ — un phonème qui n’est présent dans aucune des deux entrées. Fermez les yeux et l’illusion s’évanouit ; vous entendez /ba/, distinctement. Ouvrez-les et /da/ revient. L’effet persiste même en le connaissant. Il survit à la lecture de ce paragraphe. Il survit à un doctorat en phonétique.

Ce que fait le cerveau

Le langage, s’avère-t-il, n’est pas un phénomène auditif. C’est un phénomène audiovisuel, et le cerveau le traite comme tel très tôt dans le processus. La forme de la bouche pour /ba/ exige que les lèvres se ferment complètement ; /ga/ est articulé à l’arrière de la gorge avec la bouche ouverte ; /da/ se situe entre les deux, produit avec la langue sur la crête derrière les dents. Confronté à un son de lèvres fermées associé à une bouche ouverte, le cerveau refuse de rejeter l’un ou l’autre signal. Il coupe la poire en deux et choisit un phonème dont l’articulation est cohérente avec les deux — ou du moins, moins incohérente que les alternatives.

A close portrait setup of a speaker forming a consonant while audio equipment plays a diff
A close portrait setup of a speaker forming a consonant while audio equipment plays a diff Illustration · AI-generated (FLUX.1-dev)

On pense désormais que ce type d’intégration intermodale se produit dans le superior temporal sulcus, un repli du cortex situé au-dessus de l’oreille qui s’illumine lors d’examens IRMf chaque fois que le langage audio et visuel est combiné. Si vous y causez des dommages, ou si vous le perturbez temporairement par stimulation magnétique transcrânienne, l’effet McGurk s’affaiblit ou disparaît. L’illusion n’est pas un bug d’un quelconque module périphérique de lecture labiale. C’est une pièce maîtresse de la façon dont les cerveaux normaux analysent une conversation.

Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895
Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 AnonymousUnknown author · Public domain

L’effet n’est pas universel. Les locuteurs natifs du mandarin et du japonais y sont moins sensibles que les anglophones natifs, et l’intensité varie avec l’âge, la perte auditive et même la qualité de vision du visage du locuteur par l’auditeur. Les enfants de moins de dix ans environ montrent un effet plus faible que les adultes : l’intégration se renforce avec la pratique, et non l’inverse. Il existe une littérature réelle et reproduite sur l’autism spectrum montrant une susceptibilité réduite, laquelle a été utilisée — avec prudence — comme une fenêtre sur le développement de la liaison multisensorielle.

Pourquoi cela dépasse le simple tour de magie

L’interprétation habituelle de McGurk est que la perception est construite plutôt que reçue, et c’est vrai pour ce qui est du constat. Mais le point plus profond concerne la confiance. Lorsque vous entendez /da/ dans le clip doublé, vous n’avez pas l’impression de deviner. Vous ne faites pas l’expérience de l’hésitation du cerveau entre deux entrées contradictoires. Vous faites l’expérience d’une syllabe unique, nette et certaine, indiscernable en caractère subjectif d’un /da/ prononcé clairement dans un microphone. La construction est invisible de l’intérieur.

A neuroscience testing room where a participant wears a cap of sensors while a silent face
A neuroscience testing room where a participant wears a cap of sensors while a silent face Illustration · AI-generated (FLUX.1-dev)

C’est cette propriété qui rend l’effet philosophiquement intéressant. La plupart des illusions perceptives — les flèches de Müller-Lyer, la danseuse rotative — s’annoncent comme des illusions même pendant qu’elles vous trompent. L’effet McGurk, lui, ne le fait pas. C’est un faux que le cerveau ne signale pas.

Vulcanized rubber
Vulcanized rubber Alfred T. Palmer · Public domain

Dans le monde réel, bien sûr, le cerveau a généralement raison de donner beaucoup de poids à la bouche. Dans un café bruyant ou avec une mauvaise ligne téléphonique, la lecture labiale améliore matériellement la compréhension ; les auditeurs sourds ou malentendants s’y fient constamment. McGurk est ce à quoi ressemble cette machinerie utile lorsque vous la nourrissez d’une contradiction.

A noisy train platform where one commuter leans closer to read another person's lips amid
A noisy train platform where one commuter leans closer to read another person's lips amid Illustration · AI-generated (FLUX.1-dev)

Ce que nous ignorons encore

Pourquoi l’effet varie-t-il autant selon les individus ? Deux adultes regardant le même clip, avec la même audition et la même langue maternelle, peuvent rapporter des syllabes différentes — et les études de réplication ont révélé que le taux auquel les auditeurs entendent /da/ plutôt que /ba/ varie de quarante pour cent à la quasi-totalité d’entre eux, selon le stimulus et la population.

Two volunteers in the same laboratory react differently to the same speech clip
Two volunteers in the same laboratory react differently to the same speech clip Illustration · AI-generated (FLUX.1-dev)

Nous ne savons pas quelle part de la conversation normale, non doublée, est silencieusement corrigée par l’entrée visuelle. Il existe des estimations, mais ce ne sont que des estimations. La contribution est probablement grande dans le bruit et petite dans le calme, mais la courbe n’a jamais été cartographiée précisément.

Nous ne savons pas si l’effet peut être désappris. Une tentative de 2018 pour entraîner les auditeurs à s’en défaire, par John F. Magnotti et ses collègues à Baylor, a produit des changements modestes et éphémères. L’intégration par défaut se rétablit en quelques jours.

A viewer studies their own face in a bathroom mirror while softly shaping a syllable
A viewer studies their own face in a bathroom mirror while softly shaping a syllable Illustration · AI-generated (FLUX.1-dev)

Et nous ne savons pas vraiment ce que le cerveau compose silencieusement d’autre. Le langage est le cas que nous avons testé, par hasard, parce que McGurk avait un monteur vidéo et une question de recherche sur les nourrissons. L’architecture est probablement plus générale.

Une illusion vieille de cinquante ans, découverte accidentellement lors d’une erreur de doublage, reste la démonstration la plus nette dont nous disposons que la voix dans votre tête n’est pas un enregistrement.

Image sources & licenses (3)
  1. M: McGurk effect: Wear Your Dictionary: Katakana: Transliteration: Pronunciation: English — dictionarywear, BY 2.0. Source (openverse)
  2. Henry Clay Keenan and the Lindauer gang of Jersey City, New Jersey in the Jersey Journal Thursday, August 29, 1895 — AnonymousUnknown author, Public domain. Source (commons)
  3. Vulcanized rubber — Alfred T. Palmer, Public domain. Source (wikipedia)

Mentioned in this article

Sources

  1. McGurk, H. & MacDonald, J. (1976). "Hearing lips and seeing voices." Nature 264, 746–748.
  2. Beauchamp, M. S., Nath, A. R. & Pasalar, S. (2010). "fMRI-guided transcranial magnetic stimulation reveals that the superior temporal sulcus is a cortical locus of the McGurk effect." Journal of Neuroscience 30(7), 2414–2417.
  3. Magnotti, J. F. & Beauchamp, M. S. (2017). "A causal inference model explains perception of the McGurk effect and other incongruent audiovisual speech." PLOS Computational Biology 13(2), e1005229.
  4. Sekiyama, K. & Tohkura, Y. (1991). "McGurk effect in non-English listeners." Journal of the Acoustical Society of America 90, 1797–1805.
  5. Rosenblum, L. D. (2010). See What I'm Saying: The Extraordinary Powers of Our Five Senses. W. W. Norton.
Production storyboard

The 90-second video script behind this article.

EN script

Play an audio clip of someone saying 'ba.' Now watch a video of someone saying 'ga' with that same 'ba' audio. You'll hear 'da.' Not 'ba.' Not 'ga.' Your brain creates a sound that doesn't exist. This is the McGurk effect, discovered in 1976. And it works even when you know it's happening. You cannot override it. Your brain refuses to hear what's actually there. What's happening? Your brain combines visual and auditory information to determine speech. Lip movements say 'ga.' Ears hear 'ba.' Brain compromises: 'da.' A sound that's literally nowhere in the input. This isn't a bug—it's a feature. In noisy environments, watching lips helps us understand speech. Your brain is constantly cross-referencing senses to build reality. But it proves something unsettling: you don't experience the world directly. You experience your brain's best guess about the world. It's editing, interpreting, constructing—before you're even aware. What else is your brain quietly changing without asking permission?

HI script

Kisi ko 'ba' bolte dekho 'ga' sunte hue. Tumhara brain 'da' create karega. Har baar.

Ek audio clip play karo kisi ke 'ba' bolne ki. Ab video dekho kisi ke 'ga' bolne ki usi 'ba' audio ke saath. Tum 'da' sunoge. 'Ba' nahi. 'Ga' nahi. Tumhara brain ek sound create karega jo exist nahi karti. Ye McGurk effect hai, 1976 mein discover hua. Aur ye tab bhi kaam karta hai jab tum jaante ho ye ho raha hai. Override nahi kar sakte. Tumhara brain refuse karta hai sunne jo actually wahan hai. Kya ho raha hai? Tumhara brain visual aur auditory information combine karta hai speech determine karne ke liye. Lips bolte hain 'ga.' Ears sunte hain 'ba.' Brain compromise karta hai: 'da.' Ek sound jo literally input mein kahin nahi hai. Ye bug nahi hai—feature hai. Noisy environments mein, lips dekhna speech samajhne mein help karta hai. Tumhara brain constantly senses cross-reference karta hai reality build karne ke liye. Par ye kuch unsettling prove karta hai: tum duniya directly experience nahi karte. Tum apne brain ka best guess experience karte ho. Wo edit, interpret, construct kar raha hai—tumhare aware hone se pehle. Aur kya tumhara brain quietly change kar raha hai bina permission ke?

  1. 01

    1970s speech perception lab with analog equipment

  2. 02

    Close-up of speaker and audio equipment in a dubbing setup

  3. 03

    Neuroscience testing room with sensor cap and projector

  4. 04

    Noisy train platform with commuters communicating

  5. 05

    Two volunteers reacting differently to the same speech clip

  6. 06

    Viewer studying their reflection in a bathroom mirror