Accès gratuit
Numéro
Med Sci (Paris)
Volume 32, Numéro 6-7, Juin–Juillet 2016
Page(s) 539 - 541
Section Nouvelles
DOI https://doi.org/10.1051/medsci/20163206003
Publié en ligne 12 juillet 2016

Pourquoi un accord de notes de piano nous paraît-il si agréable alors que d’autres sons, tels que les crissements, sont insupportables et déclenchent des réactions aversives incontrôlables ? Le système auditif humain n’est pas sensible de la même manière à toutes les fréquences du spectre audible. Certains sons semblent induire des réponses émotionnelles stéréotypées, suggérant qu’il existe, au-delà des goûts personnels, des origines neurobiologiques déterminant notre perception et nos réactions au son. Ainsi, tout comme la vision d’une araignée déclenche chez certains des réactions de panique, les hurlements du nouveau-né sont pour nous (parent ou non) difficilement supportables. Alors que nous comprenons de mieux en mieux les mécanismes par lesquels le cerveau réagit aux signaux de danger visuels ou olfactifs [1, 2], les déterminants neurobiologiques de nos réactions émotionnelles aux sons restent toutefois mystérieux. Afin de mieux comprendre ces processus, nous nous sommes intéressés en premier lieu à l’un des signaux de communication acoustique les plus pertinents pour l’être humain : le cri.

Le signal acoustique est d’une efficacité incomparable pour prévenir rapidement nos congénères d’un danger potentiel. Le son de la voix se propage rapidement dans l’air et peut être perçu sans que l’on ait à se diriger vers la source qui l’émet. Le cri, qui constitue probablement la seule vocalisation innée et partagée par de nombreux mammifères, est donc non seulement utile mais certainement indispensable pour la survie. Compte tenu de leur importance évolutive, il paraît donc raisonnable de supposer que les signaux auditifs vocaux, comme tout autre trait biologique, ont subi une pression de sélection naturelle déterminant leurs caractéristiques acoustiques. Pour être efficace, un signal sonore doit notamment être adapté aux propriétés de traitement du système auditif du receveur. Selon cette hypothèse, la structure acoustique du cri aurait donc été sculptée selon sa capacité à induire des réactions rapides et efficaces chez l’auditeur.

Analyse acoustique des modulations temporelles du cri humain

Dans une étude princeps sur le cri humain [3], nous avons cherché à déterminer d’une part si les cris utilisent des caractéristiques acoustiques particulières, et d’autre part comment de tels signaux sont traités par le cerveau humain. Afin d’analyser la structure acoustique du cri, nous avons utilisé une méthode d’analyse du son dénommée spectre de modulation (MPS, pour modulation power spectrum). Cette méthode d’analyse, de plus en plus utilisée en neurosciences de l’audition [4], fournit une représentation reflétant la manière dont les neurones auditifs encodent les sons. Cette analyse permet notamment d’identifier la présence (et la fréquence) de modulations d’amplitude dans un signal sonore (Figure 1A). Dans le cas d’une phrase normale par exemple, le MPS permet de révéler la vitesse à laquelle la voix du locuteur est modulée par ses mouvements articulatoires (le rythme syllabique), correspondant à des modulations temporelles entre 4 et 8 Hz. Nous avons tout d’abord émis l’hypothèse qu’afin d’éviter d’être confondus avec d’autres signaux de communication tels que la parole, les cris humains devaient utiliser un régime fréquentiel particulier.

thumbnail Figure 1.

Caractérisation acoustique et neurocomportementale des vocalisations d’alarme chez l’humain. A. Différents types d’informations sont codées dans diverses régions (niches acoustiques) du spectre de modulation temporelle : la fréquence fondamentale (bleu) reflète le genre du locuteur, les fluctuations lentes (vert) encodent les informations langagières plus lentes (syllabiques). La région orange, qui correspond aux sons dits rugueux, n’a jusqu’ici été associée à aucun type de signal de communication. B. L’analyse acoustique d’enregistrements de cris produits par 19 humains démontre que ces vocalisations utilisent la rugosité. C. Au niveau comportemental, la présence naturelle de rugosité dans le cri permet de localiser ce dernier plus efficacement (plus précisément et plus rapidement) qu’une vocalisation neutre. L’ajout artificiel de rugosité à une vocalisation neutre permet de créer un « cri artificiel » qui favorise de façon équivalente la localisation par rapport à une vocalisation neutre naturelle. D. La présence de rugosité dans le signal acoustique induit une augmentation des réponses cérébrales dans l’amygdale, région sous-corticale impliquée dans la réaction au danger. IRMf : imagerie par résonance magnétique fonctionnelle.

Afin de tester cette hypothèse, nous avons comparé les enregistrements de phrases et de cris produits par 19 adultes consentants. En comparant le MPS des cris et des phrases, nous avons observé que dans les phrases, l’amplitude sonore est préférentiellement modulée en-dessous de 20 Hz, alors que l’amplitude sonore des cris est modulée beaucoup plus rapidement, entre 30 et 150 Hz. Cette gamme de fréquence de modulation, bien connue des psycho-acousticiens, est nommée « rugosité » [5]. Ce régime fréquentiel n’est pas utilisé par les signaux de communication de parole normale et, jusqu’à aujourd’hui, il était considéré comme n’ayant aucune utilité particulière pour la communication vocale. Nos résultats démontrent que, contrairement à cette idée reçue, ce régime est certainement essentiel pour communiquer en cas d’urgence, et constituerait ainsi une niche acoustique privilégiée pour le cri. Des études complémentaires démontrent que ces fréquences rugueuses ne sont pas non plus présentes dans le chant a capella, et que leur absence dans la parole normale se vérifie quel que soit le langage testé. À l’inverse, nous avons découvert que ces fréquences de modulation rapides sont utilisées dans les signaux d’alarme artificiels tels que les klaxons et autres signaux de communication destinés à capter notre attention de façon efficace. Il semblerait donc que la rugosité constitue la caractéristique acoustique propre des signaux d’alarmes, qu’ils soient naturels ou artificiels.

La rugosité acoustique améliore la réaction comportementale

Afin d’observer l’impact des fréquences rugueuses sur le comportement humain, nous avons demandé à vingt participants de quantifier sur une échelle de 1 à 5 à quel point ces signaux d’alarme (artificiels et naturels) leur paraissent effrayants. Il apparaît que plus les sons sont rugueux, plus ils sont perçus comme alarmants. De plus, alors que l’ajout artificiel de rugosité augmente cet effet, le fait de filtrer ces fréquences induit l’effet inverse, rendant ces sons moins effrayants. Compte tenu de la saillance perceptive des fréquences rugueuses, nous avons également émis l’hypothèse qu’elles pouvaient conférer un avantage pour localiser une vocalisation dans l’environnement. Nous avons donc cherché à mesurer l’effet de la rugosité sur l’efficacité du traitement d’un son dans l’espace, en comparant l’efficacité de localisation selon le type de vocalisation (cri, voix neutre et cri artificiel). Nous avons ainsi observé que la présence d’indices rugueux dans les cris naturels et artificiels permet la localisation plus rapide et efficace de ces vocalisations par rapport aux vocalisations neutres (Figure 1C).

Traitement cérébral des stimulus rugueux

Pour mieux comprendre les processus de traitement cérébraux induits par ces sons, nous avons utilisé l’imagerie par résonance magnétique fonctionnelle (IRMf) chez des sujets humains. Nous avons ainsi découvert que les sons rugueux, qu’ils soient musicaux, vocaux ou artificiels, induisent des réponses plus amples dans l’amygdale, une région sous-corticale impliquée dans les réactions au danger (Figure 1D) [6] ().

(→) Voir la Synthèse de S. Pichon et P. Vuilleumier, m/s n° 8-9, août-septembre 2011, page 763

En développant une méthode de corrélation inverse, nous avons également cherché à mesurer si les réponses induites dans les régions cérébrales identifiées sont plus sensibles à certaines parties du spectre de modulation. Nous avons ainsi pu observer que, contrairement à ce qui était présupposé dans la littérature, l’amygdale serait spécifiquement sensible à la fenêtre de modulation temporelle correspondant à la rugosité acoustique.

L’hypothèse des niches acoustiques dans la communication vocale

Ces expériences démontrent que le cri humain et les signaux d’alarme artificiels exploitent une caractéristique acoustique particulière, la rugosité (Figure 1A et B). Les stimuli possédant cette caractéristique sonore permettent de stimuler sélectivement une région cérébrale impliquée dans le traitement du danger (Figure 1D) et accélèrent les réactions comportementales (Figure 1C). L’ensemble de nos résultats soutient donc l’idée que ces modulations rapides de l’amplitude sonore des vocalisations permettent de stimuler efficacement le cerveau de l’auditeur, s’assurant ainsi d’une réponse rapide et inconditionnelle de ce dernier. Ces résultats révèlent un lien direct entre un attribut perceptif (la rugosité) et la réaction comportementale spécifique induite par ce stimulus. Ils démontrent par ailleurs que les cris occupent une niche acoustique privilégiée qui, étant isolée des autres signaux de communication, permet d’assurer l’efficacité biologique et sociale des cris.

Ces observations soutiendraient l’idée selon laquelle les caractéristiques acoustiques utilisées par les humains pour communiquer seraient, comme tout autre trait biologique, contraintes par leur propension à conférer un avantage évolutif. Selon cette hypothèse, les informations pertinentes (telles que le genre, la distance ou le niveau de panique du locuteur, par exemple) seraient encodées en utilisant des attributs acoustiques particuliers et distincts (respectivement la hauteur, le volume et la rugosité sonores), permettant ainsi de minimiser l’ambiguïté des informations communiquées. Ces « niches acoustiques » auraient ainsi été colonisées séquentiellement par les signaux vocaux en fonction de leur pertinence écologique. Par extension, les signaux de parole se seraient développés dans les régions audibles laissées disponibles par ces signaux primitifs, utilisant des caractéristiques acoustiques plus lentes (< 20 Hz) et permettant de fournir des informations sémantiquement plus riches qu’un simple « Aaaaah ».

Liens d’intérêt

L’auteur déclare n’avoir aucun lien d’intérêt concernant les données publiées dans cet article.

Références

  1. Phelps EA, LeDoux JE. Contributions of the amygdala to emotion processing: from animal models to human behavior. Neuron 2005 ; 48 : 175–187. [CrossRef] [PubMed] (Dans le texte)
  2. Rosen JB. The neurobiology of conditioned and unconditioned fear: a neurobehavioral system analysis of the amygdala. Behav Cogn Neurosci Rev 2004 ; 3 : 23–41. [CrossRef] [PubMed] (Dans le texte)
  3. Arnal LH, Flinker A, Kleinschmidt A, et al. Human screams occupy a privileged niche in the communication soundscape. Curr Biol 2015 ; 25 : 2051–2056. [CrossRef] [PubMed] (Dans le texte)
  4. Elliott TM, Theunissen FE. The modulation transfer function for speech intelligibility. PLoS Comput Biol 2009 ; 5 : e1000302. (Dans le texte)
  5. Pressnitzer D. Perception de rugosité psychoacoustique : d’un attribut élémentaire de l’audition à l’écoute musicale. Thèse de doctorat, université Paris 6, 1998. (Dans le texte)
  6. Pichon S, Vuilleumier P. Neuro-imagerie et neuroscience des émotions. Med Sci (Paris) 2011 ; 27 : 763–770. [CrossRef] [EDP Sciences] [PubMed] (Dans le texte)

© 2016 médecine/sciences – Inserm

Liste des figures

thumbnail Figure 1.

Caractérisation acoustique et neurocomportementale des vocalisations d’alarme chez l’humain. A. Différents types d’informations sont codées dans diverses régions (niches acoustiques) du spectre de modulation temporelle : la fréquence fondamentale (bleu) reflète le genre du locuteur, les fluctuations lentes (vert) encodent les informations langagières plus lentes (syllabiques). La région orange, qui correspond aux sons dits rugueux, n’a jusqu’ici été associée à aucun type de signal de communication. B. L’analyse acoustique d’enregistrements de cris produits par 19 humains démontre que ces vocalisations utilisent la rugosité. C. Au niveau comportemental, la présence naturelle de rugosité dans le cri permet de localiser ce dernier plus efficacement (plus précisément et plus rapidement) qu’une vocalisation neutre. L’ajout artificiel de rugosité à une vocalisation neutre permet de créer un « cri artificiel » qui favorise de façon équivalente la localisation par rapport à une vocalisation neutre naturelle. D. La présence de rugosité dans le signal acoustique induit une augmentation des réponses cérébrales dans l’amygdale, région sous-corticale impliquée dans la réaction au danger. IRMf : imagerie par résonance magnétique fonctionnelle.

Dans le texte

Les statistiques affichées correspondent au cumul d'une part des vues des résumés de l'article et d'autre part des vues et téléchargements de l'article plein-texte (PDF, Full-HTML, ePub... selon les formats disponibles) sur la platefome Vision4Press.

Les statistiques sont disponibles avec un délai de 48 à 96 heures et sont mises à jour quotidiennement en semaine.

Le chargement des statistiques peut être long.