Spatialisation du son

L’impact de la spatialisation du son dans la reconnaissance automatique de la parole pour personnes malentendantes

Type de projet : Recherche exploratoire

Handicap concerné : Handicap auditif

Thématiques : Autonomie, Communication

Statut : Terminé

Cette recherche exploratoire vise à évaluer l’utilité d’un écran numérique avec reconnaissance automatique de la parole (ASR) spatialisée pour les personnes ayant un handicap auditif. Nous avons tenté de développer un prototype rapide de reconnaissance vocale, puis nous avons mis en œuvre deux prototypes web et les avons testés avec des utilisateurs.

Les personnes malentendantes sont isolées des discussions, ce qui affecte considérablement leur vie sociale et professionnelle. Elles pourraient donc tirer profit de la reconnaissance automatique de la parole (ASR) pour les aider à suivre le cours d’une réunion. À l’heure actuelle, l’ASR est confrontée à quelques défis. Les systèmes les plus courants, tels que ceux intégrés dans les logiciels de réunion en ligne, n’offrent pas d’avantages significatifs aux personnes malentendantes.

La sortie textuelle est généralement mal située en bas de l’écran, ce qui empêche les utilisateurs de voir les expressions faciales des orateurs.
Cette sortie textuelle ne cherche pas à donner une idée de l’emplacement des participants, et toutes les interventions sont simplement empilées les unes sur les autres au fur et à mesure que les personnes s’expriment.
Enfin, si les réunions à distance peuvent bénéficier de l’ASR, il est beaucoup moins courant d’utiliser des technologies similaires dans les réunions en face-à-face. L’utilisation de l’ASR dans un tel contexte est difficile, principalement parce que les participants ne peuvent pas être isolés et « spatialisés » correctement avec une seule source d’entrée.

Les recherches actuelles portent sur les algorithmes de spatialisation et, dans la perspective de résultats fructueux, nous avons voulu anticiper leurs avantages. Nous avons donc conçu et mis en œuvre un prototype de « wizard-of-oz », ainsi qu’un protocole de test « intra-sujet » afin d’évaluer l’intérêt des participants malentendants pour cette technologie.

L’interface elle-même est une application Node.js qui utilise les bibliothèques du navigateur de reconnaissance vocale et les Websockets. Elle traduit les entrées réelles en cours de route et s’est avérée suffisamment précise pour que nous envisagions de l’utiliser en anglais et en français.

Le protocole de test repose sur une seule variable indépendante : l’appareil sur lequel l’interface est affichée. Nous avions l’intention d’afficher l’interface sur des lunettes AR, mais nous avons dû nous contenter d’une tablette et d’un smartphone. Nous avons mené deux sessions de test avec 5 utilisateurs. Cette étude a donné lieu à des retours majoritairement positifs, a permis de mettre en évidence des tendances intéressantes et de nouvelles pistes auxquelles nous n’avions pas pensé. Cependant, le nombre limité de participants, ainsi que d’autres variations introduites au cours du test (langue, espace disponible sur le smartphone, etc.), nous empêchent de fournir des résultats quantitatifs corrects.

Mener une telle recherche au sein d’une agence Web est une tâche difficile, car la plupart des employés ne bénéficient pas d’une marge de manœuvre suffisante pour s’adapter aux obstacles de la recherche. Par exemple, le recrutement des participants a été beaucoup plus difficile que prévu et nous avons dû revoir nos attentes à la baisse.

La mise en œuvre d’une interface réussie a été rapide. Nous constatons deux problèmes avec les API de reconnaissance vocale : (1) elles sont fournies par des entreprises ayant des problèmes éthiques, et les technologies open source sont considérablement à la traîne. (2) elles ne reconnaissent généralement pas les termes et les noms techniques. Les lunettes NReal se sont révélées difficiles à utiliser. Nous n’avons pas pu consacrer suffisamment de temps à l’apprentissage et n’avons finalement pas réussi à les utiliser. Les dispositifs soutenus par des entreprises solides pourraient offrir une courbe d’apprentissage plus douce.
Les échanges entre les partenaires ont permis de recueillir des informations précieuses. Trois exemples :

Les dispositifs visibles pourraient accroître le sentiment de stigmatisation sociale et être écartés par leurs utilisateurs.
Notre interface semblait plus attrayante que certaines applications spécialisées (Ava a été mentionnée).
La lecture des expressions faciales est indispensable pour les personnes malentendantes. Le plus grand espace offert par la tablette était nécessaire, mais le smartphone leur permettait néanmoins de voir les locuteurs.

Nous aimerions consacrer plus de temps à la projection de notre interface directement dans un ensemble de lunettes de réalité augmentée, comme prévu initialement, car nous pensons que cela pourrait résoudre à la fois le problème de l’espace réel du smartphone et la perte de focalisation de la tablette. La dépendance à l’égard de Microsoft et de Google pour la reconnaissance vocale est également un obstacle que nous aimerions surmonter, en poursuivant notre exploration des alternatives open source. Notre partenaire SignX a également mentionné que l’utilisation d’IA génératives pour résumer des discours en direct pourrait être très pratique, et nous aimerions expérimenter sur ce point, en utilisant des technologies open source ici aussi, dans la mesure du possible. Du point de vue de la recherche, affiner notre protocole (introduire une distinction entre sourds et malentendants, assurer l’équilibre des deux phases, etc.) et trouver un nombre suffisant de participants permettrait de mieux comprendre leurs besoins. Cette compréhension serait utile à tous, des entreprises privées aux chercheurs universitaires.

Dessin d'un groupe de personnes ayant des bulles de parole colorées au-dessus de leurs têtes.

Contact

Liip SA

Donato Rotunno

donato.rotunno@liip.ch