Spatialisierung von Ton

Der Einfluss von räumlichem Klang auf die automatische Spracherkennung für Menschen mit Hörverlust

Projekttyp: Explorative Forschung

Betroffene Behinderung: Hörbehinderung

Thematiken: Selbstständigkeit, Kommunikation

Status: Abgeschlossen

Ziel dieser explorativen Forschung ist es, die Nützlichkeit eines digitalen Bildschirms mit räumlicher automatischer Spracherkennung (ASR) für Menschen mit Hörbehinderungen zu bewerten. Wir haben versucht, einen schnellen Prototypen für die Spracherkennung zu entwickeln, dann zwei Web-Prototypen implementiert und sie mit Nutzenden getestet.

Menschen mit Hörverlust sind von Diskussionen isoliert, was ihr soziales und berufliches Leben stark beeinträchtigt. Sie könnten daher von der automatischen Spracherkennung (ASR) profitieren, die ihnen hilft, dem Verlauf eines Treffens zu folgen. Derzeit steht die ASR vor einigen Herausforderungen. Die gängigsten Systeme, wie sie in Software für Online-Meetings integriert sind, bieten hörgeschädigten Menschen keine nennenswerten Vorteile.

Die Textausgabe ist in der Regel ungünstig am unteren Bildschirmrand platziert, sodass die Nutzer die Gesichtsausdrücke der Redner nicht sehen können.
Diese Textausgabe versucht nicht, einen Eindruck davon zu vermitteln, wo sich die Teilnehmer befinden, und alle Redebeiträge werden einfach übereinander gestapelt, während die Personen sprechen.
Und schließlich: Während Fernbesprechungen von ASR profitieren können, ist es weit weniger üblich, ähnliche Technologien in persönlichen Besprechungen einzusetzen. Der Einsatz von ASR in einem solchen Kontext ist schwierig, hauptsächlich weil die Teilnehmer mit einer einzigen Eingabequelle nicht richtig isoliert und „räumlich“ dargestellt werden können.

Die aktuelle Forschung befasst sich mit Algorithmen zur Verräumlichung, und in der Erwartung erfolgreicher Ergebnisse wollten wir deren Vorteile vorwegnehmen. Daher haben wir einen „wizard-of-oz“-Prototypen entworfen und implementiert sowie ein „subjektinternes“ Testprotokoll erstellt, um das Interesse hörgeschädigter Teilnehmer an dieser Technologie zu ermitteln.

Die Schnittstelle selbst ist eine Node.js-Anwendung, die die Bibliotheken des Spracherkennungsbrowsers und die Websockets nutzt. Sie übersetzt die tatsächlichen Eingaben im Verlauf des Prozesses und erwies sich als so genau, dass wir ihre Verwendung in Englisch und Französisch in Betracht ziehen.

Das Testprotokoll beruht auf einer einzigen unabhängigen Variablen: dem Gerät, auf dem die Benutzeroberfläche angezeigt wird. Wir hatten vor, das Interface auf einer AR-Brille anzuzeigen, mussten uns aber mit einem Tablet und einem Smartphone begnügen. Wir führten zwei Testsitzungen mit fünf Nutzern durch. Die Studie ergab überwiegend positive Rückmeldungen, zeigte interessante Trends und neue Wege auf, an die wir nicht gedacht hatten. Aufgrund der begrenzten Teilnehmerzahl und anderer Variationen, die im Laufe des Tests eingeführt wurden (Sprache, verfügbarer Platz auf dem Smartphone usw.), können wir jedoch keine korrekten quantitativen Ergebnisse liefern.

Eine solche Forschung in einer Webagentur durchzuführen, ist eine schwierige Aufgabe, da die meisten Mitarbeitenden nicht genügend Spielraum haben, um sich an die Hindernisse der Forschung anzupassen. Beispielsweise war die Rekrutierung von Teilnehmenden viel schwieriger als erwartet und wir mussten unsere Erwartungen zurückschrauben.

Die Implementierung einer erfolgreichen Schnittstelle war schnell erledigt. Wir sehen zwei Probleme bei Spracherkennungs-APIs: (1) Sie werden von Unternehmen mit ethischen Problemen bereitgestellt, wobei Open-Source-Technologien erheblich hinterherhinken, und (2) sie erkennen in der Regel keine technischen Begriffe und Namen. Die NReal-Brille erwies sich als schwierig zu bedienen. Wir konnten nicht genügend Zeit für die Einarbeitung aufwenden und waren schließlich nicht in der Lage, sie zu benutzen. Geräte, die von starken Unternehmen unterstützt werden, könnten eine sanftere Lernkurve bieten.
Durch den Austausch zwischen den Partnern konnten wertvolle Informationen gesammelt werden. Drei Beispiele:

Sichtbare Geräte könnten das Gefühl der sozialen Stigmatisierung verstärken und von ihren Nutzern verdrängt werden.
Unsere Schnittstelle schien attraktiver zu sein als einige Spezialanwendungen (Ava wurde erwähnt).
Das Lesen von Gesichtsausdrücken ist für Menschen mit Hörbehinderung unerlässlich. Der größere Platz, den das Tablet bot, war notwendig, aber das Smartphone ermöglichte es ihnen dennoch, die Sprecher zu sehen.

Wir würden gerne mehr Zeit darauf verwenden, unsere Schnittstelle direkt in ein Set von Augmented-Reality-Brillen zu projizieren, wie ursprünglich geplant, da wir glauben, dass dies sowohl das Problem des realen Raums des Smartphones als auch den Fokusverlust des Tablets lösen könnte. Die Abhängigkeit von Microsoft und Google bei der Spracherkennung ist ebenfalls ein Hindernis, das wir gerne überwinden würden, indem wir unsere Erkundung von Open-Source-Alternativen fortsetzen. Unser Partner SignX hat auch erwähnt, dass die Verwendung von generativer KI zur Zusammenfassung von Live-Reden sehr praktisch sein könnte, und wir würden gerne damit experimentieren, wobei wir auch hier nach Möglichkeit Open-Source-Technologien verwenden würden. Aus Forschungssicht würde eine Verfeinerung unseres Protokolls (Einführung einer Unterscheidung zwischen Gehörlosen und Hörgeschädigten, Gewährleistung der Ausgewogenheit der beiden Phasen usw.) und das Finden einer ausreichenden Anzahl von Teilnehmern ein besseres Verständnis ihrer Bedürfnisse ermöglichen. Dieses Verständnis wäre für alle von Nutzen, von privaten Unternehmen bis hin zur akademischen Forschung.

Zeichnung einer Gruppe von Personen mit bunten Sprechblasen über ihren Köpfen.

Kontakt

Liip SA

Donato Rotunno

donato.rotunno@liip.ch