Spazializzazione del suono
L’impatto della spazializzazione del suono nel riconoscimento automatico del parlato per gli ipoacusici
Tipo di progetto: Ricerca esplorativa
Disabilità interessata: Disturbi dell’udito
Temi: Autonomia, comunicazione
Stato: Completato
L’obiettivo di questa ricerca esplorativa è valutare l’utilità di uno schermo digitale con riconoscimento automatico del parlato (ASR) spazializzato per le persone con disabilità uditiva. Abbiamo cercato di sviluppare un prototipo di riconoscimento vocale rapido, poi abbiamo implementato due prototipi web e li abbiamo testati con gli utenti.
Le persone con problemi di udito sono isolate dalle discussioni, il che influisce notevolmente sulla loro vita sociale e professionale. Potrebbero quindi beneficiare del riconoscimento vocale automatico (ASR) per seguire il corso di una riunione. Attualmente, l’ASR deve affrontare una serie di sfide. I sistemi più comuni, come quelli integrati nei software per le riunioni online, non offrono vantaggi significativi alle persone con perdita uditiva.
- L’output di testo è generalmente posizionato male nella parte inferiore dello schermo, impedendo agli utenti di vedere le espressioni facciali degli oratori.
- Il testo non cerca di dare un’idea della posizione dei partecipanti e tutti gli interventi sono semplicemente sovrapposti mentre le persone parlano.
- Infine, mentre le riunioni a distanza possono beneficiare dell’ASR, è molto meno comune utilizzare tecnologie simili nelle riunioni faccia a faccia. L’uso dell’ASR in questo contesto è difficile, soprattutto perché i partecipanti non possono essere isolati e “spazializzati” correttamente con un’unica fonte di input.
La ricerca attuale si concentra sugli algoritmi di spazializzazione e con la prospettiva di risultati positivi, abbiamo voluto anticiparne i vantaggi. Abbiamo quindi progettato e implementato un prototipo di “mago di Oz” e un protocollo di test “within-subject” per valutare l’interesse dei partecipanti audiolesi per questa tecnologia.
L’interfaccia è un’applicazione Node.js che utilizza le librerie del browser di riconoscimento vocale e i Websocket. Traduce gli input reali e si è dimostrata sufficientemente accurata da permetterci di pensare di utilizzarla sia in inglese che in francese.
Il protocollo di test si basa su un’unica variabile indipendente: il dispositivo su cui viene visualizzata l’interfaccia. Avevamo intenzione di visualizzare l’interfaccia su occhiali AR, ma abbiamo dovuto accontentarci di un tablet e di uno smartphone. Abbiamo effettuato due sessioni di test con 5 utenti. La maggior parte dei feedback ricevuti è stata positiva, evidenziando tendenze interessanti e nuove strade a cui non avevamo pensato. Tuttavia, il numero limitato di partecipanti e le altre variazioni introdotte durante il test (lingua, spazio disponibile sullo smartphone, ecc.) ci impediscono di fornire risultati quantitativi corretti.
Condurre una ricerca di questo tipo all’interno di un’agenzia web è un compito difficile, poiché la maggior parte dei dipendenti non ha un margine di manovra sufficiente per adattarsi agli ostacoli della ricerca. Ad esempio, il reclutamento dei partecipanti è stato molto più difficile del previsto e abbiamo dovuto ridimensionare le nostre aspettative.
L’implementazione di un’interfaccia di successo è stata rapida. Vediamo due problemi con le API di riconoscimento vocale: (1) sono fornite da aziende con problemi etici e le tecnologie open source sono molto indietro; (2) in genere non riconoscono i termini e i nomi tecnici. Gli occhiali NReal si sono rivelati difficili da usare. Non siamo stati in grado di dedicare abbastanza tempo all’apprendimento e alla fine non siamo riusciti a usarli. I dispositivi supportati da aziende forti potrebbero offrire una curva di apprendimento più agevole.
Gli scambi tra i partner hanno fornito informazioni preziose. Tre esempi:
- I dispositivi visibili potrebbero aumentare il sentimento di rigetto sociale ed essere evitati dagli utenti.
- La nostra interfaccia è sembrata più attraente di alcune applicazioni specializzate (è stata citata Ava).
- La lettura delle espressioni facciali è essenziale per le persone con problemi di udito. Lo spazio più ampio offerto dal tablet era necessario, ma lo smartphone permetteva comunque di vedere gli altoparlanti.
Vorremmo dedicare più tempo a proiettare la nostra interfaccia direttamente in un set di occhiali per la realtà aumentata, come inizialmente previsto, perché pensiamo che questo potrebbe risolvere sia il problema dello spazio reale dello smartphone, sia la perdita di focalizzazione del tablet. Anche la dipendenza da Microsoft e Google per il riconoscimento vocale è un ostacolo che vorremmo superare, mentre continuiamo a esplorare alternative open source. Il nostro partner SignX ha menzionato che l’uso dell’intelligenza artificiale generativa per riassumere il i discorsi in diretta potrebbe essere molto pratico e vorremmo sperimentarlo, utilizzando anche in questo caso tecnologie open source, ove possibile. Dal punto di vista della ricerca, perfezionare il nostro protocollo (introducendo una distinzione tra sordi e non udenti, garantendo l’equilibrio delle due fasi, ecc.) e trovare un numero sufficiente di partecipanti ci permetterebbe di capire meglio le loro esigenze. Questa comprensione sarebbe utile a tutti, dalle aziende private ai ricercatori universitari.