Speech Accessibility Project: ecco di cosa si tratta

Le tecnologie a riconoscimento vocale aiutano le persone a compiere azioni, come fare una telefonata, regolare l’illuminazione in casa o riprodurre una canzone preferita, trasformando il suono della loro voce in comandi. E queste tecnologie, ad oggi, sembrano non funzionare molto bene per tutti quei milioni di persone in tutto il mondo che hanno un linguaggio non standard. Ed è per questo che le più grandi aziende tecnologiche del mondo stanno unendo le loro forze, con l’aiuto di un’università americana, per sviluppare una nuova soluzione.

Amazon, Apple, Google, Meta e Microsoft stanno collaborando con l’Università dell’Illinois Urbana-Champaign (UIUC) al suo progetto di accessibilità vocale, che mira a rendere il riconoscimento vocale più inclusivo. Molti sistemi di riconoscimento vocale attuali, come gli assistenti vocali (Google, Alexa, Siri, Cortana…) e gli strumenti di traduzione automatica, faticano infatti a riconoscere le persone con determinati modelli di linguaggio, fra cui quelle che sono affette, per esempio, da sclerosi laterale amiotrofica (SLA), dal morbo di Parkinson, da problemi di tipo cerebrale e da sindrome di Down. Problematiche di questo tipo lasciano alcune persone senza la possibilità di fruire e utilizzare con successo i sistemi di riconoscimento vocale attuali.

Il progetto “Speech Accessibility Project” vuole cercare di cambiare questa situazione e cerca di sfruttare le possibilità tecnologiche e finanziarie delle Big Tech per sviluppare una soluzione con l’aiuto dell’intelligenza artificiale e dell’apprendimento automatico, coinvolgendo grandi associazioni, come il Team Gleason e la Davis Phinney Foundation, per creare librerie che raccolgono set di dati vocali, raccolti da persone affette da disturbi del linguaggio, per aiutare ad accelerare i miglioramenti degli strumenti di riconoscimento vocale avanzato.

“La possibilità di comunicare e utilizzare i dispositivi con la voce è fondamentale per chiunque interagisca con la tecnologia o l’economia digitale oggi”, ha affermato Mark Hasegawa-Johnson, professore di ingegneria elettronica e informatica dell’UIUC che guida il progetto. “Le interfacce vocali dovrebbero essere disponibili per tutti, comprese le persone con disabilità. Questo compito è stato difficile perché richiede molte infrastrutture, idealmente infrastrutture utilizzate e, potenzialmente, supportate dalle principali società tecnologiche, quindi abbiamo creato un team interdisciplinare unico con esperienza in linguistica, dettatura, intelligenza artificiale, sicurezza e privacy per supportarci, aiutarci e portare a termine questa importante sfida”. Il progetto raccoglierà campioni vocali di persone che rappresentano una gamma di diversi modelli vocali, creando un set di dati che verrà utilizzato per addestrare modelli di apprendimento automatico per comprendere più persone diverse, più toni di voce diverse, più linguaggi diversi… e, in definitiva, migliorare l’inclusività dei sistemi di riconoscimento vocale.

La Davis Phinney Foundation, un’organizzazione basata sulla comunità, sostiene le persone con malattia di Parkinson. Il suo direttore esecutivo, Polly Dawkins, ha dichiarato: “Parte di questo impegno assunto implica garantire che le persone con Parkinson abbiano accesso agli strumenti, alle tecnologie e alle risorse necessarie per vivere la loro vita migliore. Il Parkinson colpisce i sintomi motori, rendendo difficile la digitazione, quindi il riconoscimento vocale è uno strumento fondamentale per la comunicazione e l’espressione. Siamo entusiasti di collaborare con questo team per garantire che questo sforzo possa portare benefici per nostra comunità”.

Un’altra organizzazione coinvolta nel progetto, Team Gleason, aiuta la comunità SLA con tecnologie assistive, attrezzature e servizi concreti di supporto. “Il Team Gleason si impegna ogni giorno per fornire la migliore tecnologia assistiva disponibile per la comunità SLA, esplorando contemporaneamente i modi per far avanzare soluzioni future”, ha affermato Blair Casey, direttore esecutivo del gruppo. “La tecnologia ha la capacità di superare le barriere di comunicazione e aumentare l’indipendenza. Il Team Gleason è orgoglioso di aiutare ad accelerare questo sforzo per le persone che vivono con la SLA e chiunque altro abbia differenze di linguaggio”.

C’è ancora molto da fare per sviluppare sistemi di riconoscimento vocale avanzato in grado di comprendere la voce di tutti, indipendentemente dal modello vocale. Tuttavia, è chiaro che set di dati più ampi e diversificati e le collaborazioni con le comunità porteranno sicuramente a grandi risultati. La speranza è che, mettendo a disposizione sempre più set di dati per i team di ricerca e sviluppo, si arrivi finalmente a migliorare i sistemi di comunicazione per tutti, favorendo soprattutto le persone con disabilità.

Paolo Berro