30/10/2003

IL RICONOSCIMENTO VOCALE: UN'ALTERNATIVA EFFICACE A MOUSE E TASTIERA 

(Dip. Ing. Alessandra Eselli)

Spesso nel nostro lavoro si incontrano persone che a seguito di un incidente o di una malattia degenerativa non sono più in grado di utilizzare gli arti superiori, anche se hanno mantenuto integre tutte le abilità cognitive. Soprattutto nel caso di ragazzi giovani o di adulti, ci si confronta con soggetti con un buon livello di scolarizzazione, magari già introdotti nel mondo del lavoro e fortemente invalidati da una disabilità di tipo prevalentemente (se non esclusivamente) motorio.

In un mondo come quello in cui viviamo oggi, avere accesso ad informazioni digitalizzate, usare un personal computer per immettere dati, servirsi di Internet per restare in contatto con Paesi e luoghi distanti migliaia di chilometri sembra essere diventato un requisito fondamentale per chiunque per restare 'al passo con i tempi'. Ma allora perdere la funzionalità di braccia e mani potrebbe voler dire 'rimanere indietro', 'essere tagliati fuori'...

Già sappiamo che fortunatamente non è così. La ricerca in campo tecnologico ha messo a disposizione di queste persone innumerevoli soluzioni informatiche che consentono loro di continuare a servirsi del computer come strumento di studio, lavoro e svago.

Una di queste soluzioni, di cui desideriamo approfondire meglio la conoscenza in questa occasione, è il software di Riconoscimento Vocale (RV).

Il programma di riconoscimento vocale consente di dettare testi al computer e di controllare quasi tutte le funzioni del mouse (apertura applicativi e menu, selezione icone, ecc).

Dopo aver completato il training in pochi minuti, è possibile iniziare a parlare al computer e le parole pronunciate vengono subito visualizzate in tutte le applicazioni.

Consente di lavorare più velocemente grazie alle funzioni di avvio dei programmi, di modifica e formattazione dei file di testo e di gestione del desktop tramite la voce.

Sviluppato inizialmente per ottimizzare la procedura di immissione dati da parte di medici, avvocati, segretarie, ecc e quindi prevalentemente rivolto ad un mercato di larga diffusione, il software di RV si è presto dimostrato uno strumento indispensabile per l'utilizzo del computer da parte di soggetti focomelici, tetraplegici gravi, distrofici, affetti da sclerosi multipla e da tutti coloro che trovano particolari difficoltà nell'utilizzo di una tastiera e di un mouse tradizionali.

Di recente applicazione è anche l'integrazione con Screen Reader, con programmi di riconoscimento ottico (O.C.R.) e con programmi ingrandenti, dedicati a ciechi ed ipovedenti.

Da non dimenticare è come il programma si sia dimostrato utile nel trattamento di alcuni disturbi di apprendimento e letto scrittura (come la sindrome dislessica, che comprende anche la disgrafia e la disortografia), rendendo molto più efficace un inserimento scolastico a medio alto livello (scuole medie e superiori) e riducendo notevolmente gli sforzi atti a seguire un normale curriculum.

Viene da sè che una condizione necessaria al corretto uso di un programma di RV deve essere un'emissione vocale sufficientemente buona e costante. Vedremo comunque che, adottando particolari accorgimenti, anche soggetti con difficoltà di espressione possono servirsi di questo programma ottenendo una valida alternativa alla tastiera hardware.

Lo scopo di queste righe è quello di fornirvi alcune informazioni sui programmi di RV   (in particolare sul software Dragon Naturally Speaking che attualmente si è dimostrato essere il più efficace ed accurato), nonché trucchi e strategie per ottimizzare al meglio il livello di accuratezza del riconoscimento in modo da poterlo utilizzare anche con persone che hanno difficoltà espressive.

Per un corretto ed efficace utilizzo di un programma di RV, è necessario:

  • Un'ottimale configurazione dell'hardware
  • Un corretto posizionamento del microfono
  • Un'accurata esecuzione della fase di calibrazione audio
  • Un'efficace addestramento

Per quanto riguarda le caratteristiche tecniche del computer da utilizzare, il parametro più importante è la memoria RAM: il suo valore non deve essere inferiore ai 256 MB (anche se si suggerisce di utilizzarne una quantità maggiore per non appesantire il sistema). La scelta della scheda sonora, il cui compito è quello di ricevere la voce e filtrarla correttamente, riveste altrettanta importanza. Tutti i computer attualmente disponibili sul mercato possiedono già ottime schede audio integrate. Nel caso di utilizzo di computer portatili, verificare sempre la compatibilità della scheda audio con il fornitore del computer. Ulteriori informazioni sulle caratteristiche hardware necessarie si possono trovare sulla confezione del programma di RV o presso il fornitore.

Il programma di riconoscimento vocale viene fornito con un microfono a cuffia. In alcuni casi, specialmente se l'utente si serve di un ventilatore per la respirazione assistita, potrebbe essere utile acquistare separatamente un microfono USB ad esclusione di rumore in modo da limitare al massimo l'interferenza proveniente dall'ambiente circostante e dal computer stesso. Un buon parametro che segnala se il microfono è soggetto a troppe interferenze è dato dalla barra di stato del microfono di Dragon Naturally Speaking: la barra resta infatti di colore giallo quando il sistema è in attesa di un segnale sonoro, ma diventa di colore verde non appena il microfono inizia a captare dei suoni. Se la barra dunque tende a diventare verde anche quando non si sta direttamente parlando nel microfono, il livello di interferenza del rumore potrebbe inficiare l'accuratezza del riconoscimento. Per ulteriori informazioni sui microfoni disponibili consultare le pagine Internet all'indirizzo http://www.emicrophones.com/

Al fine di filtrare al meglio il segnale utile ed escludere i rumori ambientali, il microfono deve essere posizionato nell'angolo della bocca ad una distanza non superiore e non inferiore al centimetro. Un microfono posizionato frontalmente al centro della bocca è molto soggetto alle interferenze naturalmente provenienti dalla pronuncia di molte consonanti (come P, B, T, D, S, F....). Sempre nel caso di utenti che si servono di un respiratore, spostare il microfono ad esclusione di rumore leggermente verso l'alto in modo da limitare l'influenza del rumore del ventilatore stesso.

La fase di calibrazione audio è a sua volta suddivisa in due passaggi: una procedura di impostazione del volume del microfono ed una procedura di calcolo che stabilisce il rapporto esistente tra il segnale utile (la voce dell'utente) e il livello del rumore di fondo.

Ripetere la calibrazione del microfono ogniqualvolta si inizia a dettare può essere molto utile per stabilire il livello del rumore di fondo ad ogni nuova sessione di lavoro ed aumentare di conseguenza l'accuratezza nel riconoscimento della voce.

Più alto è il valore numerico del rapporto tra il segnale utile ed il rumore di fondo (il valore minimo si aggira intorno a 20) migliore sarà il grado di accuratezza nel riconoscimento.

Una volta definiti i livelli del volume del microfono e del rumore di fondo, è possibile dare inizio alla fase di addestramento : il programma di riconoscimento vocale chiederà di pronunciare due frasi in modo   naturale, con un tono di voce normale e cercando, nei limiti del possibile, di non spezzarle. Queste frasi serviranno al software per definire la cadenza di dettatura. Dopo la seconda frase verrà richiesto all'utente di leggere un testo per alcuni minuti in modo da adattare il programma all'intonazione, alla pronuncia e alla cadenza.

Per gli utenti con difficoltà espressive, la fase di calibrazione del microfono e la pronuncia delle prime due frasi dell'addestramento possono risultare operazioni critiche. Un'emissione della voce non costante (come nel caso di utenti che si servono di un ventilatore o affetti da paralisi parziale delle corde vocali) o involontarie contrazioni dovute ad anartrie e spasticità potrebbero dare come risultato un valore troppo basso del rapporto segnale utile/rumore di fondo così come potrebbero rendere impossibile la pronuncia delle prime due frasi. Uno degli accorgimenti più utilizzati è quello di " prestare la voce all'utente " pronunciando al posto loro quello che il sistema richiede e dandogli così la possibilità di continuare l'addestramento secondo le loro capacità espressive.

Fino ad ora abbiamo parlato di calibrazione ed addestramento facendo riferimento ai parametri standard di qualità della voce e dando solo qualche indicazione sulla loro ottimizzazione del caso di utenti con voce " non standard ". In questo secondo caso, alcuni minuti di addestramento potrebbero non essere sufficienti per ottenere un riconoscimento discreto fin da subito. Cerchiamo di vedere nel dettaglio come sia possibile raggiungere il massimo livello di accuratezza consentito anche con persone con voce non standard. Naturalmente, queste riflessioni ci aiuteranno ad allargare il campo dei possibili utenti di un programma di RV, ma non è detto che, sebbene vengano adottati tutti gli accorgimenti necessari, una prova non possa comunque dare un risultato non soddisfacente. A questo punto saremo però certi di aver fatto tutto il possibile prima di escludere un soggetto dall'utilizzo del RV.

Sottolineiamo nuovamente l'importanza della scelta e del posizionamento del microfono.

In alcuni casi specifici l'addestratore (l'insegnante o il terapista) suggerisce all'utente il testo visualizzato nella fase di addestramento, in modo da forzare la cadenza spezzando le frasi troppo lunghe e riuscendo comunque a mantenere una buona intonazione dell'intero periodo. Quest'accortezza previene la pratica diffusa tra le persone con difficoltà respiratorie di parlare sfruttando tutta la fase di espirazione, correndo molto spesso il rischio di troncare le ultime parole. Anche con utenti ipovedenti o con difficoltà di apprendimento (per i quali la lettura di un testo a video risulterebbe lenta, difficoltosa e frammentaria) il suggerimento del testo da parte dell'operatore ha dato risultati migliori.

Una volta terminato l'addestramento iniziale, il programma di RV continua ad apprendere nuove informazioni sulla voce dell'utente durante l'uso. La procedura di correzione degli errori di riconoscimento è fondamentale per migliorare l'accuratezza del programma ed evitare che questo faccia troppi errori durante la scrittura di un documento. Inizialmente si consiglia di utilizzare la videoscrittura integrata (DragonPad nel caso del programma Dragon Naturally Speaking). Iniziare a dettare frasi brevi e semplici ed effettuare sempre la correzione manuale degli errori, seguita dalla ripetizione continua della frase dettata, aggiunge nuove informazioni a quelle già in possesso del sistema migliorando notevolmente il grado del riconoscimento.

Non dimenticate mai che, sebbene dettare un testo   al computer possa sembrare facile e divertente, la dettatura continua non è un'operazione per noi immediata: affinché il programma di riconoscimento vocale possa utilizzare il contesto per ridurre il numero degli errori, le frasi devono essere relativamente lunghe e pronunciate in maniera continua. È perciò molto importante pensare sempre prima a quello che si desidera scrivere. Iniziare a dettare frasi molto semplici come " il mio cane si chiama Fido" o come " il mio gatto è nero " evita l'utilizzo di parole complesse e il conseguente aumento del numero degli errori, così come aiuta ad abituarsi a pensare un'intera frase prima di pronunciarla.

Chiudiamo questo excursus sul riconoscimento vocale con alcune indicazioni di carattere pratico per limitare al massimo l'affaticamento della voce. Durante la fase di addestramento così come durante l'uso, fare frequenti pause per cercare di ristabilire un ritmo di respirazione costante, bere frequentemente acqua o bevande decaffeinate, aggiungendo miele e zucchero per alleviare il carico di stress a cui sono sottoposte le corde vocali.

Tanto altro ci sarebbe da dire sui programmi di RV e su come utilizzarli al meglio, ma per ora ci sembra di aver dato indicazioni sufficienti per consentirvi di valutare la possibilità di farli gestire da utenti con voce "non standard".

Per una scheda complessiva sui prodotti oggi reperibili sul mercato ed che sono risultati i più affidabili, vi segnaliamo di seguito i siti Internet dei distributori italiani.

http://italy.scansoft.com/naturallyspeaking/

http://www-3.ibm.com/software/voice/viavoice/

 

Dip. Ing.   Alessandra Eselli