Pc Magazine Romania - Soluţii - Recunoaşterea vorbirii şi sinteza de voce

AgoraNews

PC Magazine Ro

NET Report

Ginfo

agora ON line

PC Concrete

Liste de discuţii

Cartea de oaspeţi

Mesaje

Agora

Clic aici

Soluţii - PC Magazine Romania, Noiembrie 2001

Recunoaşterea vorbirii şi sinteza de voce

Mihai Săndoiu

Vorbirea este o parte naturală a vieţii noastre şi o formă primară de comunicare cu alţii. Integrarea acestui stil complex de interacţiune în software deschide noi orizonturi pentru mediul educaţional şi cel al afacerilor.

Utilizatorii pot efectua mai uşor operaţii de rutină cu ajutorul comenzilor vorbite, crescând productivitatea prin minimizarea folosirii tastaturii.

Cu câţiva ani în urmă, produsele pentru recunoaşterea vorbirii erau scumpe, prezentau o acurateţe scăzută şi erau dificil de utilizat. Acest lucru s-a schimbat - PC-uri rapide şi îmbunătăţiri ingenioase în software au dus în final la beneficii reale de pe urma tehnologiei de recunoaştere a vorbirii. În lumina investiţiilor de zeci de milioane de dolari în compania L&H, experţii de la Microsoft susţin că tehnologia vorbirii s-a maturizat până la punctul în care interfaţa vocală va fi parte integrantă a următoarei generaţii de servere, PC-uri de birou, calculatoare şi dispozitive mobile.

Chiar dacă recunoaşterea vorbirii a parcurs un drum lung în ultimii 5 ani, provocarea rămâne de a defini întregul său potenţial. În consecinţă, Microsoft nu şi-a introdus tehnologiile vocale ca produse, ci ca seturi API (Application Programming Interface) şi unelte pentru dezvoltarea de aplicaţii, care permit programatorilor să înglobeze aceste tehnologii în interfeţele bazate pe voce ale viitorului.

Scurt istoric al Evoluţiei tehnologiilor vocale
În 1984 a fost funcţional primul sistem de recunoaştere a vocii, bazat pe un supercalculator. Microsoft a lucrat asupra acestor tehnologii încă de la începutul anilor `90. Deja din 1997 există pe piaţa de larg consum produse evoluate de recunoaştere vocală.

Ultimii 5 ani s-au remarcat printr-o creştere deosebită a calităţii acestor sisteme. De la o rată medie de recunoaştere de 85% (15 cuvinte incorecte din 100) s-a ajuns la 95%-97%, iar în prezent are loc o competiţie acerbă pentru ultimele procente. De la un timp de câteva ore pentru "acomodarea" sistemului cu vorbitorul, în 1997, s-a ajuns la un timp de câteva minute, cu rezultate superioare. Pentru PC-uri, următorul salt major va avea loc în următorii 5 ani, când tehnologii ca procesarea în limbaj natural, inteligenţa artificială (AI) şi reţelele neurale vor ajunge la consumatorul de rând.

Încă din aprilie 2001, Microsoft a pregătit pe situl său SAPI 5.0 (Speech API), un SDK (software developer kit) special conceput pentru dezvoltatorii de software (http://www.microsoft.com/speech/).

Este vorba de CD-ul Speech SDK 5.0, care include aplicaţii demonstrative, cod sursă, instrumente complementare de dezvoltare. O altă firmă, SQZ, oferă SpeechStudio Suite, o suită de instrumente avansate de dezvoltare, complementare cu Visual Studio 6.0. Terţe firme oferă controale add-on pentru mediile de dezvoltare, care adaugă rapid şi simplu funcţionalitate audio aplicaţiilor create de dumneavoastră.

Fundamentele procesării vorbirii
Tehnologia folosită pentru procesarea digitală a vorbirii se împarte în două mari categorii:

recunoaşterea vorbirii este abilitatea unui sistem de a transforma cuvintele vorbite în text alfanumeric şi comenzi
sinteza de voce se defineşte prin răspunsul către un utilizator, prin generarea de limbaj vorbit de la un text dat.

În linii mari, iată despre ce este vorba:

puteţi dicta text în aplicaţii şi puteţi controla sistemul de operare cu o acurateţe medie de 95 %.
aplicaţiile de recunoaştere a vorbirii necesită un procesor rapid (Pentium II sau mai nou), mult RAM (minim 128 MB, dar 256 MB vor oferi îmbunătăţiri substanţiale în viitor), un microfon bun şi o placă de sunet bună.
recunoaşterea vorbirii este o caracteristică esenţială a noilor aplicaţii bazate pe internet, ca şi a unor dispozitive înglobate.

RecunoaŞterea vorbirii
Recunoaşterea vorbirii (speech-to-text) implică următoarele etape (figura 1):

captura şi digitizarea undelor sonore;
conversia lor în foneme;
construirea cuvintelor din aceste foneme;
analiza contextuală a cuvintelor;
trimiterea spre aplicaţie a textului recunoscut.

Arhitectura software utilizată în aplicaţiile de recunoaştere a vorbirii cuprinde două mari componente: modelul acustic şi modelul lingvistic. Modelul acustic analizează sunetele vocii şi le converteşte în foneme (elementele de bază ale vorbirii). Este eliminat zgomotul de fond, apoi datele sunt reduse la un spectru de frecvenţe. În urma unor calcule matematice, cuvintele sunt apoi convertite în reprezentări digitale ale fonemelor.

Modelul lingvistic analizează conţinutul vorbirii şi compară combinaţiile de foneme cu cuvintele din vocabularul său digital, o bază de date imensă cu cele mai frecvent folosite cuvinte din limba aleasă (150.000 de cuvinte pentru limba engleză). Modelul lingvistic decide rapid ce cuvinte a spus vorbitorul şi le afişează pe ecran.

Schema procesului de sinteză de voce

Cele mai mari firme care activează în acest domeniu sunt: IBM, Lernout & Hauspie (care a achiziţionat Dragon Systems) şi Philips. Acestea oferă pachete cu funcţiile de bază la 50$, dar versiunile mai sofisticate, cu dicţionare mai mari, costă între 200$ şi 250$. Pachetele de software pentru recunoaşterea vorbirii se adaptează la utilizatorul individual, în funcţie de voce, timbru şi accent (figura 2).

Recunoaşterea vorbirii este realizată de o componentă software numită "motor de recunoaştere a vorbirii" (Speech Recognition Engine - SRE). Majoritatea SRE suportă vorbirea continuă, la viteza unei conversaţii normale. În trecut se foloseau SRE izolate sau discrete, care necesitau pauze între cuvinte.
SRE continue suportă două moduri de recunoaştere a vorbirii:

dictarea, în care utilizatorul introduce date vorbind direct spre computer;
comanda şi controlul, în care utilizatorul transmite comenzi prin vorbire, care poate fi şi sub forma unor întrebări.

Modul de dictare permite introducerea rapoartelor, referatelor şi mesajelor e-mail. Posibilitatea de a recunoaşte un anumit cuvânt este limitată de dimensiunea "gramaticii" SRE (numită şi "dicţionar"). Majoritatea SRE care suportă dictarea sunt dependente de vorbitor, deoarece acurateţea variază cu trăsăturile vocii, cum ar fi timbrul şi accentul. Pentru a mări acurateţea, sunt create baze de date numite profile de vorbitor, care stochează modelul de vorbire al fiecărui utilizator.

Modul de comandă şi control oferă cea mai uşoară implementare a unei interfeţe vocale într-o aplicaţie.

În acest caz, "dicţionarul" este limitat la lista de comenzi disponibile, fapt care creşte acurateţea, performanţa, şi scade necesarul de putere de calcul al aplicaţiei. În plus, aceste SRE sunt independente de vorbitor şi nu necesită sesiuni de training.

Schema procesului de recunoaştere a vorbirii

Tehnologiile de recunoaştere a vorbirii permit înglobarea următoarelor caracteristici în noile aplicaţii:

manipularea calculatoarelor în mod hands-free, şi fără observare vizuală. Acest lucru este important pentru dispozitive PDA şi telefoane celulare (unde montarea unei tastaturi alfanumerice nu este practică), ca şi pentru persoanele cu diferite deficienţe;
un PC mai "uman", care poate conversa cu utilizatorii face ca aplicaţiile educaţionale să fie mai prietenoase şi mai spectaculoase, iar jocurile să fie mai realiste;
pot fi construiţi arbori decizionali bazaţi pe interacţiune vocală, pentru dispozitive care să asiste şi eventual să înlocuiască omul în cadrul anumitor servicii publice;
introducerea de date este facilitată
considerabil;
productivitatea poate creşte dramatic în cazul editării de documente. Microsoft Office XP permite comenzi verbale ca: "bold", "italic", "Arial", "bulleted list", "save", etc. Se elimină astfel necesitatea de a efectua mişcări spre tastatură şi mouse, mişcări care sunt obositoare, predispuse la greşeli şi consumă timp.

Sinteza de voce
Sinteza de voce (figura 3) este procesul de convertire a textului în limbaj vorbit, proces care are loc invers faţă de recunoaşterea vorbirii, după cum urmează:

cuvintele sunt "sparte" în foneme;
textul este analizat pentru o tratare specială a numerelor, inflexiuni şi punctuaţie;
este generat un flux audio digital, redat prin interfaţa audio.

Cu ajutorul engine-urilor text-to-speech, PC-ul poate "citi" orice document în diferite limbi: engleză, franceză, germană, italiană, spaniolă etc. La momentul scrierii acestui articol nu exista nici un engine dedicat pentru limba română (care este o limbă fonetică, deci implementarea devine mai facilă).

Aplicaţiile de tip text-to-speech (figura 4) reprezintă o alternativă viabilă acolo unde înregistrarea audio digitală nu este practică. Acest lucru se întâmplă în următoarele situaţii:

înregistrările audio sunt prea lungi pentru a fi stocate pe un disc sau costul înregistrării este prea mare;
aplicaţia răspunde folosind fraze scurte;
răspunsurile aplicaţiei pot varia prea mult pentru a putea înregistra şi stoca toate posibilităţile. Aici tehnologia de sinteză de voce este singura posibilitate, care scade dramatic necesarul de spaţiu de stocare. De exemplu, comunicarea orei exacte beneficiază în mod direct de pe urma sintezei de voce.
utilizatorul preferă sau necesită feedback audio. Astfel el sesizează mai uşor greşelile de dactilografiere, iar persoanele cu deficienţe vizuale pot manipula mai uşor un dispozitiv digital.

Tehnologii vocale la nivel desktop
Puteţi achiziţiona Dragon Naturally Speaking sau alte programe de acest tip, pentru a vă bucura de aceste facilităţi. De asemenea, Office XP şi Lotus Smartsuite au integrate motoare de recunoaştere vocală şi dictare pentru limba engleză. Sistemul de operare OS/2 Warp de la IBM permite de mai mulţi ani manipulare PC-ului prin comenzi vocale.

Nu puteţi să vă controlaţi propriul PC exclusiv prin comenzi vocale, dar cu această dotare minimă puteţi lansa şi utiliza aplicaţiile. Este foarte posibil ca Windows XP să aducă o integrare a suportului vocal la nivel de sistem de operare