PC Magazine Romania

AgoraNews

PC Magazine Ro

NET Report

Ginfo

agora ON line

PC Concrete

Liste de discuţii

Cartea de oaspeţi

Mesaje

Agora

Clic aici

IPRO - PC Magazine Romania, 2001

Comunitatea experţilor şi a cititorilor PC Magazine - Internet PRO

Ortografia pe web

Adrian Pop

Mulţi editori de situri de pe web-ul românesc continuă să folosească cu dezinvoltură alfabetul amputat.

"Despre Romania s-a auzit. Despre romani de asemenea. [...] E greu sa se mai vada ce este romanesc la romani." (http://noinu.rdscj.ro/lupta.htm)

"Poporul roman a aparut in istorie ca popor crestin" (http://noinu.rdscj.ro/logos.htm).

"Fetele nevăzute ale web-ului"
(http://unde.elite.ro/unde24.html).

"Viitorul si trecutul / Sunt a filei doua fete"
(http://www.mihaieminescu.ro/opera/poezia/glossa.htm)

"Spasi-voi visul de lumina" (http://www.mihaieminescu.ro/opera/poezia/atat_de_frageda.htm)

"Tusele groase" ale lui Umberto Eco
(http://www.humanitas.ro/htdocs/carte/carte.php3?id_carte=1137)

Scrierea estropiată
În faţa tehnologiei informaţiei, literele sunt uneori prea egale. Absenţa tastaturilor în format românesc şi insuficienta răspândire a programelor de configurare care să le ţină locul, lipsa standardelor sau implementarea lor defectuoasă, care fac problematică folosirea oricărui set de caractere mai extins decât venerabilul ASCII, neglijenţa producătorilor străini de TI pentru necesităţile particulare ale utilizatorilor români (motivată, probabil, economic), dublată de propria noastră inerţie, au redus alfabetul românesc, atunci când este folosit în diverse aplicaţii informatice, la o submulţime a sa, făcând semnele diacritice să fie privite ca simple accesorii oarecum pedante şi cu totul dispensabile. Chiar dacă sunt deja mai mulţi ani de când soluţiile tehnice există (imperfecte, dar satisfăcătoare pentru majoritatea aplicaţiilor), mulţi editori de situri de pe web-ul românesc, neînţelegând decât valoarea funcţională a literei - şi nici pe aceea destul de bine, de vreme ce un text cu un vocabular peste cel minimal devine, în aceste condiţii, aproape ilizibil - continuă să folosească cu dezinvoltură alfabetul amputat.

Fără îndoială, raţiunile de ordin practic care au condus la această stare de lucruri nu au fost eliminate. Deşi sistemele de operare şi programele cele mai răspândite sunt compatibile cu diverse seturi de caractere standardizate (dintre ele, ISO 8859-2, cunoscut şi ca Latin-2, cuprinzând toate literele alfabetului românesc), aceste facilităţi nu sunt întotdeauna incluse în configuraţia implicită a pachetelor software. Instalări făcute în pripă sau de către utilizatori neexperimentaţi au ca rezultat incertitudinea editorului de web asupra configuraţiei exacte de pe calculatorul celui care vizitează situl. Şi chiar dacă o configuraţie incompletă poate fi, teoretic, uşor de remediat, există împrejurări în care utilizatorul nu are permisiunea să o facă. Este, adesea, cazul celor care folosesc calculatoarele de la serviciu, din şcoli sau din netcafé-uri.

Situaţia nu e singulară. Designerii şi programatorii de web se confruntă la fiecare pas cu imprevizibilul de la, aşa-zicând, celălalt capăt al firului. Rezoluţia ecranului de care dispune vizitatorul, componenţa paletei cromatice care poate fi reprodusă cu fidelitate pe diverse platforme şi capriciile browserelor în interpretarea HTML-ului fac parte din obsesiile zilnice ale celor implicaţi în construcţia siturilor. O incongruenţă apare însă atunci când interesul pentru accesibilitate nu există (acolo unde, de pildă, problema economiei de clipuri Flash sau de applet-uri Java nu se pune), dar alfabetul românesc este folosit în varianta sa "pentru to(n)ţi". În privinţa renunţării la diacritice accesibilitatea este un simplu pretext. O ocurenţă în egală măsură ridicolă, frecventă şi edificatoare este lipsa semnelor cu pricina până şi din porţiunile de text încorporate în imagini.

Fără diacritice, literele sunt reduse la genul lor proxim. Rezultă o nediferenţiere pe care cititorul o poate compensa de cele mai multe ori, recuperând din context forma corectă a cuvântului. Dar diferenţa nu există de fapt, iar când un program va indexa pagina de web într-o bază de date, ceea ce va fi indexat este un simulacru al textului. Lucrul e de natură să facă penibilă experienţa deja dificilă a utilizării aşa-numitelor motoare de căutare. Nu numai că orice interogare cu cuvinte-cheie care conţin diacritice va trebui să includă cel puţin două variante ale acestora (cea corectă şi cea fără diacritice), dar prin simpla lor juxtapunere, în funcţie de algoritmul specific de stabilire a relevanţei, ordinea prezentării rezultatelor are toate şansele să fie perturbată. O interogare completă şi corect formulată va fi probabil, în cazul dat, o expresie booleană - un instrument fără succes la publicul larg. Aşadar, o licenţă menită să simplifice viaţa utilizatorului român de internet complică în realitate ceea ce este de obicei primul pas al unei incursiuni pe web: căutarea.

Dificultăţi similare apar la redarea textului într-un alt mediu decât cel grafic. Nevăzătorii sau persoanele cu deficienţe majore de vedere au la dispoziţie programe capabile să citească şi să descrie o pagină de web prin intermediul unui sintetizator de voce. Desigur, construirea unui sit accesibil dispozitivelor de acest fel nu se termină cu scrierea corectă, dar e limpede că de aici trebuie să înceapă. Omisiunea semnului diacritic al unei litere - o câtime oarecare din imaginea ei grafică - va rezulta, când semnul este redat fonetic, într-un sunet care nu îl implică în nici un fel pe cel corect, făcând perceperea textului, în funcţie de complexitatea lui, de la frustrantă la incomprehensibilă. Acest dezavantaj nu-i va convinge poate pe cei pe care noţiunea însăşi de corectitudine îi lasă indiferenţi, dar ar fi de aşteptat ca instituţiile publice cu prezenţă pe web să îşi privească propriul sit mai mult ca pe un mijloc de comunicare, mai puţin ca pe unul publicitar, şi să se preocupe de accesibilitatea lui. În unele ţări, această exigenţă este impusă anumitor situri prin lege (vedeţi www.alistapart.com/stories/politics/ şi www.contenu.nu/socog.html).

Problemele ridicate de scrierea fără diacritice sunt cumulative. În momentul când chestiunea reprezentării corecte a caracterelor româneşti nu se va mai pune - o dată cu generalizarea sistemelor compatibile cu Unicode, pesemne - această anomalie va trece tot mai puţin ca de la sine înţeleasă. Pentru orice sit al cărui conţinut merită arhivat pe termen lung (dacă nu dintr-un alt motiv, cel puţin în interes documentar, cum este cazul siturilor de ştiri), efortul de a restaura paginile scrise incorect va fi cu atât mai important cu cât el este întârziat.

O soluţie de circumstanţă este publicarea sitului în dublă versiune: cu şi fără diacritice. Pe siturile dinamice, câteva linii de cod suplimentare în scriptul care serveşte paginile pot desfigura un text corect ori de câte ori cititorul doreşte acest lucru. Pe cele statice, operaţia se poate face în orice procesor de text înainte de punerea paginilor pe server. Proiectarea atentă a schemei de adresare (evitarea URL-urilor parametrice de tipul: /script.cgi?diacritice=nu) va facilita circulaţia programelor-robot, asigurând indexarea ambelor versiuni.

De câte argumente e nevoie pentru a apăra ceea ce este corect prin definiţie? Siturile de design ne întâmpină adesea cu pretenţii privind rezoluţia ecranului, extensiile pentru browser sau viteza conexiunii. Autorii lor înţeleg, de bună seamă, că nu orice compromis e acceptabil, şi mai ales nu unul care le-ar impune limite în forma lor fundamentală de expresie. Este trist că întâlnim atâţia editori de situri româneşti, unele dintre ele cu profil cultural, care rămân impasibili în raport cu integritatea textului. Rectificarea acestei atitudini va fi mai simplă dacă implicaţiile ei vor fi înţelese din timp.

Dubla normă ortografică
În februarie 1993, Academia Română adopta o nouă normă ortografică a limbii române, prin care se revenea la scrierea cu â din a în interiorul cuvântului şi se modificau anumite forme ale verbului a fi. Dictată pe criterii ideologice, schimbarea a fost întâmpinată cu rezervă sau opoziţie tranşantă de majoritatea specialiştilor, inclusiv de către singurii doi lingvişti membri ai înaltului for (cf. România literară, nr. 9 sqq. din 1993). Argumentele ştiinţifice aduse în polemica iscată atunci nu interesează aici, însă între argumentele oponenţilor au existat şi cele de natură practic-economică. Costul retipăririi unor întregi serii de manuale, ediţii din clasici şi texte tehnice pentru uz didactic, s-a atras atenţia, avea să fie considerabil, iar complicarea regulilor ortografiei era susceptibilă să înmulţească numărul greşelilor de limbă.

Disensiunea ireductibilă între restauratorii academici ai latinităţii ortografiei şi lingviştii apărători ai bunului-simţ practic şi ştiinţific a avut ca efect dedublarea limbii române în forma ei scrisă. Cu excepţia mediilor în care noua ortografie s-a impus în virtutea reglementărilor (în speţă, publicaţiile şcolare şi cele oficiale), vechea normă este astăzi la fel de frecvent întâlnită precum cea nouă, numeroşi şi importanţi autori, periodice şi edituri continuând să reziste unei modificări percepute ca abuzivă.

În ordinea practică a lucrurilor, dezavantajul poate cel mai important al adoptării noii norme şi al previzibilei confuzii introduse în acest fel a trecut neobservat. Reluând raţionamentul din secţiunea precedentă, dacă pentru un cititor deosebirea dintre î din i şi â din a este una pur formală, pentru un program de calculator cele două litere nu au nimic în comun, iar cuvintele care le conţin nu vor fi asimilate, aşa cum se petrece în mintea cititorului (mână şi mînă, de pildă, vor conta drept cuvinte diferite).

Operaţiile de sortare şi căutare în orice bază de date care conţine ambele variante de scriere au de suferit. Revenind la problema expusă anterior, a indexării automate a paginilor de web, o interogare cu un cuvânt-cheie care cuprinde vocala schizoidă în poziţie medială va trebui să folosească atât varianta cu î din i, cât şi pe aceea cu â din a, cu toate neajunsurile care decurg de aici. În plus, ambele litere fiind, desigur, caractere cu diacritice, problema se compune cu cea discutată mai sus.

Presupunând că mână este un cuvânt-cheie plauzibil, interogarea ar trebui să includă formele: mână, mînă, mana şi mina. Numărul omografiilor creşte şi mai mult decât crescuse prin eliminarea diacriticelor, întrucât ultimele două dintre cele patru forme ar putea să fie la fel de bine surogatele cuvintelor mană şi, respectiv, mină.

Nu este de aşteptat ca vreuna din cele două norme să piardă în importanţă, cel puţin nu în curând. Şi chiar dacă la un moment dat ortografia se va uniformiza, situaţia va rămâne neschimbată în arhivele siturilor. Iată de ce un motor de căutare care să funcţioneze bine pentru necesităţile utilizatorilor români va trebui să ţină seama de această particularitate şi să ofere opţiunea de a face automat transferul între cele două norme ortografice.

Limba română nu este singura care se confruntă cu acest gen de problemă. Există diferenţe de ortografie între variantele limbii engleze, bunăoară.

Căutând pe web documentaţie în domeniul fibrelor optice, utilizatorul american va folosi termenul fiber optics. Prezumând, de dragul exemplului, că operaţia s-ar efectua pe un motor de căutare cu totul rudimentar, rezultatele nu ar include paginile scrise de britanici, pentru care termenul corect este fibre optics. În practică, motoarele de căutare, care au la dispoziţie dicţionare special alcătuite, pot depăşi aceste dificultăţi, însă numai pentru că ele vor fi fost cunoscute şi anticipate. Autorul se întreabă retoric dacă proiectanţii străini ai principalelor motoare de căutare de pe internet - cele pe care, prin forţa împrejurărilor, le preferăm adesea echivalentelor lor locale - vor dori să ştie despre problemele noastre ceea ce noi înşine ignorăm cu seninătate.

Faptul că paginile de web cu greşeli de scriere tot la al doilea cuvânt au ajuns să fie privite ca ceva normal reprezintă o pervertire a bunelor reflexe de cititor.

Ambiguitatea tipografică
O tildă nu este o brevă şi o sedilă nu este o virgulă descendentă. Între ele există aceeaşi măsură de asemănare şi deosebire ca între un joben şi un sombrero. Din dorinţa generoasă de a reda corect literele alfabetului românesc, însă în lipsa unei bune orientări tehnice, s-a recurs câteodată la nefericita improvizaţie de a folosi substitute oarecare din seturile de caractere aflate la îndemână, similare grafic cu diacriticele corecte: un a cu tremă sau cu vreun alt accent ascendent în locul lui ă, un i cu accent grav în loc de î etc. Obiceiul este nejustificat, iar din punctul de vedere al indexării datelor reprezintă încă o sursă certă de erori.

Chiar dacă nu a avut în rândul editorilor de web succesul celeilalte tactici (a suprimării oricărui semn distinctiv), tendinţa de a confunda diacriticele între ele are totuşi consecinţe pentru reprezentarea textelor româneşti. Literele ş şi ţ, în forma lor corectă tipografic, au un semn diacritic descendent, distinct, asemănător unei virgule. O formă alternativă foarte frecventă, însă incorectă, este aceea în care locul virgulei descendente este luat de o sedilă. Din punct de vedere practic, substituţia e pasabilă, însă combinaţia asimetrică în cadrul aceluiaşi text şi mai ales al aceluiaşi tip de literă, între un ş turcesc (cu sedilă) şi un ţ românesc (cu virgulă) denotă ignoranţa generală în materie, reflectată chiar şi la nivelul standardelor (cf. http://www.cs.tut.fi/~jkorpela/8859.html#IX). Atât ISO 8859-2, cât şi primele versiuni ale standardului Unicode tratează diferenţa între o sedilă şi o virgulă ca pe o alternanţă tipografică de ordin strict stilistic, nealocând coduri distincte pentru fiecare dintre combinaţiile lor. Prezumţia este greşită; acelaşi font ar trebui să conţină, pentru a corespunde diverselor alfabete, litere cu ambele semne diacritice.

Unicode 3.0 este prima specificaţie care satisface această diferenţă, însă confuzia continuă să fie perpetuată într-o anumită măsură, prin echivalarea implicită a codurilor alocate celor două litere în ISO 8859-2 cu variantele lor cu sedilă (vedeţi capitolul 7 al specificaţiei, subcapitolul 7.1, secţiunea privind blocul Latin Extended-A, subtitlul Alternative Glyphs, la http://www.unicode.org/unicode/uni2book/ch07.pdf).

Cititorul va fi înţeles de acum că o diferenţă pur formală pe hârtie este una esenţială atunci când textul este convertit într-un şir de biţi. Un program care se va conforma standardului va reprezenta grafic cele două litere - cel puţin atunci când ele apar într-un text românesc - prin glifele lor cu virgulă, păstrând însă nemodificate codurile de intrare. O implementare incorectă, care ar folosi codurile glifelor cu virgulă în orice alt proces decât acela al reprezentării grafice, ar putea conduce la situaţia (cu precedent, vai) în care duplicitatea s-ar reflecta la nivelul reprezentării digitale, antrenând obsedantele problemele de indexare, căutare şi sortare.

Morala
O carte sau un ziar cu greşeli de culegere tot la a doua pagină roagă să fie aruncate din mână. Faptul că paginile de web cu greşeli de scriere tot la al doilea cuvânt au ajuns să fie privite ca ceva normal reprezintă o pervertire a bunelor reflexe de cititor. Timpul nu rezolvă probleme. Oamenii le pot rezolva, atunci când şi-o propun. Problema scrierii fără diacritice poate fi rezolvată într-un singur fel: scriind corect. Dificultăţile legate de lipsa standardelor sau de erorile acestora pot fi la rândul lor ţinute sub control, o dată ce sunt luate în seamă şi înţelese. Comunicarea este oricum un exerciţiu delicat. În acest Babel modern care este internetul, orice efort menit să facă mai uşoară comunicarea între, cel puţin, vorbitorii aceleiaşi limbi serveşte unei cauze nobile.

Colaboratorul nostru Adrian Pop poate
fi contactat la adresa gapop@hotmail.com