|
|
|
![]() ![]() ![]() AgoraNews ![]() ![]() ![]() ![]() ![]() PC Magazine Ro ![]() ![]() ![]() ![]() NET Report ![]() ![]() ![]() ![]() Ginfo ![]() ![]() ![]() ![]() agora ON line ![]() ![]() ![]() ![]() ![]() PC Concrete ![]() ![]() ![]() ![]() ![]() Liste de discuţii ![]() ![]() ![]() ![]() Cartea de oaspeţi ![]() ![]() ![]() ![]() Mesaje ![]() ![]() ![]() ![]() ![]() Agora ![]() ![]() ![]() ![]() ![]()
|
Scrierea estropiată Fără îndoială, raţiunile de ordin practic care au condus la această stare de
lucruri nu au fost eliminate. Deşi sistemele de operare şi programele cele mai
răspândite sunt compatibile cu diverse seturi de caractere standardizate (dintre
ele, ISO 8859-2, cunoscut şi ca Latin-2, cuprinzând toate literele alfabetului
românesc), aceste facilităţi nu sunt întotdeauna incluse în configuraţia implicită
a pachetelor software. Instalări făcute în pripă sau de către utilizatori neexperimentaţi
au ca rezultat incertitudinea editorului de web asupra configuraţiei exacte
de pe calculatorul celui care vizitează situl. Şi chiar dacă o configuraţie
incompletă poate fi, teoretic, uşor de remediat, există împrejurări în care
utilizatorul nu are permisiunea să o facă. Este, adesea, cazul celor care folosesc
calculatoarele de la serviciu, din şcoli sau din netcafé-uri. Situaţia nu e singulară. Designerii şi programatorii de web se confruntă la
fiecare pas cu imprevizibilul de la, aşa-zicând, celălalt capăt al firului.
Rezoluţia ecranului de care dispune vizitatorul, componenţa paletei cromatice
care poate fi reprodusă cu fidelitate pe diverse platforme şi capriciile browserelor
în interpretarea HTML-ului fac parte din obsesiile zilnice ale celor implicaţi
în construcţia siturilor. O incongruenţă apare însă atunci când interesul pentru
accesibilitate nu există (acolo unde, de pildă, problema economiei de clipuri
Flash sau de applet-uri Java nu se pune), dar alfabetul românesc este folosit
în varianta sa "pentru to(n)ţi". În privinţa renunţării la diacritice accesibilitatea
este un simplu pretext. O ocurenţă în egală măsură ridicolă, frecventă şi edificatoare
este lipsa semnelor cu pricina până şi din porţiunile de text încorporate în
imagini. Fără diacritice, literele sunt reduse la genul lor proxim. Rezultă o nediferenţiere
pe care cititorul o poate compensa de cele mai multe ori, recuperând din context
forma corectă a cuvântului. Dar diferenţa nu există de fapt, iar când un program
va indexa pagina de web într-o bază de date, ceea ce va fi indexat este un simulacru
al textului. Lucrul e de natură să facă penibilă experienţa deja dificilă a
utilizării aşa-numitelor motoare de căutare. Nu numai că orice interogare cu
cuvinte-cheie care conţin diacritice va trebui să includă cel puţin două variante
ale acestora (cea corectă şi cea fără diacritice), dar prin simpla lor juxtapunere,
în funcţie de algoritmul specific de stabilire a relevanţei, ordinea prezentării
rezultatelor are toate şansele să fie perturbată. O interogare completă şi corect
formulată va fi probabil, în cazul dat, o expresie booleană - un instrument
fără succes la publicul larg. Aşadar, o licenţă menită să simplifice viaţa utilizatorului
român de internet complică în realitate ceea ce este de obicei primul pas al
unei incursiuni pe web: căutarea. Dificultăţi similare apar la redarea textului într-un alt mediu decât cel grafic.
Nevăzătorii sau persoanele cu deficienţe majore de vedere au la dispoziţie programe
capabile să citească şi să descrie o pagină de web prin intermediul unui sintetizator
de voce. Desigur, construirea unui sit accesibil dispozitivelor de acest fel
nu se termină cu scrierea corectă, dar e limpede că de aici trebuie să înceapă.
Omisiunea semnului diacritic al unei litere - o câtime oarecare din imaginea
ei grafică - va rezulta, când semnul este redat fonetic, într-un sunet care
nu îl implică în nici un fel pe cel corect, făcând perceperea textului, în funcţie
de complexitatea lui, de la frustrantă la incomprehensibilă. Acest dezavantaj
nu-i va convinge poate pe cei pe care noţiunea însăşi de corectitudine îi lasă
indiferenţi, dar ar fi de aşteptat ca instituţiile publice cu prezenţă pe web
să îşi privească propriul sit mai mult ca pe un mijloc de comunicare, mai puţin
ca pe unul publicitar, şi să se preocupe de accesibilitatea lui. În unele ţări,
această exigenţă este impusă anumitor situri prin lege (vedeţi www.alistapart.com/stories/politics/
şi www.contenu.nu/socog.html).
Problemele ridicate de scrierea fără diacritice sunt cumulative. În momentul când chestiunea reprezentării corecte a caracterelor româneşti nu se va mai pune - o dată cu generalizarea sistemelor compatibile cu Unicode, pesemne - această anomalie va trece tot mai puţin ca de la sine înţeleasă. Pentru orice sit al cărui conţinut merită arhivat pe termen lung (dacă nu dintr-un alt motiv, cel puţin în interes documentar, cum este cazul siturilor de ştiri), efortul de a restaura paginile scrise incorect va fi cu atât mai important cu cât el este întârziat.
O soluţie de circumstanţă este publicarea sitului în dublă versiune: cu şi
fără diacritice. Pe siturile dinamice, câteva linii de cod suplimentare în scriptul
care serveşte paginile pot desfigura un text corect ori de câte ori cititorul
doreşte acest lucru. Pe cele statice, operaţia se poate face în orice procesor
de text înainte de punerea paginilor pe server. Proiectarea atentă a schemei
de adresare (evitarea URL-urilor parametrice de tipul: /script.cgi?diacritice=nu)
va facilita circulaţia programelor-robot, asigurând indexarea ambelor versiuni.
De câte argumente e nevoie pentru a apăra ceea ce este corect prin definiţie?
Siturile de design ne întâmpină adesea cu pretenţii privind rezoluţia ecranului,
extensiile pentru browser sau viteza conexiunii. Autorii lor înţeleg, de bună
seamă, că nu orice compromis e acceptabil, şi mai ales nu unul care le-ar impune
limite în forma lor fundamentală de expresie. Este trist că întâlnim atâţia
editori de situri româneşti, unele dintre ele cu profil cultural, care rămân
impasibili în raport cu integritatea textului. Rectificarea acestei atitudini
va fi mai simplă dacă implicaţiile ei vor fi înţelese din timp. Dubla normă ortografică Disensiunea ireductibilă între restauratorii academici ai latinităţii ortografiei
şi lingviştii apărători ai bunului-simţ practic şi ştiinţific a avut ca efect
dedublarea limbii române în forma ei scrisă. Cu excepţia mediilor în care noua
ortografie s-a impus în virtutea reglementărilor (în speţă, publicaţiile şcolare
şi cele oficiale), vechea normă este astăzi la fel de frecvent întâlnită precum
cea nouă, numeroşi şi importanţi autori, periodice şi edituri continuând să
reziste unei modificări percepute ca abuzivă.
Operaţiile de sortare şi căutare în orice bază de date care conţine ambele variante de scriere au de suferit. Revenind la problema expusă anterior, a indexării automate a paginilor de web, o interogare cu un cuvânt-cheie care cuprinde vocala schizoidă în poziţie medială va trebui să folosească atât varianta cu î din i, cât şi pe aceea cu â din a, cu toate neajunsurile care decurg de aici. În plus, ambele litere fiind, desigur, caractere cu diacritice, problema se compune cu cea discutată mai sus. Presupunând că mână este un cuvânt-cheie plauzibil, interogarea ar trebui să
includă formele: mână, mînă, mana şi mina. Numărul omografiilor creşte şi mai
mult decât crescuse prin eliminarea diacriticelor, întrucât ultimele două dintre
cele patru forme ar putea să fie la fel de bine surogatele cuvintelor mană şi,
respectiv, mină. Nu este de aşteptat ca vreuna din cele două norme să piardă în importanţă,
cel puţin nu în curând. Şi chiar dacă la un moment dat ortografia se va uniformiza,
situaţia va rămâne neschimbată în arhivele siturilor. Iată de ce un motor de
căutare care să funcţioneze bine pentru necesităţile utilizatorilor români va
trebui să ţină seama de această particularitate şi să ofere opţiunea de a face
automat transferul între cele două norme ortografice. Limba română nu este singura care se confruntă cu acest gen de problemă. Există diferenţe de ortografie între variantele limbii engleze, bunăoară. Căutând pe web documentaţie în domeniul fibrelor optice, utilizatorul american
va folosi termenul fiber optics. Prezumând, de dragul exemplului, că operaţia
s-ar efectua pe un motor de căutare cu totul rudimentar, rezultatele nu ar include
paginile scrise de britanici, pentru care termenul corect este fibre optics.
În practică, motoarele de căutare, care au la dispoziţie dicţionare special
alcătuite, pot depăşi aceste dificultăţi, însă numai pentru că ele vor fi fost
cunoscute şi anticipate. Autorul se întreabă retoric dacă proiectanţii străini
ai principalelor motoare de căutare de pe internet - cele pe care, prin forţa
împrejurărilor, le preferăm adesea echivalentelor lor locale - vor dori să ştie
despre problemele noastre ceea ce noi înşine ignorăm cu seninătate.
Ambiguitatea tipografică Chiar dacă nu a avut în rândul editorilor de web succesul celeilalte tactici
(a suprimării oricărui semn distinctiv), tendinţa de a confunda diacriticele
între ele are totuşi consecinţe pentru reprezentarea textelor româneşti. Literele
ş şi ţ, în forma lor corectă tipografic, au un semn diacritic descendent, distinct,
asemănător unei virgule. O formă alternativă foarte frecventă, însă incorectă,
este aceea în care locul virgulei descendente este luat de o sedilă. Din punct
de vedere practic, substituţia e pasabilă, însă combinaţia asimetrică în cadrul
aceluiaşi text şi mai ales al aceluiaşi tip de literă, între un ş turcesc (cu
sedilă) şi un ţ românesc (cu virgulă) denotă ignoranţa generală în materie,
reflectată chiar şi la nivelul standardelor (cf. http://www.cs.tut.fi/~jkorpela/8859.html#IX).
Atât ISO 8859-2, cât şi primele versiuni ale standardului Unicode tratează diferenţa
între o sedilă şi o virgulă ca pe o alternanţă tipografică de ordin strict stilistic,
nealocând coduri distincte pentru fiecare dintre combinaţiile lor. Prezumţia
este greşită; acelaşi font ar trebui să conţină, pentru a corespunde diverselor
alfabete, litere cu ambele semne diacritice. Unicode 3.0 este prima specificaţie care satisface această diferenţă, însă
confuzia continuă să fie perpetuată într-o anumită măsură, prin echivalarea
implicită a codurilor alocate celor două litere în ISO 8859-2 cu variantele
lor cu sedilă (vedeţi capitolul 7 al specificaţiei, subcapitolul 7.1, secţiunea
privind blocul Latin Extended-A, subtitlul Alternative Glyphs, la http://www.unicode.org/unicode/uni2book/ch07.pdf).
Cititorul va fi înţeles de acum că o diferenţă pur formală pe hârtie este una
esenţială atunci când textul este convertit într-un şir de biţi. Un program
care se va conforma standardului va reprezenta grafic cele două litere - cel
puţin atunci când ele apar într-un text românesc - prin glifele lor cu virgulă,
păstrând însă nemodificate codurile de intrare. O implementare incorectă, care
ar folosi codurile glifelor cu virgulă în orice alt proces decât acela al reprezentării
grafice, ar putea conduce la situaţia (cu precedent, vai) în care duplicitatea
s-ar reflecta la nivelul reprezentării digitale, antrenând obsedantele problemele
de indexare, căutare şi sortare. Morala Colaboratorul nostru Adrian Pop poate PC
Magazine Ro | CD
ROM | Redactia
| Abonamente
| Cautare
| Arhive
Copyright © 1999-2002 Agora Media. webmaster@pcmagazine.ro |
|