|
|
|
AgoraNews PC Magazine Ro NET Report Ginfo agora ON line PC Concrete Liste de discuții Cartea de oaspeți Mesaje Agora
|
Scrierea estropiată Fără îndoială, rațiunile de ordin practic care au condus la această stare de
lucruri nu au fost eliminate. Deși sistemele de operare și programele cele mai
răspândite sunt compatibile cu diverse seturi de caractere standardizate (dintre
ele, ISO 8859-2, cunoscut și ca Latin-2, cuprinzând toate literele alfabetului
românesc), aceste facilități nu sunt întotdeauna incluse în configurația implicită
a pachetelor software. Instalări făcute în pripă sau de către utilizatori neexperimentați
au ca rezultat incertitudinea editorului de web asupra configurației exacte
de pe calculatorul celui care vizitează situl. Și chiar dacă o configurație
incompletă poate fi, teoretic, ușor de remediat, există împrejurări în care
utilizatorul nu are permisiunea să o facă. Este, adesea, cazul celor care folosesc
calculatoarele de la serviciu, din școli sau din netcafé-uri. Situația nu e singulară. Designerii și programatorii de web se confruntă la
fiecare pas cu imprevizibilul de la, așa-zicând, celălalt capăt al firului.
Rezoluția ecranului de care dispune vizitatorul, componența paletei cromatice
care poate fi reprodusă cu fidelitate pe diverse platforme și capriciile browserelor
în interpretarea HTML-ului fac parte din obsesiile zilnice ale celor implicați
în construcția siturilor. O incongruență apare însă atunci când interesul pentru
accesibilitate nu există (acolo unde, de pildă, problema economiei de clipuri
Flash sau de applet-uri Java nu se pune), dar alfabetul românesc este folosit
în varianta sa "pentru to(n)ți". În privința renunțării la diacritice accesibilitatea
este un simplu pretext. O ocurență în egală măsură ridicolă, frecventă și edificatoare
este lipsa semnelor cu pricina până și din porțiunile de text încorporate în
imagini. Fără diacritice, literele sunt reduse la genul lor proxim. Rezultă o nediferențiere
pe care cititorul o poate compensa de cele mai multe ori, recuperând din context
forma corectă a cuvântului. Dar diferența nu există de fapt, iar când un program
va indexa pagina de web într-o bază de date, ceea ce va fi indexat este un simulacru
al textului. Lucrul e de natură să facă penibilă experiența deja dificilă a
utilizării așa-numitelor motoare de căutare. Nu numai că orice interogare cu
cuvinte-cheie care conțin diacritice va trebui să includă cel puțin două variante
ale acestora (cea corectă și cea fără diacritice), dar prin simpla lor juxtapunere,
în funcție de algoritmul specific de stabilire a relevanței, ordinea prezentării
rezultatelor are toate șansele să fie perturbată. O interogare completă și corect
formulată va fi probabil, în cazul dat, o expresie booleană - un instrument
fără succes la publicul larg. Așadar, o licență menită să simplifice viața utilizatorului
român de internet complică în realitate ceea ce este de obicei primul pas al
unei incursiuni pe web: căutarea. Dificultăți similare apar la redarea textului într-un alt mediu decât cel grafic.
Nevăzătorii sau persoanele cu deficiențe majore de vedere au la dispoziție programe
capabile să citească și să descrie o pagină de web prin intermediul unui sintetizator
de voce. Desigur, construirea unui sit accesibil dispozitivelor de acest fel
nu se termină cu scrierea corectă, dar e limpede că de aici trebuie să înceapă.
Omisiunea semnului diacritic al unei litere - o câtime oarecare din imaginea
ei grafică - va rezulta, când semnul este redat fonetic, într-un sunet care
nu îl implică în nici un fel pe cel corect, făcând perceperea textului, în funcție
de complexitatea lui, de la frustrantă la incomprehensibilă. Acest dezavantaj
nu-i va convinge poate pe cei pe care noțiunea însăși de corectitudine îi lasă
indiferenți, dar ar fi de așteptat ca instituțiile publice cu prezență pe web
să își privească propriul sit mai mult ca pe un mijloc de comunicare, mai puțin
ca pe unul publicitar, și să se preocupe de accesibilitatea lui. În unele țări,
această exigență este impusă anumitor situri prin lege (vedeți www.alistapart.com/stories/politics/
și www.contenu.nu/socog.html).
Problemele ridicate de scrierea fără diacritice sunt cumulative. În momentul când chestiunea reprezentării corecte a caracterelor românești nu se va mai pune - o dată cu generalizarea sistemelor compatibile cu Unicode, pesemne - această anomalie va trece tot mai puțin ca de la sine înțeleasă. Pentru orice sit al cărui conținut merită arhivat pe termen lung (dacă nu dintr-un alt motiv, cel puțin în interes documentar, cum este cazul siturilor de știri), efortul de a restaura paginile scrise incorect va fi cu atât mai important cu cât el este întârziat.
O soluție de circumstanță este publicarea sitului în dublă versiune: cu și
fără diacritice. Pe siturile dinamice, câteva linii de cod suplimentare în scriptul
care servește paginile pot desfigura un text corect ori de câte ori cititorul
dorește acest lucru. Pe cele statice, operația se poate face în orice procesor
de text înainte de punerea paginilor pe server. Proiectarea atentă a schemei
de adresare (evitarea URL-urilor parametrice de tipul: /script.cgi?diacritice=nu)
va facilita circulația programelor-robot, asigurând indexarea ambelor versiuni.
De câte argumente e nevoie pentru a apăra ceea ce este corect prin definiție?
Siturile de design ne întâmpină adesea cu pretenții privind rezoluția ecranului,
extensiile pentru browser sau viteza conexiunii. Autorii lor înțeleg, de bună
seamă, că nu orice compromis e acceptabil, și mai ales nu unul care le-ar impune
limite în forma lor fundamentală de expresie. Este trist că întâlnim atâția
editori de situri românești, unele dintre ele cu profil cultural, care rămân
impasibili în raport cu integritatea textului. Rectificarea acestei atitudini
va fi mai simplă dacă implicațiile ei vor fi înțelese din timp. Dubla normă ortografică Disensiunea ireductibilă între restauratorii academici ai latinității ortografiei
și lingviștii apărători ai bunului-simț practic și științific a avut ca efect
dedublarea limbii române în forma ei scrisă. Cu excepția mediilor în care noua
ortografie s-a impus în virtutea reglementărilor (în speță, publicațiile școlare
și cele oficiale), vechea normă este astăzi la fel de frecvent întâlnită precum
cea nouă, numeroși și importanți autori, periodice și edituri continuând să
reziste unei modificări percepute ca abuzivă. În ordinea practică a lucrurilor, dezavantajul poate cel mai important al adoptării noii norme și al previzibilei confuzii introduse în acest fel a trecut neobservat. Reluând raționamentul din secțiunea precedentă, dacă pentru un cititor deosebirea dintre î din i și â din a este una pur formală, pentru un program de calculator cele două litere nu au nimic în comun, iar cuvintele care le conțin nu vor fi asimilate, așa cum se petrece în mintea cititorului (mână și mînă, de pildă, vor conta drept cuvinte diferite). Operațiile de sortare și căutare în orice bază de date care conține ambele variante de scriere au de suferit. Revenind la problema expusă anterior, a indexării automate a paginilor de web, o interogare cu un cuvânt-cheie care cuprinde vocala schizoidă în poziție medială va trebui să folosească atât varianta cu î din i, cât și pe aceea cu â din a, cu toate neajunsurile care decurg de aici. În plus, ambele litere fiind, desigur, caractere cu diacritice, problema se compune cu cea discutată mai sus. Presupunând că mână este un cuvânt-cheie plauzibil, interogarea ar trebui să
includă formele: mână, mînă, mana și mina. Numărul omografiilor crește și mai
mult decât crescuse prin eliminarea diacriticelor, întrucât ultimele două dintre
cele patru forme ar putea să fie la fel de bine surogatele cuvintelor mană și,
respectiv, mină. Nu este de așteptat ca vreuna din cele două norme să piardă în importanță,
cel puțin nu în curând. Și chiar dacă la un moment dat ortografia se va uniformiza,
situația va rămâne neschimbată în arhivele siturilor. Iată de ce un motor de
căutare care să funcționeze bine pentru necesitățile utilizatorilor români va
trebui să țină seama de această particularitate și să ofere opțiunea de a face
automat transferul între cele două norme ortografice. Limba română nu este singura care se confruntă cu acest gen de problemă. Există diferențe de ortografie între variantele limbii engleze, bunăoară. Căutând pe web documentație în domeniul fibrelor optice, utilizatorul american
va folosi termenul fiber optics. Prezumând, de dragul exemplului, că operația
s-ar efectua pe un motor de căutare cu totul rudimentar, rezultatele nu ar include
paginile scrise de britanici, pentru care termenul corect este fibre optics.
În practică, motoarele de căutare, care au la dispoziție dicționare special
alcătuite, pot depăși aceste dificultăți, însă numai pentru că ele vor fi fost
cunoscute și anticipate. Autorul se întreabă retoric dacă proiectanții străini
ai principalelor motoare de căutare de pe internet - cele pe care, prin forța
împrejurărilor, le preferăm adesea echivalentelor lor locale - vor dori să știe
despre problemele noastre ceea ce noi înșine ignorăm cu seninătate.
Ambiguitatea tipografică Chiar dacă nu a avut în rândul editorilor de web succesul celeilalte tactici
(a suprimării oricărui semn distinctiv), tendința de a confunda diacriticele
între ele are totuși consecințe pentru reprezentarea textelor românești. Literele
ș și ț, în forma lor corectă tipografic, au un semn diacritic descendent, distinct,
asemănător unei virgule. O formă alternativă foarte frecventă, însă incorectă,
este aceea în care locul virgulei descendente este luat de o sedilă. Din punct
de vedere practic, substituția e pasabilă, însă combinația asimetrică în cadrul
aceluiași text și mai ales al aceluiași tip de literă, între un ș turcesc (cu
sedilă) și un ț românesc (cu virgulă) denotă ignoranța generală în materie,
reflectată chiar și la nivelul standardelor (cf. http://www.cs.tut.fi/~jkorpela/8859.html#IX).
Atât ISO 8859-2, cât și primele versiuni ale standardului Unicode tratează diferența
între o sedilă și o virgulă ca pe o alternanță tipografică de ordin strict stilistic,
nealocând coduri distincte pentru fiecare dintre combinațiile lor. Prezumția
este greșită; același font ar trebui să conțină, pentru a corespunde diverselor
alfabete, litere cu ambele semne diacritice. Unicode 3.0 este prima specificație care satisface această diferență, însă
confuzia continuă să fie perpetuată într-o anumită măsură, prin echivalarea
implicită a codurilor alocate celor două litere în ISO 8859-2 cu variantele
lor cu sedilă (vedeți capitolul 7 al specificației, subcapitolul 7.1, secțiunea
privind blocul Latin Extended-A, subtitlul Alternative Glyphs, la http://www.unicode.org/unicode/uni2book/ch07.pdf).
Cititorul va fi înțeles de acum că o diferență pur formală pe hârtie este una
esențială atunci când textul este convertit într-un șir de biți. Un program
care se va conforma standardului va reprezenta grafic cele două litere - cel
puțin atunci când ele apar într-un text românesc - prin glifele lor cu virgulă,
păstrând însă nemodificate codurile de intrare. O implementare incorectă, care
ar folosi codurile glifelor cu virgulă în orice alt proces decât acela al reprezentării
grafice, ar putea conduce la situația (cu precedent, vai) în care duplicitatea
s-ar reflecta la nivelul reprezentării digitale, antrenând obsedantele problemele
de indexare, căutare și sortare. Morala Colaboratorul nostru Adrian Pop poate PC
Magazine Ro | CD
ROM | Redactia
| Abonamente
| Cautare
| Arhive
Copyright © 1999-2002 Agora Media. [email protected] |
|