Agora
Media
Libraria Byblos



AgoraNews  





PC Magazine Ro  




NET Report   




Ginfo   




agora ON line   





PC Concrete   





Liste de discuții   




Cartea de oaspeți   




Mesaje   





Agora   








Clic aici
PC Report - ultimul numar aparut


IPRO - PC Magazine Romania, 2002
Comunitatea experților și a cititorilor PC Magazine - Internet PRO

Secretele motoarelor de căutare

Emanuel Baruch

Oricine și oriunde poate publica orice dorește pe internet. Astfel, numărul paginilor web a crescut continuu în ultimii ani (și se află încă în creștere) iar întreg spațiul web a devenit o adevărată junglă informațională.

Acești roboți, odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce periodic la el, astfel încât conținutul indexat va fi reactualizat.

Motoarele de căutare care sunt în același timp și directoare web, vor acorda de obicei prioritate paginilor înscrise manual în
director.

Implicit, roboții care ajung pe o pagină web o vor indexa și vor urmări toate link-urile din ea.

În aceste condiții, publicarea unui sit este similară cu aruncarea unui ac într-un car cu fân.

Doar voi, care cunoașteți adresa sitului vostru - adică știți exact unde ați pus acul ;) - și alții, care au auzit pe diverse căi de locația voastră web, vor avea acces la informațiile respective. Bineînțeles că mai există posibilitatea ca situl să fie găsit accidental, dar probabilitatea ca vizitatorul acela să fie într-adevăr interesat de el este minimă. Majoritatea internauților găsesc paginile pe care le vizitează cu ajutorul unor situri specializate în acest sens, așa-numitele motoare de căutare și directoare web. Cum ajunge însă un sit să fie indexat de acestea și - mai ales - care sunt secretele care vor face ca un anume sit să apară în capul unei liste de rezultate? Din păcate, trebuie să vă dezamăgesc de la bun început. Nu există secrete ale motoarelor de căutare și nu există o rețetă sigură prin care se poate garanta că un sit va fi reținut de motoarele de căutare. Criteriile de indexare sunt diferite de la unul la altul și sunt cunoscute în general numai de cei care au proiectat motorul respectiv. Însă există o serie de chestiuni de care trebuie să țineți seama atunci când construiți o pagină web, astfel încât aceasta să fie optimizată și pentru motoarele de căutare. Pe scurt, o pagină web conține și diverse informații invizibile pentru un vizitator obișnuit și care vor fi înțelese fără probleme de motoarele de căutare.

Mai întâi însă, haideți să vedem care este diferența dintre un motor de căutare și un director web.

Un motor de căutare este un server ale cărui programe speciale navighează automat pe internet și indexează toate paginile găsite, în funcție de anumite criterii. Aceste programe se numesc robots, spiders sau crawlers. În fiecare pagină înregistrată sunt urmărite toate link-urile, iar paginile care se găsesc acolo sunt și ele indexate imediat sau ajung într-o listă de așteptare pentru a fi vizitate mai târziu. Astfel, teoretic, aceste motoare de căutare vor ajunge să indexeze întreg spațiul web. Vă dați seama că volumul informațiilor din baza de date a motorului de căutare este enorm. În plus, acești roboți, odată ce au vizitat un sit, nu îl vor uita, ci se vor întoarce periodic la el, astfel încât conținutul indexat va fi reactualizat. Cei care se află în căutarea unor informații, vor specifica anumite cuvinte cheie iar baza de date a motorului de căutare va returna toate rezultatele care coincid cu înregistrările sale. Cel mai cunoscut (și, după părerea mea, cel mai bun) motor de căutare este Google (www.google.com). Acesta indexează, pe lângă paginile web normale, și fișierele PDF publicate în cadrul diverselor situri și chiar și imagini.

Un director web este o colecție de link-uri însoțite de anumite explicații și împărțite pe categorii și subcategorii. Astfel, vizitatorul va putea naviga prin această structură arborescentă, alegând acele adrese web care îl interesează. De cele mai multe ori, aceste directoare sunt alcătuite manual. Aceasta înseamnă că siturile sunt verificate de către o persoană, după care sunt înscrise în anumite categorii/subcategorii. Siturile care urmează să fie indexate sunt la rândul lor propuse sau găsite de diverse persoane. De aceea, informațiile din directoarele web sunt mai puțin voluminoase, însă mult mai valoroase. Majoritatea directoarelor oferă și posibilitatea de căutare directă în baza lor de date (a nu se confunda această opțiune cu un motor de căutare veritabil). Cele mai complete directoare web sunt - după părerea mea - Yahoo (www.yahoo.com) și Dmoz (www.dmoz.org).
Există și situri care sunt pe de-o parte motoare de căutare, iar pe de altă parte directoare web. Acestea au - de obicei - două opțiuni de căutare: pe web și în director. Înainte de a intra în detalii mai trebuie precizat că multe motoare de căutare și directoare web fac schimb reciproc de informații sau cumpără conținut. Probabil ați observat că atunci când căutați ceva pe Yahoo, unele rezultate găsite sunt identice cu cele de pe Google. Aceasta din cauză că Yahoo este "powered by Google" ;).

Să trecem la treabă. După cum știți, codul sursă al unei pagini web este împărțit în două mari secțiuni: Head și Body. Ceea ce se află în Head nu este vizibil pentru vizitatorul unei pagini web (cu excepția titlului paginii).
<html>
<head>
<title>Titlul paginii</title>
</head>
<body> ... </body>
</html>
Aici se află însă informațiile care vor fi citite de motoarele de căutare.

Meta
Tag-ul meta poate fi folosit pentru a publica informații "ascunse" despre pagina web în cauză. Forma sa generală este:
<meta name="..." content="...">
Name reprezintă tipul de informație la care se referă expresia respectivă, iar content va cuprinde informațiile concrete. Pentru a exemplifica cele mai importante expresii de tip meta vom presupune că realizăm o pagină web pentru Ministerul Finanțelor.

Cuvinte cheie:
<meta name="keywords" content="minister, ministerul, finanțe, finanțelor, românia, informație, informații, agent, agenți, economic, economice, economici, bilanț, contabil>
Această listă de cuvinte cheie va cuprinde termeni care se potrivesc cu conținutul paginii voastre. Atunci când o alcătuiți, trebuie să vă puneți în locul celor care vor căuta informațiile respective, să vă gândiți cum vor încerca aceștia să exprime obiectul căutării lor în câteva cuvinte. Observați, din exemplul dat, că am folosit și diverse variante gramaticale. Întrebarea cea mai frecventă este cât de lungă poate fi această listă.

Majoritatea motoarelor de căutare acceptă între 874 și 1000 de caractere. Ceea ce este în plus, este de obicei ignorat. Totuși, anumite situri pot fi penalizate dacă lista de cuvinte cheie este prea lungă, considerându-se că se încearcă un spamming. Am auzit și zvonuri conform cărora introducerea unor cuvinte cheie uzuale ar îmbunătăți poziția unui sit într-o listă de rezultate. Astfel de cuvinte ar fi sex sau free. Nu pot să spun decât că sunt zvonuri... Căutați pe Google după aceste două cuvinte. Veți obține nu mai puțin de 3.170.000 de rezultate... Dar să revenim la subiect. Virgulele sunt opționale, ele fiind de cele mai multe ori ignorate de roboți. Totuși, vă sfătuiesc să le folosiți pentru o mai bună lizibilitate.

Descriere
<meta name="description" content="Ministerul Finanțelor din România. Informații actuale pentru și despre agenții economici">

De multe ori, conținutul acestui tag meta va fi afișat în lista de rezultate, alături de URL. Vă sfătuiesc să nu folosiți descrieri de genul "Pagina web a ..." sau expresii asemănătoare, ci încercați mai bine să oferiți cât mai multe informații despre sit. Gândiți-vă că apariția sitului vostru într-o listă de rezultate nu înseamnă că va fi și accesat, deoarece vizitatorul trebuie mai întâi convins că acesta conține într-adevăr ceea ce caută. În ceea ce privește lungimea maximă a acestei descrieri, ea este între 150 și 250 de caractere. Vă sfătuiesc să nu depășiți 150.

Roboți
Implicit, roboții care ajung pe o pagină web o vor indexa și vor urmări toate link-urile din ea.

Există însă posibilitatea controlării exacte a activității roboților cu ajutorul următoarelor tag-uri meta:

<meta name="robots" content="noindex">
<meta name="robots" content="nofollow">
Noindex va determina robotul să nu indexeze pagina iar nofollow îl va împiedica să urmărească link-urile pe care le găsește în pagina respectivă.
Pentru a avea certitudinea că pagina nu va fi ignorată de roboți, este însă bine să specificăm în fiecare dintre acestea:
<meta name="robots" content="index, follow">
Expresiile pot fi folosite și împreună, în diferite combinații:
<meta name="robots" content="noindex, nofollow">
<meta name="robots" content="noindex, follow">
<meta name="robots" content="index, nofollow">
<meta name="robots" content="index, follow">

O comandă specială, recunoscută numai de Google, este noarchive / archive. Implicit, roboții Google realizează o copie a fiecărei pagini, astfel încât acestea să poată fi accesate rapid sau în eventualitatea că serverul respectiv nu este disponibil pentru moment. Dacă nu doriți acest lucru, va trebui doar să specificați în head:

<meta name="robots" content="noarchive">
Nu toate motoarele de căutare recunosc însă aceste comenzi meta care se referă la roboți. O soluție alternativă este utilizarea unui fișier robots.txt în directorul rădăcină al paginii web. Cu alte cuvinte, dacă adresa noastră este www.mfinante.ro, atunci fișierul text respectiv trebuie să fie la www.mfinante.ro/robots.txt. Toți roboții îl vor căuta aici, atunci când accesează pagina. Atenție, dacă URL-ul sitului este de genul www.domeniu.com/mfinante, fișierul respectiv trebuie să fie la adresa www.domeniu.com/robots.txt. Iată cum va arăta acest fișier:

User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html

Aceasta înseamnă că întreg directorul pe care l-am numit director_secret și, în plus, pagina pagina_secreta.html vor fi ignorate de roboți.

Iată un exemplu în care doar un anumit robot (numit, de exemplu cyberbot) va indexa paginile ascunse:

User-agent: *
Disallow: /director_secret
Disallow: /pagina_secreta.html

User-agent: cyberbot
Disallow:

Dacă doriți ca situl vostru să nu mai fie vizitat de roboți, specificați următoarea expresie:

User-agent: *
Disallow: /

Vă sfătuiesc să folosiți atât tag-urile meta, cât și fișierul robots.txt atunci când aveți pagini care nu doriți să fie indexate. Cel mai plauzibil caz ar fi acela în care situl vostru sau numai anumite părți din acesta se află încă în construcție.

  • Alte tipuri de tag-uri meta sunt:
    Autor:
    <meta name="author" content="date despre autor">
  • Copyright:
    <meta name="copyright" content="date despre copyright">
  • Editor folosit:
    <meta name="generator" content="date despre editorul HTML folosit">
  • Data publicării:
    <meta name="creation_date" content=" 1/02/2002">

Practic puteți să creați orice fel de informații cu ajutorul acestui tag, dacă credeți că acestea își au rostul în pagina voastră.

Titlul
Titlul paginii joacă un rol esențial în plasarea ei într-o listă de rezultate. Majoritatea motoarelor de căutare indexează conținutul acestuia, adică a ceea ce se află între tag-urile <title> și </title>. În plus, acesta va putea fi văzut și de cei ce accesează pagina respectivă. Alegerea titlului unei pagini este asemănătoare cu stabilirea unei descrieri adecvate din meta - description. Evitați expresii de genul "Home Page" sau "Bun venit" și încercați să găsiți o sintagmă cât mai sugestivă. Am observat că nenumărate pagini poartă titlul "Untitled Document" sau "Page 1". Acestea sunt expresiile implicite folosite de editoarele HTML Dreamweaver și Front Page și se pare că realizatorii paginilor respective au uitat sau nu știu cum să seteze acest titlu.

Textul Alt
Atunci când folosiți imagini, este întotdeauna bine să includeți și o descriere a acesteia în tag-ul alt, special creat în acest sens:

<img src="grafic.gif" alt="Descriere a graficului">
Pe lângă faptul că furnizați vizitatorilor un plus de informații, conținutul acestor descrieri este indexat de multe dintre motoarele de căutare.

Acestea ar fi informațiile pe care trebuie să le introduceți în antetul unei pagini, pentru ca aceasta să devină inteligibilă și pentru roboții trimiși de motoarele de căutare.

Conținutul paginii
Majoritatea motoarelor de căutare vor indexa și conținutul paginii web, adică a textului care apare în ea. Din acest motiv nu este recomandată folosirea cu insistență a imaginilor în locul textului. De asemenea, conținutul publicat cu ajutorul unor tehnologii mai avansate (Flash, applet-uri Java, scripturi JavaScript) nu va fi indexat. Tot aici trebuie atras atenția asupra faptului că motoarele de căutare nu pot urmări link-uri generate de scripturi DHTML. Utilizarea cadrelor (frames) poate de asemenea genera probleme anumitor roboți.

Atunci când se efectuează o căutare în baza de date, rezultatele vor fi ordonate în funcție de semnificația pe care motorul o dă paginii respective. Criteriile de ordonare nu sunt însă întotdeauna destul de clare. Totuși, în general, cea mai mare prioritate o au paginile în care se găsesc cele mai multe corespondențe cu cuvintele cheie căutate. Dacă acestea apar în același timp în titlu, în tag-urile meta și în conținutul paginii, sunt șanse foarte mari ca pagina respectivă să ocupe un loc de frunte în lista rezultatelor. Contează, de asemenea, frecvența cu care apar aceste cuvinte în cadrul documentului și distanța lor față de începutul acestuia.

În cazul directoarelor web, paginile sunt ordonate uneori alfabetic.

Unele motoare de căutare iau în considerare și popularitatea paginii respective, analizând numărul de link-uri care duc la ea. Raționamentul este simplu: un sit popular și de mare interes va fi întotdeauna menționat pe alte locații web.

Motoarele de căutare care sunt în același timp și directoare web, vor acorda de obicei prioritate paginilor înscrise manual în director.

Chiar și URL-ul este luat în considerare uneori. Astfel, sitului hotelului XYZ care se găsește la adresa www.hotel-xyz.com va fi mai semnificativ decât www.xyz.com, atunci când se caută după cuvântul "hotel".

Toți acești factori fac imposibilă aprecierea prealabilă a poziției pe care o va ocupa un sit în rezultatele unei căutări. Mai mult, aceasta va diferi de la un motor la altul. Ținta fiecărui webmaster este de a-și vedea situl printre primele rezultate afișate, deoarece, cel mai probabil, o persoană care caută ceva nu va accesa mai mult de 10-20 de pagini dintr-o listă. Așa că mulți încearcă să păcălească motoarele de căutare prin diverse trucuri. Unul dintre ele l-am amintit deja - includerea unor cuvinte cheie populare care nu au nimic de-a face cu conținutul sitului. O altă modalitate grosolană de a "fenta" roboții este includerea pe sit a unei lungi liste de cuvinte cheie, care însă sunt ascunse de ochii vizitatorului, fiind de aceeași culoare cu cea a fundalului. Rezultatele nu sunt însă întotdeauna cele așteptate... Dacă țineți cu tot dinadinsul să ajungeți în top atunci când este vorba de anumite cuvinte cheie, puteți să cumpărați acest loc. De exemplu, de câte ori cineva va căuta cuvântul "Romania" într-un motor, situl vostru va apărea primul. Sumele plătite pentru astfel de servicii pot fi însă destul de mari.

În concluzie, vă sfătuiesc să vă ocupați temeinic și de partea nevăzută a sitului vostru, înainte de a-l lansa. Astfel, acesta va deveni accesibil pentru un public mult mai larg.


PC Magazine Ro | CD ROM | Redactia | Abonamente | CautareArhive

Copyright © 1999-2002 Agora Media.

[email protected]

LG - LifeŽs Good

www.agora.ro

deltafri

Concurs de Grafica Digitala si Web Design

www.agora.ro

www.agora.ro