PageRank

Started by -=[Vyorel]=-, Sep 13, 2011, 12:57 PM

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

PageRank
PageRank (expresie engleză cu traducerea Rangul Page) este un algoritm de analiză a hiperlegăturilor din Internet, folosit de motorul de căutare Google pentru a acorda o pondere fiecărui element dintr-o mulţime de documente interconectate prin hiperlegături, cu scopul măsurării importanţei relative în cadrul mulţimii. Dacă pagina A conţine un link (o legătură) către pagina B, se presupune implicit că A afirmă despre B că acesta este important, deci B trebuie să fie mai bine cotat în clasamente. Cu cât există mai multe legături calitative către un sit, cu atât PageRank-ul acestuia va fi mai mare şi locul în clasament mai înalt. Coeficientul PageRank este un număr întreg care poate lua valori între 0 şi 10.

Numele de PageRank provine de la informaticianul american Larry Page, care a dezvoltat algoritmul la Universitatea Stanford. Numele este o marcă înregistrată a companiei Google; totuşi patentul (U.S. Patent 6285999) aparţine Universităţii Stanford, iar Google deţine o licenţă exclusivă de utilizare a patentului. În schimbul acestei licenţe Universitatea a primit 1,8 milioane de acţiuni ale lui Google; acţiunile au fost vândute în 2005 pentru 336 milioane de dolari.

Istoric
PageRank a fost dezvoltat la Universitatea Stanford de către Larry Page (de la care îşi trage şi numele) şi apoi şi de Serghei Brin, ca parte dintr-un proiect de cercetare despre un nou gen de motor de căutare. Proiectul a demarat în 1995 şi a dus, în 1998, la un prototip funcţional denumit Google. La puţin timp după aceea, Page şi Brin au înfiinţat firma Google Inc., compania din spatele motorului de căutare Google. Deşi este doar unul din factorii care determină poziţia rezultatelor căutării Google, PageRank continuă să furnizeze baza tuturor dispozitivelor de căutare ale motorului Google.

PageRank se bazează pe analiza citărilor, teorie dezvoltată în anii 1950 de Eugene Garfield la Universitatea de Stat Pennsylvania; fondatorii Google citează lucrările lui Garfield în lucrarea lor originală. Analiza legăturilor web a fost dezvoltată întâi de Jon Kleinberg şi de echipa lui, în cadrul proiectului CLEVER de la Centrul de Cercetare Almaden al companiei IBM.

Funcţionarea algoritmului
Google ia în considerare doar legăturile de la situri ce au un PageRank ("PR") mai mare sau egal cu 4. Google consideră un link dinspre un site drept un vot de încredere. Totuşi Google evaluează valoarea acelui link la o valoare procentuală mai mică decât valoarea PR a sitului de unde provine acel link. PageRankul dat paginii A de către pagina B scade direct proporţional cu numărul de linkuri aflate pe pagina B. Între o pagină care are un PR de 4 cu numai 2 linkuri, şi alta ce are un PR 6 dar are 5 linkuri, este indicat un link de la pagina cu PR 4. Conform lui Sergey Brin şi Larry Page, cofondatori ai Google, PageRank-ul unei pagini se calculează conform formulei:

PR(A) = (1 - d) + d * SUM ((PR(I->A)/C(I)) unde:

  • PR(A) este PageRank-ul paginii A.
  • d este in general 0,85.
  • PR(I->A) este PageRank-ul paginilor I care conţin un link catre A.
  • C(I) este numărul de linkuri ale paginii I.
  • PR(I->A)/C(I) este valoarea PR pe care A o primeşte de la I.
  • SUM (PR(I->A)/C(I)) este suma tuturor valorilor PR pe care A le primeşte de la paginile care conţin linkuri către ea.


Valorile calculate cu PageRank (dintr-un maxim de 100) pentru o reţea simplă (Valorile obţinute de Google sunt rescalate logaritmic). Pagina C are un PageRank mai mare ca pagina E, deşi are mai puţine legături spre ea: legătura pe care o are are o valoare mult mai mare. O persoană care navighează pe web şi care alege o legătură la întâmplare de pe fiecare pagină (dar cu 15% propbabilitate să sară la o altă pagina aleatoare din tot webul) va ajunge pe pagina E în 8,1% din cazuri. (Probabilitatea de 15% de salt la o pagină arbitrară corespunde unui factor de atenuare de 85%.) Fără atenuare, toţi cei care navighează vor ajunge în paginile A, B, sau C, şi toate celelalte pagini ar avea PageRank zero. Se presupune că pagina A are legături spre toate paginile din web.

Sursa: Wikipedia.

Da, frumos frumos :))