Ladislav Nagy - Triedenie a Zoradenie pomocou PageRank

  Table of contents
  1. 1. Zadanie
  2. 2. Teoretický základ

   

  Zadanie

   

              Triedenie a zoraďovanie pomocou Pagerank. Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomocou Nutch alebo vlastnej implementácie.

              V súčasnosti sú webové prehladávače stavané pred vážny problém, keďže počet existujúcich webstránok sa v poslednom čase enormne zvýšil, takže pri vyhľadávaní je zobrazených čím ďalej tým viac odkazov. Ale podľa čoho ich zoraďovať? Firma google prišla s riešením, keď začala všetky stránky ohodnocovať podľa algoritmu PageRank.

              Cieľom a motiváciou tohto projektu je navrhnúť a implementovať tento algoritmus, a otestovať ho na dostačujúcej množine webstránok.

   

  Teoretický základ

   

              PageRank je matematická formula ktorá slúži na prehľadávanie určitej množiny webstránok, a následné zhodnotenie jeho dôležitosti. Terminológiu PageRanku zaviedol firma google. Definícia hovorí, že vyjadruje číselnou hodnotou počet odkazov ktoré ukazujú na jednotlivé webstránky.

              PageRank vyjadruje týmto číslom to, že ako dôležitá je webstránka. Ohodnotenie stránky sa zvyšuje počtom odkazov ktoré na ňu ukazujú. Taktiež závisí od kvality linku, teda to že akú má stránka s odkazom PageRank hodnotu, pričom platí priama úmernosť PageRank – u a hodnoty odkazu.

              Počas hodnotení stránky berieme do úvahy aj to, že nie každý náhodný používateľ klikne na všetky odkazy. Toto vyjadrujeme pomocou tzv. „damping factoru“, čím výslednú hodnotu stránky vynásobíme. Väčšinou sa damping factor pohybuje medzi 0 až 85 percent.

              Pre výpočet jednoduchého PageRanku platí nasledovný vzorec :

  Vzorec1.JPG

  PR(u) – je hodnota PageRanku počítanú stránku

  B - množina všetkých stránok

  PR(v) – je hodnota PageRanku pre stránku

   

  L(v) – počet odkazov na stránku u na stránke v

   

              Pre výpočet PageRanku s Damping Factorom platí nasledovný vzorec

  Vzorec2.JPG

  d – damping factor

  N – počet všetkých stránok

  Tag page (Edit tags)
  • No tags
  You must login to post a comment.
  Powered by MindTouch Core