Ladislav Nagy - Triedenie a Zoradenie pomocou PageRank

    Table of contents
    1. 1. Zadanie
    2. 2. Teoretický základ

     

    Zadanie

     

                Triedenie a zoraďovanie pomocou Pagerank. Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomocou Nutch alebo vlastnej implementácie.

                V súčasnosti sú webové prehladávače stavané pred vážny problém, keďže počet existujúcich webstránok sa v poslednom čase enormne zvýšil, takže pri vyhľadávaní je zobrazených čím ďalej tým viac odkazov. Ale podľa čoho ich zoraďovať? Firma google prišla s riešením, keď začala všetky stránky ohodnocovať podľa algoritmu PageRank.

                Cieľom a motiváciou tohto projektu je navrhnúť a implementovať tento algoritmus, a otestovať ho na dostačujúcej množine webstránok.

     

    Teoretický základ

     

                PageRank je matematická formula ktorá slúži na prehľadávanie určitej množiny webstránok, a následné zhodnotenie jeho dôležitosti. Terminológiu PageRanku zaviedol firma google. Definícia hovorí, že vyjadruje číselnou hodnotou počet odkazov ktoré ukazujú na jednotlivé webstránky.

                PageRank vyjadruje týmto číslom to, že ako dôležitá je webstránka. Ohodnotenie stránky sa zvyšuje počtom odkazov ktoré na ňu ukazujú. Taktiež závisí od kvality linku, teda to že akú má stránka s odkazom PageRank hodnotu, pričom platí priama úmernosť PageRank – u a hodnoty odkazu.

                Počas hodnotení stránky berieme do úvahy aj to, že nie každý náhodný používateľ klikne na všetky odkazy. Toto vyjadrujeme pomocou tzv. „damping factoru“, čím výslednú hodnotu stránky vynásobíme. Väčšinou sa damping factor pohybuje medzi 0 až 85 percent.

                Pre výpočet jednoduchého PageRanku platí nasledovný vzorec :

    Vzorec1.JPG

    PR(u) – je hodnota PageRanku počítanú stránku

    B - množina všetkých stránok

    PR(v) – je hodnota PageRanku pre stránku

     

    L(v) – počet odkazov na stránku u na stránke v

     

                Pre výpočet PageRanku s Damping Factorom platí nasledovný vzorec

    Vzorec2.JPG

    d – damping factor

    N – počet všetkých stránok

    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core