Peter Cích - Triedenie a zoraďovanie

    Popis problému a motivácia

    Pre používateľov Internetu, ako aj iných rozsiahlych sietí, ktoré uchovávajú obrovské množstvo najrôznejších informácií sa v súčasnosti stáva čoraz ťažším nájdenie práve tej, ktorú človek skutočne potrebuje. Vzniká tzv. informačné zahltenie, ktoré v súčasnosti predstavuje nový, rýchlo sa rozširujúci problém. Jedným zo spôsobov ako čeliť tomuto novodobému informačnému fenoménu je personalizácia webu.
    Cieľom prehľadávania webu so zohľadnením osobného profilu, t. j. nejakého druhu presonalizácie, je prispôsobiť výsledky vyhľadávania konkrétnemu používateľovi vzhľadom na jeho záujmy a preferencie.
     

    Existujúce riešenia

    V profile používateľa sa nachádzajú rozširujúce slová a výrazy. Tie sa za určitých okolností a podmienok vyberú a pridajú k zadanému dopytu. Tým rozšíria pôvodný používateľov dopyt a bližšie špecifikujú požiadavku vyhľadávania. Takýmto spôsobom sa zabezpečí aj to, že rozdielni používatelia, ktorí zadajú rovnaký dopyt môžu získať odlišné výsledky.

    História prehľadávania

    Vyhľadávacie systémy založené na využití štruktúrovania hyperliniek internetu, ako napr. Google  nie sú až tak výhodné, pretože nájdené výsledky nemusia odzrkadľovať aktuálne informačné potreby používateľa. Je to spôsobené tým, že nezohľadňujú personalizáciu založenú na kontexte používateľa, ako napr. prehľadávacích vzoroch  alebo obľúbených položkách.
     

    Popis riešenia

    Bookmarky

    Zaujímavou a významnou informáciou o používateľovi, ktorá by sa dala využiť, sú jeho záznamy obľúbených položiek web stránok – bookmarkov. Ohľadom bookmarkov, sa dajú využiť napr. informácie:

    • o počte bookmarkov k danej oblasti záujmu
    • súvisiace s faktom, že má používateľ nejakú web stránku vo svojich obľúbených položkách
    • o web stránkach, ktoré si používateľ pridá, resp. odoberie zo zoznamu obľúbených položiek

     
    Personalizovaný PageRank

    Dôležitou súčasťou výpočtu PageRanku je vektor E, ktorý predstavuje vektor nad web stránkami, používaný ako zdroj ohodnotenia na vyrovnanie sa s cyklami bez vonkajších dopredných spojení, tzv. rank sinks. Okrem vyriešenia problémov s rank sinks, E vystupuje aj ako silný parameter na úpravu usporiadania stránok.

     

    Vyhľadávanie

    Na realizáciu vyhľadávania som použil voľne dostupný systém Nutch 0.9 s Lucene. Systém Nutch stiahne všetky potrebné stránky a Lucene ich zindexuje. Samotný systém je vytvorený na báze javy, a ako som už spomenul, okrem iného obsahuje aj potrebný crawler a indexovanie. Cieľom tohto projektu je teda vytvorenie vlastného pluginu implementovaním QueryFiltra. Na utriedenie zoznamu som využil zoznam určitého počtu liniek, ktoré reprezentujú používateľove oblasti záujmu, a teda určitým spôsobom vytvárajú a ovplyvňujú jeho profil, tvoria váhu na utriedenie zoznamu. Vzhľadom na to, že sa jedná o prototyp vyhľadávača s profilom používateľa, implementoval som len tri typy používateľov, t. j. tri množiny liniek, ktoré budú vrátené výsledky vyhľadávanie preusporiadavať. Na to, aby mohol byť tento plugin účinný a výsledky boli naozaj preusporiadané, bolo potrebné v konfigurácii nastaviť „vypnutie“ ostatných vyhľadávacích pluginov.

     

    Vyhodnotenie

    - porovnanie získaných výsledkov s Nutchom, pomocou recall a precision

     

    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core