Juraj Ďurech - lucene, diplomka, zhluky

    Vyhľadávanie podobných stránok pomocou pravdepodobnostného modelu zhlukovania

    1. získanie množiny stránok crawlingom zo zadanej stránky
    2. spracovanie stránok, vytvorenie slovníka, stemming, vylúčenie stop slov, ováhovanie výskytu slov v HTML dokumentoch
    3. vytvorenie aspektového modelu pre použitie v latentnej sémantickej analýze, zvolenie počtu apektov (zhlukov)
    4. použitie EM algoritmu pre zistenie parametrov modelu
    5. vyhodnotenie a prezentácia výsledkov

     

    Použité nástroje: pravdepodobne Java + MySQL

    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core