Juraj Ďurech - lucene, diplomka, zhluky

  Vyhľadávanie podobných stránok pomocou pravdepodobnostného modelu zhlukovania

  1. získanie množiny stránok crawlingom zo zadanej stránky
  2. spracovanie stránok, vytvorenie slovníka, stemming, vylúčenie stop slov, ováhovanie výskytu slov v HTML dokumentoch
  3. vytvorenie aspektového modelu pre použitie v latentnej sémantickej analýze, zvolenie počtu apektov (zhlukov)
  4. použitie EM algoritmu pre zistenie parametrov modelu
  5. vyhodnotenie a prezentácia výsledkov

   

  Použité nástroje: pravdepodobne Java + MySQL

  Tag page (Edit tags)
  • No tags
  You must login to post a comment.
  Powered by MindTouch Core