Rado Halama - Informácie o ľuďoch 13

  Table of contents
  No headers

  viac rôznych ľudí s rovnakým menom

  cieľ: rozdeliť ich stránky do jednotlivých skupín, bez toho aby program vedel akekolvek dalsie info(nejake klucove slova alebo pocet skupin)

  vstup: napr 15stránok o človeku s priezviskom Armstrong

  výstup: jedna dve alebo tri množiny stránok, kde každá množina obsahuje stránky s podobným obsahim a teda pravdepodobne o jednom z daných ľudí. + ku každej množine vypíšem jej kľúčové slová.  

  napr.(program rozdeli na 2skupiny, prva skupina - stranky 1,2,3,5,6 a klucove slova ako universe, moon, step, apollo..., druha skupina -stranky 4,7-15 a klucove slova ako, bicycle, tour, yellow, win...)

  Postup:

  1. mám množinu stránok/textov. (statických)

  2. odstránim nepotrebné znaky a čísla aby som dostal iba slová každej stránky

  3. odstránim stop-slová. /budem mať externý súbor anglických stop-slov

  4. ostemmujem / porterov stemmer -Java

  5. mám pre každú stránku v osobitnom súbore jej slová ostemované

  6. tf.idf algoritmus na zistenie ako význané sú ktoré slová - získam koeficienty slov

  7. 100slov s naj koeficientami prehlaśim za Kľúcové slová na základe ktorých budem separovať/klasifikovať/oddelovať

  8. pre každú stránku určím jej koeficienty kľúčových slov. /vo väčšine každá stránka obsahuje len niekoľko z týchto kľúčových slov - tie budú mať nejaký vypočítaný koef.  Kľúčové slová čo neobsahuje budú mať koef. 0.

  9.vytvorenie matice vzťahov stránok: pocetStranok x pocetStranok . / ako každá stránka s každou súvisí- na základe kľúčových slov.

  10. algoritmus na rozdelenie do množín/skupín na základe vzťahov medzi stránkami.

  11. ku každej skupine vypísať jej podstatné slová

   

  vyhodnotenie úspešnosti pomocou metrík Precision, Recall

  vykonanie na rôznych menách (5) a rôznych počtoch stránok pre dané mená(10-5, 6-2, 8-0, 3-4-6...)

  pokus ci pre meno Arnold Schwarzeneger rozdelí jeho stránky na tie o politickej kariere, herectve, a kulturistickej kariere.

  mená: Jim Carrey - herec, brankár NHL / Brad Pitt - herec, boxer/Demi Moore, Roger Moore/ Henry Ford, Harrison Ford/

   

   bude to v Jave + Lucene na ulahcenie vypoctu tf.idf

  bude pracovat iba nad anglickymi strankami. -mam len anglicky stemmer a aj ludi s rovnakymi menami je viac a viac stranok o nich

   

  + Dalsia cast projektu:  poznám meno cloveka a nejaké jeho stránky(napr 4).

  dostanem mnozinu stránok(napr 20) (o ludoch s rovnakým menom) a mám povedat ktoré z toho sú o nom

  -cez tfidf

  Tag page (Edit tags)
  • No tags
  You must login to post a comment.
  Powered by MindTouch Core