Rado Halama - Informácie o ľuďoch 13

    Table of contents
    No headers

    viac rôznych ľudí s rovnakým menom

    cieľ: rozdeliť ich stránky do jednotlivých skupín, bez toho aby program vedel akekolvek dalsie info(nejake klucove slova alebo pocet skupin)

    vstup: napr 15stránok o človeku s priezviskom Armstrong

    výstup: jedna dve alebo tri množiny stránok, kde každá množina obsahuje stránky s podobným obsahim a teda pravdepodobne o jednom z daných ľudí. + ku každej množine vypíšem jej kľúčové slová.  

    napr.(program rozdeli na 2skupiny, prva skupina - stranky 1,2,3,5,6 a klucove slova ako universe, moon, step, apollo..., druha skupina -stranky 4,7-15 a klucove slova ako, bicycle, tour, yellow, win...)

    Postup:

    1. mám množinu stránok/textov. (statických)

    2. odstránim nepotrebné znaky a čísla aby som dostal iba slová každej stránky

    3. odstránim stop-slová. /budem mať externý súbor anglických stop-slov

    4. ostemmujem / porterov stemmer -Java

    5. mám pre každú stránku v osobitnom súbore jej slová ostemované

    6. tf.idf algoritmus na zistenie ako význané sú ktoré slová - získam koeficienty slov

    7. 100slov s naj koeficientami prehlaśim za Kľúcové slová na základe ktorých budem separovať/klasifikovať/oddelovať

    8. pre každú stránku určím jej koeficienty kľúčových slov. /vo väčšine každá stránka obsahuje len niekoľko z týchto kľúčových slov - tie budú mať nejaký vypočítaný koef.  Kľúčové slová čo neobsahuje budú mať koef. 0.

    9.vytvorenie matice vzťahov stránok: pocetStranok x pocetStranok . / ako každá stránka s každou súvisí- na základe kľúčových slov.

    10. algoritmus na rozdelenie do množín/skupín na základe vzťahov medzi stránkami.

    11. ku každej skupine vypísať jej podstatné slová

     

    vyhodnotenie úspešnosti pomocou metrík Precision, Recall

    vykonanie na rôznych menách (5) a rôznych počtoch stránok pre dané mená(10-5, 6-2, 8-0, 3-4-6...)

    pokus ci pre meno Arnold Schwarzeneger rozdelí jeho stránky na tie o politickej kariere, herectve, a kulturistickej kariere.

    mená: Jim Carrey - herec, brankár NHL / Brad Pitt - herec, boxer/Demi Moore, Roger Moore/ Henry Ford, Harrison Ford/

     

     bude to v Jave + Lucene na ulahcenie vypoctu tf.idf

    bude pracovat iba nad anglickymi strankami. -mam len anglicky stemmer a aj ludi s rovnakymi menami je viac a viac stranok o nich

     

    + Dalsia cast projektu:  poznám meno cloveka a nejaké jeho stránky(napr 4).

    dostanem mnozinu stránok(napr 20) (o ludoch s rovnakým menom) a mám povedat ktoré z toho sú o nom

    -cez tfidf

    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core