Peter Holotík - Datamining

    v hodnoteni

    Program

    Testovacie dáta

    Klúčove slova

    Celý dokument 

    Korpus

    Úvod

     

     

     

    V dnešnej dobe globalizácie a neustále zvyšujúcej sa penetrácie internetu na celom svete sa spoločnosť dynamicky mení a vyvíja. Problémy ako nedostatok informácií ustúpili do úzadia a vznikajú nové. V dnešnej dobe už máme dostatok informácií, ale nastáva problém nájsť tie, ktoré sú pre nás dôležité. Zvyčajne sme zahltení veľkým množstvom informácií, ktoré sú pre nás bezcenné. Preto data-mining zohráva u nás stále väčšiu a vačšiu rolu.

     

    V poslednej dobe sa obchodný internetový portál amazon.com, ktorý umožňuje okomentovať a ohodnodnocovať výroboky, stal veľkým fenoménom. Postupne sa vyvinul, vďaka tejto službe, aj istý typ sociálnej siete hodnotiacich (ďalej komunita). Jednotliví použivatelia po nakúpení výrobku zvyčajne zanechajú komentár, kde vyjadrujú svoj názor a použivateľské skúsenosti. K hodnoteniu používateľ pridáva aj hodnotenie hviezdičkami. Päť hviezdičiek je maximálne spokojný až jedna hviezdička je veľmi nespokojný.

     

    Spôsob riešenia je použitie crawleru, ktorý vytvorí databázu slov, databázu komentárov a potom budem spätne analyzovať komentáre, či sú pozitívne alebo negatívne.

     

    Doterajšie prístupy a riešenia

    1 http://blackhole.sk/echelon

     

    2 http://www.usingenglish.com/resources/text-statistics.php

     

    3 http://ftp.cs.wisc.edu/machine-learning/shavlik-group/craven.fgcs97.pdf

     

    4 http://emotion.informatik.uni-augsburg.de:8080/WebInterface/

      

    Riešenie problému

     

     

    Riešenie bolo vytvorené v prostredí Visual Studio 2005 a dá rozdeliť na tri časti. Prvá časť je získavanie databázy slov a recenzií z internetu a druhá čast je analyzovanie týchto získaných údajov a tretia časť je dátabázová vrstva realizovaná cez MS sql express databázu.

     Prvá časť pozostáva z crawlera, ktorý získava data prechádzaním cez stránky amazonu a zameriava sa na recenzie používateľov.

    Analyzátor je rozdelený na dve časti. Prvý analyzátor iba triviálnejší a analzyuje na základe obýčajného spočítania slov a slovám može používateľ pridať rôzne hodnoty, aby vylepšil presnosť určenia. Druhý analýzátor je urobený formou neurónovej siete, ktorej vstup je vektor s počtom relevantných slov.

     

     

    Testovacie dáta

     

     

     

    Recenzie sú uložené v súbore nasledujúcim spôsobom:

     

     

     

    RANDOM SHUT OFF ISSUE FIXED

     

    0

     

    Just a heads up to anyone owning any size model of the 650 series...

     

    Samsung issued a firmware update, via their website on 4/3/08, that fixes the random shut off problem. You will need a USB flash drive to apply the update via the Wiselink USB port on the TV. This firmware update also enhances the AMP effect on all sets.

     

     

     

    Great TV

     

    0

     

    Before I bought this great  TV, I read the reviews and honestly was concerned about the shut off problem that some folks reported even though everyone was impressed with the picture quality.Well it have been about a month so far and no problems yet and WOW, what a picture quality.Very happy I made the choice.

     

     

     

    Prvý riadok je nadpis recenzie, potom nasleduje hodnotenie v podobe čísla 0-2. Nasledujúce riadku sú už recenziou výrobku. Každá dalšia recenzia je oddelená prázdnym riadkom.

     

     

    Zhodnotenie

     

     

    Po mnohých testovaniach a opakovaných roširovaní relevatných slov som dosiahol úspešnosť niečo málo cez 50 percent. Tento výsledok by sa dal zlepšiť len by sme sa museli viac pohrať s hodnotami, ktoré majú jednotlívé slová. Zvyčajne je problém správne určovať neutrálne a negatívne recenzie, lebo na pozitívných je zvyčajne viac slov a tie robia  určovanie ľahším. Úspešnosť hodnotenia je konkrétne 52,4%.

    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core