Table of contents
    1. 1. Témy:

    Každý študent si vyberie jednu tému, kde pod názov témy pridá svoje meno s linkou na svoju podstránku projektu. (Pre napísanie mena na nový riadok treba dať shift + enter)

    Túto stránku možete editovať, ale len za účelom pridania svojho mena a linky, avšak až po dohode s vyučujúcim je Vám téma naozaj pridelená.

    Na každý projekt sa môže prihlásiť 1 študent, až v prípade obsadenia všetkých tém je možné prideliť tému viacerým študentom.

     

    Témy:

    1. Š: Distance Search - analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Mate Fejes
    2. Š: Odkazový vyhľadávač - analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Diana Vandlíková
    3. Š: Wikipédia, MapReduce - extrakcia objektov z textov wikipédie pomocou regex extrahujem okolie entity na stranke entity, výstup: entita s okolím textu = vhodné na trénovanie extrakcie entít. 
      Matej Mihalik
    4. Š: Wikipédia: page rank stránok a vyhľadávanie pomocou lucene a pagerank
      Michal Lihocky
    5. Š: Wikipédia: fultext cez Sorl a fazety podla typu stránky kde hodnota fazety bude názov stránky
      Zuzana Orthová
    6. L: OpenNLP - extrakcia osôb z textu pomocou natrénovania množiny osôb na wikipédii, pozrieť aj existujúce projekty
      Peter Palát
    7. L: Kombinacia jednoduchých techník (regexy, gazeteers, ...) extrakcie informacií (osôb, firiem, lokalít) pomocou machine learning (OpenNLP, Weka, ...) na vybraných dátach napr. Wikipédia alebo iné.
      Igor Hula
    8. Š:Parlamentné texty: fultext search cez lucene
      Juraj Toth
    9. Š: Parlamentné texty: extrakcia ludí, strán podľa zoznamu poslancov a fazetové prehliadanie v Sorl
      Maros Ubrezi
    10. L: Parlamentné texty: extrakcia entít - viac ako iba ľudia a organizácie - čísla zákonov, mestá, a ine NE
      Martin Dravecký
    11. L: Extrakcia udalostí z emailov - analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Jozef Krajčovič
    12. L: Extrakcia udalostí z emailov - analýza existujúcich riešení vo svete a návrh, implementácia vlastného
      Filip Ogurčák - data?, datum-nazov=miesto?, slovencina?
    13. L: Extrakcia udalostí z webu - analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Adrian Fejes
    14. L: Informácie o ľuďoch, informacie - analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Maroš Jendrej
    15. Š: Informácie o ľuďoch, rozlišovanie osôb - analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Michal Ošvát
    16. Š: Vyhľadávanie obrázkov podľa okolitého textu z webu. Zvoliť testovacie dáta (nejaká časť webu napr: stu.sk, sav.sk) + analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Lenka Neslušanová
    17. Š: LinkedData - page rank na vybranom datasete, zoznam entít s najvačším PageRank-om podľa typu (rdf:type) 
      Peter Macko
    18. L: Rozbehanie Giraph na Enron Graph Datasete a spustenie nejakého jednoduchého algoritmu napríklad distribúcia uzlov, clustering koeficient alebo priemerná dĺžka cesty v grafe.
      Dusan Poizl
    19. Š: Fultext vyhľadávanie dokumentov (doc, PDF) cez Nutch na doméne sav.sk, savba.sk. Zahrnutie aj textoveho okolia linky na dokument do metadát pre indexovanie a vyhľadávanie.
      Samo Forus
    20. Š: Fultext vyhladavanie clanokov z casopisov SAV, Solr, fazety ako autori, klucove slova, casopis, pozriet aj existujuce projekty ako napr tento
      Kubis
    21. Š: Spracovanie emailov media monitoring SAV (emaily dodame) a extrakcia výskytov ľudí so SAV (mená sa dajú získať na www.sav.sk) ako aj štatistika výskytu
      Pavlech
    22. Š: Vyhľadávanie cez Sorl v media monitoring SAV  (emaily dodame) kde budú aj fazety podľa organizácií SAV ako aj ľudí zo SAV.
      Andrej Sedlacek
    23. L: Informácie o firmách: analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Radovan Kuka
    24. Š: Vyhľadávanie v emailoch: analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Martin Dupal
    25. L: Lematizácia a stemming: analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Róbert Horváth  - klasicky lematizer
      Michal Zilincik - slova co nie su v slovniku 
    26. L: POS tagging na slovenčine: analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva 
      Andrej Lezo
    27. Š: TAG cloud: analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Michal Fornadel
    28. L: Tvorba paralelneho korpusu pre štatistický preklad z Wikipikedie EN-SK
      Kazimír Jaroszewicz
    29. L: Tvorba paralelneho korpusu pre štatistický preklad CZ-SK (data?)
      Juraj Volentier
    30. L: Tvorba paralelného korpusu z webu EN-SK, iba krátke texty z liniek, menu a podobne so štatistikou výskytov. Vytvorenie slovníka.
      Matúš Vacula
    31. L: Štatistický preklad: analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva a analyzuje vytvorené zdroje.
      Karol Balko
    32. L: irLessons: release
      Peter.Holak
    33. Š: Detekcia toho istého obsahu pri rozdielnej linke: analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Milan Martinkovič
    34. L: Gazeteer, tokenizácia po znakoch. Pozrieť Ontea implementáciu, gazeteeru.
      Pomothy
    35. L: Gazeteer, aliasy cez Regex
      Jozef Kukuca
    36. L: učenie regexov z textových anotácií, implementácia podľa článku
      Balázs Nagy
    37. Š: Parsovat PDF zborniky z WIKT a extrahovat metadata o clankoch, referenciach a citaciach. Autori, nazov clanku, rok, podujatie, urobit aj spôsob prehliadania metadát cez lucene
      Lukas Tursky
    38. L: Ziskanie párov, anchor text liniek a nazvov dokumentov na ktoré ukazujú, porovnanie slov, skratiek ....
      Peter Dulacka
    39. Extrakcia paralelneho korpusu n-gramov pre EN-SK z firemnych web stranok nazvy stranok a linky (anchor texty) Maroš Maršalek
    40. Š: Extrakcia tabuliek zoznamov z wikipédie pomocou Hadoop
      Tomáš Kunka
    41. Š: Extrakcia tabuliek a zoznamov z wikipédie a vyhľadávanie (lucene) nad týmito dátami
      Matúš Michalko
    42. Š:  Extrakcia ludí  pomocou UIMA  a Hadoop na anglickej Wikipedii = pomocou titulov krsnych mien a pod.
      Marek Šurek
    43. L: Extrakcia entít  pomocou GATE (ľudia, lokality) na anglickej Wikipedii a vyhodnotenie.
      Jozef Lacny
    44. L: Extrakcia  entít  pomocou UIMA (ľudia, lokality) na slovenskej Wikipedii
      Martin Franta
    45. L: Extrakcia  entít  pomocou GATE (ľudia, lokality) na slovenskej Wikipedii
      Filip Staňo
    46. L: Sentence segmenter - rozdelenie textu na vety. Tak aby fungovalo dobre na HTML dokumentoch ako aj plain text - !pozor nie je take jednoduche ako sa zda! - anglictina
      Peter Sládeček
    47. L: Sentence segmenter - rozdelenie textu na vety. Tak aby fungovalo dobre na HTML dokumentoch ako aj plain text - !pozor nie je take jednoduche ako sa zda! - slovencina
      Ivan Simko
    48. Š: Apache UIMA extrakcia spustana na Hadoop. Staci nejaky jednoduchy priklad extrakcie napríklad extrakcia datumov alebo ine pomocou Regex, alebo nejake existujuce UIMA anotátory. Užitočné linky: wiki, github project 
      Andrej Britvík
    49. L: Extrakcia anchor textov, nazvov stranok a liniek za ucelom vytvorenie grafu s objektmi realneho sveta a relaciami - prikad extrakcia organizacii, ludi a ine napr zo stranky SAV.sk
      Juraj Mäsiar
    50. L: Extrakcia produktov z webu - analýza doterajšich projektov a vlastný návrh, implementácia ktorý kombinuje pozitíva
      Tomas Blaho
    51. L: OpenStreeMap dáta - backend spracovanie, offline nieco na Android
      Štefan Mitrík
    52. L: OpenStreetMap dáta - vyhľadanie významných bodov v blízkosti trasy nameranej pomocou GPS
      Peter Krátky
    53. L: Vlastna tema - extrakcia informacii ORSR, ZRSR, deep web, crawling
      Tomas Filčák
    54. L: Vyhladavanie pomocou graf paternu na DBPedii
      Martin Habdák
    55. L: kontext udalosti a informacie - odporucanie informacii k udalosti
      Robert.Kocian
    56. Š: LinkedData - ACM/DBLP - navigacia + lucene indexovali 
      Michal Chylik
    57. Š: Vyhľadávanie videi podľa okolitého textu z webu. Zvoliť testovacie dáta (nejaká časť webu) 
      Marek Hlaváč
    58. Š: Sorl v produktoch - doplnit info o databaze
      Radoslav Zachar
    59. Š: Produktova databaza Solr
      Kubis
    60. L: irLessons cez JRuby
      Martin Lipta
    61. ZRSR crawl + SOLR?
      FIlcak Tomas
    62. Š: CEUR WS proceedings klucove slova - Hadoop?
      Roman Bilevic
    63. Extrakcia citacii na odhalovanie plagiatov (slovencina)
      Pavel Michalko
    64. Š: Vyhladavanie top trensetterov na Twitteri pomocou #hashtagov 
      Jakub Šalmík
    65. L: Wikipedia image search 
      Pol Monforte
    66. Š: Wikipedia slovenska, indexovat Infoboxy cez Solr, klastrovanie podla kategorii
      Matej Kvitkovic
    67. Extrakcia paralelneho korpusu z Wikipedie EN-SK
    68. Extrakcia paralelneho korpusu ale iba n-gramov z nadpisov stranok pre zvolenu jazykovu verziu.
    69. Vyhľadávanie expertov z mailinglistu, pozrieť aj existujúce ako napr. tento
    70. OpenSocial API: 2 projekty 
    71. Odkazovy vyhladavac: 
    72. ?FocusedCrawler - prehlad existujucich ...
    73. Maphout?
    74. ?Hive 
    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core