Každý študent si vyberie jednu tému, kde pod názov témy pridá svoje meno  s linkou na svoju podstránku projektu. (Pre napísanie mena na nový riadok treba dať shift + enter)

    Tiez treba pridat temu aj linku na svoju stranku do zoznamu studentov 

    Túto stránku možete editovať, ale len za účelom pridania svojho mena a linky, avšak až po dohode s vyučujúcim je Vám téma naozaj pridelená.

    Na každý projekt sa môže prihlásiť iba jeden študent (max dvaja študenti - projekt trochu líšiť spôsobom zamerania)

    Každý projekt musí mať od začiatku zvolené dáta ktoré bude spracovávať. Tieto dáta musia byť v rozsahu minimálne 100 MB. Očakávame však riešenie viacerých projektov kde bude spracovávaná celá Wikipédia (EN alebo SK), DBPedia alebo Freebase.

    Pripadne si pozrite aj témy projektov z vlanajšieho roku, kde je možné pracovať na podobných témach ale s využitím väčších dát najlepšie pomocou Wikipédie alebo Freebase.

     

    Hlavné okruhy tém projektov

    tu sa nezapisujte ale nizsie

    • Spracovanie slovenskej Wikipedie rozne projekty - rozbalene menej ako 1GB
      • musí poriadne fungovať diakritika aj spell check
      • indexovanie a vyhladavanie
      • vyhladavanie v multimediach
      • lematizacia
      • rozpoznavanie entit
      • vyhladavanie podla anchor textov liniek
      • dalsie napady ...
    • Spracovanie anglickej Wikipedie rozne projekty - rozbalene okolo 40 GB
      • indexovanie a vyhladavanie
      • query categorization
      • entityt search
      • anchor text search
      • ...
    • Spracovanie Freebase - okolo 130 GB
      • indexovanie a vyhladavanie
      • query categorization
      • entityt search
      • anchor text search
      • ...
    • Spracovanie DBPedie
      • Page Rank
      • Categories
      • DBPedia Spotlight
      • ....
    • Query Categorization na KDD CUP 2005

     

    Zoznam tém projektov:

    zapisujte sa na témy v tomto zozname

    1. L: Anchor texty na wikipediu search a spracovanie typov anchor textov
      Lukas.Lences
    2. L: QA over Linked Data
      Juraj Muránsky
    3. Vytvoriť SK Wordnet na zaklade českého a anglického WordNetu a SK frekvenčného slovníka
    4. L: Relacie z Wikipedie    
       Michal Meszaros
    5. L: DBPedia SpotLight pre slovensku Wikipediu
      Michal Biroš
      Jakub Baloga
    6. L: Štatistický lematizér na základe spracovania anchor textov z SK wikipédie
      Jakub Kříž
    7. L: Tvorba paralelneho korpusu s anchor textov liniek z dvojjazycnych stranok - vyuzitie existujucich projektov. Tvorba slovnika.
      Peter Sivák
    8. Š: Analyza twitov podla gazeteerov a krajin, hashtagov, S4
      Eduard Fritscher
    9. Š: SKWiki: Solr, index a search
      Bohuš Roško
    10. Š: SKWiki: Solr, index a search obrazky (podla okoliteho textu a nazvu stranky)
      Martin Geier
    11. Š: SKWiki: lucene, index a search
      Marek Jakab
      Jozef Gajdoš
    12. Š: SKWiki: lucene, index a search obrazky (podla okoliteho textu a nazvu stranky)
      Patrik Hlaváč
      Rastislav Kostrab
    13. L: SKWiki: anchor text liniek vyhladavanie a title, redirect
      Adrián Kollár
    14. L: SKWiki: analyza anchor textov pre entity search
      Miroslav Ort
    15. L: SKWiki: lematizer na zaklade anchor textov
      Ondrej Kuzmík
    16. L: SKWiki: vytvorenie paralelneho koprusu pre hocaky jazyk a slovencinu na zaklade nazvov stranok
      Juraj Višňovský
    17. L: SKWiki: rozpoznavanie locations pomocou OpenNLP
      Martin Čertek
    18. L: SKWiki: rozpoznavanie people pomocou OpenNLP
      Frantisek Nagy
    19. L: SKWiki: rozpoznavanie vsetkych entit pomocou Gazetteera
      Šimon Mikuda
    20. Š: SKWiki: Hadoop parsovanie textov clankov poriadne aj templates
      Jan Trebula
    21. Š: SKWiki: Hadoop parsovanie title, redirects, categories, section headers
      Ján Greppel
      Martin Adamik
    22. Š: SKWiki: Hadoop parsovanie links, anchor texts
      Tomas Zboja
    23. Š: SKWiki: wiki page page rank, bez aj s redirectami
      Michal Kyžňanský
    24. SKWiki: vlastny napad ....
    25. Š: ENWiki: Solr, index a search
      Róbert Puckallér
    26. Š: ENWiki: Solr, index a search obrazky (podla okoliteho textu a nazvu stranky)
      Miroslav Blšták
    27. Š: ENWiki: lucene, index a search
      Robert Cerny
      Stanislav Kubica
    28. Š: ENWiki: lucene, index a search obrazky (podla okoliteho textu a nazvu stranky)
      Martin Uhrin
      F
      ilip Bednárik
    29. Š: LENWiki: anchor text liniek vyhladavanie a title, spellcheck
      Marek Tomco
      D
      avid Bado
    30. L: ENWiki: analyza anchor textov pre entity search
      Martin Konopka
    31. L: ENWiki: vytvorenie paralelneho koprusu pre hocaky jazyk a slovencinu na zaklade nazvov stranok
      Ondrej Kassak
    32. L: ENWiki: anchor text liniek vyhladavanie a title spracovat aj externe anchor texty na wikipediu
       
       Gergely Králik
    33. L: ENWiki: rozpoznavanie locations pomocou OpenNLP
      Tomáš Caban
    34. L: ENWiki: rozpoznavanie people pomocou OpenNLP
      Marek Kišš
    35. L: ENWiki: rozpoznavanie vsetkych entit pomocou Gazetteera
      Tomáš Lekeň
    36. Š: ENWiki: Hadoop parsovanie textov clankov poriadne aj templates
      Maros Urbancok
      Michal Adda
    37. Š: ENWiki: Hadoop parsovanie title, redirects, categories, section headers
      Jana Branisova
    38. Š: ENWiki: Hadoop parsovanie links, anchor texts
      Štefan Kasala
    39. Š: ENWiki: wiki page page rank, bez aj s redirectami
      Juraj Kostolanský
      Andrea Stenova
    40. ENWiki: vlastny napad ....
    41. Š: ENWiki: Vyhladavanie hudby
      Filip Sucháč
    42. Š: FB: Solr, index a search
      Jakub Gondár
    43. Š: FB:  lucene, index a search
      Peter Greguš
      Šimon Kompas
    44. Š:FB: Pig - alt and titles
      Jaroslav Rais
    45. Š: FB: Pig - all wikipedia entities
      Pavol Ruzicka
    46. Š: FB: Pig - entities and types
      Marek Lóderer
    47. Š: FB: parsing - alt and titles
      Zuzana Ujhelyiova
    48. L: FB: parsing - all wikipedia entities and indexing
      Martin Dušek
    49. Š: FB: parsing - entities and types
      Peter Šinský
    50. FB: : vlastny napad ....
    51. Š: DBP: wiki page page rank, bez aj s redirectami
      Marek Láni
    52. Š: DBP: Pig - redirects and titles
      Jozef Arpas
    53. Š: DBP: Pig - entity and typy/kategórie
      Vlado Sudor
    54. DBP: vlastny napad ....
    55. L: FOAF v digitálnych knižiniciach
      Ondrej Proksa
    56. L: QC: Google API a spracovanie resultov do kategorii
      Jendek Tomáš
    57. Š: QC: ENWiki TF-IDF categorization
      Martin Toma
    58. Š: QC: ENWiki cosine similarity categorization
      Matúš Ujhelyi
    59. L: QC:  ENWiki LDA categorization
      Michal Granec
      J
      uraj Vincúr
    60. L: QC: keywords (n-gram) reprezentacia kategorii, vypocitana z clankov Wikipedie. 
      Ivana Bohunicka
    61. L: QC: keywords (n-gram) reprezentacia kategorii, vypocitana z clankov Wikipedie.
      Jan Antala
    62. L: QC: keywords (n-gram) reprezentacia kategorii, vypocitana z clankov Wikipedie. 
      Richard Samela
    63. L: QC: objavovanie DBPedia entit v query pomocou Gazetteer
      Michal Roško
    64. L: QC: objavovanie Freebase entit v query pomocou Gazetteer
      Peter Jurkovic
    65. L: QC; objavovanie Wikipedia entit v query pomocou Gazetteer
      Peter Michalec
    66. QC: vlastny napad ....
    67. Š: index and search vyhodnotenie na kolekcii pre rozne lucene modely
      Jozef Gajdoš
    68. ...vlastny napad ....
    69. L: Kolokacie
      Martin Plank
    70. Š: Klucove slova z EN wiki clankov na zaklade TF-IDF
      Gabriel Mančik
    71. Hodnotenie produktov???
      Juraj Pitak
    72. L: Vyhľadávanie informácii v študijných materiáloch
      Ľuboš Demovič
    73. L: Vyhľadávanie a clustrovanie výsledkov v archíve novinových článkov
      Tomlein
    74. L: Tvorba chronologickych zivotopisov osobnosti z EN WiKi
      Michal Račko
    75. L: Parsovanie MusicXML súborov
      Ondrej Grman
    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core