Zoznam študentov

    Table of contents
    No headers

    Požiadavky na každý projekt:

    • Programovací jazyk: JavaPython, Ruby, Shell scripting
      niektoré stačí použiť nástroje ako Pig, GATE, OpenNLP, DBPedia Spotlight, SparkAvro
    • od začiatku zvolené dáta ktoré bude spracovávať v rozsahu minimálne 500 MB alebo viac ako 1 milion zaznamov vačšinou však niekoľko GB,
      hlavné dáta budú: Wikipédia (EN alebo SK), DBPediaFreebaseYAGO.
    • Projekty nad rovnakými dátami budú integrované cez Github alebo inak, cez projekt irfiit/wikipedia, urobte si konto na github-e
    • Štruktúra v github projektoch

     

    1. K: Bádal Matej - Sparsovanie entít Person, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života)
    2. K: Benkovič Samuel - Alternativne mena z infoboxov
    3. L: Blanárik Filip - Anchor texts a štatistika k anchortextom. Document frequency, collection frequency
    4. L: Blanárik Michal - Parsovanie anchorov a vyuzite na zistovanie splolocnych tvarov.
    5. Š: Bošiak Vladimír - Infoboxy - názov a  niektoré ďaľšie informácie hovriace o type dokumentu
    6. L: Cáder Lukáš - Nainštalovanie extraktora Wikipedie a extrahovanie dat z cerstveho dumpu Wikipedií - EN, DE, ES, IT, FR - aspoň 3 jazyky
    7. K: Cekovský Roman - Freebase, Parsovanie title, alt, typ pre EN a index aspon 3 jazyky s prepojenim na Wikipage title
    8. L: Červeňová Dominika - Diplomka - parsovanie Slovenskej Wikipedia (vety, linky vo vetach) za ucelom  urcenia vetnych clenov
    9. K: Demčák Peter - Vytvorenie multilingvistického slovníka z wikipédie slovenčina vs. iné jazyky (aspoň 2), vytvoriť spoločný slovník spájajúci jazyky s možnosťou vyhľadávania
    10. L: Dobšovič Rastislav - disambiguation pages - disambig z XML  dump-u a potom tieto stranky vyparsovat title, anchor a popis
    11. Š: Durčák Dávid - Hadoop - Parsovanie redirectov a sekcii, ktore ukazuju na sekcie stranok ako samostatne wiki podstranky a wyhladavnaie v nich - riesit spravne rozdelenie XML aby clanok nebol rozdeleny v dvoch segmentoch
    12. Š: Filípek Peter - Parsovanie title, alt a iných špecifických údajov entity Movie, viac typov. Ako Hadoop/Pig
    13. L: Fránik Milan - Rozbehat DBPedia extraktor pre SK, EN, ES - konfiguracia: lang mapping, templates, disambig, categories, infoboxy
    14. K: Fülöp Pavol - Categories, vyparsovat a porovnať s SQL dumpom
    15. Š: Galbavý Ondrej - Parsovanie title, alt, typ pre EN ako Hadoop/python - vystup avro so vsetkymi vlastnostami pre Freebase object
    16. K: Galinski Marek - Disambiguation pages - zoznam zo SQL dump-u a potom tieto stranky vyparsovat title, anchor a popis
    17. L: Gášpár Roland - Parsovanie Kategórií z SQL dumpu bez načítania do databázy
    18. K: Gloger Michael - Alternatívne mená k Wiki stránkam - možnosti, parsovanie, vyhodnotenie
    19. K: Gregorovič Lukáš - Parsovanie typov s nazvami v roznych jazykoch - obmedzenie na 1 alebo N definovanych jazykov
    20. K: Grešlíková Zuzana - Parsovanie title, short abstract, redirect a category z anglickej DBPedie a vyhladavanie
    21. K: Marek Grznar - Parsovanie abstraktov a porovnanie s abstraktami parsovanymi z Wikipedie
    22. K: Hamar Peter - Infoboxy - názov a  niektoré ďaľšie informácie hovriace o type dokumentu
    23. L: Handzuš Ján - YAGO data pre gazeteer, a aplikovanie/modifikacia gazeteera 
    24. K: Harinek Jozef - Abstrakty, vyparsovat z textov a porovnat s abstraktami v osobitnom XML, pripadne abstrakty z DPPedie
    25. L: Horváth Peter - Parsovanie Language Links z SQL dumpu s definovaním jedného jazyka
    26. K: Chlebana Matej - Vytvorenie slovníka dvojíc pre účely Named Entity Recognizing: pojem - typ (priradenie kategórií ako person, locality, organization jednotlivým stránkam z wikipédie)
    27. Š: Chomo Matej - Templates - spracovanie textu aby boli templates spravne parsované
    28. K: Janík Martin - Vytvorenie multilingvistického slovníka z wikipédie slovenčina vs. iné jazyky (aspoň 2), vytvoriť spoločný slovník spájajúci jazyky s možnosťou vyhľadávania
    29. Š: Juranyi Michal - Parsovanie title, alt, typ pre EN ako Hadoop/python - vystup JSON so vsetkymi vlastnostami pre Freebase object
    30. K: Jurčák Ondrej -  Parsovanie kategorie a vyhladavanie vo viacerych jazykovych verziach - aspon 3
    31. K: Kabátová Martina - Vypočítanie page ranku stránok, štatistika uzlov
    32. K: Karas Jozef - Alternativne mená (title, FB title, redirect, Disambig,....)z vlanajších projektov a štatistika k nim. Document frequency, collection frequency
    33. L: Katkó Daniel - Rozbehat DBPedia extraktor pre EN, DE, ES - konfiguracia: lang mapping, templates, disambig, categories, infoboxy
    34. Š: Kepič Tomáš - Infoboxy - názov a  niektoré ďaľšie informácie hovriace o type dokumentu
    35. K: Kiš Peter - Disambiguation pages - výstup title, anchor a popis stránok na ktoré disambiguation pages ukazujú
    36. Š: Kloska Matej - Parsovanie redirectov a sekcii, ktore ukazuju na sekcie stranok ako samostatne wiki podstranky a wyhladavnaie v nich
    37. L: Kmeťko Jakub - crawler, indexer a vyhladavanie. Spracovat iba titles a anchor texts z webstranok. Aspon 1 milion dat. Pracovat v github - fork z anchorer projektu
    38. L: Kocian Róbert - Diplomka - parsovanie DBPedia pre odporucanie
    39. K: Kochjar Juraj - Parsovanie kategorie a vyhladavanie vo viacerych jazykovych verziach - aspon 3
    40. Š: Kucek Matej - Hadoop: Section headers parsovanie, vyhladavanie, statistika document frequency, collection frequency
    41. K: Kuruc Marián - Vytvorenie multilingvistického slovníka z wikipédie slovenčina vs. iné jazyky (aspoň 2), vytvoriť spoločný slovník spájajúci jazyky s možnosťou vyhľadávania
    42. K: Linner Štefan - Artists, awards, tracks + vyhladavanie
    43. K: Londák Martin - Categories, vyparsovat a porovnať s SQL dumpom
    44. K: Marcin Jozef - Vypočítanie page ranku stránok, štatistika uzlov
    45. L: Marcoňák Matej - YAGO - index and search
    46. Š: Martinkovič Tomáš - Parsovanie SlovenskejDBPedie ako Hadoop/Pig job - vysledok avro s vsetkymi vlastnostami pre Wiki stranku
    47. Š: Martoš IvanTemplates - spracovanie textu aby boli templates spravne parsované
    48. Š: Maruna Viktor - Parsovanie Anglickej DBPedie ako Hadoop job/Python streaming  - vysledok avro  so vsetkymi vlastnostami pre Wiki stranku 
    49. Š: Melicher Tomáš - Parsovanie title, alt a iných špecifických údajov entity Book, viac typov. Ako Hadoop/Pig
    50. Š: Melis Martin - PageRank na Freebase, štatistika uzlov
    51. L: Mercz Jakub - Spracovanie streamu Tweet-ov pomocou Mupped, treba nejaky jednoduchy problem spracovat. See also Kosmix Story
    52. K: Mészáros Michal - Sparsovanie osôb wikipédie, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života)
    53. K: Mišíková Kristína - Parsovanie title, alt, typ pre EN a index
    54. K: Močkoř Adam - Anchor texts a štatistika k anchortextom. Document frequency, collection frequency
    55. L: Molnár Samuel - Normalizácia queries a štatistika, rozdelenie histogram, porovnanie unique, unique normalizovanych a podobne na tomto (AOL) a dalsich datasetoch
    56. L: Nagy Gábor - Hadoop python streaming na sekcie
    57. L: Nemeček Tomáš - Lematizer - sufixove stromy na anchortextoch SK, CZ
    58. K: Onder Ján - Alternativne mená (title, FB title, redirect, Disambig,....). z vlanajších projektov štatistika k nim. Document frequency, collection frequency
    59. Š: Páleník Peter - Freebase Parsovanie title, alt, typ pre EN ako Hadoop/Pig - vystup avro so vsetkymi vlastnostami pre Freebase object
    60. K: Petráš Michal - Disambiguation pages - výstup title, anchor a popis stránok na ktoré disambiguation pages ukazujú
    61. K: Pidanič Pavol - Parsovanie mapovania clankov pre aspon 3 jazykove verzie, kde je aspon 1 milion stranok, a vyhladavanie 
    62. K: Podmajerský Ján - Alternativne mena z infoboxov 
    63. K: Polák Martin - Vytvorenie kalendára udalostí wikipédie, teda prepojenie dátumov so stránkami na ktorých sa vyskytujú, spolu s jednoduchou informáciou ako pojem s dátumom súvisí
    64. Š: Rabčan Juraj - Parsovanie Slovenskej ako Hadoop job/Python streaming  - vysledok  JSON so vsetkymi vlastnostami pre Wiki stranku
    65. K: Rybár Matej - Parsovanie abstraktov a porovnanie s abstraktami parsovanymi z Wikipedie
    66. K: Sabol Róbert - Parsovanie vsetkych dat zo slovenskej DBPedie a vyhladavanie nad tymito datami (aj mapovania na anglicku)
    67. L:Samuhel Patrik - Section headers parsovanie, vyhladavanie, statistika document frequency, collection frequency. Vieme dostat Alt names zo section headers?
    68. Š: Sekerák Lukáš - Freebase, Sparsovanie entít Person, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života). Ako Hadoop/Pig
    69. K: Scholtz Michael - Alternatívne mená k Wiki stránkam - možnosti, parsovanie, vyhodnotenie
    70. K: Skrisa Július - Parsovanie title, short abstract, redirect a category z anglickej DBPedie a vyhladavanie
    71. L: Soós Daniel - Parsovanie language links z SQL - EN, HU, SK - štatistiky
    72. L: Ševčík Michal - Parsovanie, Indexovanie a Search z Language Links z DBPedie - EN, FR, DE
    73. K: Štajer Andrej - Vytvorenie kalendára udalostí wikipédie, teda prepojenie dátumov so stránkami na ktorých sa vyskytujú, spolu s jednoduchou informáciou ako pojem s dátumom súvisí
    74. K: Štrba Patrik - Parsovanie Kategórií z SQL dumpu bez načítania do databázy
    75. K: Štrbáková Veronika - Sparsovanie entít Person, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života)
    76. K: Šuta Erik - Parsovanie vsetkych dat zo slovenskej DBPedie a vyhladavanie nad tymito datami (aj mapovania na anglicku)
    77. L: Tibenský Martin - Anchot text a titles z webu, python
    78. K: Tkáč Timotej - Sparsovanie osôb wikipédie, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života)
    79. K: Toma Matej - Abstrakty, vyparsovat z textov a porovnat s abstraktami v osobitnom XML, pripadne abstrakty z DPPedie
    80. K: Valko Andrej - Vytvorenie slovníka dvojíc pre účely Named Entity Recognizing: pojem - typ (priradenie kategórií ako person, locality, organization jednotlivým stránkam z wikipédie)
    81. Š: Vangel Máté - Hadoop - Parsovanie redirectov a sekcii, ktore ukazuju na sekcie stranok ako samostatne wiki podstranky a wyhladavnaie v nich - spracovat bz2 na hadoope - nerozbalovat
    82. Š: Vojtuš Miroslav - Parsovanie title, alt, typ pre EN ako Hadoop/Java - vystup avro so vsetkymi vlastnostami pre Freebase object
    83. Š: Wolf Miroslav - Parsovanie title, alt a iných špecifických údajov entity Person. Ako Hadoop/Pig
    84. Š: Zápach Radoslav - Parsovanie Slovenskej a Anglickej DBPedie ako Hadoop job/Java  - vysledok avro s vsetkymi vlastnostami pre Wiki stranku
    85. K: Zbell Pavol - Parsovanie abstraktov a porovnanie s abstraktami parsovanymi z Wikipedie
    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core