Table of contents
    No headers

    Požiadavky na každý projekt:

    • Programovací jazyk: Java, Python, Ruby, Shell scripting
      niektoré stačí použiť nástroje ako Pig, GATE, OpenNLP, DBPedia Spotlight, Spark, Avro
    • od začiatku zvolené dáta ktoré bude spracovávať v rozsahu minimálne 500 MB alebo viac ako 1 milion zaznamov vačšinou však niekoľko GB,
      hlavné dáta budú: Wikipédia (EN alebo SK), DBPediaFreebase, YAGO.
    • Projekty nad rovnakými dátami budú integrované cez Github alebo inak, cez projekt irfiit/wikipedia, urobte si konto na github-e

     

    Viacero projektov na parsovanie Wikipédie (​Integrované cez Github)

    1. K: Disambiguation pages - výstup title, anchor a popis stránok na ktoré disambiguation pages ukazujú
      Michal Petráš, Peter Kiš
    2. K: disambiguation pages - zoznam zo SQL dump-u a potom tieto stranky vyparsovat title, anchor a popis Marek GalinskiRastislav Dobsovic
    3. K: Infoboxy - názov a  niektoré ďaľšie informácie hovriace o type dokumentu
      Vladimír Bošiak
      Peter HamarTomáś Kepič
    4. K: Alternativne mena z infoboxov - priklad tu
      Samuel Benkovič
      Ján Podmajerský
    5. K: Alternativne mená (title, FB title, redirect, Disambig,....)z vlanajších projektov a štatistika k nim. Document frequency, collection frequency
      Jan OnderJozef Karas
    6. Templates - spracovanie textu aby boli templates spravne parsované
      Ivan.MartosMatej Chomo
    7. K: Anchor texts a štatistika k anchortextom. Document frequency, collection frequency  Filip.Blanarik, Adam Mockor
    8. K: Abstrakty, vyparsovat z textov a porovnat s abstraktami v osobitnom XML, pripadne abstrakty z DPPedie
      Matej Toma
      , Jozef Harinek
    9. K: Alternatívne mená k Wiki stránkam - možnosti, parsovanie, vyhodnotenie
      Michael GlogerMichael Scholtz
      Jan Podmajersky
    1. Section headers parsovanie, vyhladavanie, statistika document frequency, collection frequency. Vieme dostat Alt names zo section headers? - Patrik Samuhel, Gábor Nagy
    2. Hadoop: Section headers parsovanie, vyhladavanie, statistika document frequency, collection frequency
      Matej Kucek
    3. Parsovanie redirectov a sekcii, ktore ukazuju na sekcie stranok ako samostatne wiki podstranky a wyhladavnaie v nich
      Matej KloskaDaniel Katkó
    4. Hadoop - Parsovanie redirectov a sekcii, ktore ukazuju na sekcie stranok ako samostatne wiki podstranky a wyhladavnaie v nich
      David DurcakMate Vangel
    5. K: Categories, vyparsovat a porovnať s SQL dumpom
      Pavol Fulop
      , Martin Londak
    6. K: Parsovanie Kategórií z SQL dumpu bez načítania do databázy
      Patrik ŠtrbaRoland Gášpár
    7. Parsovanie Language Links z SQL dumpu s definovaním jedného jazyka
      Michal SevcikPeter Horvath
    8. Parsovanie Language Links z SQL alebo DBPedia a statistika. overenie back links a statistika. Aspon 3 jazyky Michal.BlanarikDaniel Soos
    9. K: Vypočítanie page ranku stránok, štatistika uzlov
      Martina Kabátová, Jozef Marcin
    10. K: Vytvorenie slovníka dvojíc pre účely Named Entity Recognizing: pojem - typ (priradenie kategórií ako person, locality, organization jednotlivým stránkam z wikipédie) - Andrej Valko, Matej Chlebana
    11. K: Vytvorenie multilingvistického slovníka z wikipédie slovenčina vs. iné jazyky (aspoň 2), vytvoriť spoločný slovník spájajúci jazyky s možnosťou vyhľadávania
      Marian KurucMartin JaníkPeter Demcak
    12. K: Sparsovanie osôb wikipédie, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života) -
      Michal Meszaros , Timotej Tkáč
    13. K: Vytvorenie kalendára udalostí wikipédie, teda prepojenie dátumov so stránkami na ktorých sa vyskytujú, spolu s jednoduchou informáciou ako pojem s dátumom súvisí 
      Andrej Stajer, Martin Polak

     

    Viacero projektov na parsovanie DBPedie (​Integrované cez Github)

    1. K: Nainštalovanie extraktora Wikipedie a extrahovanie dat z cerstveho dumpu Wikipedií - EN, DE, ES, IT, FR - aspoň 3 jazyky  Lukas Cader
    2. K: Nainštalovanie extraktora Wikipedie a extrahovanie dat zo SK Dbpedie, dopracovanie extrakcie Typov
      Milan Fránik
    3. K: Parsovanie mapovania clankov pre aspon 3 jazykove verzie, kde je aspon 1 milion stranok, a vyhladavanie
      Pavol Pidanič
    4. K: Parsovanie kategorie a vyhladavanie vo viacerych jazykovych verziach - aspon 3.
      Ondrej JurcakJuraj Kochjar
    5. K: Parsovanie abstraktov a porovnanie s abstraktami parsovanymi z Wikipedie
      Matej RybarMarek GrznarPavol Zbell
    6. K: Parsovanie vsetkych dat zo slovenskej DBPedie a vyhladavanie nad tymito datami (aj mapovania na anglicku)
      Róbert Sabol, Erik Šuta
    7. Parsovanie Slovenskej ako Hadoop job/Java  - vysledok avro s vsetkymi vlastnostami pre Wiki stranku
      Radoslav Zápach 
    8. Parsovanie Slovenskej ako Hadoop job/Python streaming  - vysledok avro alebo JSON so vsetkymi vlastnostami pre Wiki stranku - Viktor Maruna - AVRO
      Juraj Rabcan - JSON
    9. Parsovanie Slovenskej ako Hadoop/Pig job - vysledok avro s vsetkymi vlastnostami pre Wiki stranku
      Tomáš Martinkovič
    10. K: Parsovanie title, short abstract, redirect a category z anglickej DBPedie a vyhladavanie - Zuzana GrešlíkováJúlius Skrisa

       

     

    Freebase (​Integrované cez Github)

    1. K: Parsovanie typov s nazvami v roznych jazykoch - obmedzenie na 1 alebo N definovanych jazykov
      Lukáš Gregorovič
    2. K: Parsovanie title, alt, typ pre EN a index
      Kristína Mišíková
    3. K: Artists, awards, tracks + vyhladavanie Stefan Linner
    4. K: To iste ale aspon 3 jazyky s prepojenim na Wikipage title
      Roman Cekovsky
    5. Parsovanie title, alt, typ pre EN ako Hadoop/Pig - vystup avro so vsetkymi vlastnostami pre Freebase object -Peter Páleník
    6. To iste ale aspon 3 jazyky s prepojenim na Wikipage title
    7. Parsovanie title, alt, typ pre EN ako Hadoop/Java - vystup avro so vsetkymi vlastnostami pre Freebase object
      Miroslav Vojtuš
    8. To iste ale aspon 3 jazyky s prepojenim na Wikipage title
    9. Parsovanie title, alt, typ pre EN ako Hadoop/python - vystup avro/JSON so vsetkymi vlastnostami pre Freebase object Ondrej GalbavýMichal Juranyi
    10. To iste ale aspon 3 jazyky s prepojenim na Wikipage title
    11. Parsovanie title, alt a iných špecifických údajov entity Person. Ako Hadoop/Pig - Miroslav Wolf
    12. Parsovanie title, alt a iných špecifických údajov entity Book. Ako Hadoop/Pig Tomáš Melicher
    13. Parsovanie title, alt a iných špecifických údajov entity Movie. Ako Hadoop/Pig - Peter Filipek
    14. K: Sparsovanie entít Person, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života)
      Matej BádalVeronika Štrbáková
    15. Sparsovanie entít Person, vytvorenie jednoduchej služby 'mohli sa stretnúť?', ktorá po zadaní dvoch mien určí, či sa mohli dané osoby stretnúť (prekryv času ich života). Ako Hadoop/Pig Lukáš Sekerák
    16. PageRank na Freebase, štatistika uzlov - Martin Melis
       

     

    Ďalšie projekty

    1. kategorizacia pomocou MALLET vyhodnotenie na Wikipedii
    2. extrakcia entit pomocou  MALLET vyhodnotenie na Wikipedii
    3. Gazeteer identifikacia entit pomocou Wikipedia nazvov a tohto Datasetu
    4. Normalizácia queries a štatistika, rozdelenie histogram, porovnanie unique, unique normalizovanych a podobne na tomto (AOL) a dalsich datasetoch - Samuel Molnár
    5. query expansion alebo keywork expansion pomocou Wikipedie, treba este definovat dataset na overenie, see also
    6. Spracovanie streamu Tweet-ov pomocou Mupped, treba nejaky jednoduchy problem spracovat. See also Kosmix Story
      Jakub Mercz
    7. YAGO - index and search Matej Marconak
    8. YAGO - gazeteer for entity recognition in text Ján Handzuš
    9. YAGO - ...
    10. SKWiki - Lematizer, Stemmer založený na anchor textoch, pozri predchadzajuce projekty, sumar a vylepšiť 

    Tomáš Nemeček

    1. YAGO a Question Answering  vyhodnotit na QA over Linked Data datasete
    2. ENWiki a Question Answering  vyhodnotit na QA over Linked Data datasete
    3. DBPedia a Question Answering  vyhodnotit na QA over Linked Data datasete
    4. DBPedia SpotLight pre slovensku Wikipediu, vyhodnotit vlanajsie projekty a vylepsit
    5. Diplomka - parsovanie DBPedia pre odporucanie - Róbert.Kocian
    6. Diplomka - parsovanie Slovenskej Wikipedia (vety, linky vo vetach) za ucelom  urcenia vetnych clenov. - Dominika.Cervenova
    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core