Gabriel Pán - Gate

    Table of contents
    No headers

    Úvod:

    Extrakcia informácií pri spracovaní prirodzených jazykov je typ vyhľadávania informácií, ktorého cieľom je automaticky vytiahnuť štruktúrované informácie (kategorizovať ich alebo inak dobre sémanticky definovať) z určitého zdroja, ktorý obsahuje neštruktúrované strojom čitateľné dokumenty. Takto už štruktúrované informácie je potom možné ďalej spracovávať na potrebné účely. Dôležitosť extrakcie informácií z neštruktúrovaných zdrojov (napríklad Internet) sa stále zvyšuje. Typickou aplikáciou takejto extrakcie je prehľadávanie dokumentov napísaných pomocou prirodzeného jazyka a sprístupnenie databázy s nájdenými informáciami pre ďalšie použitie.

     

    GATE - General Architecture for Text Engineering

    General Architecture for Text Engineering alebo GATE je Javový balík nástrojov pôvodne vyvíjaný na Univerzite v Sheffielde od roku 1995. Dnes sa používa na celom svete skupinami vedcov, firmami, pedagógmi a študentmi na riešenie úloh spojených so spracovaním prirodzeného jazyka vrátane extrakcie informácií v mnohých jazykoch.

    GATE ponúka voľne dostupné open source API, framework a grafické vývojové prostredie pre ľahké spracovanie dokumentov.
    Obsahuje systém na extrakciu informácií nazývaný ANNIE (A Nearly-New Information Extraction System), ktorý je tvorený viacerými modulmi ako tokenizer, gazeteer, sentence splitter, speech tagger, named entities transducer a coreference tagger.
    Gate v súčasnosti podporuje 10 svetových najpoužívanejších jazykov vrátane čínskeho.
     
    Iné projekty zaoberajúce sa touto problematikou:
    Napríklad Calais je webový servis, ktorý spracúva text v prirodzenom jazyku a sémanticky otaguje text, ktorý sa pošle ako vstup tohto webservisu. Tieto tagy sú potom poslané naspäť používateľovi, ktorý ich môže použiť vo svojej aplikácii podľa potreby.
     
    Práca so systémom GATE: 
    Na predchádzajúcom obrázku je príklad grafickeho rozhrania systému gate. V ľavej časti obrazovky sa nachádza menu, pomocou ktorého môžeme pridávať nové spracovávacie nástroje (processing resources), dokumenty na spracovanie (language resources) a vytvárať aplikácie, pomocou ktorých spúšťame jednotlivé nástroje.
    Na aktuálnej obrazovke vidno ako som do GATE pridal 4 dokumenty. Konkrétne dokument otvorený na obrázku je časť článku z anglických novín náhodne stiahnutá z internetu. Tento text slúžil ako dokument nad ktorým bol spustený GATE a to gazeteer, tokenizer a NE transducer, ktoré sú štandardne v ANNIE. V pravej časti obrazovky sú zobrazené výsledky. Systém dokázal rozoznať výrazy z kategórií ktoré sú farebne rozlíšené kvôli prehladnosti. Zaškrtol som niektoré kategórie a v texte boli zvýraznené príslušnou farbou slová nájdené v týchto kategóriách.
    Okrem dopredu pripravených množín výrazov, ktoré je gazeteer schopný nájsť, som sa pokúsil vytvoriť si vlastnú množinu výrazov. Na otestovanie som použil niekoľko značiek výrobcov mobilných telefónov a ďalej niektoré názvy konkrétnych modelov telefónov. Výsledky boli dobré, systém bol schopný nájsť všetky modely a značky, ktoré sa vyskytovali v texte ako samostatné tokeny. Zámerne som do skúšobného textu vložil reťazec, ktorý zodpovedá typu mobilného telefónu ale nachádza sa medzi inými znakmi a nie je oddelený medzerou. Tento reťazec systém nepovažoval za samostatný token, preto ho nevyznačil. Na obrázku su nájdené modely vyznačené ružovou farbou, kurzorom som označil reťazec U800, ktorý sa síce roknako ako 3510i a E71 nachádza v gazeteeri ale nefiguruje ako samostatný token.
     Takto je možné vytvoriť si akúkoľvek množinu slov, ktoré je potom systém automaticky vyhľadáva vo vstupných dokumentoch.
    Počas práce so systémom som sa nestretol s väčšími problémami ale je nutné si prečítať tutorial pred jeho používaním. Chvíľu mi trvalo kým som prišiel na to, ako vytvoriť vlastnú množinu výrazov v gazetéri.
    GATE tutorial:
    Najrýchlejšou cestou ako pochopiť základy práce s GATE je pozrieť si online tutorial, ktorý ponúka viacero videí popisujúcich prácu s grafickým rozhraním. Tento tutorial sa nachádza na adrese: http://gate.ac.uk/demos/movies.html.
    Oficiálny návod: http://gate.ac.uk/sale/tao/index.html. V kapitole 7 tohto návodu je možné dozvedieť sa všetko o písaní JAPE pravidiel nad anotáciami, ktoré sme predtým vytvorili pomocou gazetéra. Pre pochopenie písania JAPE pravidiel je vhodné otovriť si niektorý z existujúcich súborov *.jape, ktoré sa nachádzajú podadresároch v adresári plugins. 
    Ďalším dobrým zdrojom informácií je prezentácia popisujúca všetky dôležité súčasti GATE aj s prikladmi použitia: Hopp_Lin_Valiath_GATE-JAPE-ANNIE-presentation.pdf
    Medzi dokumentami je jednoduchá ukážka gazetéra a JAPE gramatiky, ktorá pracuje s týmto gazetérom. Gazetér vyhľadáva niekoľko výrobcov mobilných telefónov a typov mobilných telefónov. JAPE gramatika potom pridá anotácie na nájdené výsledky.
    Jednoduchý postup ako použiť vlasný gazetér s vlastnými JAPE pravidlami v GATE:
    1. stiahneme súbory gazeteer.rar (ktorý niekam rozbalíme) a mobiles.jape 
    2. v GATE vytvoríme nový ANNIE gazetér kliknutím pravým tlačidlom na Processing Resources a do poľa listsURL zadáme cestu ku súboru myTest.def (z rozbaleného rarka).
    3. rovnako vytvoríme nový Jape Transducer a do jeho poľa grammarURL zadáme cestu k súboru mobiles.jape
    4. vytvoríme si novú pipeline aplikáciu, v ktorej využijeme náš gazetér a jape transducer
    4. tieto 2 komponenty necháme pracovať nad ľubovoným GATE dokumentom (môžeme jeden vytvoriť napríklad zo súboru vzor.doc v prílohe)
    5. ak potom klikneme na spracovaný dokument, ktorý obsahoval niektoré reťazce, ktoré rozpoznáva náš gazetér (napríklad nokia alebo 3510i), uvidíme ich v zozname anotácií aj ako MobileType alebo MobileManufacturer a nielen v časti Lookup. To znamená, že boli takto anotované na základe Jape pravidiel z našej gramatiky ako je to vidno na tomto obrázku: Obrazovka 3.JPG.
    Jednotlivé kroky je možné ľahšie pochopiť po prezretí video tutoriálu.
     Inštalácia softvéru:
    Softvér je voľne dostupný zo stránky http://gate.ac.uk/. Na tejto stránke je možné stiahnuť najnovšiu verziu systému ktorá je momentálne Release 5.0 beta 1. Nachádza sa tu inštalátor pre konkrétny operačný systém ako aj zdrojové kódy.
     
     
     

     

    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core