Matej Kendera - PDF, word, lucene, java

    Indexovanie PDF a Word dokumentov na disku

    - Konvertovanie dokumentov do systému

    - Spracovanie dokumentov

    - Využitie Lucene, na indexáciu a vyhľadanie podobných dokumentov

    - Implementácia v jazyku Java

    - Využitie knižníc PDFBox.org a POI pre spracovanie PDF a word dokumentov 

      

    Opis projektu

     

    Projekt je zameraný na implementáciu aplikácie, ktorá bude slúžiť na vyhľadávanie v dokumentoch uložených na disku počítača. Aplikácia bude obsahovať indexovací nástroj, ktorý prehľadá a zindexuje zvolený priestor na vybranom disku počítača. Na zvolenom priestore sa budú vyhľadávať  súbory typu DOC, PDF a prípadne aj TXT.

    Vo vytvorenom indexe bude možné v tej istej aplikácii aj vyhľadávať. Vyhľadávanie bude možné zvoliť podľa typu vyhľadávaného súboru a bude možné si vybrať kde sa má vyhľadávaný výraz nachádzať, napríklad v názve súboru, v texte súboru, v kľúčových slovách, ....

    Vytvorená aplikácia bude v závere projektu porovnaná s existujúcimi vyhľadávačmi ako sú napríklad Windows searcher, Google Desktop, alebo vyhľadávač Total Commandera.

     

    Motivácia

     

    Počet elektronických dokumentov v osobných počítačoch používateľov postupom času stúpa. Vo veľkom množstve dokumentov sa nie je možné rýchlo vyznať a hľadať v nich požadované dokumenty.

    Z tohto dôvodu je dobré mať vždy po ruke dobrý vyhľadávač v obsahu dokumentov. Na tento účel by mohla slúžiť aj aplikácia vytvorená počas tohto projektu.

     

    Dáta

     

    Vytvorená aplikácia bude vyhľadávať nad elektronickými dokumentmi typu DOC, PDF a TXT. Ak dokumenty budú obsahovať metainformácie budú indexované aj tie.

     

    Existujúce riešenia

     

    Windows searcher

     

    V prostredí operačného systému Windows je možné využiť Windows searcher.  Pred vyhľadávaním je možné nastaviť rôzne možnosti vyhľadávania.  Tento vyhľadávač je pomerne pomalý (Windows XP a staršie) lebo počas vyhľadávania prechádza cez všetky vyhľadávané súbory.

    Jeho výhodou je, že ho netreba inštalovať, tvorí bežnú súčasť operačného systému Windows.

     

    Google Desktop

     

    Je možn ho využiť v rôznych operačných systémoch (Windows, Linux, Mac). Pred použitím je potrebné program nainštalovať a nastaviť možnosti indexovana. Vyhľadávač ponúka rôzne dodatočné funkcie ako vyhľadávanie vymazaných súborov, indexovanie v emailoch, vo webovej histórii,.... Indexovanie celých textov súborov podporuje pre rôzne typy kde patria napríklad dokumenty balíka Microsoft Office, PDF, obrázky, internetové prehliadače (Internet Explorer, Mizolla Firefox, Netscape) a mailové nástroje (E-mailOutlook a Outlook Expres).

     

    Vyhľadávač Total Commanderu

    Je jednoduchý a rýchly. Výhodný pre nenáročných používateľov na rôzne prídavné funkcie. Dokáže vyhľadávať ako v názvoch tak aj v obsahu súborov. Napriek tomu, že neobsahuje indexovač, vyhľadáva pomerne rýchlo. Pri vyhľadávaní je možné zvoliť adresár vyhľadávania a nastaviť rôzne parametre ako napríklad veľkosť súboru, rozsah dátumu vytvorenia a podobne.

     

    Riešenie

     

    Implementácia

     

    Program bude implementovaný ako desktopová aplikácia v jazyku Java. Aplikácia bude obsahovať grafické používateľské rozhranie GUI s jedným hlavným oknom v ktorom bude môcť používateľ pomocou tabulátorov prepínať medzi módom indexovania a vyhľadávania.

     

    Na spracovanie dokumentov typu DOC bude program využívať knižnicu Apache POI (http://poi.apache.org/)  a pre spracovanie dokumentov PDF knižnicu PDFBox.org (http://pdfbox.org/).

     

    Pomocou týchto knižníc bude môcť aplikácia získať metainformácie z jednotlivých dokumentov a tiež transformovať ich obsah do typu String, s ktorým je možné v aplikácii pracovať.

     

    Indexovanie bude zabezpečené pomocou nástroja Lucene. Lucene vytvorí index do ktorého budú načítané všetky nájdené dokumenty.

     

    Vyhľadávanie bude implementované na základe porovnania indeovaného textu s vyhľadávaným slovom.

     

    Popis programu

     

    -          Prehľadanie zvoleného adresára – postupné prechádzanie podadresármi a vyhľadávanie doc a pdf súborov

    -          Extrakcia textu a potrebných informácií z doc súborov

    -          Extrakcia textu a potrebných informácií z pdf súborov

    -          Indexovanie jednotlivých nájdených dokumentov

    -          Vyhľadávanie v dokumentoch na základe indexu

     

     

    Inštalácia

     

    Program nie je potrebné inštalovať. Na jeho spustenie je potrebné mať na počítači nainštalované Java Runtime Environment JRE verzie 1.5 a novšie. Program sa spúšťa spustením súboru Searcher.java. Pre správnu funkčnosť programu je potrebné mať v adresári nakopírovaný aj adresár lib, kde sa nachádzajú knižnice, ktoré program využíva. Pri prvom spustení vyhľadávača je potrebné spustiť pred vyhľadávaním indexovanie. Program si vytvorí na disku počítača adresár pre uloženie indexu. Pri ďalšom spúšťaní vyhľadávača už nie je potrebné spúšťať indexovanie, ak sa súbory v idexovanom adresári nezmenili. Adresár, ktorý chceme indexovať je možné zvoliť tlačidlom „Vyber adresar“ a samotné indexovanie sa spúšťa tlačidlom „Indexuj adresar“. Medzi indexovaním a vyhľadávaním sa prepína tabulátormi v hornej časti okna apikácie.

     

     

     

    Zhodnotenie

     

    Vytvorený program spĺňa základné požiadavky zadania. Vo vyhodnotení vyhľadávania sme si overili, že výsledky vyhľadávania v bežných súboroch sú porovnateľné s bežnými používanými vyhľadávačmi. Vďaka tomu že indexovanie a vyhľadávanie je možné vykonávať oddelene je samotné vyhľadávanie veľmi rýchle. Indexovanie stačí vykonať pred prvým vyhľadávaním. Ak sa obsah vyhľadávaného adresára nezmenil od posledného indexovania. Indexovanie nie je potrebné pred ďalším vyhľadávaním vykonať.

     

     

    Priložené súbory sa nachádzajú na stránke hodnotenia.

     

    Tag page (Edit tags)
    • No tags
    You must login to post a comment.
    Powered by MindTouch Core