početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Zaključak

U ovom radu opisan je sustav koji pomaže pri sadržajnom označavanju dokumenata. Upotreba sustava omogućuje brže i uniformnije indeksiranje dokumenata.

Sustav se sastoji od dva dijela. U prvom dijelu prikazuju se različite statističke i vizualne informacije o dokumentu koji se indeksira, dok je drugi dio Eurovoc preglednik kojim se omogućuje lakše i brže određivanje deskriptora kojima će se indeksirati tekst.

Indeksiranje je naporan i vrlo zahtjevan posao koji od indeksatora traži maksimalnu koncentraciju, pa je sustav vizualno prilagođen tako da je rad na njemu jednostavan i ugodan.

Prilikom izrade sustava dotaknuti su problemi morfološke složenosti hrvatskog jezika, zbog čega su razvijani i prilagođavani algoritmi za statističku obradu dokumenata koja uključuje brojanje lema, različnica i kolokacija. Također je riješen problem učinkovitog pohranjivanja morfološkog leksikona hrvatskog jezika. Prilikom izrade algoritama poseban naglasak je bio na njihovoj učinkovitosti i što manjem memorijskom zauzeću i u tu svrhu osmišljene su i implementirane prikladne strukture podataka.

Zbog važnosti komunikacije Hrvatske s Europskom unijom i u svrhu boljeg povezivanja sa međunarodnim institucijama, sustav je razvijan višejezično. Višejezičnost se očituje u višejezičnom pojmovniku Eurovoc, jednostavnom prijevodu sučelja aplikacija i nezavisnih implementacija algoritama za lematizaciju.

Proces automatskog indeksiranja dokumenata nije još dosegao razinu i kvalitetu koju postižu indeksatori. Postojeći automatski indeksatori služe samo kao prvi korak u dodjeljivanju deskriptora tako što predlažu deskriptore koje onda indeksatori ručno pregledavaju i donose odluku o prihvaćanju. Imajući to na umu, razvijeni se sustav približava funkcionalnosti automatskih indeksatora i vrlo je vrijedan u okolnostima gdje ne postoji odgovarajući skup dokumenata za učenje.

Sustav će pomoći u generiranju značajnog broja dokumenata indeksiranih deskriptorima Eurovoca na uniformniji način, u isto vrijeme štedeći ljudske resurse. Skup indeksiranih dokumenata koristit će se za strojno učenje automatskog pridjeljivanja deskriptora dokumentima.

Sustav je u upotrebi u Hrvatskoj informacijsko-dokumentacijskoj referalnoj agenciji od travnja 2005. godine. U travnju 2006. godine dan je na uporabu stručnoj službi Europskog parlamenta u Bruxellesu [30].