početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Uvod

U današnje vrijeme sveprisutnih računala, neizmjernog prostora za pohranu podataka te sveprisutnog Interneta, informacija prestaje biti rijetko bogatstvo već sve više postaje neizbježan resurs s kojim se mora učinkovito raspolagati.

Pravni akti, kao što su zakoni, propisi, odluke i slično, odličan su primjer. Zakonodavac i pravne institucije ih generiraju u vrlo velikim količinama, a na brigu nesretnom malom broju pojedinaca ostavljeno je njihovo čuvanje, pretraga i učinkovit pristup. Takav problem rješava se postupkom sadržajnog označavanja dokumenata ili indeksiranja u kojem se svakom dokumentu pridjeljuje skup indeksnih pojmova ili deskriptora iz kontroliranog rječnika, tzv. pojmovnika. Pridijeljeni deskriptori služe kao svojevrsne ključne riječi i omogućuju brzu i učinkovitu računalnu pretragu te pristup dokumentima.

Na žalost, sam proces inicijalnog pridjeljivanja deskriptora i dalje moraju obavljati ljudi, ručnim pregledom svakog novogeneriranog dokumenta. Očito, postoji potreba da se ljude oslobodi ovog mukotrpnog, sporog i, prije svega, skupog posla.

Prepoznavši izazov i odgovorivši na njega, skupina mladih ljudi prionula je na posao izrade sustava za automatiziranje procesa indeksiranja dokumenata.

Sam povod izradi sustava dala je Hrvatska informacijsko-dokumentacijska referalna agencija (Hidra), agencija Vlade Republike Hrvatske čija je osnovna zadaća prikupljanje, obrada i osiguravanje dostupnosti javnih službenih informacija Republike Hrvatske.

Računalnu realizaciju projekta na sebe je uzeo tim sa Zavoda za elektrotehniku, mikroelektroniku, računalne i inteligentne sustave Fakulteta za elektrotehniku i računarstvo Sveučilišta u Zagrebu, dok je za lingvistička pitanja bio odgovoran tim sa Zavoda za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu.

Sustav je razvijan od rujna 2004. godine do travnja 2006. godine, a primarna ideja bila je razviti sustav koji će olakšati Hidri proces indeksiranja službenih dokumenata Republike Hrvatske deskriptorima iz Eurovoc pojmovnika. U prvoj fazi projekta sustav je uspješno razvijen i predan na korištenje. Već su prve reakcije vrlo pozitivne i zaključeno je da je proces indeksiranja dokumenata znatno ubrzan, iako se i dalje većina posla oslanja na ljude, indeksatore, koji obavljaju proces indeksiranja.

U drugoj fazi projekta, koja je u trenutku pisanja ovog rada već počela, planirana je izrada u potpunosti automatskog sustava metodama strojnog učenja, značajno veći i u konačnici korisniji i značajniji projekt koji će, nadamo se, biti s uspjehom okončan.

Kao tri studenta iz tima sa Fakulteta elektrotehnike i računarstva, u ovom radu prikazat ćemo rezultat prve faze projekta – sustav za strojno potpomognuto indeksiranje dokumenata (SPID).

Neke od značajki sustava jesu specifično razvijena unutarnja struktura, proces leksičke i statističke obrade učitanog dokumenta, te implementirani algoritmi za ekstrakciju n-grama i Eurovoc pojmova u učitanom dokumentu.

Jedna od bitnih značajki sustava jest i njegova višejezičnost. Naime, već u ovako ranoj fazi sustav u potpunosti podržava rad na hrvatskom i engleskom jeziku i to s tri aspekta: jezik učitanog dokumenta, jezik sučelja sustava, te jezik Eurovoc pojmovnika.

Ovaj rad nastojali smo pisati na način da je razumljiv što širem krugu čitatelja. Nakon uvoda, u drugom poglavlju dali smo uvod u problematiku dubinske analize teksta i indeksiranja dokumenata, te opis pojmovnika Eurovoc. U trećem poglavlju donosimo opis sustava sa korisničkog stajališta, dok četvrto poglavlje ulazi u dubinu problema s računalnog stajališta i daje detaljniji opis algoritama i struktura podataka korištenih u sustavu. Peto poglavlje donosi opis višejezičnosti sustava SPID.

Na koncu, ali ne i najmanje važno, željeli bi se zahvaliti ostatku tima na Fakultetu elektrotehnike i računarstva: voditeljima prof. dr. sc. Bojani Dalbelo-Bašić i dipl. ing. Janu Šnajderu, te kolegama studentima Hrvoju Ekliću, Matiji Jančencu, Goranu Jovanovu i Juri Mijiću, koji su dali veliki obol prilikom nastajanja sustava. Nadalje, zahvala je upućena prof. dr. sc. Marku Tadiću sa Filozofskog fakulteta na iscrpnoj i uvijek dostupnoj pomoći oko lingvističkih pitanja, te prof. Nedi Erceg i mr. sc. Maji Cvitaš iz Hidre koje su svojim sugestijama doprinijeli većoj korisnosti sustava za krajnjeg korisnika. Posebna zahvala mr. sc. Jasminki Novak iz Ministarstva vanjskih poslova i europskih integracija na ustupljenim dokumentima prevedenima sa engleskog jezika na hrvatski i obratno.