Automatsko indeksiranje deskriptorima EUROVOC-a
2004 - 2007

Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Fakulteta za elektrotehniku i računarstvo Sveučilišta u Zagrebu
Hrvatska informacijsko-dokumentacijska referalna agencija (HIDRA)
Zavod za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu

Ciljevi projekta

Cilj projekta je izrada automatskog indeksatora (CADIS), inteligentnoga programskog sustava za indeksiranje službenih tekstova na hrvatskom jeziku deskriptorima Pojmovnika Eurovoc.

Na ostvarenju postavljenog cilja surađuju stručnjaci s tri područja definiranih zadaćama njihovih matičnih institucija. To su:
  • Istraživanja u području dubinske analize podataka i tekstova, inteligentnih sustava, predstavljanja znanja, strojnog učenja, mekog računarstva i neuronskih mreža (Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Fakulteta za elektrotehniku i računarstvo Sveučilišta u Zagrebu); voditelj: prof. dr. sc. Bojana Dalbelo Bašić

  • Dostupnost i promidžba javnih službenih informacija RH (Hidra, stručna informacijsko-dokumentacijska referalna agencija Vlade Republike Hrvatske); voditelj: mr. sc. Maja Cvitaš

  • Podrucje jezičnih tehnologija i izgradnja korpusa tekstova hrvatskoga jezika (Zavod za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu); voditelj: prof. dr. sc. Marko Tadić

Predstavljanje projekta

2007. godina

  • Zlatno Teslino jaje za sustav CADIS

    U utorak, 11. prosinca 2007. dodijeljene su Vidi e-novation nagrade za najkvalitetnije i najinventivnije hrvatske visokotehnološke ICT proizvode konkurentne na svjetskom tržištu. Naš sustav CADIS, razvijen u okviru AIDE projekta dobio je prvu nagradu zlatno Teslino jaje "Vidi e-novation 2007" u kategoriji institucija.


  • Članak u CC časopisu Information Processing and Management u kojem su opisani postupci normalizacije teksta na hrvatskom jeziku i postupak klasifikacije koji se koriste u sustavu CADIS


  • Medunarodna konferencija Information Technology Interfaces, ITI2007, Cavtat, lipanj 2007.
    Student Artur Šilić prezentirao rad na TMT biblioteci:

    • Artur Šilić, Frane Šarić, Bojana Dalbelo Bašić, Jan Šnajder. TMT: Object-Oriented Text Classification Library // ITI 2007 Proceedings of the 29th International Conference on INFORMATION TECHNOLOGY INTERFACES / Lužar - Stiffler, Vesna ; Hljuz Dobrić, Vesna (ur.). Zagreb : SRCE, 2007. 559-566 (međunarodna recenzija, znanstveni rad)

  • Siječanj:
    Rad na projektu okrunjen je uspjehom:
    • Prikupljen je korpus tekstova za strojno učenje automatskog indeksiranja deskriptorima Eurovoca
    • Radna stanica za racunalom potpomognuto indeksiranje nadopunjena je funkcijom automatskog predlaganja deskriptora temeljem strojnog učenja nad formiranim korpusom tekstova.
    U Hidri se započelo s analizom učinjenog, kvalitete programa i korpusa, te pripreme sljedeće faze - dorade algoritama i kvalitete korpusa tekstova.

2006. godina

  • Aktivnosti u drugoj polovici godine:
    • Automatsko prepoznavanje neispravno kodiranih XML dokumenata, automatsko ispravljanje i cjelovito učitavanje u PEI sustav.
    • Točno određivanje ikone deskriptora.
    • Inteligentna pretraga popisa deskriptora u EUROVOC-u, rezultat pretrage su svi deskriptori koji sadrže riječ iz upita u bilo kojem padežu i na bilo kojem mjestu unutar deskriptora. Ova funkcionalnost izvedena kao opcija programa.
    • Dodavanje opcije otvaranja običnih tekstnih datoteka ("*.txt").

  • Student Saša Petrović dobitnik je nagrade BEST student paper za rad Comparison of Collocation Extraction Measures for Document Indexing na konferenciji ITI2006 održanoj u Cavtatu, 19.-23. lipnja 2006.

  • 19. svibnja predana je na korištenje indeksatorima Hidre PEI, radna stanica za računalom potpomognuto indeksiranje, verzija 1.0 beta:
    • unapređeno grafičko sučelje s dvostrukim identičnim prikazom rezultata statističke analize dokumenta
    • uvođenje liste Eurovoc deskriptora i nedeskriptora pronađenih u dokumentu te prikaz pripadnih frekvencija
    • jednoobrazni prikaz lema, 2-grama, 3-grama, 4-grama, deskriptora Eurovoca pronađenih u dokumentu i različnica
    • isticanje riječi iz naslova dokumenta u listama lema i različnica
    • jednoobrazno upravljanje opcijama formatiranja teksta: zasivi zaustavne riječi, istakni najčešće leme, označi deskriptore i nedeskriptore
    • uvođenje opcije minimalne frekvencije za prikaz rezultata statističke analize
    • proširivanje izlaznog XML dokumenta informacijom o korisniku PEI sustava
    • provedena analiza mjera za kolokaciju riječi na zbirci 3000 pravnih dokumenata na hrvatskom jeziku (Narodne novine) i odabir najpogodnije mjere za navedenu zbirku dokumenata
    • ugrađeni rezultati ekstrakcije kolokacija (2-grama i 3-grama) u PEI sustav na temelju prethodne analize
    • različito označavanje u sustavu PEI rezultata dobivenih na temelju analize dokumenta i na temelju analize zbirke dokumenata.

  • Rad studenata V. godine računarstva FER-a

    Mladen Kolar; Frane Šarić i Igor Vukmirović
    Strojno potpomognuto indeksiranje dokumenata

    prijavljen na natječaj za Rektorovu nagradu 2006. godine.

    RAD JE 11. 7. 2006. DOBIO REKTOROVU NAGRADU!!!

  • Eurovoc Conference 2006, Bruxelles, 10. 3. 2006. (Program)

    Maja Bratanić, Marija Brčić, Snježana Ramljak
    Eurovoc in use – some observations on discrepancies among language versions and their concequences

    Bojana Dalbelo Bašić, Marko Tadić
    Computer Aided Document Indexing System (CADIS) with Eurovoc


  • Napredak na projektu Automatsko indeksiranje dokumenata Eurovocom (AIDE), Hidra, veljača 2006. (Program i uzvanici):

    Prezentacija
    Fotogalerija


2005. godina


2004. godina

  • U petak, 17. prosinca, 2004. godine u HIDRA-i predstavljen je projekt Automatsko Indeksiranje Deskriptorima EUROVOC-a (AIDE)

    Govorili su: Neda Erceg, HIDRA, ravnateljica; prof. dr. sc. Marko Tadić, Odsjek za lingvistiku Zavoda za lingvistiku Filozofskog Fakulteta Sveučilišta u Zagrebu; prof. dr. sc. Bojana Dalbelo Bašić, Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Fakuleta elektrotehnike i računarstva Sveučilišta u Zagrebu; mr. sc. Maja Cvitaš, HIDRA, načelnica Odjela baza podataka.


    Prezentacija projekta AIDE u HIDRA-i


Modul za pretvorbu HTML dokumenata u XML oblik

Nezaobilazna potreba za pretraživanjem i obradom dokumenata zapisanih u HTML formatu, imala je za poslijedicu stvaranja programa za konverziju iz HTML u XML formata (koji je općenitiji, i sadržajno neovisniji od HTML formata). Izrađeni program ima za cilj preoblikovati HTML dokumente u navedni format, čime se postiže razdvanje dokumenata u strukturne cjeline kao što su naslov, sadržaj i potpisnik i njihovo obilježavanje zasebnim XML oznakama. Ideja je omogućiti korisniku da ponuđenim grafičkim sučeljem generira niz naredaba (skriptu) kojima određuje način obrađivanja osnovnog HTML dokumenta i u konačnici generira XML dokument željene strukture.
Izgled sučelja programa je prikazano na sljedećim slikama:



Prozor kojim se upravlja pretvorba iz HTML u XML format



Prozor u kojem se prikazuje originalni i pretvoreni dokument


Program radi tako da korisnik preko sučelja prikazanog na prvoj slici kreira skup pravila (skriptu) po kojima će se vršiti pretvorba iz HTML u XML format, te zatim pomoću te skripte se zamijenjuju ili brišu pojedine HTML oznake (svih, prvih nekoliko ili zadnjih nekoliko). U prvom koraku se vrši predprocesiranje na način da se u jednom prolazu pronađu sve HTML oznake, fontovi, veličine i boje fontova, poravnjanja i razine tablica, i Class oznake unutar samog dokumenta, te se korisniku ponude pri stvaranju skripte. Također prilikom stvaranja skripti korisniku je omogućeno pronaženje HTML oznake koje u sebi sadrže određeni tekst, te manipuliranje njima (brisanje ili zamjena). Jedna od boljih osobina ovog programa jest mogćnost stvaranja posebnih oznaka (DIV - tagova), čime je omogućeno razdvajanje teksta dokumenta po cijelinama odnosno odjelcima (divisions). Razdvajanje tekta na cijeline je pogodno, jer na primjer možemo dokument razdvojiti na naslov, sadržaj i potpis, čime je olakšana dalja klasifikacija dokumenta. Nakon konverzije dokumenta omogućen je pregled izvornog i konvertiranog dokumenta.



Koordinatori: Prof.dr.sc. Bojana Dalbelo Bašić, prof.dr.sc. Marko Tadić, mr.sc. Maja Cvitaš, Jan Šnajder, dipl.ing.; Realizatori: Jančec Matija, Goran Jovanov, Jure Mijić.


Poluautomatski EUROVOC indeksator

Aplikacija Poluautomatski EUROVOC Indeksator (PEI) nastala je kao početna faza projekta Automatskog Indeksiranja Deskriptorima EUROVOC-a (AIDE) u suradnji FER-a, HIDRA-e i FFZG-a. Aplikacija je stvorena da svojim statističkim i vizualnim povratnim informacijama pomogne ljudskim indeksatorima u pridruživanju dokumentima skupa deskriptora iz EUROVOC pojmovnika.

Kao jedan od temeljnih alata, PEI omogućava pregled EUROVOC pojmovnika. Hijerarhijski pogled na tezaurus u obliku stabla nalazi se sa lijeve strane zasebnog prozora aplikacije. S desne strane istog prozora moguća je pretraga po deskriptorima i asocijatima iz EUROVOC-a. Nađeni desktiptor odnosno asocijat može se zatim locirati unutar stabla.


Preglednik EUROVOC pojmovnika

Nakon učitavanja dokumenta kojeg treba indeksirati u PEI, aplikacija gradi internu stukturu podataka koja olakšava brzo i učinkovito pretraživanje dokumetna. Također, izvodi niz statističkih i leksičkih analiza, poput brojanja pojavljivanja različica u dokumentu, brojanja pojavljivanja lema, te pronalaženje N-grama, skupova od 2, 3 ili 4 riječi koje se često pojavljuju u skupini i kao takve nose dodatnu semantičku informaciju.


Statistički izlaz PEI-a

Međusobna veza prozora za pregled EUROVOC pojmovnika i glavnog prozora za prikaz indeksiranog dokumenta omogućuje efikasnije indeksiranje samog dokumenta. Pronalaženjem odgovarajućeg deskriptora, korisnik unutar aplikacije stvara skupove 601, 602 i 607 koji opisuju indeksirani dokument. U trenutku kada su skupovi stvoreni po želji, omogućen je izvoz skupova u druge aplikacije.


Generiranje skupova deskriptora

Neki od vizualnih izlaza iz PEI-a, koji su također ispomoć indeksatoru prilikom obrade dokumenta, uključuju : označavanje svih pojavljivanja tražne različnice ili leme, vizualno sakrivanje riječi sa minimalnim sintaktičkim značenjem (veznika, brojeva i sl.), te vizualno označavanje različnica prema njihovoj statističkoj relevantnosit unutar dokumenta.



Primjer vizualnog izlaza PEI-a - označavanje riječi prema frekvenciji



Primjer vizualnog izlaza PEI-a - pretraga određene pojavnice



Primjer vizualnog izlaza PEI-a - vizualno sakrivanje riječi s minimalnim sintaktičkim značenjem



Koordinatori: Prof.dr.sc. Bojana Dalbelo Bašić, prof.dr.sc. Marko Tadić, mr.sc. Maja Cvitaš, Jan Šnajder, dipl.ing.; Realizatori: Hrvoje Eklić, Mladen Kolar, Frane Šarić, Igor Vukmirović



Voditelj projekta:

Prof.dr.sc. Bojana Dalbelo Bašić


Veljača, 2005.


© Sva prava pridrana. FER 2004