Automatsko indeksiranje deskriptorima EUROVOC-a 2004 - 2007
 | Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Fakulteta za elektrotehniku i računarstvo Sveučilišta u Zagrebu |
 | Hrvatska informacijsko-dokumentacijska referalna agencija (HIDRA) |
 | Zavod za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu |
Ciljevi projekta
Cilj projekta je izrada automatskog indeksatora (CADIS), inteligentnoga programskog sustava za indeksiranje službenih tekstova na hrvatskom jeziku deskriptorima Pojmovnika Eurovoc.
Na ostvarenju postavljenog cilja surađuju stručnjaci s tri područja definiranih zadaćama njihovih matičnih institucija. To su:
- Istraživanja u području dubinske analize podataka i tekstova, inteligentnih sustava, predstavljanja znanja, strojnog učenja, mekog računarstva i neuronskih mreža (Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave Fakulteta za elektrotehniku i računarstvo Sveučilišta u Zagrebu); voditelj: prof. dr. sc. Bojana Dalbelo Bašić
- Dostupnost i promidžba javnih službenih informacija RH (Hidra, stručna informacijsko-dokumentacijska referalna agencija Vlade Republike Hrvatske); voditelj: mr. sc. Maja Cvitaš
- Podrucje jezičnih tehnologija i izgradnja korpusa tekstova hrvatskoga jezika (Zavod za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu); voditelj: prof. dr. sc. Marko Tadić
Predstavljanje projekta
2007. godina
-
Zlatno Teslino jaje za sustav CADIS
U utorak, 11. prosinca 2007. dodijeljene su Vidi e-novation nagrade za najkvalitetnije i najinventivnije hrvatske visokotehnološke ICT proizvode konkurentne na svjetskom tržištu. Naš sustav CADIS, razvijen u okviru AIDE projekta dobio je prvu nagradu zlatno Teslino jaje "Vidi e-novation 2007" u kategoriji institucija.
-
Članak u CC časopisu Information Processing and Management u kojem su opisani postupci normalizacije teksta na hrvatskom jeziku i postupak klasifikacije koji se koriste u sustavu CADIS
-
Medunarodna konferencija Information Technology Interfaces, ITI2007, Cavtat, lipanj 2007.
Student Artur Šilić prezentirao rad na TMT biblioteci:
-
Artur Šilić, Frane Šarić, Bojana Dalbelo Bašić, Jan Šnajder.
TMT: Object-Oriented Text Classification Library // ITI 2007 Proceedings of the 29th International Conference on INFORMATION TECHNOLOGY INTERFACES / Lužar - Stiffler, Vesna ; Hljuz Dobrić, Vesna (ur.).
Zagreb : SRCE, 2007. 559-566 (međunarodna recenzija, znanstveni rad)
-
Siječanj:
Rad na projektu okrunjen je uspjehom:
- Prikupljen je korpus tekstova za strojno učenje automatskog indeksiranja deskriptorima Eurovoca
- Radna stanica za racunalom potpomognuto indeksiranje nadopunjena je funkcijom automatskog predlaganja deskriptora temeljem strojnog učenja nad formiranim korpusom tekstova.
U Hidri se započelo s analizom učinjenog, kvalitete programa i korpusa, te pripreme sljedeće faze - dorade algoritama i kvalitete korpusa tekstova.
2006. godina
- Aktivnosti u drugoj polovici godine:
- Automatsko prepoznavanje neispravno kodiranih XML dokumenata, automatsko ispravljanje i cjelovito učitavanje u PEI sustav.
- Točno određivanje ikone deskriptora.
- Inteligentna pretraga popisa deskriptora u EUROVOC-u, rezultat pretrage su svi deskriptori koji sadrže riječ iz upita u bilo kojem padežu i na bilo kojem mjestu unutar deskriptora. Ova funkcionalnost izvedena kao opcija programa.
- Dodavanje opcije otvaranja običnih tekstnih datoteka ("*.txt").
-
Student Saša Petrović dobitnik je nagrade BEST student paper za rad Comparison of Collocation Extraction Measures for Document Indexing na konferenciji ITI2006 održanoj u Cavtatu, 19.-23. lipnja 2006.
-
19. svibnja predana je na korištenje indeksatorima Hidre PEI, radna stanica za računalom potpomognuto indeksiranje, verzija 1.0 beta:
- unapređeno grafičko sučelje s dvostrukim identičnim prikazom rezultata statističke analize dokumenta
- uvođenje liste Eurovoc deskriptora i nedeskriptora pronađenih u dokumentu te prikaz pripadnih frekvencija
- jednoobrazni prikaz lema, 2-grama, 3-grama, 4-grama, deskriptora Eurovoca pronađenih u dokumentu i različnica
- isticanje riječi iz naslova dokumenta u listama lema i različnica
- jednoobrazno upravljanje opcijama formatiranja teksta: zasivi zaustavne riječi, istakni najčešće leme, označi deskriptore i nedeskriptore
- uvođenje opcije minimalne frekvencije za prikaz rezultata statističke analize
- proširivanje izlaznog XML dokumenta informacijom o korisniku PEI sustava
- provedena analiza mjera za kolokaciju riječi na zbirci 3000 pravnih dokumenata na hrvatskom jeziku (Narodne novine) i odabir najpogodnije mjere za navedenu zbirku dokumenata
- ugrađeni rezultati ekstrakcije kolokacija (2-grama i 3-grama) u PEI sustav na temelju prethodne analize
- različito označavanje u sustavu PEI rezultata dobivenih na temelju analize dokumenta i na temelju analize zbirke dokumenata.
-
Rad studenata V. godine računarstva FER-a
Mladen Kolar; Frane Šarić i Igor Vukmirović
Strojno potpomognuto indeksiranje dokumenata
prijavljen na natječaj za Rektorovu nagradu 2006. godine.
RAD JE 11. 7. 2006. DOBIO REKTOROVU NAGRADU!!!
-
Eurovoc Conference 2006, Bruxelles, 10. 3. 2006. (Program)
Maja Bratanić, Marija Brčić, Snježana Ramljak
Eurovoc in use – some observations on discrepancies among language versions and their concequences
Bojana Dalbelo Bašić, Marko Tadić
Computer Aided Document Indexing System (CADIS) with Eurovoc
-
Napredak na projektu Automatsko indeksiranje dokumenata Eurovocom (AIDE), Hidra, veljača 2006. (Program i uzvanici):
Prezentacija
Fotogalerija
2005. godina
2004. godina
Modul za pretvorbu HTML dokumenata u XML oblik
Nezaobilazna potreba za pretraživanjem i obradom dokumenata zapisanih u HTML formatu, imala je za poslijedicu stvaranja programa za konverziju iz HTML u XML formata (koji je općenitiji, i sadržajno neovisniji od HTML formata). Izrađeni program ima za cilj preoblikovati HTML dokumente u navedni format, čime se postiže razdvanje dokumenata u strukturne cjeline kao što su naslov, sadržaj i potpisnik i njihovo obilježavanje zasebnim XML oznakama. Ideja je omogućiti korisniku da ponuđenim grafičkim sučeljem generira niz naredaba (skriptu) kojima određuje način obrađivanja osnovnog HTML dokumenta i u konačnici generira XML dokument željene strukture.
Izgled sučelja programa je prikazano na sljedećim slikama:
|
Prozor kojim se upravlja pretvorba iz HTML u XML format
|
|
Prozor u kojem se prikazuje originalni i pretvoreni dokument
|
Program radi tako da korisnik preko sučelja prikazanog na prvoj slici kreira skup pravila (skriptu) po kojima će se vršiti pretvorba iz HTML u XML format, te zatim pomoću te skripte se zamijenjuju ili brišu pojedine HTML oznake (svih, prvih nekoliko ili zadnjih nekoliko). U prvom koraku se vrši predprocesiranje na način da se u jednom prolazu pronađu sve HTML oznake, fontovi, veličine i boje fontova, poravnjanja i razine tablica, i Class oznake unutar samog dokumenta, te se korisniku ponude pri stvaranju skripte. Također prilikom stvaranja skripti korisniku je omogućeno pronaženje HTML oznake koje u sebi sadrže određeni tekst, te manipuliranje njima (brisanje ili zamjena). Jedna od boljih osobina ovog programa jest mogćnost stvaranja posebnih oznaka (DIV - tagova), čime je omogućeno razdvajanje teksta dokumenta po cijelinama odnosno odjelcima (divisions). Razdvajanje tekta na cijeline je pogodno, jer na primjer možemo dokument razdvojiti na naslov, sadržaj i potpis, čime je olakšana dalja klasifikacija dokumenta. Nakon konverzije dokumenta omogućen je pregled izvornog i konvertiranog dokumenta.
Koordinatori:
Prof.dr.sc. Bojana Dalbelo Bašić, prof.dr.sc. Marko Tadić, mr.sc. Maja Cvitaš, Jan Šnajder, dipl.ing.;
Realizatori:
Jančec Matija, Goran Jovanov, Jure Mijić.
Poluautomatski EUROVOC indeksator
|
Aplikacija Poluautomatski EUROVOC
Indeksator (PEI) nastala je kao početna faza projekta Automatskog
Indeksiranja Deskriptorima EUROVOC-a (AIDE) u suradnji FER-a, HIDRA-e
i FFZG-a. Aplikacija je stvorena da svojim statističkim i vizualnim
povratnim informacijama pomogne ljudskim indeksatorima u pridruživanju
dokumentima skupa deskriptora iz EUROVOC pojmovnika.
Kao jedan od temeljnih alata, PEI
omogućava pregled EUROVOC pojmovnika. Hijerarhijski pogled na tezaurus
u obliku stabla nalazi se sa lijeve strane zasebnog prozora
aplikacije. S desne strane istog prozora moguća je pretraga po
deskriptorima i asocijatima iz EUROVOC-a. Nađeni desktiptor odnosno
asocijat može se zatim locirati unutar stabla.
|
Preglednik EUROVOC pojmovnika
|
Nakon učitavanja dokumenta kojeg treba
indeksirati u PEI, aplikacija gradi internu stukturu podataka koja
olakšava brzo i učinkovito pretraživanje dokumetna. Također, izvodi
niz statističkih i leksičkih analiza, poput brojanja pojavljivanja
različica u dokumentu, brojanja pojavljivanja lema, te pronalaženje
N-grama, skupova od 2, 3 ili 4 riječi koje se često pojavljuju u
skupini i kao takve nose dodatnu semantičku informaciju.
|
Statistički izlaz PEI-a
|
Međusobna veza prozora za pregled
EUROVOC pojmovnika i glavnog prozora za prikaz indeksiranog dokumenta
omogućuje efikasnije indeksiranje samog dokumenta. Pronalaženjem
odgovarajućeg deskriptora, korisnik unutar aplikacije stvara skupove
601, 602 i 607 koji opisuju indeksirani dokument. U trenutku kada su
skupovi stvoreni po želji, omogućen je izvoz skupova u druge
aplikacije.
|
Generiranje skupova deskriptora
|
Neki od vizualnih izlaza iz PEI-a, koji su također ispomoć
indeksatoru prilikom obrade dokumenta, uključuju : označavanje svih
pojavljivanja tražne različnice ili leme, vizualno sakrivanje riječi
sa minimalnim sintaktičkim značenjem (veznika, brojeva i sl.), te
vizualno označavanje različnica prema njihovoj statističkoj
relevantnosit unutar dokumenta.
|
Primjer vizualnog izlaza PEI-a - označavanje riječi prema frekvenciji
|
|
Primjer vizualnog izlaza PEI-a - pretraga određene pojavnice
|
|
Primjer vizualnog izlaza PEI-a - vizualno sakrivanje riječi s minimalnim sintaktičkim značenjem
|
Koordinatori:
Prof.dr.sc. Bojana Dalbelo Bašić, prof.dr.sc. Marko Tadić, mr.sc. Maja Cvitaš, Jan Šnajder, dipl.ing.;
Realizatori:
Hrvoje Eklić, Mladen Kolar, Frane Šarić, Igor Vukmirović
Voditelj projekta:
Prof.dr.sc. Bojana Dalbelo Bašić
Veljača, 2005.
|