Rezultati projekta primjene informacijske tehnologije
Ministarstva znanosti, obrazovanja i športa
2003 - 2005

Text mining system - sustav za automatsko indeksiranje,
kategorizaciju i semantičko pretraživanje teksta

Voditelj projekta: Prof. dr. sc. Bojana Dalbelo Bašić
E-mail: bojana.dalbelo@fer.hr


Sažetak

U okviru ovog projekta razvijeno je više različitih sustava za automatsko ili poluautomatsko indeksiranje i za automatsku klasifikaciju tekstualnih dokumenta i web stranica temeljenih na nizu različitih metoda.

U ovom projektu posebna pažnja posvećena je izučavanju učinkovitosti algoritama za morfološki izuzetno bogat hrvatski jezik i ovo su prvi eksperimentalni rezultati i algoritmi za hrvatski jezik. Razvijen je sustav za automatsku lematizaciju hrvatskog jezika koji je temeljni postupak predprocesiranja podataka u svim spomenutim sustavima za indeksiranje i klasifikaciju. Taj je postupak od izuzetne važnosti za sve automatske postupke analize i klasifikacije tekstualnih dokumenata na hrvatskom jeziku.

Uz to što su napravljeni sustavi koji rade klasifikaciju i indeksiranje i koji su u stvarnoj uporabi (HIDRA), ovim su projektom oblikovane testne baze podataka za hrvatski jezik i sakupljeno je temeljno znanje za sva sljedeća istraživanja automatskih računarskih postupaka koji će se razvijati za hrvatski jezik.

Na projektu su radili studenti Fakulteta elektrotehnike i računarstva i Fakulteta organizacije i informatike iz Varažina, a uspostavljena je suradnja s Zavodom za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu, Hrvatskom informacijsko dokumentacijskom referalnom agencijom (kao korisnikom takvih rezultata) i sa stručnjacima Joint Research Centra (Ispra, Milano) Europske komisije.

Voditeljica projekta imala je izlaganje na međunarodnoj konferenciji, suradnici na projektu prof. dr. sc. Marko Tadić i mr.sc. Maja Cvitaš sudjelovali su na međunarodnom workshopu. Publiciran je jedan rad u časopisu vezan za temu dubinske analize teksta (text mininga), izrađena su četiri diplomska rada u okviru ovog projekta od kojih je jedan dobio nagradu "Stanko Turk" za posebno vrijedan diplomski rad.

Izrađene su web stranice koje daju detaljan opis rezultata IT projekta i služe kao portal za područje dubinske analize podataka i teksta (data and text mining). Također stranice su centralno mjesto za opis dosadašnjih i budućih aktivnost grupe nastavnika i studenata na FER-u koja se bavi dubinskom analizom podataka i teksta.


Sadržaj

1. PROGRAMSKI SUSTAVI
2. STANDARDNE BAZE PODATAKA ZA EKSPERIMENTE NA HRVATSKOM JEZIKU
3. SUDJELOVANJE NA MEĐUNARODNIM SKUPOVIMA
4. OBJAVLJENI RADOVI
5. OSTVARENA SURADNJA S DRUGIM INSTITUCIJAMA
6. DONACIJA SAS-a I EKSPERIMENTI PROVEDENI POMOĆU SAS® TEXT MINER-a
7. NAGRADE
8. NASTAVAK RADA NA TEMI PROJEKTA

1. PROGRAMSKI SUSTAVI

1.1 Sustav za indeksiranje dokumenta deskriptorima EUROVOC-a
Autori: Prof. dr. sc. Bojana Dalbelo Bašić, prof. dr. sc. Marko Tadić (Filozofski Fakultet Sveučilišta u Zagrebu), mr.sc. Maja Cvitaš (Hrvatka informacijsko dokumentacijska referalna agencija), Jan Šnajder, dipl.ing., studenti: Hrvoje Eklić, Matija Jančec, Goran Jovanov, Mladen Kolar, Jure Mijić, Frane Šarić, Igor Vukmirović

     
[program]   [dokumentacija - PEI]   [dokumentacija - PEP]

1.2 Sustav za automatsko indeksiranje i kategorizaciju Web stranica na hrvatskoj domeni Interneta
Autori: Mr.sc. Jasminka Dobša, voditelj podprojekta, Mr.sc. Danijel Radošević, suradnik, Zlatko Stapić, student, Marinko Zubac, student, Fakultet organizacije i informatike, Sveučilište u Zagrebu, Varaždin


[program]   [dokumentacija]

1.3 Sustavi za automatsku klasifikaciju dokumenata temeljeni na više različitih metoda, eksperimenti provedeni s naglaskom na usporedbu engleskog i hrvatskog jezika
Marko Antonić
Sustav za automatsku klasifikaciju dokumenata pomoću metode potpornih vektora i Bayesovog klasifikatora

Diplomski rad

[program]   [dokumentacija]   [screenshot]

Zvonimir Szorsen
Sustav za automatsku klasifikaciju dokumenata pomoću stabla odluke

Diplomski rad

[program]   [dokumentacija]   [screenshot]

Rene Ahel
Sustav za automatsku klasifikaciju dokumenata pomoću Bayesovog klasifikatora i k-nn algoritma
Diplomski rad
[program]   [dokumentacija]   [screenshot]

Domagoj Tominac
Sustav za automatsku klasifikaciju dokumenata pomoću k-nn algoritma

Seminarski rad

[program]   [dokumentacija]   [screenshot]

Stjepan Buljat
Sustav za automatsku klasifikaciju dokumenata uporabom Fuzzy ARTMAP algoritma

Seminarski rad

[program]   [dokumentacija]   [screenshot]

2. STANDARDNE BAZE PODATAKA ZA EKSPERIMENTE NA HRVATSKOM JEZIKU

Baze podataka na hrvatskom jeziku:

1. Baza od 90 000 članaka novinskog lista "Vjesnik" - skupovi za testiranje, validaciju i učenje (bazu je ustupio prof. dr. sc. M. Tadić kao dio hrvatskog nacionalnog korpusa, http://www.hnk.ffzg.hr)

2. Paralelna hrvatsko-engleska baza novinskog lista "Croatia Weekly" (bazu je ustupio prof. dr. sc. M. Tadić kao dio Hrvatsko-engleskoga paralelnog korpusa, http://www.hnk.ffzg.hr)

3. Baza tekstova zakona objavljenih u Narodnim novinama

4. ISIS baza podataka Eurovoc tezaurusa
[dokumentacija]


3. SUDJELOVANJE NA MEĐUNARODNIM SKUPOVIMA

Jasminka Dobša, Bojana Dalbelo Bašić: Comparison of the Text Mining Methods Based on a Vector Space Model
XXIInd International Biometric Conference (IBC 2004) in parallel with the Australian Statistical Conference (ASC, Cairns, Australia, 2004). 11 - 16 July 2004.
(http://www.ozaccom.com.au/cairns2004/contsess_mon.html#Mon1)

Addressing the Language Barrier Problem in the Enlarged EU, Automating Eurovoc Descriptor Assignment, JRC Ispra, Italy, 16-17 September 2004.
(Sudjelovali Prof. dr. sc. Marko Tadić, mr.sc. Maja Cvitaš)
(http://www.jrc.cec.eu.int/langtech/Eurovoc/Eurovoc-Workshop_Sept2004.html#Worksh)


4. OBJAVLJENI RADOVI

Dobša, Jasminka; Dalbelo Bašić, Bojana: Comparison of Information Retrieval Techniques: Latent Semantic Indexing and Concept Indexing.
// Journal of Information and Organizational Sciences. 28 (2004), 1-2; 1-17
[rad]


5. OSTVARENA SURADNJA S DRUGIM INSTITUCIJAMA

Filozofski fakultet sveučilišta u Zagrebu
Zavod za lingvistiku

http://www.ffzg.hr/oling/
Prof. dr. sc. Marko Tadić

Savjetovanje i pomoć pri izradi svih aplikacija u okviru ovog projekta koje se tiču problema hrvatskog jezika, posebno problema lematizacije.


Hrvatska informacijsko dokumentacijska referalna agencija - HIDRA
http://www.hidra.hr
Prof. Neda Erceg, ravnateljica
Mr.sc. Maja Cvitaš

U suradnji s HIDRA-om izrađen je sustav za indeksiranje dokumenata deskriptorima EUROVOC-a predstavljen na ovim stranicama.
Suradnja s HIDRA-om započeta u okviru ovog projekta nastavlja se i nakon završetka s ciljem izgradnje sustava za automatsko indeksiranje deskriptorima EUROVOC-a.
FER, HIDRA i FF započinju rad na novom projektu koji će voditi prema potpuno automatskom indeksiranju dokumenata deskriptorima EUROVOC-a.
http://www.hidra.hr/hidra/hidran.htm


European Commission
Joint Research Centre - Ispra site
Institute for the Protection and Security of the Citizen (IPSC)

http://www.jrc.cec.eu.int/langtech/index.html#Projects
Dr. Ralf Steinberger
http://www.jrc.cec.eu.int/langtech/RS.html

Suradnja na problemu automatskog indeksiranja deskriptorima EUROVOC-a.
Dr. Steinberger bit će pozvani predavač na ITI2005 s temom vezanom za pretraživanje teksta.
http://iti.srce.hr


SAS Institute d.o.o.

http://www.sas.com

Marijana Brajac
E-mail: marijana.brajac@slo.sas.com
Maja Škrjanc Lapajne
Vodja odnosov s strankami
Detelova ulica 2
SI-1000 Ljubljana, Slovenija
Tel.: +386 1 230 86 00
Fax: +386 1 230 86 20


Institut Ruder Boškovic
http://knjiznica.irb.hr/hrv/index.html

Mr.sc. Jadranka Stojanovski
Voditelj knjižnice
Instutut "Ruđer Bošković"
Bijenička cesta 54, P.O.Box 180
10002 ZAGREB


6. DONACIJA SAS-a I EKSPERIMENTI PROVEDENI POMOĆU SAS® TEXT MINER-a

Za potrebe eksperimenta na ovom projektu SAS Adriatic ustupio je na uporabu modul SAS® Text Miner. Provedeno je niz eksperimenata s bazama tekstova na hrvatskom i engleskom jeziku. Rezultati eksperimenta pokazuju da je predprocesiranje teksta ugrađeno u SAS dovoljno dobro da se sustav može koristiti za dubinsku analizu teksta na hrvatskom jeziku iako se bolji rezultati postižu na lematiziranim bazama. Opisi eksperimenta i rezultati dani su u izvještaju.

Bereček Boris, Cvitaš Ana: "Dubinska analiza teksta baze članaka Vjesnik i paralelnog hrvatsko-engleskog korpusa Croatia Weekly uporabom SAS® Text Miner-a, FER Zagreb, 2005.
[izvještaj]


7. NAGRADE

Nagrada "Stanko Turk" za osobito vrijedan diplomski rad u polju računarstva za akademsku godinu 2003./2004.
Mislav Malenica: Primjena jezgrenih metoda u kategorizaciji teksta, diplomski rad, Fakultet elektrotehnike i računarstva Sveučilišta u Zagrebu, Zagreb, rujan 2004.

(Mentor rada: prof. dr. sc. B. Dalbelo Bašić. Diplomski rad je izrađen u okviru završetka studija s naglaskom na znanstveno istraživačkom radu)
[diplomski rad]

Student Frane Šarić pobjedio je na Student Paper Competition ITI 2005 for undergraduate and graduate students za rad Enhanced Thesaurus Terms Extraction for Document Indexing


8. NASTAVAK RADA NA TEMI PROJEKTA

Kroz uspostavljenu suradnju s institucijama navedenim pod točkom 5. nastavit će se rad na Eksperimentima za automatsku klasifikaciju dokumenata i web stranica, te za automatsko indeksiranje dokumenata.

Sve aktivnosti objavljivat će se kao i do sada na web stranicama: http://www.zemris.fer.hr/projects/textmining/.



Voditelj projekta:

Prof. dr. sc. Bojana Dalbelo Bašić


Rujan, 2005.


© Sva prava pridrana. FER 2004