Rezultati projekta primjene informacijske tehnologije
Ministarstva znanosti, obrazovanja i športa
2003 - 2005
Text mining system - sustav za automatsko indeksiranje,
kategorizaciju i semantičko pretraživanje teksta
Voditelj projekta: Prof. dr. sc. Bojana Dalbelo Bašić
E-mail: bojana.dalbelo@fer.hr
U okviru ovog projekta razvijeno je više različitih sustava za automatsko ili poluautomatsko indeksiranje i za
automatsku klasifikaciju tekstualnih dokumenta i web stranica temeljenih na nizu različitih metoda.
U ovom projektu posebna pažnja posvećena je izučavanju učinkovitosti algoritama za morfološki izuzetno bogat hrvatski
jezik i ovo su prvi eksperimentalni rezultati i algoritmi za hrvatski jezik. Razvijen je sustav za automatsku lematizaciju
hrvatskog jezika koji je temeljni postupak predprocesiranja podataka u svim spomenutim sustavima za indeksiranje i
klasifikaciju. Taj je postupak od izuzetne važnosti za sve automatske postupke analize i klasifikacije tekstualnih
dokumenata na hrvatskom jeziku.
Uz to što su napravljeni sustavi koji rade klasifikaciju i indeksiranje i koji su u stvarnoj uporabi (HIDRA), ovim su
projektom oblikovane testne baze podataka za hrvatski jezik i sakupljeno je temeljno znanje za sva sljedeća istraživanja
automatskih računarskih postupaka koji će se razvijati za hrvatski jezik.
Na projektu su radili studenti Fakulteta elektrotehnike i računarstva i Fakulteta organizacije i informatike iz Varažina,
a uspostavljena je suradnja s Zavodom za lingvistiku Filozofskog fakulteta Sveučilišta u Zagrebu, Hrvatskom informacijsko
dokumentacijskom referalnom agencijom (kao korisnikom takvih rezultata) i sa stručnjacima Joint Research Centra
(Ispra, Milano) Europske komisije.
Voditeljica projekta imala je izlaganje na međunarodnoj konferenciji, suradnici na projektu prof. dr. sc. Marko Tadić
i mr.sc. Maja Cvitaš sudjelovali su na međunarodnom workshopu. Publiciran je jedan rad u časopisu vezan za temu dubinske
analize teksta (text mininga), izrađena su četiri diplomska rada u okviru ovog projekta od kojih je jedan dobio nagradu
"Stanko Turk" za posebno vrijedan diplomski rad.
Izrađene su web stranice koje daju detaljan opis rezultata IT projekta i služe kao portal za područje dubinske analize
podataka i teksta (data and text mining). Također stranice su centralno mjesto za opis dosadašnjih i budućih aktivnost
grupe nastavnika i studenata na FER-u koja se bavi dubinskom analizom podataka i teksta.
1.1
|
Sustav za indeksiranje dokumenta deskriptorima EUROVOC-a
|
Autori: Prof. dr. sc. Bojana Dalbelo Bašić, prof. dr. sc. Marko Tadić (Filozofski Fakultet
Sveučilišta u Zagrebu), mr.sc. Maja Cvitaš (Hrvatka informacijsko dokumentacijska referalna
agencija), Jan Šnajder, dipl.ing., studenti: Hrvoje Eklić, Matija Jančec, Goran Jovanov,
Mladen Kolar, Jure Mijić, Frane Šarić, Igor Vukmirović
[program]
[dokumentacija - PEI]
[dokumentacija - PEP]
|
1.2
|
Sustav za automatsko indeksiranje i kategorizaciju Web stranica na hrvatskoj domeni Interneta
|
Autori: Mr.sc. Jasminka Dobša, voditelj podprojekta, Mr.sc. Danijel Radošević, suradnik,
Zlatko Stapić, student, Marinko Zubac, student, Fakultet organizacije i informatike, Sveučilište
u Zagrebu, Varaždin
[program]
[dokumentacija]
|
1.3
|
Sustavi za automatsku klasifikaciju dokumenata temeljeni na više različitih metoda, eksperimenti provedeni s naglaskom na usporedbu engleskog i hrvatskog jezika
|
Marko Antonić
Sustav za automatsku klasifikaciju dokumenata pomoću metode potpornih vektora i Bayesovog klasifikatora
Diplomski rad
[program]
[dokumentacija]
[screenshot]
Zvonimir Szorsen
Sustav za automatsku klasifikaciju dokumenata pomoću stabla odluke
Diplomski rad
[program]
[dokumentacija]
[screenshot]
Rene Ahel
Sustav za automatsku klasifikaciju dokumenata pomoću Bayesovog klasifikatora i k-nn algoritma
Diplomski rad
[program]
[dokumentacija]
[screenshot]
Domagoj Tominac
Sustav za automatsku klasifikaciju dokumenata pomoću k-nn algoritma
Seminarski rad
[program]
[dokumentacija]
[screenshot]
Stjepan Buljat
Sustav za automatsku klasifikaciju dokumenata uporabom Fuzzy ARTMAP algoritma
Seminarski rad
[program]
[dokumentacija]
[screenshot]
|
Baze podataka na hrvatskom jeziku:
1. Baza od 90 000 članaka novinskog lista "Vjesnik" - skupovi za testiranje, validaciju
i učenje (bazu je ustupio prof. dr. sc. M. Tadić kao dio hrvatskog nacionalnog korpusa,
http://www.hnk.ffzg.hr)
2. Paralelna hrvatsko-engleska baza novinskog lista "Croatia Weekly" (bazu je ustupio prof.
dr. sc. M. Tadić kao dio Hrvatsko-engleskoga paralelnog korpusa, http://www.hnk.ffzg.hr)
3. Baza tekstova zakona objavljenih u Narodnim novinama
4. ISIS baza podataka Eurovoc tezaurusa
[dokumentacija]
Jasminka Dobša, Bojana Dalbelo Bašić: Comparison of the Text Mining Methods Based on a Vector Space Model
XXIInd International Biometric Conference (IBC 2004) in parallel with the Australian Statistical Conference (ASC, Cairns, Australia, 2004).
11 - 16 July 2004.
(http://www.ozaccom.com.au/cairns2004/contsess_mon.html#Mon1)
Addressing the Language Barrier Problem in the Enlarged EU, Automating Eurovoc Descriptor Assignment, JRC Ispra,
Italy, 16-17 September 2004.
(Sudjelovali Prof. dr. sc. Marko Tadić, mr.sc. Maja Cvitaš)
(http://www.jrc.cec.eu.int/langtech/Eurovoc/Eurovoc-Workshop_Sept2004.html#Worksh)
Dobša, Jasminka; Dalbelo Bašić, Bojana: Comparison of Information Retrieval Techniques: Latent Semantic Indexing
and Concept Indexing.
// Journal of Information and Organizational Sciences. 28 (2004), 1-2; 1-17
[rad]
Filozofski fakultet sveučilišta u Zagrebu
Zavod za lingvistiku
http://www.ffzg.hr/oling/
Prof. dr. sc. Marko Tadić
|
Savjetovanje i pomoć pri izradi svih aplikacija u okviru ovog projekta koje
se tiču problema hrvatskog jezika, posebno problema lematizacije.
|
Hrvatska informacijsko dokumentacijska referalna agencija - HIDRA
http://www.hidra.hr
Prof. Neda Erceg, ravnateljica
Mr.sc. Maja Cvitaš
|
U suradnji s HIDRA-om izrađen je sustav za indeksiranje
dokumenata deskriptorima EUROVOC-a predstavljen na ovim stranicama.
Suradnja s HIDRA-om započeta u okviru ovog projekta nastavlja se i nakon završetka s ciljem
izgradnje sustava za automatsko indeksiranje deskriptorima EUROVOC-a.
FER, HIDRA i FF započinju rad na novom projektu koji će voditi prema potpuno automatskom
indeksiranju dokumenata deskriptorima EUROVOC-a.
http://www.hidra.hr/hidra/hidran.htm
|
Za potrebe eksperimenta na ovom projektu SAS Adriatic ustupio je na uporabu modul SAS® Text Miner. Provedeno je niz
eksperimenata s bazama tekstova na hrvatskom i engleskom jeziku. Rezultati eksperimenta pokazuju da je
predprocesiranje teksta ugrađeno u SAS dovoljno dobro da se sustav može koristiti za dubinsku analizu teksta na
hrvatskom jeziku iako se bolji rezultati postižu na lematiziranim bazama. Opisi eksperimenta i rezultati dani su
u izvještaju.
Bereček Boris, Cvitaš Ana: "Dubinska analiza teksta baze članaka Vjesnik i paralelnog hrvatsko-engleskog
korpusa Croatia Weekly uporabom SAS® Text Miner-a, FER Zagreb, 2005.
[izvještaj]
Nagrada "Stanko Turk" za osobito vrijedan diplomski rad u polju računarstva za akademsku godinu 2003./2004.
Mislav Malenica: Primjena jezgrenih metoda u kategorizaciji teksta, diplomski rad, Fakultet elektrotehnike
i računarstva Sveučilišta u Zagrebu, Zagreb, rujan 2004.
(Mentor rada: prof. dr. sc. B. Dalbelo Bašić. Diplomski rad je izrađen u okviru završetka studija s naglaskom na znanstveno
istraživačkom radu)
[diplomski rad]
Student Frane Šarić pobjedio je na Student Paper Competition ITI 2005 for undergraduate and
graduate students za rad Enhanced Thesaurus Terms Extraction for Document Indexing
Kroz uspostavljenu suradnju s institucijama navedenim pod točkom 5. nastavit će se rad na Eksperimentima za automatsku
klasifikaciju dokumenata i web stranica, te za automatsko indeksiranje dokumenata.
Sve aktivnosti objavljivat će se kao i do sada na web stranicama: http://www.zemris.fer.hr/projects/textmining/.
Voditelj projekta:
Prof. dr. sc. Bojana Dalbelo Bašić
Rujan, 2005.
|