početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Implementacija >> Ekstrakcija Eurovoc deskriptora iz dokumenta

Kod morfološki bogatih jezika, poput hrvatskog, direktnom pretragom teksta deskriptora u tekstu dokumenta nalazi se samo manji broj deskriptora. Npr. jednostavnom pretragom ne nalazi se deskriptor "nadzor nad tržištem" u tekstu koji sadrži "... nedostatak nadzora nad tržištem ..." Jezici siromašne morfologije, poput engleskog, imaju znatno manje problema sa jednostavnim traženjem. Nadalje, morfologija hrvatskog je daleko složenija od morfologije engleskog jezika, te jednostavne heuristike korištene pri pretraživanju ne daju dovoljno precizne rezultate.

Efekti morfologije mogu se neutralizirati korištenjem lematizacije. U tekstu se tada nalazi znatno veći broj deskriptora, uz zanemariv pad preciznosti [14]. Pod preciznost ekstrakcije smatramo broj točno ekstrahiranih deskriptora podijeljen sa ukupnim brojem ekstrahiranih deskriptora. Prilikom ekstrakcije deskriptora pazi se da se ne ekstrahiraju neki očito irelevantni deskriptori.

>> Formalni opis ekstrakcije
>> Greške kod ekstrakcije deskriptora
>> Implementacija ekstrakcije
>> Povećanje broja nađenih deskriptora nakon korištenja lematizacije