početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Opis sustava SPIS >> Poluautomatski Eurovoc indeksator (PEI) >> Identifikacija Eurovoc pojmova u tekstu

Prilikom pregleda dokumenata radi indeksiranja javlja se potreba za pronalaženjem deskriptora koji se pojavljuju u dokumentu.

Kao dobro rješenje pokazalo se podcrtavanje deskriptora i asocijata u tekstu. Deskriptori su označeni crvenom, a asocijati zelenom bojom, a njihovim odabirom (slika 6) odmah se otkriva njihov položaj u hijerarhiji Eurovoca. Time se indeksatorima znatno skraćuje vrijeme pretrage.

Naime, Eurovoc ima preko 6000 deskriptora, ponekad umjetno generiranih, te ih je moguće lako previdjeti u tekstu. Nadalje, ako indeksator vidi da se u određenom dijelu teksta nalazi deskriptor i siguran je da ga hoće dodijeliti dokumentu, onda bi bilo gubljenje vremena tražiti taj deskriptor ili u hijerarhiji ili u pretraživaču pojmovnika.

Slika 6. Odabirom podcrtanog deskriptora "Nacionalna zaklada za znanost, visoko školstvo i tehnologijski razvoj Republike Hrvatske" pronalazi se njegov položaj u prozoru preglednika pojmovnika. Prozor pojmovnika u praksi se drži na drugom zaslonu.

Osim kao pomoć indeksatorima, ekstrakcija deskriptora može olakšati i poboljšati sljedeću fazu projekta, a to je automatsko indeksiranje. Umjesto da se koristi samo skup riječi koji se javlja u tekstu može se koristiti i skup ekstrahiranih deskriptora kao ulaz algoritmu strojnog učenja.

Pri ekstrakciji deskriptora javlja se problem varijacije izraza. Naime izraz kojim je opisan deskriptor može se javljati u tekstu kao skraćenica, ponekad uz promijenjenu strukturu, uz promijenjen ortografski oblik, te sa nekim morfološkim i leksičkim varijacijama. U Eurovocu su svi problemi osim morfoloških varijacija djelomično riješeni dodavanjem novih asocijata. Na primjer, deskriptor "ekonomska analiza" ima i asocijat "gospodarska analiza", deskriptor "tržišni nadzor" ima asocijat "nadzor nad tržištem", itd.