![]() |
|||||||||||||||||||||||||
|
>> Opis sustava SPIS >> Poluautomatski Eurovoc indeksator (PEI) >> Identifikacija Eurovoc pojmova u tekstuPrilikom pregleda dokumenata radi indeksiranja javlja se potreba za pronalaženjem deskriptora koji se pojavljuju u dokumentu. Kao dobro rješenje pokazalo se podcrtavanje deskriptora i asocijata u tekstu. Deskriptori su označeni crvenom, a asocijati zelenom bojom, a njihovim odabirom (slika 6) odmah se otkriva njihov položaj u hijerarhiji Eurovoca. Time se indeksatorima znatno skraćuje vrijeme pretrage. Naime, Eurovoc ima preko 6000 deskriptora, ponekad umjetno generiranih, te ih je moguće lako previdjeti u tekstu. Nadalje, ako indeksator vidi da se u određenom dijelu teksta nalazi deskriptor i siguran je da ga hoće dodijeliti dokumentu, onda bi bilo gubljenje vremena tražiti taj deskriptor ili u hijerarhiji ili u pretraživaču pojmovnika. ![]() Slika 6. Odabirom podcrtanog deskriptora "Nacionalna zaklada za znanost, visoko školstvo i tehnologijski razvoj Republike Hrvatske" pronalazi se njegov položaj u prozoru preglednika pojmovnika. Prozor pojmovnika u praksi se drži na drugom zaslonu. Osim kao pomoć indeksatorima, ekstrakcija deskriptora može olakšati i poboljšati sljedeću fazu projekta, a to je automatsko indeksiranje. Umjesto da se koristi samo skup riječi koji se javlja u tekstu može se koristiti i skup ekstrahiranih deskriptora kao ulaz algoritmu strojnog učenja. Pri ekstrakciji deskriptora javlja se problem varijacije izraza. Naime izraz kojim je opisan deskriptor može se javljati u tekstu kao skraćenica, ponekad uz promijenjenu strukturu, uz promijenjen ortografski oblik, te sa nekim morfološkim i leksičkim varijacijama. U Eurovocu su svi problemi osim morfoloških varijacija djelomično riješeni dodavanjem novih asocijata. Na primjer, deskriptor "ekonomska analiza" ima i asocijat "gospodarska analiza", deskriptor "tržišni nadzor" ima asocijat "nadzor nad tržištem", itd.
|