![]() |
|||||||||||||||||||||||||
|
>> Implementacija >> Ekstrakcija Eurovoc deskriptora iz dokumenta >> Greške kod ekstrakcije deskriptoraU procesu koji je opisan mogu se javiti dvije vrste grešaka: greške nastale radi nepreciznosti lematizacije i greške nastale radi leksičke višeznačnosti. Prisjetimo se da ako rječnik ne sadrži neku riječ, onda pretpostavljamo da je ta riječ lema. Ukoliko je pretpostavka da lema nepoznate riječi odgovara toj riječi pogrešna, može se dogoditi da se neki deskriptori neće ni pronaći u tekstu. Takva pogreška utječe na odaziv, ali ne i na preciznost kod ekstrakcije deskriptora. Riječce, veznici, prijedlozi i druge neinflektivne vrste riječi nemaju drugih oblika u kojima se pojavljuju, pa je razumljiva pretpostavka da je lema nepoznate riječi ta ista riječ. Gubitak u preciznosti nastaje kada se algoritmom lematizacije ustanovi da se dvije riječi podudaraju, a podudaraju se samo zato što je jedna od lema pogrešna. Ako se vrši lematizacija pomoću rječnika, onda su te greške uzrokovane greškama u rječniku, pa se lako mogu ispraviti. Kod višerječnih izraza učestalost pogreške uzrokovane krivom lematizacijom je zanemariva. Eksperimentalno smo utvrdili da je svega 0,28% engleskih i 1,66% hrvatskih deskriptora pogrešno lematizirano. Pogreške nastaju i radi homografije (javlja se kod riječi koje se jednako pišu, a imaju različito značenje) i polisemije (slučaj kada više oblika imaju istu lemu, ali različita i nesrodna značenja). Greške nastale radi homografije mogle bi se razriješiti promatranjem šireg konteksta oko jedne riječi i odabirom ispravne leme. Slično kao i prije, kod višerječnih izraza ovakve greške su zanemarive. U praksi tek je 1,65% ekstrahiranih izraza (i za hrvatski i za engleski jezik) bilo pogrešno radi homografije i polisemije [14]. |