početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Implementacija >> Ekstrakcija Eurovoc deskriptora iz dokumenta >> Povećanje broja nađenih deskriptora nakon korištenja lematizacije

Provedeni su eksperimenti na paralelnom hrvatsko-engleskom korpusu sastavljenom od 39 pravnih dokumenata Europskih zajednica i od zakona Republike Hrvatske. Broj riječi varirao je od 365 do 26651 za engleske tekstove, te od 297 do 19946 za isti skup hrvatskih tekstova. U engleskim tekstovima korištenjem lematizacije nađeno je 30% više deskriptora (ubrajajući ponavljanja), te 14% više različitih deskriptora. Za hrvatski jezik povećanje je iznosilo 248% kod broja ne nužno različitih deskriptora, te 75% kod broja različitih deskriptora.

Pad preciznosti, uz odaziv standardne statističke mjere za dohvat informacija, iznosio je oko 3% za hrvatske dokumente te nešto manje od 2% za engleske dokumente.