početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Dubinska analiza teksta i indeksiranje dokumenata pojmovnikom Eurovoc >> Kompleksnost i morfološko bogatsvo hrvatskog jezika

Hrvatski jezik je morfološki vrlo bogat, a to predstavlja dodatnu teškoću pri računalnoj obradi teksta. Rješavanje problema lematizacije te korjenovanja (engl. stemming) preduvjet je za bilo kakvu strojnu obradu prirodnog jezika pa tako i za naš sustav SPID. Za većinu svjetskih jezika, a pogotovo za engleski, postoji niz javno dostupnih alata i razrađenih algoritama [19]. Za hrvatski jezik takvi su alati u postupku nastajanja. Postoji kvalitetan servis za lematizaciju hrvatskoj jezika [31], ali ga zbog njegove orijentiranosti Internetu nismo mogli ugraditi u sustav. Zbog toga je za potrebe ovog sustava razvijen MOLEX [20], morfološki leksikon koji je ugrađen kao modul za lematizaciju hrvatskog jezika.