početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Dubinska analiza teksta i indeksiranje dokumenata pojmovnikom Eurovoc >> Osnovni pojmovi računalne obrade prirodnog jezika

Oblici su različiti likovi u kojima se jedna riječ može pojaviti i koji se razlikuju gramatički, ali ne i po osnovnom značenju. Npr. hoda i hodam su oblici iste riječi.

Za svaku vrstu riječi moguće je dogovorno odrediti kanonski, polazni oblik - lemu. Lema neke imenice je njezin nominativ jednine, a lema glagola infinitiv. Npr. neki od oblika leme hodati su: hodam, hodao, hodamo, itd.

Ponekad nije moguće jednoznačno odrediti lemu neke riječi. Na primjer, riječ vode ima sljedeće leme: vod, voda, voditi.

Općenito kada dva oblika imaju isti pisani oblik, a različito značenje, onda govorimo o homografiji. Postupak nalaženja leme zovemo lematizacija.

MSD ili morfosintaktički deskriptor sadrži informacije o gramatičkim kategorijama, tj. vrsti riječi, te dodatne informacije vezane uz tu riječ (npr. rod, broj i padež za imenice).

Engl. stemmer (od engl. stem - korijen) je program ili algoritam kojim se određuje korijen (najčešće leksički, tj. korijenski morfem) neke riječi. Na primjer, stemmer bi mogao naći da je korijen riječi osjećajnost osjeć, ili da je korijen riječi noga nog. Većina stemmera po određenim pravilima uklanja sufikse zadane riječi te često rezultat nije ispravan korijen, već samo aproksimacija korijena. Npr. stemmeri za engleski jezik javiti će drie umjesto dry za riječ "dries".

Najpoznatiji algoritam za engleski jezik jest algoritam Martina Portera [19]. To je ujedno i najčešće korišten engleski stemmer te je postao de facto standard. Valja napomenuti da je stemmer morfološki siromašnog jezika poput engleskog znatno lakše napraviti od stemmera morfološki složenog jezika poput hrvatskog.

Pojavnica je svako pojedinačno pojavljivanje riječi u nekom tekstu, a različnica je jedinstveni oblik pojavnice u istom tekstu. Na primjer, rečenica "Tko se mača laća, od mača će i stradati." ima 9 pojavnica, ali samo 8 različnica jer se različnica mača ponovila dva puta. Rečenica "Čovjek čovjeku vuk." sadrži tri različnice i tri pojavnice.

Zaustavne riječi su riječi koje imaju gotovo isključivo gramatičku funkciju, ili se javljaju vrlo često u nekom dokumentu. Zaustavne se riječi ne prikazuju u popisu lema, niti u popisu različnica. Također, lematizacija i stemming neće se obavljati nad takvim riječima. Primjeri zaustavnih riječi su engleske riječi the, a, I i hrvatske riječi je, pa, to.

Ignorirane riječi su riječi uglavnom specifične za neko područje koje ne donose gotovo nikakve dodatne informacije indeksatoru. Na primjer, riječ članak nije od velike koristi indeksatoru koji radi na skupu dokumenata „Narodnih novina“. Nad tim riječima obavlja se lematizacija, ali se ne prikazuju u popisima lema i različnica.