početna
	predgovor
	uvod
	o području
	opis sustava
	implementacija
	višejezičnost
	zaključak
	literatura
	o studentima

>> Implementacija >> Ekstrakcija kolokacija >> Rješenje problema ekstrakcije kolokacija
Mnogi autori rješavali su problem ekstrakcije kolokacija, ali zbog različitih definicija kolokacija, rezultat je bio različit pristup samoj ekstrakciji i velikom broju različitih statističkih mjera koje se koriste.
Za ekstrakciju n-grama u dokumentima pisanim na engleskom jeziku razvijeni su različiti algoritmi. Jedan od algoritama je opisan u radu Mladenić et al. [11]. Predloženi algoritam je zbog morfološkog siromaštva engleskog jezika vrlo jednostavan i temelji se na uspoređivanju riječi iz teksta s kolekcijom pronađenih n-grama pohranjenoj u mapi. Smadja [26] koristi ekstrakciju kolokacija za generiranje jezika te pri tome pokušava naći duže kolokacije, posebno one idiomatskog značenja. Pri tome koristi različite statističke mjere u cilju pronalaženja što boljeg rješenja zadatka. Goldman [28] koristi svoj sustav FipsCo za ekstrakciju termina te se pri tome oslanja na kvalitetan analizator rečenične strukture. Za razliku od njih dvojice, Wu [27] rješava problem pomoću dvojezičnog poravnatog korpusa i pri tome obavlja veći broj koraka predobrade u kombinaciji sa statističkom mjerom i algoritmom za poravnavanje riječi.
Evaluacija ekstrahiranih kolokacija obavlja se također na razne načine uz pomoć stručnog znanja profesionalnih leksikografa ili pomoću WordNeta.
Zbog velikog broja morfoloških oblika koje riječi hrvatskog jezika posjeduju bilo je potrebno osmisliti način pogodan za nalaženje kolokacija u dokumentima pisanim na hrvatskom jeziku. Rješenje problema opisano je u radu Petrović i suradnici [29]. Korištenjem opisane metode dobiveni su popisi kolokacija koji su iskorištene unutar sustava SPID.