![]() |
|||||||||||||||||||||||||
|
>> Implementacija >> Ekstrakcija kolokacija >> Rješenje problema ekstrakcije kolokacijaMnogi autori rješavali su problem ekstrakcije kolokacija, ali zbog različitih definicija kolokacija, rezultat je bio različit pristup samoj ekstrakciji i velikom broju različitih statističkih mjera koje se koriste. Za ekstrakciju n-grama u dokumentima pisanim na engleskom jeziku razvijeni su različiti algoritmi. Jedan od algoritama je opisan u radu Mladenić et al. [11]. Predloženi algoritam je zbog morfološkog siromaštva engleskog jezika vrlo jednostavan i temelji se na uspoređivanju riječi iz teksta s kolekcijom pronađenih n-grama pohranjenoj u mapi. Smadja [26] koristi ekstrakciju kolokacija za generiranje jezika te pri tome pokušava naći duže kolokacije, posebno one idiomatskog značenja. Pri tome koristi različite statističke mjere u cilju pronalaženja što boljeg rješenja zadatka. Goldman [28] koristi svoj sustav FipsCo za ekstrakciju termina te se pri tome oslanja na kvalitetan analizator rečenične strukture. Za razliku od njih dvojice, Wu [27] rješava problem pomoću dvojezičnog poravnatog korpusa i pri tome obavlja veći broj koraka predobrade u kombinaciji sa statističkom mjerom i algoritmom za poravnavanje riječi. Evaluacija ekstrahiranih kolokacija obavlja se također na razne načine uz pomoć stručnog znanja profesionalnih leksikografa ili pomoću WordNeta. Zbog velikog broja morfoloških oblika koje riječi hrvatskog jezika posjeduju bilo je potrebno osmisliti način pogodan za nalaženje kolokacija u dokumentima pisanim na hrvatskom jeziku. Rješenje problema opisano je u radu Petrović i suradnici [29]. Korištenjem opisane metode dobiveni su popisi kolokacija koji su iskorištene unutar sustava SPID. |