početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Implementacija >> Ekstrakcija kolokacija

Ekstrakcija kolokacija nije jednoznačno definirana u području računalne lingvistike, već svaki autor definira koje pojmove želi nazivati kolokacijama ovisno o problemu koji rješava. Tako imamo definicije koje poistovjećuju kolokacije s idiomima, do toga da se kolokacije nazivaju nizovi više riječi koji se pojavljuju zajedno češće nego slučajno.

Pri rješavanju problema indeksiranja, u suradnji s indeksatorima, istražili smo koje su kolokacije najprikladnije za indeksiranje dokumenata i koje najbolje povezuju sadržaj dokumenta s deskriptorima u Eurovocu. Za indeksiranje dokumenata, htjeli smo izvaditi dvije vrste kolokacija. Prva vrsta su (tzv. engl. open compound) [26], neprekinuti niz riječi koji zajedno tvore jedan pojam i ne mogu se promatrati odvojeno, npr. Bijela kuća, burza dionica itd. Drugi tip kolokacija je bio manje idiomatski, a više kompozicijski. To su bili nizovi riječi koji se pojavljuju zajedno prekinuti prijedlogom ili veznikom, npr. prava i običaji, puške i municija itd.

Proces ekstrakcije kolokacije odvija se nad korpusom. U našem slučaju to je bio skup od 7008 dokumenata, zakona iz “Narodnih novina“. Taj korpus je dobar uzorak svih dokumenata koji se trebaju indeksirati. U slučaju da je potrebno indeksirati drugačije dokumente, proces ekstrakcije kolokacija ponavlja se nad drugim korpusom koji dobro predstavlja željeni skup dokumenata. Ekstrakcija kolokacija odvija se neovisno o sustavu SPID, koji prima samo popis ekstrahiranih kolokacija za potrebe prikaza relevantnih podataka indeksatorima.

U poglavlju 4.2.2. navedeni su razlozi zašto se obavlja ekstrakcija kolokacija, a u nastavku ovog poglavlja pobliže je opisano kako se obavlja ekstrakcija kolokacija nad korpusom koji reprezentira skup dokumenata za indeksiranje.

>> Rješenje problema ekstrakcije kolokacija
>> Prijenos na SPID