![]() |
|||||||||||||||||||||||||
|
>> Opis sustava SPIS >> Poluautomatski Eurovoc indeksator (PEI) >> Statistika n-gramaN-grami su nizovi od n riječi međusobno odvojenih razmacima ili interpunkcijskim znakovima. Posebno zanimljivi n-grami su oni nizovi riječi koji se pojavljuju zajedno u tekstu češće nego slučajno [12]. Takve nizove riječi u korpusnoj i računalnoj lingvistici nazivamo kolokacije. Kolokacije bi se mogle dobro opisati kao izrazi koji se sastoje od dvije ili više riječi i uobičajen su način za izreći nešto. Npr. jedan od primjera kolokacije je izraz jak čaj ili strojno učenje. Te dvije riječi kad se nađu zajedno unose dodatno značenje u kombinaciju riječi, koje se ne može dobiti ako se posebno promatra značenje svake od riječi posebno. Tako u kolokaciji jak čaj, riječ jak ne odnosi se na osnovno značenje riječi imati veliku fizičku snagu, već ima značenje biti bogat u nekoj aktivnoj supstanci. Kolokacija strojno učenje se može doslovno shvatiti kao spoj značenja riječi strojno i učenje, ali također je naziv za granu računarstva. U radu Mladenić i dr. [11] pokazano je da se ostvaruje bolja klasifikacija dokumenata ako se koristi prikaz dokumenata s pomoću metode bag of words u kojoj se kao elementi nalaze višerječni izrazi nego ako se koristi jedna riječ. Kao jedna od vrlo bitnih informacija, statistika n-grama uključena je u leksičku analizu dokumenta. Rezultat leksičke i statističke obrade n-grama u dokumentu je prikazan u desnom dijelu prozora PEI. Rezultat je frekvencija pojavljivanja n-grama unutar dokumenta. Moguće je prikazati bigrame, trigrame i tetragrame pronađene u dokumentu. N-grami su spremljeni u popise koje je moguće sortirati silazno i uzlazno po abecedi ili prema frekvenciji. Radi što boljeg i kvalitetnijeg nalaženja n-grama, napravljena je statistika nad svim dokumentima za indeksiranje i u njima su pronađene kolokacije pomoću statističkih metoda. Korisniku se prikazuju samo n-grami za koje se utvrdilo da su kolokacije. Sama frekvencija pojavljivanja pojedine kolokacije ponekad može biti dovoljna da dovede indeksatora dokumenta do traženog pojma u Eurovocu. U slučaju da frekvencija nije dovoljna, označavanjem n-grama u popisu mogu se vidjeti sva pojavljivanja tog n-grama u dokumentu, te je moguće pobliže proučiti kontekst u kojem se nalazi. Iterativnim odabiranjem n-grama iz popisa korisnik se prebacuje na sljedeće pojavljivanje n-grama u dokumentu. Važno je za napomenuti da iako se kolokacije pojavljuju u različitim morfološkim oblicima, sva pojavljivanja neke kolokacije prikazana su u popisu kao jedan član (o detaljima izvedbe biti će riječi u dijelu o ekstrakciji n-grama). Kao reprezent cijelog skupa kolokacija u popisu odabran je najčešći morfološki oblik u kojem se kolokacija pojavljuje u dokumentu.
|