početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Implementacija >> Ekstrakcija Eurovoc deskriptora iz dokumenta >> Formalni opis ekstrakcije

Kao preduvjet definiciji ekstrakcije jest definicija funkcije lematizacije. Neka je W skup svih riječi i L:W->P(W) funkcija koja preslikava svaku riječ na njezin skup lema. Na primjer L(vode)={vod, voda, voditi}. Ako se ne koristi lematizacija ili ako riječ w nije u rječniku (što je čest slučaj kod neinflektivnih riječi), onda je L(w)={w}.

Kažemo da se riječi w1 i w2 podudaraju akko , tj. ako su obje riječi infleksije zajedničke leme.

Deskriptor predstavljamo kao listu riječi (t1, ..., tm) i dio teksta bez interpunkcija kao listu riječi (w1, ..., wn). Definiramo tri relacije koje su bitne za ekstrakciju.

Deskriptor (t1, ..., tm) podudara se sa listom riječi (w1, ..., wn) na poziciji k akko k+m-1 ? n i ako se riječi ti i wk+i-1 podudaraju za i=1, ..., m.

Deskriptor tA=(t1, ..., tn), koji se podudara sa nekom listom riječi na poziciji a, sadrži deskriptor tB=(t1, ..., tm), koji se podudara sa tom istom listom riječi na poziciji b, akko a ? b i ako je b+m ? a+n.

Deskriptor tA=(t1, ..., tn), koji se podudara sa nekom listom riječi na poziciji a, preklapa se sa deskriptorom tB=(t1, ..., tm), koji se podudara sa tom istom listom riječi na poziciji b, akko a < b < a+n < b+m.

Slika 18. Skup ekstrahiranih deskriptora sadrži najduži deskriptor ekstrahiran u koraku a) i sadržaje skupova lijevia={(premija, osiguranja)} i desnia={(motor)}. Skupovi lijevia i desnia izračunavaju se u koracima b), odnosno c).

Ako deskriptor tA sadrži deskriptor tB, onda je gotovo sigurno da je deskriptor tA specifičniji. Kako tijekom ekstrakcije uvijek preferiramo specifičnije deskriptore, jer nose više semantičke informacije, deskriptor tB će se ignorirati. Na primjer, deskriptor "ravnopravnost muškaraca i žena" sadrži deskriptore "muškarac" i "žena", pa je logično da preferiramo duži izraz. Rijeđi slučaj je kada se dva deskriptora preklapaju. Na primjer, isječak teksta "premija osiguranja motornih vozila" sadrži deskriptore "premija osiguranja" i "osiguranje motornih vozila", koji se preklapaju. U ovakvim rjeđim slučajevima odlučujemo se za ekstrakciju oba deskriptora.

Sam proces ekstrakcije može se formalizirati na sljedeći način. Neka je T skup svih deskriptora (termina), W+ = Y(Wn) skup svih uređenih n-torki riječi i E:W+->P(T) funkcija koja preslikava listu riječi (w1,K,wn) e W+ na skup ekstrahiranih deskriptora. Na primjer, E(Premija, osiguranja, motornih, vozila, ovisi, o, snazi, motora)={(motor), (premija osiguranja), (osiguranje, motornih, vozila)}, kao što se vidi na slici 18.

Funkciju E možemo definirati rekurzivno. Ako nema deskriptora u listi riječi (w1,K,wn), tada je E(w1,K,wn)=0. Inače, E(w1,K,wn)=t U lijev U desni, gdje je t najljeviji od najdužih deskriptora u listi riječi (w1,K,wn). Ako nema deskriptora koji počinju prije deskriptora t, onda je lijevi := 0, a inače lijev := E(w1,K,wn), gdje je k najveći indeks završetka bilo kojeg takvog deskriptora. Skup desni definiran je analogno. Biramo najljeviji skup da bisno razriješili konflikt između više najdužih izraza iste duljine. Ovakva definicija podrazumjeva da deskriptor koji je sadržan neće biti ekstrahiran, dok će onaj koji se samo preklapa biti ekstrahiran.