početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Opis sustava SPIS >> Srodni radovi

Automatsko indeksiranje dokumenata je već poznat problem. Početkom njegovog rješavanja smatra se Luhnov rad [24] iz 1957. godine u kojem se predlaže statistički pristup problemu. Luhnovo rješenje sastojalo se od nekoliko koraka: od statističke analize skupa dokumenata, preko formiranja rječnika i bilježenja topoloških informacija o tekstu, pa sve do opisa postupka programiranja stroja koji bi opisani postupak provodio.

Maron 1961. godine u svom radu [32] opisuje automatsku klasifikaciju dokumenata prema njihovim naslovima.

Biebricher i drugi 1988. godine primjenjuju sustav [25] čija je zadaća indeksiranje sažetaka znanstvenih radova iz područja fizike. Sustav zahtjeva postojanje rječnika deskriptora te popisa relacija tipa riječ-deskriptor i fraza-deskriptor pomoću koje se vrši indeksiranje.

Automatsko indeksiranje korištenjem Eurovoca problem je kojim se bave mnogi znanstvenici. Ferber [5] je u svom radu iz 1997. opisao izgradnju aplikacije koja koristi višejezični pojmovnik OECD za pretraživanje dokumenata pisanih na engleskom koristeći pojmove za pretragu koji nisu pisani na engleskom jeziku. Pojmovnik OECD sličan je Eurovocu, ali je manji i postoji samo u četiri jezika. To je prvi sličan rad za koji znamo da metodama strojnog učenja pokušava indeksirati dokumente.

Noviji primjer automatske klasifikacije dokumenata korištenjem Eurovoca rad je Steinbergera i Pouliquena koji su razvili statističke metode za međujezično indeksiranje. Metoda se temelji na određivanju važnosti pojedinih pojmova unutar dokumenta tako da se gleda frekvencija pojavljivanja nekog pojma unutar dokumenta u odnosu na frekvenciju pojavljivanja unutar korpusa. Svakom pojmu iz Eurovoca dodijeljen je skup riječi koje se pojavljuju unutar dokumenta i koje ga vežu uz dokument s pripadnim težinama. Na temelju ekstrahiranih ključnih riječi iz dokumenta i težina pojmova iz Eurovoca vezanih za te riječi određuju se pojmovi koji će biti predloženi za indeksiranje dokumenta [6][7][8].

Iako u mnogim dijelovima slična, aplikacija koju smo napravili značajno se razlikuje od gore navedenih rješenja. Sustav koji razvijamo podržava višejezičnost. Zasad ne podržava automatsko pronalaženje deskriptora kojima će se indeksirati dokument već služi kao pripomoć indeksatorima da brže obavljaju svoj posao. Cilj je da se ubrzano prikupi kritična masa indeksiranih dokumenata na temelju koje će se kreirati skup dokumenata za učenje sustava i omogućiti stvaranje automatskog indeksatora.

Rad najsličniji našem razvijen je u NASA-i pod nazivom MAI (Machine-Aided indexing system) [9]. Od 1982. do 1993. razvijan je sustav za strojno potpomognuto indeksiranje. Bitna osobina ovoga sustava jest što ne koristi metode strojnog učenja i statističke obrade teksta za predlaganje deskriptora za indeksiranje nekog dokumenta. Za indeksiranje se koristi NASA-in pojmovnik s oko 18000 pojmova. Ključan element ovog sustava baza je podataka koja se sastoji od parova ključeva i pojmova iz pojmovnika. Dokument se slijedno obrađuje po skupovima riječi i u slučaju da za neki niz riječi postoji zapis u bazi, tada se vraća kao prijedlog za deskriptore popis pojmova vezanih uz nađeni ključ. Indeksatoru se prikazuju vraćeni pojmovi i on odabire iz popisa ponuđenih najpogodnije pojmove, što bitno ubrzava indeksiranje dokumenata.

Pod indeksiranje dokumenata ne spada samo pridjeljivanje deskriptora iz nekog kontroliranog rječnika pojmova tom dokumentu, već i proces ekstrakcije pojmova iz dokumenta, npr. kreiranje indeksa koji se obično nalazi na kraju knjige i ukazuje na bitne pojmove koji su opisani u knjizi. Naš rad ne bavi se ekstrakcijom pojmova iz dokumenta, ali postoje razvijene slične metode strojnog učenja koje se bave navedenom primjenom pa ćemo radi potpunosti spomenuti i tu temu.

Lathinen [10] predlaže u svom radu metodu kreiranja automatskog indeksatora koji proučava sadržaj dokumenta i gradi indeks kombinirajući podatke o frekvenciji riječi i podatke dobivene korištenjem analizatora rečenične strukture. Mnogi komercijalni sustavi poput Indexicona, CIDEX-a i MACREX-a također obavljaju sličnu funkciju.