početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Dubinska analiza teksta i indeksiranje dokumenata pojmovnikom Eurovoc >> Automatsko indeksiranje dokumenata

Tekstovni dokumenti stvaraju se svakodnevno u velikim količinama. Zbog toga su potrebni i veliki prostori za njihovo skladištenje. Da bi se omogućio brz pristup pohranjenim dokumentima, potrebno je pažljivo odabrati deskriptore kojima će se indeksirati dokument.

Mnoge organizacije koriste strukturirane pojmovnike za konzistentno indeksiranje, pohranu i dohvat elektroničkih i papirnatih dokumenata iz svoje knjižnice i dokumentacijskih centara. Popis pažljivo odabranih deskriptora omogućava korisniku brzi uvid u sadržaj dokumenta i omogućava pretragu dokumenata po područjima. Strukturirana priroda pojmovnika omogućava pretraživanje dokumenata po područjima bez potrebe da se upisuju svi pojmovi za pretragu. Npr. upit 'radioaktivni materijal' će uključiti u pretragu i pojmove 'uran', 'pluton' i dr. Kod korištenja višejezičnog pojmovnika poput Eurovoca, korištenjem činjenice da postoji jedan-na-jedan prijevod za svaki deskriptor, moguće je postavljati upite na jednom jeziku, a dohvaćati radove na drugom.

Ručno dodjeljivanje deskriptora iz pojmovnika je vremenski zahtjevan i skup postupak. Profesionalnom indeksatoru koji koristi u svom radu Eurovoc pojmovnik, po danu indeksira oko 30 dokumenata. Zbog te činjenice, traže se automatska ili barem poluautomatska rješenja. Ta rješenja se koriste kao pripomoć indeksatorima u njihovom poslu. Njihov zadatak je da na temelju analize dokumenta predlože popis deskriptora koji indeksatori modificiraju kako bi što bolje označavao dokument. Iako su napravljeni znatni pomaci u automatskom indeksiranju, postojeći sustavi još uvijek su daleko od kvalitete profesionalnih indeksatora i za sada služe samo kao pripomoć pri ubrzanju procesa indeksiranja.

Osim kao pripomoć organizacijama koje ručno indeksiraju dokumente, automatsko indeksiranje dokumenata može biti korišteno za katalogiziranje drugih tipova dokumenata i u više drugih svrha: prikaz sadržaja dokumenta pomoću popisa višejezičnih deskriptora omogućava višejezičnu klasifikaciju i grupiranje, računanje semantičke sličnosti među dokumentima, čak i na različitim jezicima. Povezivanje teksta s pojmovnikom je prijeko potrebno za realizaciju semantičkog weba.