početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Opis sustava SPIS >> Ulaz u sustav

Kao jedan od ključnih zadataka u fazi razrade problema postavilo se definiranje ulaza u sustav. Budući da dokumenti koje treba indeksirati dolaze iz većeg broja različitih izvora, razumno je bilo pretpostaviti da će biti zapisani u različitim formatima te u različitim inačicama ili stilovima istog formata. Izravno, naravno, nije bilo moguće niti predvidjeti, a kamoli podržati sve formate te je stoga bilo nužno specificirati jedan zapis koji će sustav primati na ulazu. Današnja informatička tehnologija nudi standardan zapis dokumenta.

Odabran je XML (Extensible Markup Language) [1], standardizirani format zapisa dokumenata, koji se primarno koristi za razmjenu podataka među informacijskim sustavima. Kao takav, XML posjeduje niz karakteristika poželjnih za ovakav sustav.

Slika 2. Uvodni dio Zakona o visokim učilištima zapisan u XML formatu. Uočavaju se semantičke oznake (zaglavlje ili stilovi), standardne oznake unutar XML formata (npr. p za paragraf ili b za masno otisnuti tekst), te atributi oznaka koji nose dodatne informacije (npr. ukoliko atribut tip oznake naslov ima vrijednost pn, riječ je o podnaslovu).

Budući je sam standardiziran i široko prihvaćen, postoji niz dokumenata već zapisanih u ovom formatu. S druge strane, postojeći dokumenti zapisani u alternativnim formatima (HTML, PDF i dr.) mogu se relativno jednostavno automatski pretvoriti u XML. Nadalje, XML omogućuje kodiranje dodatnih informacija u sam dokument, kao što su specificiranje naslova, autora, paragrafa ili formatiranja potrebnog za vizualnu rekonstrukciju učitanog dokumenta unutar sustava. Vizualna rekonstrukcija učitanog dokumenta interno se provodi generiranjem zapisa formatiranog u skladu sa RTF (Rich Text Format) [3] standardom.

Slika 3. Vizualna rekonstrukcija dokumenta na temelju XML zapisa sa slike 2.