početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Implementacija

Dva su zahtjeva bitno utjecala na razvoj sustava: jezgra sustava treba biti prenosiva na druge platforme i sustav se treba nositi sa svim problemima višejezičnosti. Pod jezgrom podrazumijevamo nekorisnički dio sustava, tj. sve dijelove sustava vezane uz obradu datoteka, lematizaciju, nalaženje n-grama, statistiku, itd. Jezgra je logički odvojena cjelina koja je pisana u cijelosti u jeziku ISO C++. Važan dio jezgre sustava jest višejezična podrška pa se svi podatci interno (unutar jezgre) pretvaraju ili u kodnu stranicu ISO 8859-2 ili u kodnu stranicu UTF-8. Svi korisnički programi, gledano sa strane jezgre, vrše konverziju iz tih kodnih stranica u svoje kodne stranice (npr. CP1250 na Windowsima).

Korištene su tri open-source biblioteke – libxml, iconv, te zlib. Prva se koristi za parsiranje XML datoteka, druga za konverziju između raznih kodnih stranica, te treća za sažimanje datoteka. Navedene biblioteke dostupne su za veliki broj operacijskih sustava, pa tako i za Windows i Linux. Biblioteka zlib omogućava učitavanje sažetih XML datoteka i/ili rječnika, čime se može ostvariti znatna ušteda diskovnog prostora.

Korisničko sučelje za sada postoji samo za Windows operacijske sustave – pisano je pomoću alata Borland C++ Builder. Kao potvrda portabilnosti osnove sustava napisani su brojni komandno-linijski alati koji rade i na Windows, Linux i MacOS operacijskim sustavima.

>> Vizualna rekonstrukcija dokumenta
>> Unutarnja struktura
>> Generiranje vizualne rekonstrukcije na temelju unutarnje strukture
>> Ekstrakcija kolokacija
>> Podržani zapisi Eurovoc pojmovnika
>> Implementacija lematizacije
>> Ekstrakcija deskriptora