početna
predgovor
uvod
o području
opis sustava
implementacija
višejezičnost
zaključak
literatura
o studentima

>> Dubinska analiza teksta i indeksiranje dokumenata pojmovnikom Eurovoc >> Dubinska analiza podataka i teksta

Dubinska analiza podataka (engl. data mining) je pojam koji se u zadnje vrijeme često pojavljuje u naslovima članaka poslovnih i računalnih časopisa. Međutim, do prije nekoliko godina, vrlo malo ljudi je uopće čulo o pojmu dubinska analiza podataka, iako je on rezultat evolucije područja koja imaju dugu povijest. Pojam kao takav uveden je relativno nedavno, početkom 90-ih.

Korijeni dubinske analize podataka mogu se pratiti duž tri linije. Najduža od njih je klasična statistika, bez koje ne bi ni postojalo niti dubinske analize podataka jer je statistika temelj većini tehnika na kojima je izgrađena. Klasična statistika obuhvaća deskriptivnu statistiku, inferencijalnu statistiku (testiranje, intervali pouzdanosti i dr.) multivarijantnu statistiku (analizu grupa, regresija, faktorsku analizu i dr.) koje se koriste u analizi podataka i njihovih odnosa. U tom smislu može se reći da u srcu današnje dubinske analize podataka statistika igra vrlo važnu ulogu.

Druga vrlo važna grana na kojoj se zasniva dubinska analiza podataka je umjetna inteligencija, disciplina koja je u velikoj mjeri zasnovana na heuristici i logici, a pokušava primijeniti čovjeku sličan pristup rješavanju problema.

Treće područje na kojem se zasniva dubinska analiza podataka je strojno učenje, koje se može opisati kao spoj statistike i umjetne inteligencije. Strojno učenje je područje računarstva koje se bavi razvojem algoritama koji imaju sposobnost učenja na primjerima.

Dubinska analiza teksta obuhvaća dio problema kojim se bavi dubinska analiza podataka, a odnosi se na obradu teksta. Pod dubinskom analizom teksta misli se na inteligentnu obradu teksta, otkrivanje znanja u tekstu, općenito izvlačenje netrivijalnih i zanimljivih informacija i znanja iz nestrukturiranog teksta. Osim grana na kojima se zasniva dubinska analiza podataka, za dubinsku analizu teksta bitno je poznavanje lingvistike.