U nastojanju da postignemo što bolje rezultate na znanstvenom ili poslovnom planu, prikupljamo sve veće količine informacija o problemima koje rješavamo. Iako nam često nije jasno koji su podaci ključni, a koji ne, veća količina podataka, pretpostavljamo, nosi i veću količinu korisnih informacija. Međutim, kako količina podataka raste, povećava se i vjerojatnost da korisne informacije ostanu neopažene u gomili nekorisnih. Ukoliko ne raspolažu specijalnim alatima, ni analitičari ne razmišljaju o njihovoj ručnoj obradi.
Razvoj računala omogućio nam je skladištenje velikih količina podataka, no istovremeno smo dobili i podlogu za razvoj alata za njihovu obradu. Dva su stupnja obrade. Prvi osposobljava računalo za dohvat informacija (eng. information retrieval), stvarajući algoritme koji odabiru i predočavaju nam samo one podatke koji su ključni za problem koji rješavamo.
Drugi je dubinska analiza podataka (eng. data mininig) koja omogućava računalu da iz postojećih informacija generira nove, dotad nepoznate. Računalo, na temelju prikupljenih podataka, modelira rad već proučenih sustava te postavlja i testira hipoteze o pravilima koje takvi sustavi poštuju. Ako ih model dovoljno dobro opisuje, on se ili predstavlja analitičarima ili ugrađuje u sustave za automatsko odlučivanje koji će biti sposobni donositi odluke o sličnim, ali prethodno nepoznatim problemima.
Jedna instanca dubinske analize podataka je i dubinska analiza teksta (eng. text mining), tj. rad na sintezi novih informacija iz podataka koji dolaze isključivo u tekstualnom obliku.
Čovjek jasnim tekstom smatra onaj u kojem poznaje značenja riječi, razumije rečenice, shvaća smisao teksta uvažavajući i kontekst njegova nastanka. Ako promatrajući temu teksta i stil pisanja može prepoznati autora, naslutiti njegovu namjeru, ocijeniti kompetentnost, sposoban je čitajući različite tekstove prikupiti mnogo informacija, procijeniti vjerodostojnost svake od njih i stvoriti nove zaključke koje će iskoristiti u rješavanju stvarnih problema.
Želimo li neke od ovih osobina ugraditi računalu nalazimo se pred izrazito teškim zadatkom. Kako tekst, kao takav nije pogodan za računalnu obradu, prolazi kroz postupak predprocesiranja. Ovisno o složenosti ovog procesa, odnosno razini upotrebljenog lingvističkog i statističkog znanja, krajnja forma sadrži više ili manje u početku prisutnih informacija. Vještina je prilagoditi proces učenja težini problema kojeg rješavamo. Ponekad želimo samo nadolazećim tekstovima odrediti temu (eng. text categorization), a ponekad očekujemo od računala da na temelju pročitanih podataka i samo donese neke zaključke vezane za temu teksta.
|