Uvod

Algoritmi za traženje uzoraka

Data mining u stvarnom svijetu

Zaključak

Linkovi

Autor

Upotreba data miniga u stvarnom svijetu

 

Kako bi se tehnike data mininga mogle koristiti u praksi, kao što je već spomenuto, potrebne su velike količine informacija, što dovodi i do potrebe za brzim računalima koja bi sve to mogla obrađivati. Razvojem različitih tehnologija data mining se počeo korisiti u praksi, gdje se rješava niz problema:

  • Provjera valjanosti transakcija kreditnim karticama

  • Preferencije određenih grupa kupaca

  • Ponašanje cijena dionica i proizvoda u budućnosti,

kao i niz drugih problema.

Međutim, korištenje data mininga danas nije baš sasvim jednostavno. Kako svaka baza podataka ima svoje formate zapisa, a tako i pojedina rješenja algoritama koja se koriste za data minig koriste svoje formate zapisa, često je prenošenje podataka iz baze podataka u algoritam za data minig jedna procedura koja oduzima dosta vremena. Osim toga, i samo predstavljanje podataka krajnjem korisniku još uvijek nije sasvim intutitivno, te zahtijeva dosta znanja o onome što se zbiva u samome algoritmu. Stoga je korištenje ovakvih tehnika zahtijevalo veliko iskustvo korisnika.

Zbog velike količine informacija koja je potrebna o svakome korisniku za stvaranje modela, što može uključivati njegovu dob, dohodak, da li živi na selu ili gradu, kući ili stanu, da li je oženjen/udana ili ne, pogotovo u zadnje vrijeme, postavlja se pitanje privatnosti korisnika. Ljudi postaju sve osjetljiviji na svoje privatne podatke, te ne vole da se oni zlorabe za profit drugih, mnoge države uvode zakone koje ograničavaju skupljanje takvih podataka. Samim time može se dogoditi da za postavljanje točnih modela relevantni podaci budu nedostupni. Treba uzeti u obzir i da bi sam korisnik mogao u pojedinim situacijama, da zaštiti svoju privatnost, upisati krive podatke, što bi dovelo do korumpiranosti podataka u bazi i do netočnih modela.

Prilikom implementacije (treniranja) algoritama koji se koriste za stvaranje modela treba paziti da se ne pretjera, jer će to dovesti do suprotnog efekta, odnosno do povećanja nesavršenosti modela.

Danas se stoga pokušavaju napraviti određeni standardi, kao i vizualizacija dobivenih rezultata kako bi se olakšala upotreba data mining alata. Prilikom određivanja kvalitete pojedinog modela često se koristimo ROC krivuljama. Primjer jedne takve krivulje dan je na slici 4.

Frame1



Ocjenjivanje modela pomoću ROC krivulje svodi se na sljedeće. Ako nasumice izaberemo kupce kojima ćemo pokušati prodati neki proizvod, tada će se prihod povećati linearno s brojem potencijalnih kupaca kojima smo pristupili. Ako koristimo neku od tehnika data mininga, tada ćemo imati veći prihod u odnosu spram slučajnog izbora. Tako je crveni model na slici 4. bolji od zelenog modela jer daje veće povećanje profita. Ljubičasti model bi bio idealan, kada svaki kupac, za kojeg je predviđeno da će kupiti proizvod, zaista taj proizvod i kupi.

Kod dobivenih rezultata valja još i razlikovati točnost i ponovljivost rezultata. Točnost se odnosi na vjerojatnost da će se neki predviđeni događaj doista i zbiti, dok se ponovljivost odnosi na učestalost nekog događaja. Osim postavljanja točnog modela, cilj nam je postaviti takav model koji će se često moći primjenjivati u praksi.