Uvod
Algoritmi za traženje uzoraka
Data mining u stvarnom svijetu
Zaključak
Linkovi
Autor
|
Upotreba
data miniga u stvarnom svijetu
Kako bi se tehnike data mininga
mogle koristiti u praksi, kao što je već spomenuto,
potrebne su velike količine informacija, što dovodi i
do potrebe za brzim računalima koja bi sve to mogla
obrađivati. Razvojem različitih tehnologija data
mining se počeo korisiti u praksi, gdje se rješava
niz problema:
Provjera valjanosti
transakcija kreditnim karticama
Preferencije određenih
grupa kupaca
Ponašanje cijena
dionica i proizvoda u budućnosti,
kao i niz drugih problema.
Međutim, korištenje
data mininga danas nije baš sasvim jednostavno.
Kako svaka baza podataka ima svoje formate zapisa, a tako i
pojedina rješenja algoritama koja se koriste za data
minig koriste svoje formate zapisa, često je prenošenje
podataka iz baze podataka u algoritam za data minig jedna
procedura koja oduzima dosta vremena. Osim toga, i samo
predstavljanje podataka krajnjem korisniku još uvijek nije
sasvim intutitivno, te zahtijeva dosta znanja o onome što
se zbiva u samome algoritmu. Stoga je korištenje ovakvih
tehnika zahtijevalo veliko iskustvo korisnika.
Zbog velike količine
informacija koja je potrebna o svakome korisniku za stvaranje
modela, što može uključivati njegovu dob, dohodak, da
li živi na selu ili gradu, kući ili stanu, da li je
oženjen/udana ili ne, pogotovo u zadnje vrijeme, postavlja se
pitanje privatnosti korisnika. Ljudi postaju sve osjetljiviji na
svoje privatne podatke, te ne vole da se oni zlorabe za profit
drugih, mnoge države uvode zakone koje ograničavaju
skupljanje takvih podataka. Samim time može se dogoditi da za
postavljanje točnih modela relevantni podaci budu
nedostupni. Treba uzeti u obzir i da bi sam korisnik mogao u
pojedinim situacijama, da zaštiti svoju privatnost,
upisati krive podatke, što bi dovelo do korumpiranosti
podataka u bazi i do netočnih modela.
Prilikom implementacije
(treniranja) algoritama koji se koriste za stvaranje modela treba
paziti da se ne pretjera, jer će to dovesti do suprotnog
efekta, odnosno do povećanja nesavršenosti modela.
Danas se stoga pokušavaju
napraviti određeni standardi, kao i vizualizacija dobivenih
rezultata kako bi se olakšala upotreba data mining
alata. Prilikom određivanja kvalitete pojedinog modela
često se koristimo ROC krivuljama. Primjer jedne takve
krivulje dan je na slici 4.
Ocjenjivanje modela pomoću ROC
krivulje svodi se na sljedeće. Ako nasumice izaberemo kupce
kojima ćemo pokušati prodati neki proizvod, tada će
se prihod povećati linearno s brojem potencijalnih kupaca
kojima smo pristupili. Ako koristimo neku od tehnika data
mininga, tada ćemo imati veći prihod u odnosu spram
slučajnog izbora. Tako je crveni model na slici 4. bolji od
zelenog modela jer daje veće povećanje profita.
Ljubičasti model bi bio idealan, kada svaki kupac, za kojeg
je predviđeno da će kupiti proizvod, zaista taj
proizvod i kupi.
Kod dobivenih rezultata valja još
i razlikovati točnost i ponovljivost
rezultata. Točnost se odnosi na vjerojatnost da će se
neki predviđeni događaj doista i zbiti, dok se
ponovljivost odnosi na učestalost nekog događaja. Osim
postavljanja točnog modela, cilj nam je postaviti takav
model koji će se često moći primjenjivati u
praksi.
|