Algoritmi za traženje uzoraka
				  
				Kako bi se data miningom
				dani problemi rješavali što brže i točnije
				,kreiran je niz algoritama: 
				
				  
				Kreiranje modela ponašanja
				klijenata i tržišta temelji se na prilagođavanju
				pojedinog algoritma pojedinom problemu. Algoritmu se kao ulaz
				daju određeni podaci, na temelju kojih on daje neko
				predviđanje. Ako je predviđanje koje daje algoritam u
				skladu s onim što se doista dogodilo, tada smo stvorili
				točan model. U suprotnom je algoritam potrebno korigirati.
				Kada smo upotrebom testnih podataka stvorili model, tada bi on
				trebao dati točna predviđanja za bilo koje podatke. 
				 
				Pojedini algoritimi se razlikuju
				složenošću i točnošću modela kojega
				će dati. Tako su neuronske mreže najsloženije, ali daju
				najtočnije modele. 
				
  
				 
				 
				Stablo odluka
				  
				Stablo odluka je prediktivni model
				koji može biti prikazan kao stablo. Stablo nastaje grananjem kao
				posljedica ispunjenja uvjeta klasifikacijskih pitanja. Svako
				pitanje će podjeliti podatke u podskupine koje su homogenije
				nego viša skupina. Ako pitanje ima dva odgovora, tada će
				kao odgovor na pitanje nastati dvije podskupine (binarno stablo).
				Općenito, koliko pitanje ima odgovora toliko će
				podskupina nastati. Samim time vrši se klasificiranje
				pojedinih podataka. Predikcija ponašanja pojedinog
				klijenta može se izvesti na temelju njegovog pripadanja pojedinoj
				skupini (u koju je svrstan na temelju niza pitanja i uvjeta ), za
				koju se zna kako će se ponašati. 
				 
				Prilikom izgradnje stabla odluke
				važno je znati postaviti pravo pitanje. Općenito, pitanje je
				to bolje što će ono bolje organizirati podatke,
				odnosno što će podaci u podskupinama nastalim nakon
				primjene pitanja biti homogoniji. Modeli temeljeni na stablima
				odluka razlikuju se po algoritmima koji traže obilježja pojedinih
				podataka i na temelju njih kreiraju pitanja. 
				 
				Stabla odluke se vrlo lako
				implementiraju na relacijskim bazama podataka (npr. SQL). 
				Primjer stvaranja stabla
				odluka prikazan je na slici 1.   
				   
				  
				  
				
				 
				Nearst neighbor classification
				Jedna od najstarijih tehnika koja
				se primjenjuje u data miningu. Zbog svoga načina
				rada, koji je sličan ljudskom načinu razmišljanja,
				ova metoda je jedna od najjednostavnijih. Temelji se na traženju
				podataka koji ima najsličinija svojstva i poznato ponašanje.
				Podatak koji ima najsličnija svojstva je najbliži susjed, te
				se pretpostavlja da će se slično i ponašati.
				Pitanje algoritma je kako odrediti tko je najbliži susjed. Jedan
				od najjednostavnijh načina je upotreba euklidske geometrije
				u n-dimenzionalnom prostoru. Pri tome treba napomenuti da svaka
				varijabla ne nosi istu težinu (npr. prilikom računanja
				udaljenosti dob klijenta uzimamo s težinom 1, a zemlju porijekla
				s težinom 0.1). 
				 
				Kako bi metoda bila što
				točnija, potrebno je u bazi podataka naći što
				sličniji podatak (za koji je potrebno što točnije
				poznavati ponašanje), što zahtijeva velike količine
				podataka. 
				
				 
				Neuronske mreže
				  
				Najkompliciranija metoda (kako za
				upotrebu, tako i za izvedbu), ali daje najtočnije modele.
				Nuronske mreže nastale su proučavanjem i pokušajima
				imitiranja rada mozga i živčanog sustava čovjeka (i
				drugih životinja). Osnovna ćelija neuronskih mreža (neuron)
				prikazana je na slici 2. 
				  
				
  
				 
				Neuron svoj izlaz temelji na
				kombinaciji niza ulaza pomnoženih s odgovarajućim težinama.
				Neuronska mreža sastoji se od niza neurona koji su međusobno
				povezani. Prilikom projektiranja neuronske mreže potrebno je
				odrediti strukturu (broj neurona i njihove međusobne veze).
				Da bi stvorili prediktivni model upotrebom neuronskih mreža
				potrebno je definirati težine pojednih veza. To se postiže
				treningom neuronske mreže. Daju joj se testni podaci i zatim se
				korigira odgovor koji daje, ako je netočan. Neuronska mreža
				će tada korigirati težine pojednih veza izmeu neurona. Ako
				je prethodni neuron dao dočan odgovor vezi prema njemu,
				povećat će se težina, dok će se u suprotnom
				smanjiti. S vremenom neuronska mreža uči, te povećanjem
				broja treninga daje sve točnije rezultate. 
				 
				Problem
				kod neuronskih mreža je taj što se one ponašaju kao
				crne kutije. Kada radi, mi vidimo samo ulaz i izlaz, dok razine
				između ulaza i izlaza (engl. Hidden layer) uopće
				ne vidimo. Proces učenja neuronske mreže svodi se na
				mijenjanje težina veza unutar skrivenih razina. Neuronska mreža s
				jednom skrivenom razinom prikazana je na slici 3. 
				 
				   
				  
				 
				Rule indication
				  
				Upotreba ove metode zasniva se na
				prolasku kroz bazu podataka upotrebljavajući logičke
				funkcije na varijablama, i računajući vjerojatnost
				pojave takvog događaja, pojedinih zapisa, kako bi se došlo
				do skrivenih informacija. Kako bi moglo doći do skrivenih
				informacija, potrebno je proći kroz što više
				mogućih međusobnih kombinacija varijabli (sve
				kombinacije), što drastično usporava i poskupljuje
				ovu metodu. Ako odbacujemo pojedine varijable kao nevažne, tada
				postoji mogućnost da nećemo vidjeti vezu između
				pojedinih podataka te time model učiniti manje točnim.
				Osim s tehničke strane, pretraživanje sličnosti
				pojednih podataka po svim varijablama često daje ogroman
				broj povezanosti između pojedinih podataka, te je ponekad
				potreban još jedan prolaz kroz dobiveni rezultat kako bi
				se izoliralo one zaključke koji su najinteresantniji. 
				Modeli temeljeni upotrebom rule
				inidication pokazali su se među točnijima (točnije
				daju neuronske mreže), ali su za razliku od neuronskih mreža
				jednostavniji za korištenje. 
				 
				 
				K Nearest Neighbors
				  
				Poboljšanje u odnosu na
				metodu najbližeg susjeda je u tome što se promatra
				ponašanje nekoliko sličnih podataka, a ne samo jedan.
				Samim time (statistički) moći čemo točnije
				predvidjeti ponašanje i svojstva pojedinog podatka. Ovakav
				algoritam je vrlo lako implementirati 
				  
				 
				Ostali algoritmi
				  
				Postoji niz drugih algoritama na
				kojima se temelje modeli za data mining, ali oni se manje
				koriste od gore navedenih. Neki od njih su: 
				 
				
				  Kao metodu se možda
				može spomenuti i statistika, ali ona više daje pogled na
				povezanost varijabli u prošlosti, nego što daje
				pogled u budućnost. Statistika bi mogla dati neka
				predviđanja temeljem povlačenja polinoma kroz točke
				u prošlosti koje su određene upotrebom statističkih
				metoda, ali takva predviđanja su inferiorna ostalim
				metodama. 
				 
				 
				 
			 |