alberi di decisione sono oggetto di intenso studio accademico nei settori di attività di ricerca e di informatica . Anche se non necessariamente il modo migliore per strutturare le informazioni necessarie per giungere a una conclusione , alberi decisionali funzionano bene con gli algoritmi di computer standard per il supporto decisionale . Inoltre, essi forniscono un metodo per esprimere le regole di business in un modo che le persone con nessuna esperienza precedente con alberi di decisione sono in grado di seguire . Un albero di decisione è una simile a un diagramma di flusso , consentendo la navigazione attraverso un percorso di scelte fino al raggiungimento di una conclusione definitiva . Cose che ti serviranno : Dati impostati per "imparare " la struttura ad albero : Dati impostati per testare conseguente albero
Mostra più istruzioni
1
ottenere il set di dati che saranno utilizzati per l'analisi e la verifica dell'albero finale . Altri dati utilizzati per l'analisi produrrà una rappresentazione ad albero più accurata del processo decisionale . Ci sono molti modi diversi per creare e strutturare un albero decisionale . L'algoritmo ID3 è un approccio iniziale su cui si sono basate le variazioni più sofisticati .
2
Elenco tutti gli attributi che vengono utilizzati dal set di dati . Per esempio, in un insieme di dati delle applicazioni di prestito bancario , il record per ciascun richiedente includerà attributi quali nome, indirizzo, telefono , reddito , valore casa , mutuo, bancarie e di credito saldi di carta .
Creazione manuale un albero di decisione , naturalmente, esclude gli attributi quali il nome, che non ci si aspetterebbe di influenzare la decisione di concedere un prestito. Quando si utilizzano tecniche di data mining per computer , tutti gli attributi sono considerati , lasciando il programma per computer per determinare quelli che non hanno alcuna rilevanza per il risultato finale .
3
specificare l'attributo è l'attributo di destinazione. Nell'esempio di una richiesta di prestito, l'attributo target è quella che indica se il prestito è stato concesso o negato .
4
Selezionare l'attributo di fornire il maggior guadagno di informazioni da utilizzare come nodo radice . L'albero è costituito da nodi decisionali e nodi foglia. A nodi decisionali , viene creato un ramo per ogni possibile valore dell'attributo target . Ogni ramo rappresenta i record di dati che condividono lo stesso valore per l' attributo target .
Un nodo foglia viene raggiunta quando tutti i record che sono considerati al nodo corrente hanno lo stesso risultato per l'attributo target . Nell'esempio di prestito, se tutti coloro che si applica per un prestito viene approvato , l'intero albero di decisione è il caso banale di un singolo nodo foglia senza rami . E 'più probabile che i dati saranno divise in due rami: . Approvati e negato
Metodi di calcolo selezionare l'attributo da utilizzare in ogni nodo della struttura sono estremamente complessi . Cercare l'attributo che predice più fortemente il risultato di destinazione. Intuitivamente , " reddito " sarebbe un candidato migliore per il nodo radice di "nome ".
5
rimuovere l'attributo radice dalla lista dei potenziali attributi da utilizzare per i nodi di filiale . Selezionare l'attributo rimanente con il maggior guadagno informazioni per assegnare ai nodi di filiale .
Nell'esempio corrente, i nodi ramo per ogni punto della struttura creano filiali di prestiti approvati e negata . Non ci può essere un qualsiasi numero di rami provenienti da un nodo di albero di decisione , a seconda di quanti possibili valori possono essere assegnati a l'attributo target .
6
Ripetere il processo lungo ogni ramo fino a raggiungere una foglia nodo in cui tutti i dati ha lo stesso valore per l' attributo target . La profondità massima dell'albero in qualsiasi punto sarà il numero totale di attributi individuati all'inizio .
E 'probabile che non ogni attributo è rilevante per la decisione in ogni ramo e così alcuni rami sarà più breve . Una volta completato l'albero , a piedi attraverso di essa per trovare le regole che ha derivate . Ad esempio , si potrebbe trovare che " un prestito sarà approvato se si dispone di un reddito elevato , alti risparmi e nessun debito . "
7
utilizzare i dati di prova stabiliti per convalidare l'albero creato . L' albero dovrebbe prevedere con precisione i risultati dei nuovi dati .