La potenza di elaborazione dei computer permette ai ricercatori e alle aziende di analizzare i dati in modi più complessi che mai. Il data mining è il processo di tentare di trovare informazioni utili in grandi insiemi di dati . Processo di ETL di data mining si riferisce ai passi con cui i dati vengono registrati , codificato e scritto in un database per una successiva analisi . Definizioni
Il data mining è definita come il processo di analisi dei dati e l'aggregazione in informazioni che possono essere destinate a scopi utili . Il processo di data mining consiste nel trovare modelli in insiemi di dati che forniscono informazioni categorico su come è organizzato il set di dati . Il data mining può essere utilizzato per analizzare il rapporto tra quasi tutte le variabili misurabili ; alcune applicazioni del mondo reale del data mining includono l'analisi delle strategie di marketing , processi di produzione e le tendenze comportamentali umani . Il termine ETL è l'acronimo di estrazione, trasformazione e caricamento . Estrarre, trasformare e caricare fare riferimento ai tre processi attraverso i quali un sistema di database viene creato per l'analisi.
Estrazione
Il primo passo nella creazione di un magazzino dati che possono essere minato per l'analisi è quello di estrarre i dati dalla fonte originale. Procedure di estrazione variano a seconda del tipo di dati che vengono estratti . A volte l'estrazione comporta l'individuazione e il recupero di un sottoinsieme di dati da una o più banche dati già esistenti . In altri casi , il processo di estrazione richiede ricerche originali , come la ricerca sul Web per i siti che contengono informazioni rilevanti .
Transform
volta che i dati appropriati si trova nel il processo di estrazione dati che poi deve essere manipolato in modo che possa essere memorizzato in un database per la successiva analisi. Il processo di modifica dei dati dalla sua forma originale per una forma regolarizzata è detta trasformazione. Trasformazione può coinvolgere qualsiasi numero di modifiche apportate ai dati , comprese le funzioni relativamente semplici come la conversione di lettere in minuscolo e la rimozione di segni di punteggiatura da stringhe di caratteri . Il processo di trasformazione può anche includere procedure più complesse, come l'esecuzione di funzioni aritmetiche su valori di origine , l'ordinamento dei dati e verificare la validità dei dati di origine . L' obiettivo della fase di trasformazione è quello di prendere i dati di estrazione non raffinati e trasformarlo in dati utili per gli obiettivi del progetto di data mining .
Carico
volta i dati vengono trasformati nel formato appropriato , esso deve essere immagazzinato in un deposito di dati . La fase di carico si riferisce al processo per cui trasformate vengono registrati dati a banche dati . Una volta che le informazioni vengono memorizzate nel database, può essere sottoposto ad analisi qualitativa e quantitativa per la ricerca di modelli di interesse .