Quando l'analisi dei dati , non è solo necessario avere una grande quantità sufficiente , ma è anche fondamentale che la qualità dei dati è di alto livello . I dati possono essere resi "sporco" in vari modi - errori durante la raccolta , gli errori fatti durante l'integrazione di più set di dati e la cancellazione accidentale sono solo alcuni di tali modi . A causa di questo , è importante che i dati viene pulita prima dell'uso . Dati mancanti
procedure automatizzate
sono spesso utilizzati per trovare i dati mancanti . Queste potrebbero essere le query SQL in un database , o analisi statistiche. Come analista cercate modelli nella diffusione dei dati mancanti . È quindi prendere decisioni su cosa fare , che può essere escluso alcune variabili del tutto, o sostituendo i valori con le medie . A volte i dati mancanti possono indicare errori durante l'integrazione di più set di dati , e nel peggiore dei casi l'intero processo può essere ripetuto per ottenere tutti i dati .
Valori anomali
< p > un valore anomalo è un valore di dati che è senso esterna del modello generale dei dati . Essi possono essere identificati con i grafici , come boxplot , o con la ricerca di valori di un certo numero di deviazioni standard dalla media . Una volta identificato, è necessario decidere se rimuovere o meno - che coinvolge decidere se fossero errori nella raccolta dei dati , o di veri valori. A volte , si potrebbe scegliere di eseguire determinate procedure con e senza valori anomali , per confrontare i risultati .