Gli errori possono essere effettuate durante la raccolta dei dati e l'integrazione , e gli analisti hanno bisogno di sapere come identificare e correggere questi errori . Questo è chiamato pulizia dati , o scrubbing dati . Questa non è una scienza esatta , e, talvolta, la decisione di cosa fare si basa sul giudizio dell'analista , tuttavia , sa che non solo è importante avere una quantità sufficiente di dati - deve essere di qualità rispettabile , troppo . Semantica e formattazione
Una operazione di pulizia di dati comune comporta la rimozione errori nella formattazione . Questo potrebbe essere qualcosa di semplice come errori ortografici fatte durante la raccolta dei dati o voce , fino a problemi con il simbolo usato per separare le voci . Per esempio , immaginate il seguente pezzo di dati è all'interno di un insieme di dati in cui un apostrofo è usato per separare le voci :
birdwatching ' Club'42 Beacon Street'Boston
Questo sarebbe stato letto come :
Uccello WatchersClub42 Beacon StreetBoston
query automatizzate e programmi sono spesso utilizzati per pulire i dati di questo errore .
Integrazione
Alcuni insiemi di dati sono benissimo da solo, ma diventano problematici , una volta che sono integrati in un repository più grande o di un data warehouse . Ad esempio , l'età può essere memorizzata come data di nascita :
gg /mm /YYMM /gg /aaaa
O per fascia :
20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45
In alcuni casi , come la data di nascita di formattazione , è abbastanza semplice da individuare strutture semantiche e standardizzare le voci . In casi come le fasce di età , tuttavia, le ipotesi devono essere fatte . Ad esempio , è il numero di persone di età compresa tra 25-35 la media delle persone di età compresa tra 20-30 e 30-40