Gli errori possono essere effettuate durante la raccolta dei dati e l'integrazione , e gli analisti hanno bisogno di sapere come identificare e correggere questi errori . Questo è chiamato pulizia dati , o scrubbing dati . Questa non è una scienza esatta , e, talvolta, la decisione di cosa fare si basa sul giudizio dell'analista , tuttavia , sa che non solo è importante avere una quantità sufficiente di dati - deve essere di qualità rispettabile , troppo . Semantica e formattazione  
 Una operazione di pulizia di dati comune comporta la rimozione errori nella formattazione . Questo potrebbe essere qualcosa di semplice come errori ortografici fatte durante la raccolta dei dati o voce , fino a problemi con il simbolo usato per separare le voci . Per esempio , immaginate il seguente pezzo di dati è all'interno di un insieme di dati in cui un apostrofo è usato per separare le voci : 
 
 birdwatching ' Club'42 Beacon Street'Boston 
 
 Questo sarebbe stato letto come : 
 
 Uccello WatchersClub42 Beacon StreetBoston 
 
 query automatizzate e programmi sono spesso utilizzati per pulire i dati di questo errore . 
 Integrazione 
 
 Alcuni insiemi di dati sono benissimo da solo, ma diventano problematici , una volta che sono integrati in un repository più grande o di un data warehouse . Ad esempio , l'età può essere memorizzata come data di nascita : 
 
 gg /mm /YYMM /gg /aaaa 
 
 O per fascia : 
 
 20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45 
 
 In alcuni casi , come la data di nascita di formattazione , è abbastanza semplice da individuare strutture semantiche e standardizzare le voci . In casi come le fasce di età , tuttavia, le ipotesi devono essere fatte . Ad esempio , è il numero di persone di età compresa tra 25-35 la media delle persone di età compresa tra 20-30 e 30-40