Dati Teorie pulizia

Gli errori possono essere effettuate durante la raccolta dei dati e l'integrazione , e gli analisti hanno bisogno di sapere come identificare e correggere questi errori . Questo è chiamato pulizia dati , o scrubbing dati . Questa non è una scienza esatta , e, talvolta, la decisione di cosa fare si basa sul giudizio dell'analista , tuttavia , sa che non solo è importante avere una quantità sufficiente di dati - deve essere di qualità rispettabile , troppo . Semantica e formattazione

Una operazione di pulizia di dati comune comporta la rimozione errori nella formattazione . Questo potrebbe essere qualcosa di semplice come errori ortografici fatte durante la raccolta dei dati o voce , fino a problemi con il simbolo usato per separare le voci . Per esempio , immaginate il seguente pezzo di dati è all'interno di un insieme di dati in cui un apostrofo è usato per separare le voci :

birdwatching ' Club'42 Beacon Street'Boston

Questo sarebbe stato letto come :

Uccello WatchersClub42 Beacon StreetBoston

query automatizzate e programmi sono spesso utilizzati per pulire i dati di questo errore .
Integrazione

Alcuni insiemi di dati sono benissimo da solo, ma diventano problematici , una volta che sono integrati in un repository più grande o di un data warehouse . Ad esempio , l'età può essere memorizzata come data di nascita :

gg /mm /YYMM /gg /aaaa

O per fascia :

20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45

In alcuni casi , come la data di nascita di formattazione , è abbastanza semplice da individuare strutture semantiche e standardizzare le voci . In casi come le fasce di età , tuttavia, le ipotesi devono essere fatte . Ad esempio , è il numero di persone di età compresa tra 25-35 la media delle persone di età compresa tra 20-30 e 30-40

Previous ： Aggiunta di Evernote per iCal

next ： Funzioni analitiche di SQLite

Articoli Correlati

·	Note di chiusura vs . Reggilibri
·	Posso installare 32 bit di Oracle Client su Linux a 64 …
·	Che cosa è un Web Matrix
·	Come costruire un server SMS
·	Vantaggi e svantaggi di Oracle SQL
·	Come accedere jolly query
·	DB2 GUI Tools
·	I vantaggi di Creazione di un report in visualizzazione…
·	Come avviare SQL in modalità utente singolo
·	Business Objects XI SP4 Procedure di aggiornamento

Articoli in evidenza

·	Come creare una partizione su un esistente Drive
·	Come trasferire Quicken un altro computer
·	Come fare un backup di AVG Antivirus Definizioni
·	Istruzioni per la versione più recente di Microsoft Ex…
·	GIMP non utilizzare i livelli ?
·	Come utilizzare EasyTune 5 per regolare la velocità de…
·	ISO Tools Compressione
·	Come ottenere Word testo nascosto di mostrare in un PDF…
·	Come masterizzare giochi video su un DVD
·	Come utilizzare McAfee VirusScan USB