Data warehouse e strumenti di data mining rendono facile da estrarre e analizzare enormi volumi di informazioni , ma la qualità dell'analisi è solo buono come la qualità dei dati . Il primo passo in ogni studio di ricerca o di progetto di data warehousing deve essere una valutazione della qualità dei dati che entrano nel progetto . Misure per la completezza , la validità e la coerenza tutto fattore in questa valutazione . Per sviluppare metriche di qualità dei dati , è necessario seguire alcuni passaggi . Istruzioni
1
sviluppare un quadro per la misurazione della qualità dei dati. Creare spazio in ogni database in cui i risultati dei controlli di qualità possono essere memorizzati . Sviluppare relazioni o dashboard da questi dati .
2
Misura la completezza dei dati . Scegli elementi chiave per ogni database e contare la percentuale di valori nulli , i campi vuoti o valori che rappresentano i dati non disponibili o sconosciuti .
3
Misura percentuali di valori consentiti . Quando un campo ha un numero di valori di codice predefiniti , misurare la distribuzione di questi valori contro il numero di valori errati e mancanti . Analizzare queste distribuzioni per determinare se alcuni codici appaiono troppo spesso . Se è così, questo valore può avere bisogno di essere suddiviso per fornire una migliore descrizione . Ad esempio, se le risposte sono nero, bianco e colore e 98 % delle risposte sono il colore, che potrebbe dare un senso di sostituire il colore con il rosso, blu o verde .
4
Verifica dei valori ragionevoli . Misure numeriche di solito appaiono entro un intervallo consentito . Per esempio , una temperatura tempo misurazione quotidiana Fahrenheit corrisponde in genere a un valore da circa -40 a 120 . Qualsiasi valore al di fuori di tale intervallo non è probabilmente valido .
5
Confronta i valori all'interno dello stesso record per coerenza. Se la temperatura era di 90 gradi Fahrenheit e il valore di precipitazione è neve , uno dei due valori è probabilmente errata.
6
verificare la coerenza tra i record correlati . Utilizzare analoghi controlli di coerenza tra i record nelle relazioni padre-figlio e all'interno di elementi figlio multipli. Capogruppo e le relazioni bambino sono collegamenti tra elementi di database . Per esempio, in una serie di articoli relativi al tempo , se una serie di misurazioni di temperatura oraria lista temperature in costante aumento da 50 a 70 gradi per tutta la mattinata , ma il 10:00 lettura è -20 , questo valore è probabilmente in errore.
Pagina 7
creare report , dashboard o notifiche sulla base dei dati raccolti . Riepiloga per organizzativa del gruppo , fornitore o cliente tipo con capacità di drill-down per elementi di dati specifici . Analizzare i dati per determinare dove si verificano gli errori e che cosa si può fare per migliorare la qualità dei dati.
8
Migliorare la qualità dei dati. Rivedere le regole di business , software di riparazione di respingere i dati cattivi , informare i clienti di problemi di dati e di trovare il modo di premiare iniziative di qualità . Monitorare tali misure nel tempo.