Dati Strategie Cleansing

I dati possono essere danneggiati in qualsiasi numero di modi , da errori di input dell'utente a differenze di formattazione . I duplicati sono uno dei problemi più comuni di dati in banche dati la maggior parte delle aziende. Il modo migliore per garantire l'accuratezza dei dati è quello di prevenire la corruzione , ma è bene avere un piano per far fronte a problemi di dati in caso di problemi . Duplicazione

duplicati può essere una cosa frustrante vedere come revisore dei dati . Spesso , una schermata di dati front-end non può prendere certi tipi di duplicati , per esempio, in una tabella di indirizzi , 123 Main Street e Garibaldi 123 può sembrare due indirizzi distinti , quando in realtà sono lo stesso indirizzo < . br>

Questo può essere risolto utilizzando uno dei due metodi : la rimozione o la correzione dei dati dati . Eliminazione dati significherebbe l'eliminazione di tutti, ma una istanza di una serie di duplicati , mentre la correzione dei dati sarebbe aggiornare tutte le istanze di duplicazione di un unico concordato valore . I pacchetti software sono disponibili che utilizzano un algoritmo per individuare i valori anomali sulla base di deviazione standard , i cluster o altri criteri , quindi i valori anomali vengono valutati da un esperto in materia che determina il destino della voce inaspettata .
Estratto , Transform , Load

Extract , Transform, Load , o ETF , è un metodo comunemente usato per spostare e pulire i dati . Anche se non si verifica la pulizia manuale , non ci sono attività automatizzate in fase di traduzione. Ad esempio, se la sorgente negozi tabella " M " e "F" e la tabella di destinazione archivia "maschio" e "femmina ", uno script viene eseguito di tradurre i dati per i nuovi valori .

Una volta che i dati viene pulita e convalidato , può essere importato nella tabella di destinazione . Essa può anche essere importati su i vecchi dati per sovrascrivere dati . Questo funziona bene quando un'intera colonna di dati in una tabella deve essere cambiato .
Aggiornamento Legacy Sistemi

Aggiornamento di un sistema legacy in genere comporta lo spostamento dei dati in una posizione intermedia , o area di sosta , dove poi subisce un processo automatizzato e manuale dei dati di pulizia rotonda . Questo viene fatto per evitare di commettere errori irreversibili ai dati legacy prima di importarlo nel nuovo sistema . Va notato che i dati preesistenti non dovrebbero essere aggiornati , secondo le informazioni - management.com , al fine di evitare di mantenere due set di dati separati . Va in pensione , invece, e il nuovo sistema dovrebbe essere l' unico utilizzato in futuro .

Previous ： Come minimizzare la duplicazione in un database relazionale

next ： Come eseguire un comando SQL in MyPhpAdmin