pulizia dei dati - altrimenti noto come la pulizia o lavaggio di dati - è il processo di individuare e correggere gli errori , le incongruenze e omissioni nei dati . Grandi quantità di dati raccolti e analizzati da politici, economisti e scienziati , ma errori nei dati - che possono influire sulla sua lavorazione e le conclusioni tratte da esso - sono comuni e che si possono attendere . Ci sono diversi metodi di pulizia dei dati , sia tradizionali e automatizzati . Metodi statistici
metodi statistici
possono essere utilizzati per controllare i dati e correggere anche complesse errore di dati . Uno statistico può analizzare la media, la deviazione standard e la gamma di valori di dati e , così facendo , di identificare i record del database singole ( tuple ) che non sono validi . Questi record possono essere eliminati o sostituiti da un valore medio statistico o altro . Metodi statistici di pulizia dei dati possono anche indicare i valori mancanti , che possono essere riempiti con i valori plausibili basate sul resto del set di dati .
Data Cleansing Strumenti
Dati strumenti di pulizia sono esistiti per un certo numero di anni. Automatizzato di dati strumenti di pulizia in genere si concentrano su un dominio specifico di database - che definisce i possibili valori che possono essere inseriti in ogni campo , o attributo - come il nome e dati degli indirizzi . Si utilizzano in genere un insieme di regole di corrispondenza da una libreria , o forniti in modo interattivo dall'utente , per convalidare i nomi delle strade , nomi di città e codici di avviamento postale e di trasformare i dati esistenti in singoli elementi standard . Usano record corrispondente per determinare se due record rappresentano i dati sullo stesso argomento e sono in grado di combinare singoli record che hanno , per esempio, lo stesso indirizzo . Dati strumenti di pulizia possono variare nel livello di sofisticazione per quanto riguarda i dati di auditing , la pulizia e la migrazione .
ETL Tools
ETL sta per " Extract, Transform , Load " e ci sono molti strumenti software commerciali progettate per aiutare il processo di ETL di pulizia dei dati . Le caratteristiche importanti di un efficace strumento di ETL è la sua capacità di leggere direttamente i dati di origine e di purificare e trasformare i dati , insieme con il suo supporto per metadati . I metadati sono documentazione o informazioni su una parte specifica di dati e può aiutare un utente a rilevare gli errori e incongruenze nei dati che non può , necessariamente , essere identificati dallo strumento ETL stesso. Strumenti di ETL in genere forniscono una libreria di funzioni e schemi per la trasformazione di dati - le conversioni del tipo di dati , funzioni aritmetiche , funzioni stringa , ecc - e in grado di estrarre i dati da origini dati in formato libero , con alcune limitazioni , così come attraverso lo standard ODBC ( " Open Database Connectivity " ) e EDA ( " Electronic Design Automation " ) interfacce.