Datos Teorías de limpieza

se pueden cometer errores durante la recolección e integración de datos , y los analistas necesitan saber cómo identificar y corregir estos errores. Esto se denomina depuración de los datos , o de la depuración de datos . Esto no es una ciencia exacta , y, a veces la decisión de qué hacer se basa en el juicio del analista , sin embargo , sabe que no sólo es importante contar con una cantidad suficiente de datos - debe ser de una calidad de buena reputación , también . Semántica y formato

Una tarea común de limpieza de datos implica la eliminación de errores en el formateo. Esto podría ser algo tan simple como faltas de ortografía hechos durante la recolección o entrada de datos, hasta problemas con el símbolo que se utiliza para separar las entradas . Por ejemplo , imagine la siguiente pieza de información está dentro de un conjunto de datos en un apóstrofe se utiliza para separar las entradas : Club'42 Beacon Street'Boston

Bird Watchers " Esto se lee como :

Bird WatchersClub42 Beacon StreetBoston

consultas y programas automatizados a menudo se utilizan para limpiar los datos de este error.
Integración

Algunos conjuntos de datos son bien solo, pero se vuelven problemáticos una vez que se integran en un repositorio más grande o un almacén de datos . Por ejemplo , la edad se puede almacenar como fecha de nacimiento:

dd /mm /YYMM /dd /aaaa

o por rango :

20-30, 30-40 , 40-5015-25 , 25-35 , 35-45

En algunos casos, como el formato de fecha de nacimiento, que es bastante fácil de identificar las estructuras semánticas y estandarizar las entradas. En casos como los rangos de edad , sin embargo , hay que hacer hipótesis . Por ejemplo , es el número de personas de 25-35 el promedio de las personas de 20-30 y 30-40 años de edad

Outliers

Outliers son ? puntos de datos que se encuentran muy lejos de el resto de los datos . Por ejemplo, una edad de 600 , o una puntuación de la prueba varias veces superior a la media . En el primer caso , se puede asumir con seguridad que era un error , pero en el segundo no es tan obvio. Cuando usted no sabe si una de las demás es un error o un punto de datos legítima , es su juicio si retirar o no, teniendo en cuenta la finalidad de los datos.
Faltan datos

También debe decidir qué hacer si algún dato falta . En primer lugar , los patrones deben ser identificados mediante consultas y análisis estadísticos - la distribución de los datos que faltan determina lo que debe hacer . Por ejemplo, si una encuesta en línea tiene dos páginas, pero sólo fueron contestadas las preguntas en la primera página, esta información puede ser utilizada para ayudar a refinar las formas . Si los datos faltantes se distribuyen al azar y se encuentra en la misma variable , a veces es posible hacer estimaciones sobre la base de lo que ya se conoce.