“Conocimientos software>Software de base de datos

Limpieza de datos Métodos

2012/1/25
Limpieza de datos - también conocida como la limpieza o lavado de datos - es el proceso de detección y corrección de errores, inconsistencias y omisiones en los datos. Se recogen enormes cantidades de datos y analizados por los políticos, los economistas y los científicos , pero los errores en los datos - que puede afectar a su proceso y las conclusiones extraídas de ella - son comunes y que se pueden esperar . Existen varios métodos de limpieza de datos , tanto tradicionales como en automático. Métodos
métodos estadísticos

estadísticos se pueden utilizar para auditar los datos y corregir errores de datos , incluso compleja. Un estadístico puede analizar la media, la desviación estándar y el rango de valores de datos y , al hacerlo así , identificar los registros de base de datos individuales ( tuplas ) que no son válidos . Estos registros pueden ser borrados o reemplazados por un valor estadístico medio u otro . Métodos estadísticos de limpieza de datos también pueden indicar los valores perdidos , que puede ser llenado con los valores posibles en función del resto del conjunto de datos.
Limpieza de datos Herramientas

Data herramientas de limpieza han existido durante varios años . Los datos automatizados de limpieza herramientas suelen centrarse en un dominio específico de base de datos - que define los posibles valores que se pueden introducir en cada campo o atributo - como el nombre y los datos de dirección . Por lo general utilizan un conjunto de reglas de coincidencia de una biblioteca , o suministrados interactivamente por el usuario, para validar los nombres de las calles , nombres de ciudades y códigos postales y transformar los datos existentes en elementos individuales, estándar. Utilizan registro coincidente para determinar si dos registros representan datos sobre el mismo tema y son capaces de combinar los individuos registros que tienen , por ejemplo, la misma dirección . Limpieza de datos herramientas pueden variar en el nivel de sofisticación en materia de auditoría de datos , la limpieza y la migración.
ETL Herramientas

ETL significa " Extract, Transform , Load " y hay muchas herramientas de software comerciales diseñadas para ayudar al proceso ETL de limpieza de datos . Las características más importantes de una herramienta ETL eficaz es su capacidad para leer los datos de origen directamente y para limpiar y transformar los datos , así como su apoyo a los metadatos . Los metadatos son la documentación o información sobre un elemento específico de datos y puede ayudar a un usuario para detectar errores e inconsistencias en los datos que pueden no necesariamente ser identificados por la propia herramienta ETL . Herramientas ETL suelen proporcionar una biblioteca de funciones y esquemas para la transformación de datos - conversiones de tipos de datos , funciones aritméticas, funciones de cadena , etc - y pueden extraer datos de fuentes de datos de forma libre , con algunas limitaciones , así como a través de ODBC estándar ( " Open Database Connectivity " ) y ( " Electronic Design Automation ") interfaces de EDA .

Software de base de datos
Cómo leer un archivo DB
Cómo recuperar datos de una base de datos Access
Cómo usar Base de datos para copiar bases de datos en Oracle
Ventajas y desventajas de la normalización de una base de datos
¿Cómo subir un extracto de cuenta en una base de datos Access
Cómo instalar varios usuarios de Office 2007
Tipos Oportunidad Salesforce
¿Cómo puedo encontrar los errores de Oracle Fallas de empleo
Conocimientos Informáticos © http://www.ordenador.online