Actividades clave dentro de la etapa de procesamiento de datos:
* Limpieza de datos: Esta es a menudo la parte más lenta. Implica identificar y corregir o eliminar datos inexactos, incompletos, irrelevantes, duplicados o inconsistentes. Las técnicas incluyen el manejo de valores faltantes (imputación o eliminación), suavizar datos ruidosos y resolver inconsistencias.
* Transformación de datos: Esta etapa se centra en convertir los datos en un formato más adecuado para el análisis. Las transformaciones comunes incluyen:
* Conversión de tipo de datos: Cambiar los datos de un tipo a otro (por ejemplo, cadena a numérica).
* Agregación de datos: Combinando datos de múltiples fuentes en estadísticas resumidas (por ejemplo, calcular promedios, sumas, recuentos).
* Normalización de datos: Escala de datos a un rango específico para evitar características con valores más grandes para dominar el análisis.
* Ingeniería de características: Creación de nuevas características de las existentes para mejorar la precisión del modelo (por ejemplo, combinar funciones de fecha y hora para crear una función de día de la semana).
* Reducción de datos: Esto tiene como objetivo reducir el tamaño del conjunto de datos al tiempo que preserva información importante. Las técnicas incluyen:
* Reducción de dimensionalidad: Reducción del número de variables (características) mientras retiene la mayor parte de la información relevante. El análisis de componentes principales (PCA) es un método común.
* Reducción de numerosidad: Reemplazo de datos con representaciones más pequeñas (por ejemplo, utilizando modelos paramétricos o histogramas).
* Compresión de datos: Reducción del espacio de almacenamiento requerido para los datos.
* Integración de datos: Combinando datos de múltiples fuentes en una vista unificada. Esto requiere un manejo cuidadoso de inconsistencias y posibles redundancias.
* Validación de datos: Verificar la precisión y consistencia de los datos procesados para garantizar que cumpla con los estándares de calidad. Esto podría implicar comparar los datos procesados con los datos de origen o usar reglas de validación.
La salida de la etapa de procesamiento de datos:
El resultado es un conjunto de datos limpio, consistente y transformado que está listo para un análisis posterior, modelado o visualización. Estos datos procesados generalmente se almacenan en un almacén de datos o el lago de datos para facilitar el acceso y la recuperación.
Los pasos y técnicas específicas utilizadas en la etapa de procesamiento de datos dependen en gran medida del tipo de datos, los objetivos del análisis y las herramientas y recursos disponibles. A menudo es un proceso iterativo, que requiere múltiples pases a través de los diferentes pasos para lograr el nivel deseado de calidad y idoneidad de los datos.