* Datos estructurados: Estos son datos organizados en un formato predefinido, fácilmente accesible y analizado por los sistemas de bases de datos tradicionales. Los ejemplos incluyen:
* bases de datos relacionales (RDBMS): Datos almacenados en tablas con filas y columnas (por ejemplo, MySQL, PostgreSQL, Oracle, SQL Server).
* Hojas de cálculo: Datos organizados en filas y columnas (por ejemplo, archivos de Excel).
* CSV (valores separados por coma) Archivos: Archivos de texto simples con datos separados por comas.
* xml (lenguaje de marcado extensible) y archivos JSON (notación de objeto JavaScript): Datos formateados utilizando etiquetas o pares de valor clave.
* registros de transacción: Registros de transacciones comerciales.
* Datos semiestructurados: Datos que no se ajustan a una estructura de tabla rígida pero tienen algunas propiedades organizativas. Los ejemplos incluyen:
* bases de datos NoSQL: Tiendas de datos como MongoDB o Cassandra.
* Archivos de registro: Registros de eventos del sistema.
* archivos xml y json (cuando no se ajusta estrictamente a un esquema).
* Datos no estructurados: Estos son datos que carecen de un formato predefinido y es difícil de procesar utilizando métodos tradicionales. Los ejemplos incluyen:
* Archivos de texto: Documentos, correos electrónicos, publicaciones en redes sociales.
* Imágenes: Fotografías, escaneos.
* Archivos de audio: Grabaciones, podcasts.
* Archivos de video: Videos, grabaciones.
* Fuentes de datos externas: Datos obtenidos de fuera de la organización, como:
* API de terceros: Acceso a datos de otras compañías o servicios.
* conjuntos de datos públicos: Datos del gobierno, datos de investigación.
* Redes sociales: Datos raspados de las plataformas de redes sociales.
En resumen, la entrada puede variar desde datos altamente organizados y perfectamente empaquetados hasta información cruda y caótica. Las entradas específicas dependerán del negocio, las preguntas que se hacen y las capacidades del procesamiento de datos y las herramientas de BI que se utilizan. El proceso a menudo implica limpiar, transformar e integrar datos de múltiples fuentes antes de que pueda usarse de manera efectiva para el análisis y la toma de decisiones.