¿Qué es la anotación de la imagen?

2015/6/25

La anotación de imágenes es el proceso de agregar información a las imágenes para que las computadoras sean más comprensibles. Esta información suele ser en forma de etiquetas, cajas delimitadoras, polígonos, máscaras de segmentación semántica u otros metadatos. El objetivo es entrenar modelos de visión por computadora para reconocer objetos, escenas y actividades dentro de las imágenes.

Aquí hay un desglose de los diferentes tipos de anotación de imágenes:

* Cajas delimitadoras: Una caja rectangular dibujada alrededor de un objeto de interés. Esta es una forma de anotación común y relativamente simple. Identifica la ubicación del objeto pero no proporciona información de forma detallada.

* polígonos: Más precisos que las cajas delimitadoras, los polígonos trazan el contorno de un objeto, capturando su forma con mayor precisión. Esto es útil para objetos con formas irregulares.

* segmentación semántica: Esto asigna una etiqueta a cada píxel de la imagen, clasificando cada píxel como perteneciente a un objeto o clase específico. Esto proporciona la información más detallada sobre el contenido de la imagen.

* puntos de referencia/keyPoints: Esto implica marcar puntos específicos en un objeto (por ejemplo, las esquinas de un automóvil, los ojos y la nariz de una cara). Esto a menudo se usa para la estimación de pose y el reconocimiento facial.

* Cuboids (cajas limitantes 3D): Se utiliza para la detección de objetos 3D, especificando la ubicación y las dimensiones del objeto en el espacio tridimensional.

* subtitulación/transcripción: Agregar descripciones textuales a las imágenes, resumir el contenido o proporcionar contexto.

* Clasificación de imagen: Asignando una sola etiqueta a una imagen completa, describiendo su contenido general.

El tipo de anotación utilizada depende de la aplicación específica y del nivel de detalle deseado. Por ejemplo, un automóvil autónomo puede requerir segmentación semántica para identificar con precisión las marcas viales y los peatones, mientras que una búsqueda de imágenes de producto solo puede necesitar cajas delimitadoras. Las imágenes anotadas se convierten en los datos de entrenamiento para los algoritmos de aprendizaje automático utilizados en la detección de objetos, la clasificación de imágenes y otras tareas de visión por computadora.