Descubra cómo el reconocimiento de imágenes permite a la IA classify y comprender imágenes, impulsando la innovación en los sectores de la sanidad, el comercio minorista y la seguridad, entre otros.
El reconocimiento de imágenes es una tecnología fundamental dentro del campo más amplio de la visión artificial (CV) que permite a los sistemas de software identificar objetos, personas, lugares y texto dentro de imágenes digitales. Mediante el análisis del contenido de píxeles de una imagen o fotograma de vídeo, esta tecnología intenta imitar las capacidades de percepción visual del ojo y el cerebro humanos. Impulsado por la inteligencia artificial (IA), el reconocimiento de imágenes transforma datos visuales no estructurados en información estructurada y procesable, lo que sirve como base para la automatización en industrias que van desde la atención médica hasta el transporte autónomo.
Los sistemas modernos de reconocimiento de imágenes han superado la programación tradicional basada en reglas para apoyarse en gran medida en algoritmos de aprendizaje profundo (DL). La arquitectura más utilizada para estas tareas es la red neuronal convolucional (CNN). Una CNN procesa las imágenes como una cuadrícula de valores, que suelen representar los canales de color rojo, verde y azul (RGB), y las pasa por múltiples capas de operaciones matemáticas.
Durante este proceso, la red realiza la extracción de características. Las capas iniciales pueden detect patrones geométricos detect , como bordes o esquinas, mientras que las capas más profundas agregan estos patrones para reconocer estructuras complejas, como ojos, ruedas u hojas. Para lograr una alta precisión, estos modelos requieren grandes cantidades de datos de entrenamiento etiquetados. Conjuntos de datos públicos a gran escala, como ImageNet, ayudan a los modelos a aprender la probabilidad estadística de que una disposición visual específica se corresponda con un concepto como «gato», «bicicleta» o «señal de stop ».
Aunque el término «reconocimiento de imágenes» se utiliza a menudo como una expresión genérica, se diferencia de otras tareas específicas de visión artificial. Comprender estos matices es fundamental para seleccionar el modelo adecuado para un proyecto:
La utilidad del reconocimiento de imágenes abarca prácticamente todos los sectores en los que se generan datos visuales.
Para los desarrolladores e investigadores, la implementación del reconocimiento de imágenes se ha vuelto mucho más accesible con
modelos de última generación como YOLO26, que admite
clasificación, detección y segmentación de forma nativa. El siguiente ejemplo muestra cómo realizar el reconocimiento
(concretamente, la detección de objetos) en una imagen utilizando el ultralytics Paquete Python .
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
Para los equipos que desean anotar sus propios conjuntos de datos y entrenar modelos personalizados en la nube, la Ultralytics ofrece un entorno optimizado para gestionar todo el ciclo de vida de un proyecto de reconocimiento de imágenes, desde la recopilación de datos hasta la implementación.
A medida que aumenta la potencia informática, el reconocimiento de imágenes está evolucionando hacia la comprensión de vídeos, en la que los sistemas analizan el contexto temporal entre fotogramas. Además, la integración de la IA generativa está permitiendo a los sistemas no solo reconocer imágenes, sino también generar descripciones textuales detalladas de las mismas, lo que reduce la brecha entre el procesamiento del lenguaje natural (NLP) y la visión.