¡Desbloquee el potencial de la IA con la visión artificial! Explore su papel en la detección de objetos, la atención médica, los coches autónomos y mucho más. ¡Obtenga más información ahora!
La visión por ordenador (CV) es un campo transformador de la inteligencia artificial (IA) que permite a los ordenadores percibir, interpretar y comprender el mundo visual. Al procesar imágenes digitales, vídeos y y otras entradas visuales, las máquinas pueden extraer información significativa y actuar o hacer recomendaciones basadas en ese análisis. análisis. Mientras que la visión humana se basa en el ojo y el cerebro para contextualizar el entorno al instante, la visión por ordenador emplea software avanzado y algoritmos algoritmos de aprendizaje automático para reproducir esta capacidad, lo que permite a los sistemas automatizar tareas que antes requerían la vista humana.
En esencia, la visión por ordenador se basa en técnicas de reconocimiento de patrones para visuales. Los primeros intentos implicaban la codificación manual de reglas para definir objetos, pero la CV moderna está impulsada por aprendizaje profundo (DL) y grandes cantidades de datos entrenamiento. La arquitectura más utilizada hoy en día es la Convolutional Neural Network (CNN), que procesa las imágenes píxel a píxel. Estas redes identifican características de bajo nivel como bordes y texturas en las capas iniciales y las combinan para reconocer conceptos complejos -como caras o vehículos- en capas más profundas. Este proceso Este proceso requiere enormes conjuntos de datos etiquetados para enseñar al modelo a distinguir eficazmente entre distintas categorías. distinguir eficazmente entre distintas categorías.
La visión por ordenador no es una acción única, sino un conjunto de tareas específicas que resuelven problemas diferentes:
Es frecuente confundir la visión por ordenador con el procesamiento digital de imágenes, pero tienen objetivos distintos. El procesamiento de imágenes se centra en la manipulación de una imagen de entrada para mejorar su calidad o extraer información, sin necesariamente "comprenderla". o extraer información sin "comprenderla" necesariamente. Algunos ejemplos comunes son el ajuste del brillo aplicar filtros o reducir el ruido. Por el contrario, La CV se centra en la comprensión de la imagen, cuyo objetivo es emular la cognición humana para interpretar lo que representa la imagen.
La utilidad de la visión por ordenador se extiende a prácticamente todas las industrias, impulsando la eficiencia y la seguridad:
Los desarrolladores pueden implementar potentes tareas de visión por ordenador utilizando el ultralytics paquete Python . El ejemplo
siguiente muestra cómo cargar el paquete Modelo YOLO11-la última
versión estable recomendada para todos los casos de uso estándar- para detect objetos en una imagen.
from ultralytics import YOLO
# Load the pretrained YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results to see bounding boxes and labels
results[0].show()
El ecosistema CV se apoya en sólidas bibliotecas de código abierto. OpenCV es una biblioteca fundamental que proporciona miles de algoritmos para visión por ordenador en tiempo real. Para crear y entrenar modelos de aprendizaje profundo, existen marcos como PyTorch y TensorFlow son estándares de la industria. Ultralytics se basa en estos fundamentos para proporcionar modelos de última generación que son fáciles de implementar. De cara al futuro, la plataforma PlataformaUltralytics proporciona un para gestionar todo el ciclo de vida de Vision AI, desde la gestión de datos hasta su despliegue.