Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Visión Artificial (CV)

¡Desbloquee el potencial de la IA con la visión artificial! Explore su papel en la detección de objetos, la atención médica, los coches autónomos y mucho más. ¡Obtenga más información ahora!

La visión por ordenador (CV) es un campo transformador de la inteligencia artificial (IA) que permite a los ordenadores percibir, interpretar y comprender el mundo visual. Al procesar imágenes digitales, vídeos y y otras entradas visuales, las máquinas pueden extraer información significativa y actuar o hacer recomendaciones basadas en ese análisis. análisis. Mientras que la visión humana se basa en el ojo y el cerebro para contextualizar el entorno al instante, la visión por ordenador emplea software avanzado y algoritmos algoritmos de aprendizaje automático para reproducir esta capacidad, lo que permite a los sistemas automatizar tareas que antes requerían la vista humana.

Cómo funciona la visión artificial

En esencia, la visión por ordenador se basa en técnicas de reconocimiento de patrones para visuales. Los primeros intentos implicaban la codificación manual de reglas para definir objetos, pero la CV moderna está impulsada por aprendizaje profundo (DL) y grandes cantidades de datos entrenamiento. La arquitectura más utilizada hoy en día es la Convolutional Neural Network (CNN), que procesa las imágenes píxel a píxel. Estas redes identifican características de bajo nivel como bordes y texturas en las capas iniciales y las combinan para reconocer conceptos complejos -como caras o vehículos- en capas más profundas. Este proceso Este proceso requiere enormes conjuntos de datos etiquetados para enseñar al modelo a distinguir eficazmente entre distintas categorías. distinguir eficazmente entre distintas categorías.

Tareas básicas en visión por ordenador

La visión por ordenador no es una acción única, sino un conjunto de tareas específicas que resuelven problemas diferentes:

  • Detección de objetos: Esta tarea consiste en identificar y localizar objetos dentro de una imagen o flujo de vídeo. Dibuja alrededor de los objetos detectados y les asigna una etiqueta de clase, como "persona" o "bicicleta".
  • Clasificación de imágenes: El sistema sistema analiza una imagen completa y le asigna una etiqueta única en función de su contenido dominante. Por ejemplo clasificar una foto como "paisaje" o "retrato".
  • Segmentación de instancias: Más allá de la detección que la detección, identifica el contorno preciso de píxeles de cada objeto, separando las instancias individuales de la misma clase del fondo. misma clase del fondo.
  • Estimación de la pose: Esta técnica detecta puntos clave específicos de una figura, como las articulaciones de un cuerpo humano, para track el movimiento y la postura en tiempo real.

Visión Artificial vs. Procesamiento de Imágenes

Es frecuente confundir la visión por ordenador con el procesamiento digital de imágenes, pero tienen objetivos distintos. El procesamiento de imágenes se centra en la manipulación de una imagen de entrada para mejorar su calidad o extraer información, sin necesariamente "comprenderla". o extraer información sin "comprenderla" necesariamente. Algunos ejemplos comunes son el ajuste del brillo aplicar filtros o reducir el ruido. Por el contrario, La CV se centra en la comprensión de la imagen, cuyo objetivo es emular la cognición humana para interpretar lo que representa la imagen.

Aplicaciones en el mundo real

La utilidad de la visión por ordenador se extiende a prácticamente todas las industrias, impulsando la eficiencia y la seguridad:

Implementación de la visión por ordenador con YOLO11

Los desarrolladores pueden implementar potentes tareas de visión por ordenador utilizando el ultralytics paquete Python . El ejemplo siguiente muestra cómo cargar el paquete Modelo YOLO11-la última versión estable recomendada para todos los casos de uso estándar- para detect objetos en una imagen.

from ultralytics import YOLO

# Load the pretrained YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results to see bounding boxes and labels
results[0].show()

Herramientas y bibliotecas clave

El ecosistema CV se apoya en sólidas bibliotecas de código abierto. OpenCV es una biblioteca fundamental que proporciona miles de algoritmos para visión por ordenador en tiempo real. Para crear y entrenar modelos de aprendizaje profundo, existen marcos como PyTorch y TensorFlow son estándares de la industria. Ultralytics se basa en estos fundamentos para proporcionar modelos de última generación que son fáciles de implementar. De cara al futuro, la plataforma PlataformaUltralytics proporciona un para gestionar todo el ciclo de vida de Vision AI, desde la gestión de datos hasta su despliegue.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora