Computer Vision (CV)
Explora los fundamentos de la Visión por Computadora (CV). Aprende cómo Ultralytics YOLO26 y la Plataforma Ultralytics permiten la detección de objetos, la segmentación y mucho más.
La Visión artificial (CV) es un campo sofisticado de la Inteligencia artificial (IA) que permite a los ordenadores y sistemas obtener información significativa a partir de imágenes digitales, vídeos y otras entradas visuales. Mientras que la visión humana tiene la capacidad innata de percibir y comprender el entorno al instante, los ordenadores deben ser entrenados para reconocer patrones e interpretar píxeles. Aprovechando el Aprendizaje automático (ML) y, concretamente, los algoritmos de Aprendizaje profundo (DL), los sistemas de CV pueden tomar datos visuales, procesarlos y hacer recomendaciones o tomar medidas basadas en esa información.
Link to this sectionCómo funciona la Visión artificial#
En esencia, un ordenador ve una imagen como una matriz de valores numéricos que representan píxeles. La CV moderna depende en gran medida de las Redes neuronales convolucionales (CNN), que están diseñadas para imitar el patrón de conectividad de las neuronas en el cerebro humano. Estas redes aprenden a identificar una jerarquía de características, desde simples bordes y texturas hasta formas y objetos complejos, a través de un proceso llamado extracción de características.
Para funcionar eficazmente, estos modelos requieren grandes cantidades de datos de entrenamiento. Por ejemplo, para reconocer un coche, un modelo necesita procesar miles de imágenes etiquetadas de coches en diversas condiciones. Herramientas como la Ultralytics Platform optimizan este flujo de trabajo, permitiendo a los usuarios anotar conjuntos de datos, entrenar modelos en la nube y desplegarlos de forma eficiente.
Link to this sectionTareas principales en Visión artificial#
La visión artificial no es una única función, sino un conjunto de tareas distintas, cada una de las cuales resuelve un problema específico:
- Clasificación de imágenes: Esta tarea asigna una etiqueta de clase a una imagen completa, respondiendo a la pregunta: "¿Qué hay en esta imagen?" (p. ej., distinguir entre un gato y un perro).
- Detección de objetos: Yendo un paso más allá, la detección identifica objetos distintos dentro de una imagen y dibuja un bbox alrededor de ellos. Esto es crucial para contar elementos o localizar características específicas.
- Segmentación de instancias: Esto proporciona una máscara precisa a nivel de píxel para cada objeto detectado, separando instancias individuales de la misma clase. Es vital para aplicaciones que requieren alta precisión, como el análisis de imágenes médicas.
- Estimación de pose: Esto implica detectar puntos clave específicos en un objeto, como las articulaciones del cuerpo humano, para seguir el movimiento y la postura.
Link to this sectionAplicaciones en el mundo real#
La utilidad de la visión artificial abarca prácticamente todos los sectores, automatizando tareas que antes requerían ojos humanos.
- Fabricación y control de calidad: En entornos industriales, la CV suele denominarse Visión artificial. Se utiliza para automatizar la inspección de calidad, detectando defectos minúsculos en los productos de una cadena de montaje de forma más rápida y precisa que los inspectores humanos. Por ejemplo, la IA en la fabricación permite la supervisión en tiempo real de los equipos para evitar fallos.
- Transporte autónomo: Los coches autoconducidos dependen totalmente de la CV para navegar con seguridad. Al procesar las entradas de cámaras y sensores LiDAR, estos vehículos realizan Detección de objetos 3D para identificar peatones, otros vehículos y señales de tráfico en tiempo real. Este es un componente crítico para alcanzar altos niveles de automatización de vehículos.
- Sanidad y diagnóstico: Los radiólogos utilizan la CV como ayuda para identificar anomalías en radiografías, resonancias magnéticas y tomografías computarizadas. La IA en sanidad ayuda a detectar enfermedades de forma precoz, como la identificación de tumores, resaltando regiones de interés que podrían pasar desapercibidas al ojo humano.
Link to this sectionVisión artificial frente al procesamiento de imágenes#
Es importante distinguir la CV del Procesamiento de imágenes, aunque a menudo trabajen juntos.
- El Procesamiento de imágenes consiste en manipular una imagen para mejorarla o extraer información (p. ej., ajustar el brillo, el contraste o aplicar filtros como los de Adobe Photoshop). El resultado suele ser otra imagen.
- La Visión artificial toma una imagen como entrada y genera información o una interpretación (p. ej., "Hay tres personas en esta habitación"). La CV utiliza técnicas de procesamiento de imágenes para preparar las imágenes para su análisis por parte de Redes neuronales.
Link to this sectionImplementación de la Visión artificial con Python#
Las bibliotecas modernas han hecho accesible la implementación de potentes modelos de CV. El siguiente ejemplo demuestra cómo cargar el modelo de última generación YOLO26 para detectar objetos en una imagen utilizando el paquete ultralytics.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()Este sencillo script utiliza un modelo preentrenado para realizar tareas complejas de inferencia, lo que demuestra la accesibilidad de las herramientas de IA modernas. Para los desarrolladores que buscan ir más allá de las imágenes estáticas, la CV también impulsa la Comprensión de vídeo y los sistemas de seguimiento en tiempo real utilizados en seguridad y análisis deportivo. Al integrarse con bibliotecas como OpenCV, los desarrolladores pueden crear aplicaciones completas que capturen, procesen y analicen el mundo visual.






