Explora los fundamentos de la visión artificial (CV). Descubre cómo Ultralytics y la Ultralytics permiten la detección de objetos, la segmentación y mucho más.
La visión artificial (CV) es un sofisticado campo de la inteligencia artificial (IA) que permite a los ordenadores y sistemas obtener información significativa a partir de imágenes digitales, vídeos y otras entradas visuales. Mientras que la visión humana tiene la capacidad innata de percibir y comprender el entorno al instante, los ordenadores deben ser entrenados para reconocer patrones e interpretar píxeles. Al aprovechar el aprendizaje automático (ML) y, en concreto, los algoritmos de aprendizaje profundo (DL), los sistemas de CV pueden tomar datos visuales, procesarlos y hacer recomendaciones o tomar medidas basadas en esa información.
En esencia, un ordenador ve una imagen como una matriz de valores numéricos que representan píxeles. La visión artificial moderna se basa en gran medida en las redes neuronales convolucionales (CNN), que están diseñadas para imitar el patrón de conectividad de las neuronas del cerebro humano. Estas redes aprenden a identificar una jerarquía de características, desde simples bordes y texturas hasta formas y objetos complejos, a través de un proceso denominado extracción de características.
Para funcionar de manera eficaz, estos modelos requieren grandes cantidades de datos de entrenamiento. Por ejemplo, para reconocer un coche, un modelo necesita procesar miles de imágenes etiquetadas de coches en diversas condiciones. Herramientas como la Ultralytics agilizan este flujo de trabajo, permitiendo a los usuarios anotar conjuntos de datos, entrenar modelos en la nube e implementarlos de manera eficiente.
La visión artificial no es una función única, sino un conjunto de tareas distintas, cada una de las cuales resuelve un problema específico:
La utilidad de la visión artificial abarca prácticamente todos los sectores, automatizando tareas que antes requerían la intervención humana .
Es importante distinguir el CV del procesamiento de imágenes, aunque a menudo funcionan juntos.
Las bibliotecas modernas han facilitado la implementación de potentes modelos de CV. El siguiente ejemplo muestra cómo cargar el
último modelo YOLO26 modelo para detect en una imagen
utilizando el ultralytics paquete.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
Este sencillo script utiliza un modelo preentrenado para realizar complejas tareas de inferencia, lo que demuestra la accesibilidad de las herramientas modernas de IA. Para los desarrolladores que desean ir más allá de las imágenes estáticas, la CV también impulsa la comprensión de vídeos y los sistemas de seguimiento en tiempo real utilizados en la seguridad y el análisis deportivo. Al integrarse con bibliotecas como OpenCV, los desarrolladores pueden crear aplicaciones completas que capturan, procesan y analizan el mundo visual.