Descubre los modelos de visión a gran escala (LVM) y su impacto en la IA. Descubre cómo Ultralytics y la Ultralytics permiten la detección y el análisis avanzados de objetos.
Los modelos de visión a gran escala (LVM) representan una importante evolución en el campo de la inteligencia artificial, ya que se centran exclusivamente en comprender, generar y procesar datos visuales a gran escala. A diferencia de los sistemas de visión artificial tradicionales, que se entrenan con conjuntos de datos limitados para tareas específicas y predefinidas, los LVM actúan como modelos base generalizados entrenados con vastas colecciones de imágenes y vídeos. Este extenso entrenamiento previo les permite desarrollar una comprensión profunda y exhaustiva de la geometría visual, las texturas y las relaciones espaciales complejas sin depender de etiquetas anotadas por humanos.
Los modelos de visión a gran escala modernos suelen utilizar Vision Transformers (ViT) o arquitecturas convolucionales a gran escala para procesar entradas visuales. Mediante el uso de técnicas de aprendizaje autosupervisado, como el modelado de imágenes enmascaradas, aprenden prediciendo las partes que faltan de una imagen o fotograma. Organizaciones académicas como el Centro de Investigación sobre Modelos Fundamentales de Stanford han demostrado que el rápido aumento del número de parámetros de estos modelos da lugar a capacidades emergentes y listas para usar. Esto les permite adaptarse a tareas posteriores, como la detección de objetos a alta velocidad y la segmentación detallada de imágenes, con un mínimo ajuste fino.
Los LVM están transformando los sectores al encargarse de análisis visuales complejos que antes requerían algoritmos altamente especializados y específicamente entrenados.
Para comprender plenamente el panorama de la IA, resulta útil distinguir los LVM de otros modelos base populares:
Aunque los LVM a gran escala suelen requerir clústeres de servidores que ejecuten PyTorch o TensorFlow, los modelos de visión básicos altamente optimizados como Ultralytics aportan una potente inteligencia visual de vanguardia directamente a los entornos locales en el borde. El siguiente ejemplo muestra cómo realizar una inferencia visual robusta utilizando un modelo preentrenado:
from ultralytics import YOLO
# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")
# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the predicted visual relationships
results[0].show()
La transición de la investigación académica publicada en arXiv y en la biblioteca digital IEEE Xplore hacia su aplicación práctica en el ámbito empresarial se está acelerando rápidamente. Las innovaciones de grupos de investigación como Google están ampliando activamente las LVM al dominio temporal, lo que permite a los modelos comprender secuencias de vídeo complejas similares a las generadas en Sora, de OpenAI.
Para los desarrolladores y las organizaciones que desean crear soluciones de IA visual personalizadas, la Ultralytics ofrece herramientas integradas para la anotación de conjuntos de datos en equipo, el entrenamiento en la nube y la implementación optimizada de modelos, lo que pone las capacidades avanzadas de visión al alcance de todos. Además, herramientas de segmentación sin entrenamiento previo como Segment Anything 2 (SAM )de Meta demuestran cómo los enfoques fundamentales de visión a gran escala —a menudo detallados en la ACM Digital Library—están estandarizando la comprensión compleja a nivel de píxel en todo el sector de la IA.
Comience su viaje con el futuro del aprendizaje automático