Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Modelos de visión a gran escala (LVM)

Descubre los modelos de visión a gran escala (LVM) y su impacto en la IA. Descubre cómo Ultralytics y la Ultralytics permiten la detección y el análisis avanzados de objetos.

Los modelos de visión a gran escala (LVM) representan una importante evolución en el campo de la inteligencia artificial, ya que se centran exclusivamente en comprender, generar y procesar datos visuales a gran escala. A diferencia de los sistemas de visión artificial tradicionales, que se entrenan con conjuntos de datos limitados para tareas específicas y predefinidas, los LVM actúan como modelos base generalizados entrenados con vastas colecciones de imágenes y vídeos. Este extenso entrenamiento previo les permite desarrollar una comprensión profunda y exhaustiva de la geometría visual, las texturas y las relaciones espaciales complejas sin depender de etiquetas anotadas por humanos.

Cómo funcionan los modelos de visión a gran escala

Los modelos de visión a gran escala modernos suelen utilizar Vision Transformers (ViT) o arquitecturas convolucionales a gran escala para procesar entradas visuales. Mediante el uso de técnicas de aprendizaje autosupervisado, como el modelado de imágenes enmascaradas, aprenden prediciendo las partes que faltan de una imagen o fotograma. Organizaciones académicas como el Centro de Investigación sobre Modelos Fundamentales de Stanford han demostrado que el rápido aumento del número de parámetros de estos modelos da lugar a capacidades emergentes y listas para usar. Esto les permite adaptarse a tareas posteriores, como la detección de objetos a alta velocidad y la segmentación detallada de imágenes, con un mínimo ajuste fino.

Aplicaciones en el mundo real

Los LVM están transformando los sectores al encargarse de análisis visuales complejos que antes requerían algoritmos altamente especializados y específicamente entrenados.

  • Análisis automatizado de imágenes médicas: En entornos clínicos, las grandes arquitecturas de visión procesan radiografías, resonancias magnéticas y tomografías computarizadas de alta resolución para identificar anomalías sutiles, lo que ayuda a los radiólogos a detectar enfermedades en una fase temprana y reduce significativamente los errores de diagnóstico.
  • Detección de defectos en la fabricación: Las líneas de producción de las fábricas utilizan modelos de visión generalizados para inspeccionar los productos en tiempo real, identificando fácilmente defectos complejos y nunca antes vistos en las líneas de montaje y mejorando el control de calidad sin necesidad de miles de ejemplos de cada defecto específico.

Distinguir conceptos relacionados

Para comprender plenamente el panorama de la IA, resulta útil distinguir los LVM de otros modelos base populares:

  • LVM frente a Vision Language Model (VLM): Mientras que un LVM solo procesa modalidades visuales (píxeles), un VLM integra tanto texto como imágenes, lo que permite a los usuarios formular preguntas en lenguaje natural sobre una imagen o recibir descripciones textuales de un vídeo.
  • LVM frente a modelo de lenguaje a gran escala (LLM): Los LLM se entrenan exclusivamente con datos de texto para comprender y generar lenguaje humano. Un LVM realiza tareas equivalentes de escalado y comprensión, pero exclusivamente con datos visuales.

Trabajar con modelos de visión

Aunque los LVM a gran escala suelen requerir clústeres de servidores que ejecuten PyTorch o TensorFlow, los modelos de visión básicos altamente optimizados como Ultralytics aportan una potente inteligencia visual de vanguardia directamente a los entornos locales en el borde. El siguiente ejemplo muestra cómo realizar una inferencia visual robusta utilizando un modelo preentrenado:

from ultralytics import YOLO

# Load an advanced pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26x.pt")

# Perform inference on an image to extract visual features and bounding boxes
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the predicted visual relationships
results[0].show()

El futuro de la inteligencia visual

La transición de la investigación académica publicada en arXiv y en la biblioteca digital IEEE Xplore hacia su aplicación práctica en el ámbito empresarial se está acelerando rápidamente. Las innovaciones de grupos de investigación como Google están ampliando activamente las LVM al dominio temporal, lo que permite a los modelos comprender secuencias de vídeo complejas similares a las generadas en Sora, de OpenAI.

Para los desarrolladores y las organizaciones que desean crear soluciones de IA visual personalizadas, la Ultralytics ofrece herramientas integradas para la anotación de conjuntos de datos en equipo, el entrenamiento en la nube y la implementación optimizada de modelos, lo que pone las capacidades avanzadas de visión al alcance de todos. Además, herramientas de segmentación sin entrenamiento previo como Segment Anything 2 (SAM )de Meta demuestran cómo los enfoques fundamentales de visión a gran escala —a menudo detallados en la ACM Digital Library—están estandarizando la comprensión compleja a nivel de píxel en todo el sector de la IA.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático