¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Modelo fundacional

Descubra cómo los modelos fundacionales revolucionan la IA con arquitecturas escalables, preentrenamiento amplio y adaptabilidad para diversas aplicaciones.

Un modelo de base es un modelo de aprendizaje automático (ML) a gran escala entrenado con una gran cantidad de datos amplios y no etiquetados que se puede adaptar a una amplia gama de tareas posteriores. Acuñado por el Instituto de Stanford para la IA centrada en el ser humano, el concepto central son las "propiedades emergentes", donde el modelo desarrolla una comprensión sorprendentemente versátil de los patrones, la sintaxis y la semántica a partir de los datos con los que fue entrenado. Esta naturaleza de propósito general le permite servir como un punto de partida poderoso, o "base", para crear modelos más especializados a través de un proceso llamado ajuste fino.

Características y aplicaciones clave

La característica definitoria de los modelos fundacionales es su adaptabilidad, que proviene del paradigma del aprendizaje por transferencia. En lugar de entrenar un nuevo modelo desde cero para cada problema, los desarrolladores pueden tomar un modelo fundacional pre-entrenado y adaptarlo con un conjunto de datos mucho más pequeño y específico para la tarea. Esto reduce drásticamente los datos, la computación y el tiempo necesarios para construir sistemas de IA de alto rendimiento.

Las aplicaciones reales demuestran su versatilidad:

  1. Chatbots avanzados y asistentes virtuales: Un modelo de lenguaje grande (LLM) como GPT-4 de OpenAI sirve como modelo base para el lenguaje. Está preentrenado con un corpus masivo de texto de Internet para comprender la gramática, los hechos y las habilidades de razonamiento. Una empresa puede entonces ajustarlo con sus documentos internos y registros de interacción con el cliente para crear un chatbot especializado que pueda responder a preguntas específicas sobre sus productos o servicios con gran precisión.
  2. Análisis de imágenes médicas: En la visión artificial, un modelo como el Segment Anything Model (SAM) de Meta AI es un modelo base para la segmentación de imágenes. Puede identificar y delinear objetos en cualquier imagen sin contexto previo. Los investigadores médicos pueden entonces afinar este modelo en un conjunto más pequeño de resonancias magnéticas o tomografías computarizadas para segmentar con precisión órganos específicos o detectar anomalías como tumores, acelerando el diagnóstico para el análisis de imágenes médicas.

Modelos fundacionales vs. otros modelos

Es importante distinguir los modelos fundacionales de conceptos relacionados:

  • Modelos específicos para tareas: Tradicionalmente, el ML implicaba el entrenamiento de modelos desde cero para un único propósito, como el entrenamiento de un modelo Ultralytics YOLO únicamente para la detección de paquetes en logística. Si bien es eficaz, este enfoque requiere una cantidad significativa de datos etiquetados para cada nueva tarea. Los modelos de base ofrecen una alternativa más eficiente.
  • Modelos de Lenguaje Grandes (LLMs): Los LLM son un tipo prominente de modelo fundacional centrado en tareas de lenguaje. Sin embargo, el término "modelo fundacional" es más amplio y abarca modelos para visión, audio y otras modalidades de datos, como se detalla en el documento histórico "Sobre las oportunidades y los riesgos de los modelos fundacionales."
  • Modelos de Visión Especializados: Si bien los modelos de visión grandes como el Vision Transformer (ViT) se consideran modelos base, muchos modelos CV especializados no lo son. Por ejemplo, un modelo YOLO11 ajustado para una aplicación específica como la IA en la automoción es un modelo especializado. Sin embargo, aprovecha un backbone pre-entrenado que incorpora el conocimiento fundamental derivado de grandes conjuntos de datos como COCO.

Entrenamiento e importancia futura

El preentrenamiento de modelos fundacionales es una tarea que requiere muchos recursos, a menudo miles de GPU y enormes esfuerzos de ingeniería, que suelen ser llevados a cabo por grandes organizaciones como Google AI y DeepMind. Sin embargo, una vez entrenados, estos modelos se ponen a disposición para un uso más amplio.

Plataformas como Ultralytics HUB proporcionan herramientas para ayudar a los usuarios a adaptar estas capacidades fundamentales, optimizando los flujos de trabajo para entrenar modelos personalizados, gestionar conjuntos de datos e implementar soluciones, a menudo con un cuidadoso ajuste de hiperparámetros.

Los modelos fundacionales están transformando el panorama de la IA al democratizar el acceso a capacidades potentes. Su auge también trae consigo debates críticos en torno a la ética de la IA, el sesgo de los conjuntos de datos y la brecha computacional. El futuro apunta hacia modelos más potentes, eficientes y multimodales que puedan comprender y procesar información de texto, imágenes y sonido simultáneamente, impulsando la próxima ola de casos de uso de la IA.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles