Glossário

Modelo de fundação

Descobre como os modelos de fundação revolucionam a IA com arquitecturas escaláveis, pré-treino alargado e adaptabilidade a diversas aplicações.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Um modelo de base é um modelo de Inteligência Artificial (IA) em grande escala pré-treinado em grandes quantidades de dados amplos e não rotulados, concebido para ser adaptado ou afinado para uma vasta gama de tarefas a jusante. Estes modelos, muitas vezes baseados em arquitecturas como o Transformer, aprendem padrões, estruturas e representações gerais a partir dos dados, formando uma base versátil para várias aplicações especializadas, sem necessidade de formação de raiz para tarefas específicas. O desenvolvimento de modelos de base representa uma mudança significativa de paradigma na Aprendizagem Automática (AM), avançando para a construção de modelos de uso geral que podem ser eficientemente especializados.

Caraterísticas principais

Os modelos de fundação são definidos por vários atributos principais:

  • Escala: São normalmente muito grandes, envolvendo biliões ou mesmo triliões de parâmetros e treinados em conjuntos de dados maciços, frequentemente extraídos da Internet ou de outras fontes extensas(Big Data).
  • Pré-treinamento: Passam por uma fase intensiva de pré-treinamento, normalmente utilizando métodos de aprendizagem auto-supervisionada ou não-supervisionada, em que o modelo aprende a partir da estrutura inerente dos próprios dados, sem rótulos explícitos.
  • Adaptabilidade: Uma das principais vantagens é a sua adaptabilidade. Uma vez pré-treinados, podem ser afinados com quantidades relativamente pequenas de dados rotulados para tarefas específicas, como a análise de sentimentos, o reconhecimento de imagens ou a deteção de objectos, aproveitando os conhecimentos gerais adquiridos durante o pré-treino. Este processo é uma forma de aprendizagem por transferência.
  • Homogeneização: Tendem a consolidar capacidades que anteriormente exigiam vários modelos especializados numa estrutura única e adaptável, simplificando potencialmente os MLOps.

Como funcionam os modelos de fundação

A criação e a utilização de modelos de fundação envolvem normalmente duas fases:

  1. Pré-treinamento: O modelo é treinado num conjunto de dados massivo e diversificado. Para modelos de linguagem como o GPT-3, isto envolve a previsão da palavra seguinte numa frase. No caso dos modelos de visão, pode envolver a reconstrução de manchas de imagens mascaradas ou a aprendizagem de associações entre imagens e texto(CLIP). Esta fase requer recursos computacionais significativos (GPU, TPU).
  2. Afinação/Adaptação: O modelo pré-treinado é então adaptado a uma tarefa específica a jusante, utilizando um conjunto de dados rotulados mais pequeno e específico da tarefa. Técnicas como a afinação fina ajustam os pesos do modelo, enquanto métodos como a engenharia rápida orientam o resultado do modelo sem alterar os seus pesos, o que é especialmente relevante para os modelos de linguagem de grande dimensão (LLM).

Exemplos e aplicações

Os modelos de fundação abrangem vários domínios:

Modelos de fundação vs. outros modelos

  • Modelos específicos de tarefas: Ao contrário dos modelos de fundação, o ML tradicional envolve frequentemente o treino de modelos de raiz em conjuntos de dados específicos para tarefas únicas (por exemplo, treinar um Ultralytics YOLO da Ultralytics apenas para detetar objectos em imagens aéreas). Embora eficaz, isto requer dados rotulados significativos e esforço para cada nova tarefa. Os modelos de base pretendem reduzir este problema através da aprendizagem por transferência.
  • Modelos de linguagem de grande dimensão (LLMs): Os LLMs são um tipo proeminente de modelo de base especificamente concebido para tarefas linguísticas. O termo "modelo de base" é mais abrangente e inclui modelos para visão, áudio e outras modalidades.
  • Modelos CV: Embora alguns modelos de visão de grande dimensão, como o ViT ou SAM , sejam considerados modelos de base, muitos modelos CV, incluindo versões específicas do YOLOv8 ou YOLO11 treinados para aplicações particulares(IA na agricultura, IA no sector automóvel), são normalmente ajustados ou treinados especificamente para essas tarefas de visão, em vez de serem eles próprios modelos de base de uso geral. No entanto, a tendência para a utilização de backbones pré-treinados partilha a ideia central de aproveitar caraterísticas gerais.

Formação e recursos

O pré-treinamento dos modelos de base é computacionalmente dispendioso, exigindo muitas vezes clusters maciços de GPUs ou TPUs e um esforço de engenharia significativo, normalmente realizado por grandes laboratórios de investigação ou empresas como a GoogleMeta AI e OpenAI. No entanto, uma vez pré-treinados, estes modelos podem ser adaptados de forma mais eficiente. Plataformas como o Ultralytics HUB fornecem ferramentas para treinar modelos personalizados, gerenciar conjuntos de dadosUltralytics Datasets) e implantar soluções(Model Deployment Options), muitas vezes aproveitando pesos pré-treinados que incorporam conhecimento fundamental. A adaptação eficaz ainda requer um ajuste cuidadoso dos hiperparâmetros e, potencialmente, o aumento dos dados.

Importância e futuro

Os modelos de fundação estão a mudar o panorama da IARoboflow on Foundation Models). Aceleram o desenvolvimento, permitem novas aplicações e levantam considerações importantes sobre a ética da IA, preconceitos e acesso computacional. Instituições de investigação como o Center for Research on Foundation Models (CRFM) de Stanford dedicam-se a estudar as suas capacidades e impacto social. É provável que o futuro envolva modelos de base mais poderosos, eficientes e potencialmente multimodais que impulsionem a inovação na ciência, na indústria e na vida quotidiana(casos de utilização de IA).

Lê tudo