Glossário

Modelo de fundação

Descobre como os modelos de fundação revolucionam a IA com arquitecturas escaláveis, pré-treino alargado e adaptabilidade a diversas aplicações.

Um modelo de base é um modelo de Inteligência Artificial (IA) em grande escala pré-treinado em grandes quantidades de dados amplos e não rotulados, concebido para ser adaptado ou afinado para uma vasta gama de tarefas a jusante. Estes modelos, muitas vezes baseados em arquitecturas como o Transformer, aprendem padrões, estruturas e representações gerais a partir dos dados, formando uma base versátil para várias aplicações especializadas, sem necessidade de formação de raiz para tarefas específicas. O desenvolvimento de modelos de base representa uma mudança significativa de paradigma na Aprendizagem Automática (AM), avançando para a construção de modelos de uso geral que podem ser eficientemente especializados.

Caraterísticas principais

Os modelos de fundação são definidos por vários atributos principais:

Escala: São normalmente muito grandes, envolvendo biliões ou mesmo triliões de parâmetros e treinados em conjuntos de dados maciços, frequentemente extraídos da Internet ou de outras fontes extensas(Big Data).
Pré-treinamento: Passam por uma fase intensiva de pré-treinamento, normalmente utilizando métodos de aprendizagem auto-supervisionada ou não-supervisionada, em que o modelo aprende a partir da estrutura inerente dos próprios dados, sem rótulos explícitos.
Adaptabilidade: Uma das principais vantagens é a sua adaptabilidade. Uma vez pré-treinados, podem ser afinados com quantidades relativamente pequenas de dados rotulados para tarefas específicas, como a análise de sentimentos, o reconhecimento de imagens ou a deteção de objectos, aproveitando os conhecimentos gerais adquiridos durante o pré-treino. Este processo é uma forma de aprendizagem por transferência.
Homogeneização: Tendem a consolidar capacidades que anteriormente exigiam vários modelos especializados numa estrutura única e adaptável, simplificando potencialmente os MLOps.

Como funcionam os modelos de fundação

A criação e a utilização de modelos de fundação envolvem normalmente duas fases:

Pré-treinamento: O modelo é treinado num conjunto de dados massivo e diversificado. Para modelos de linguagem como o GPT-3, isto envolve a previsão da palavra seguinte numa frase. No caso dos modelos de visão, pode envolver a reconstrução de manchas de imagens mascaradas ou a aprendizagem de associações entre imagens e texto(CLIP). Esta fase requer recursos computacionais significativos (GPU, TPU).
Afinação/Adaptação: O modelo pré-treinado é então adaptado a uma tarefa específica a jusante, utilizando um conjunto de dados rotulados mais pequeno e específico da tarefa. Técnicas como a afinação fina ajustam os pesos do modelo, enquanto métodos como a engenharia rápida orientam o resultado do modelo sem alterar os seus pesos, o que é especialmente relevante para os modelos de linguagem de grande dimensão (LLM).

Exemplos e aplicações

Os modelos de fundação abrangem vários domínios:

Processamento de linguagem natural (NLP): Os LLMs como o BERT e o GPT-4 são os principais exemplos, capazes de gerar texto, traduzir, resumir e muito mais. Exemplo do mundo real: Os chatbots avançados de atendimento ao cliente que compreendem o contexto e fornecem respostas com nuances são frequentemente construídos através do ajuste fino de LLMs de base.
Visão por computador (CV): Modelos como o Vision Transformer (ViT) e o Segment Anything Model (SAM) funcionam como modelos de base para tarefas de visão. Podem ser adaptados para classificação de imagens, segmentação de imagens e deteção. Exemplo do mundo real: As ferramentas para análise de imagens médicas podem ser desenvolvidas através do ajuste fino de um modelo de base de visão em conjuntos de dados de raios X ou MRIs para detetar condições específicas como tumores.
Modelos multimodais: Modelos como o CLIP ou o DALL-E processam informações de várias modalidades (por exemplo, texto e imagens) em simultâneo. Compreender estes modelos é crucial à medida que a IA evolui(Compreender os modelos de linguagem visual).

Modelos de fundação vs. outros modelos

Modelos específicos de tarefas: Ao contrário dos modelos de fundação, o ML tradicional envolve frequentemente o treino de modelos de raiz em conjuntos de dados específicos para tarefas únicas (por exemplo, treinar um Ultralytics YOLO da Ultralytics apenas para detetar objectos em imagens aéreas). Embora eficaz, isto requer dados rotulados significativos e esforço para cada nova tarefa. Os modelos de base pretendem reduzir este problema através da aprendizagem por transferência.
Modelos de linguagem de grande dimensão (LLMs): Os LLMs são um tipo proeminente de modelo de base especificamente concebido para tarefas linguísticas. O termo "modelo de base" é mais abrangente e inclui modelos para visão, áudio e outras modalidades.
Modelos CV: Embora alguns modelos de visão de grande dimensão, como o ViT ou SAM , sejam considerados modelos de base, muitos modelos CV, incluindo versões específicas do YOLOv8 ou YOLO11 treinados para aplicações particulares(IA na agricultura, IA no sector automóvel), são normalmente ajustados ou treinados especificamente para essas tarefas de visão, em vez de serem eles próprios modelos de base de uso geral. No entanto, a tendência para a utilização de backbones pré-treinados partilha a ideia central de aproveitar caraterísticas gerais.

Formação e recursos

O pré-treinamento dos modelos de base é computacionalmente dispendioso, exigindo muitas vezes clusters maciços de GPUs ou TPUs e um esforço de engenharia significativo, normalmente realizado por grandes laboratórios de investigação ou empresas como a Google Meta AI e OpenAI. No entanto, uma vez pré-treinados, estes modelos podem ser adaptados de forma mais eficiente. Plataformas como o Ultralytics HUB fornecem ferramentas para treinar modelos personalizados, gerenciar conjuntos de dadosUltralytics Datasets) e implantar soluções(Model Deployment Options), muitas vezes aproveitando pesos pré-treinados que incorporam conhecimento fundamental. A adaptação eficaz ainda requer um ajuste cuidadoso dos hiperparâmetros e, potencialmente, o aumento dos dados.

Importância e futuro

Os modelos de fundação estão a mudar o panorama da IARoboflow on Foundation Models). Aceleram o desenvolvimento, permitem novas aplicações e levantam considerações importantes sobre a ética da IA, preconceitos e acesso computacional. Instituições de investigação como o Center for Research on Foundation Models (CRFM) de Stanford dedicam-se a estudar as suas capacidades e impacto social. É provável que o futuro envolva modelos de base mais poderosos, eficientes e potencialmente multimodais que impulsionem a inovação na ciência, na indústria e na vida quotidiana(casos de utilização de IA).

Modelo de fundação

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Caraterísticas principais

Como funcionam os modelos de fundação

Exemplos e aplicações

Modelos de fundação vs. outros modelos

Formação e recursos

Importância e futuro

Lê mais blogues

Junta-te à comunidade Ultralytics

Modelo de fundação

Treina os modelos YOLO simplesmentecom Ultralytics HUB

Solução flexível de licenciamento empresarial para impulsionar a tua inovação

Treina modelos de IA em segundos com Ultralytics YOLO

Treina os modelos YOLO simplesmente com Ultralytics HUB

Caraterísticas principais

Como funcionam os modelos de fundação

Exemplos e aplicações

Modelos de fundação vs. outros modelos

Formação e recursos

Importância e futuro

Lê mais blogues

Junta-te à comunidade Ultralytics

Treina os modelos YOLO simplesmente
com Ultralytics HUB