Glossário

Modelo de fundação

Descubra como os modelos de fundação revolucionam a IA com arquitecturas escaláveis, pré-treino alargado e adaptabilidade a diversas aplicações.

Um modelo de base é um modelo de aprendizagem automática (ML) em grande escala treinado numa grande quantidade de dados amplos e não rotulados que pode ser adaptado a uma vasta gama de tarefas a jusante. Criado pelo Stanford Institute for Human-Centered AI, o conceito central é o de "propriedades emergentes", em que o modelo desenvolve uma compreensão surpreendentemente versátil de padrões, sintaxe e semântica a partir dos dados em que foi treinado. Esta natureza de objetivo geral permite-lhe servir como um poderoso ponto de partida, ou "base", para a criação de modelos mais especializados através de um processo denominado afinação.

Principais caraterísticas e aplicações

A caraterística que define os modelos de base é a sua adaptabilidade, que decorre do paradigma da aprendizagem por transferência. Em vez de treinar um novo modelo de raiz para cada problema, os programadores podem pegar num modelo base pré-treinado e adaptá-lo com um conjunto de dados muito mais pequeno e específico da tarefa. Isto reduz drasticamente os dados, a computação e o tempo necessários para criar sistemas de IA de elevado desempenho.

As aplicações do mundo real demonstram a sua versatilidade:

  1. Chatbots avançados e assistentes virtuais: Um Modelo de Linguagem Grande (LLM) como o GPT-4 da OpenAI serve como modelo de base para a linguagem. É pré-treinado num enorme corpus de texto da Internet para compreender a gramática, os factos e as capacidades de raciocínio. Uma empresa pode então afiná-lo com os seus documentos internos e registos de interação com clientes para criar um chatbot especializado que possa responder a perguntas específicas sobre os seus produtos ou serviços com elevada precisão.
  2. Análise de imagens médicas: Na visão por computador, um modelo como o Segment Anything Model (SAM) da Meta AI é um modelo de base para a segmentação de imagens. Pode identificar e delinear objectos em qualquer imagem sem contexto prévio. Os investigadores médicos podem então afinar este modelo num conjunto mais pequeno de exames de ressonância magnética ou de tomografia computorizada para segmentar com precisão órgãos específicos ou detetar anomalias como tumores, acelerando o diagnóstico para a análise de imagens médicas.

Modelos de fundação vs. outros modelos

É importante distinguir os modelos de fundação dos conceitos relacionados:

  • Modelos específicos de tarefas: Tradicionalmente, o ML envolvia o treino de modelos de raiz para um único objetivo, como o treino de um modelo Ultralytics YOLO apenas para detetar pacotes na logística. Embora eficaz, esta abordagem requer dados rotulados significativos para cada nova tarefa. Os modelos básicos oferecem uma alternativa mais eficiente.
  • Modelos de linguagem de grande porte (LLMs): Os LLMs são um tipo proeminente de modelo de base centrado em tarefas linguísticas. No entanto, o termo "modelo de base" é mais lato, englobando modelos para visão, áudio e outras modalidades de dados, tal como descrito no documento de referência "On the Opportunities and Risks of Foundation Models".
  • Modelos de visão especializados: Enquanto os grandes modelos de visão, como o Vision Transformer (ViT), são considerados modelos de base, muitos modelos CV especializados não o são. Por exemplo, um modelo YOLO11 ajustado para uma aplicação específica como a IA no sector automóvel é um modelo especializado. No entanto, ele aproveita um backbone pré-treinado que incorpora conhecimento fundamental derivado de grandes conjuntos de dados como o COCO.

Formação e importância futura

O pré-treino de modelos de base é um esforço intensivo em termos de recursos, exigindo muitas vezes milhares de GPUs e esforços de engenharia maciços, normalmente efectuados por grandes organizações como a Google AI e a DeepMind. No entanto, uma vez treinados, estes modelos tornam-se acessíveis para uma utilização mais alargada.

Plataformas como o Ultralytics HUB fornecem ferramentas para ajudar os utilizadores a adaptar estas capacidades fundamentais, simplificando os fluxos de trabalho para treinar modelos personalizados, gerir conjuntos de dados e implementar soluções, muitas vezes com uma afinação cuidadosa dos hiperparâmetros.

Os modelos de fundação estão a transformar o panorama da IA, democratizando o acesso a capacidades poderosas. A sua ascensão também traz discussões críticas sobre a ética da IA, a parcialidade dos conjuntos de dados e a divisão computacional. O futuro aponta para modelos mais poderosos, eficientes e multimodais que podem compreender e processar informações de texto, imagens e som em simultâneo, impulsionando a próxima vaga de casos de utilização de IA.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência