Aprendizagem auto-supervisionada
Descubra como a aprendizagem auto-supervisionada aproveita os dados não rotulados para uma formação eficiente, transformando a IA em visão computacional, PNL e muito mais.
A aprendizagem auto-supervisionada (SSL) é uma técnica de aprendizagem automática que permite que os modelos aprendam a partir de grandes quantidades de dados não rotulados. Em vez de depender de etiquetas fornecidas por humanos, a SSL gera automaticamente etiquetas a partir dos próprios dados, criando e resolvendo uma "tarefa de pretexto". Este processo força o modelo a aprender padrões subjacentes significativos e caraterísticas dos dados, tais como texturas e formas em imagens ou estruturas gramaticais em texto. Estas caraterísticas aprendidas criam uma base poderosa, permitindo que o modelo tenha um desempenho excecionalmente bom em tarefas a jusante com muito menos dados rotulados durante a fase de afinação. A SSL preenche a lacuna entre a aprendizagem totalmente supervisionada, que consome muitos dados, e a aprendizagem puramente não supervisionada, que pode ser menos direcionada.
Como funciona a aprendizagem auto-supervisionada
A ideia central por detrás do SSL é a tarefa de pretexto - um problema auto-criado que o modelo tem de resolver. As etiquetas para esta tarefa são derivadas diretamente dos dados de entrada. Ao resolver a tarefa de pré-texto, a rede neural aprende representações valiosas, ou embeddings, que captam as caraterísticas essenciais dos dados.
As tarefas de pretexto comuns na visão por computador incluem:
- Prever a rotação de uma imagem: O modelo vê uma imagem que foi rodada aleatoriamente (por exemplo, 0, 90, 180 ou 270 graus) e tem de prever o ângulo de rotação. Para o fazer corretamente, tem de reconhecer a orientação original do objeto.
- Pintura de imagens: Uma parte de uma imagem é mascarada ou removida, e o modelo deve prever o fragmento em falta. Isto incentiva o modelo a aprender sobre o contexto e a textura das imagens.
- Aprendizagem Contrastiva: O modelo é ensinado a aproximar as representações de imagens semelhantes (aumentadas) e a afastar as representações de imagens diferentes. Quadros como o SimCLR são exemplos populares desta abordagem.
Esta pré-treino em dados não rotulados resulta em pesos de modelo robustos que podem ser utilizados como ponto de partida para tarefas mais específicas.
SSL vs. Outros Paradigmas de Aprendizagem
É crucial diferenciar o SSL dos paradigmas de aprendizagem automática relacionados:
- Aprendizagem supervisionada: Depende inteiramente de dados rotulados, em que cada entrada é emparelhada com uma saída correta. A SSL, por outro lado, gera as suas próprias etiquetas a partir dos próprios dados, reduzindo significativamente a necessidade de etiquetagem manual dos dados.
- Aprendizagem não supervisionada: Tem como objetivo encontrar padrões (como o agrupamento) ou reduzir a dimensionalidade em dados não rotulados sem tarefas de pretexto predefinidas. Embora a SSL utilize dados não rotulados como a aprendizagem não supervisionada, difere pelo facto de criar sinais de supervisão explícitos através de tarefas de pretexto para orientar a aprendizagem de representação.
- Aprendizagem Semi-Supervisionada: Utiliza uma combinação de uma pequena quantidade de dados rotulados e uma grande quantidade de dados não rotulados. O pré-treinamento SSL pode muitas vezes ser um passo preliminar antes do ajuste fino semi-supervisionado.
- Aprendizagem ativa: Concentra-se na seleção inteligente dos pontos de dados mais informativos de um conjunto não rotulado a ser rotulado por um humano. A SSL aprende a partir de todos os dados não rotulados sem intervenção humana no ciclo. Estes dois métodos podem ser complementares num fluxo de trabalho de IA centrado nos dados.
Aplicações no mundo real
O SSL avançou significativamente as capacidades de Inteligência Artificial (IA) em vários domínios:
- Modelos avançados de visão computacional: O pré-treinamento SSL permite que modelos como o Ultralytics YOLO aprendam caraterísticas visuais robustas a partir de conjuntos de dados de imagens maciças não rotuladas antes de serem ajustados para tarefas como a deteção de objectos em veículos autónomos ou a análise de imagens médicas. O uso de pesos pré-treinados derivados da SSL geralmente leva a um melhor desempenho e a uma convergência mais rápida durante o treinamento do modelo.
- Potenciar grandes modelos linguísticos (LLMs): Os modelos de base como o GPT-4 e o BERT dependem fortemente de tarefas de pré-texto SSL (como a modelação de linguagem mascarada) durante a sua fase de pré-treino em vastos corpora de texto. Isto permite-lhes compreender a estrutura da linguagem, a gramática e o contexto, alimentando aplicações que vão desde chatbots sofisticados e tradução automática até à sumarização de texto.
A SSL reduz significativamente a dependência de conjuntos de dados rotulados dispendiosos, democratizando o desenvolvimento de modelos de IA poderosos. Ferramentas como o PyTorch e o TensorFlow, juntamente com plataformas como o Ultralytics HUB, fornecem ambientes para aproveitar as técnicas de SSL para criar e implantar soluções de IA de ponta. Pode encontrar a investigação mais recente sobre SSL nas principais conferências de IA, como a NeurIPS e a ICML.