Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Aprendizado Zero-Shot

Descubra a Aprendizagem Zero-Shot: uma abordagem de IA de ponta que permite que os modelos classifiquem dados não vistos, revolucionando a detecção de objetos, PNL e muito mais.

O aprendizado Zero-Shot (ZSL) é uma capacidade fascinante em aprendizado de máquina (ML) onde um modelo pode reconhecer e classificar objetos de categorias que nunca viu durante sua fase de dados de treinamento. Ao contrário do aprendizado supervisionado tradicional, que requer exemplos explícitos para cada classe possível, o ZSL permite que um modelo generalize seu conhecimento para classes novas e não vistas. Isso é alcançado associando classes observadas e não observadas por meio de descrições semânticas de alto nível, como atributos ou embeddings de texto. Isso permite que um modelo de IA seja mais flexível e escalável, especialmente em cenários do mundo real onde coletar dados rotulados exaustivos é impraticável.

Como funciona?

A ideia central por trás do ZSL é criar um espaço de incorporação compartilhado onde tanto características visuais de imagens quanto informações semânticas de texto possam ser representadas. Durante o treinamento, o modelo aprende a mapear imagens de classes vistas para seus vetores semânticos correspondentes (atributos ou incorporações de palavras). Por exemplo, o modelo aprende as características visuais de um "cavalo" e as vincula a uma descrição semântica como "tem quatro patas", "é um mamífero" e "pode ser montado".

Quando apresentado a uma imagem de uma classe não vista, como uma "zebra", o modelo extrai suas características visuais. Simultaneamente, ele usa a descrição semântica de uma "zebra" — por exemplo, "é semelhante a um cavalo", "tem listras" — para localizá-la no espaço de incorporação. Ao encontrar a descrição semântica mais próxima das características visuais extraídas, o modelo pode classificar corretamente a imagem como uma "zebra", mesmo sem uma única imagem de treinamento de uma. Este processo geralmente se baseia em poderosos modelos multimodais pré-treinados, como o CLIP da OpenAI, que se destacam na conexão entre visão e linguagem.

Aprendizado Zero-Shot Vs. Outros Paradigmas

É importante distinguir ZSL de técnicas de aprendizado relacionadas:

  • Aprendizado com Poucos Exemplos (FSL): Em FSL, o modelo é treinado com um número muito pequeno de exemplos rotulados (por exemplo, 1 a 5) para cada nova classe. Isso é diferente de ZSL, que opera com zero exemplos da classe alvo.
  • Aprendizado One-Shot (OSL): Um subtipo de FSL onde o modelo recebe exatamente um exemplo de uma nova classe. É mais limitado por dados do que o FSL geral, mas ainda requer pelo menos uma amostra, ao contrário do ZSL.
  • Aprendizado por Transferência: ZSL é uma forma de aprendizado por transferência, mas é único. Enquanto o aprendizado por transferência padrão normalmente envolve ajustar um modelo pré-treinado em um novo conjunto de dados rotulado (menor), o ZSL transfere conhecimento para novas classes usando apenas informações semânticas auxiliares, ignorando a necessidade de quaisquer exemplos rotulados dessas classes.

Aplicações no Mundo Real

O ZSL tem inúmeras aplicações práticas, tornando os sistemas de visão computacional mais dinâmicos e adaptáveis.

  1. Detecção de Objetos de Vocabulário Aberto: Modelos como o YOLO-World aproveitam o ZSL para detectar qualquer objeto descrito por texto. Um usuário pode fornecer prompts de texto como "pessoa com uma camisa azul" ou "cano vazando", e o modelo pode localizar esses objetos em uma imagem ou fluxo de vídeo sem ser explicitamente treinado nessas categorias específicas. Este é um passo significativo para a criação de sistemas de visão de propósito geral verdadeiramente.
  2. Identificação Autónoma de Espécies: Na IA para a conservação da vida selvagem, o ZSL pode identificar espécies raras ou recém-descobertas. Um modelo treinado em animais comuns pode usar atributos descritivos (por exemplo, "tem um pescoço comprido", "é manchado", "é herbívoro") de uma base de conhecimento como a Wikipedia para identificar uma girafa, mesmo que não existam imagens de girafas no seu conjunto de treino original.

Desafios e Direções Futuras

Apesar de seu potencial, o ZSL enfrenta desafios como o problema do hubness (onde alguns pontos no espaço semântico se tornam vizinhos mais próximos de muitos pontos) e o deslocamento de domínio (onde as relações entre características e atributos diferem entre classes vistas e não vistas). Para resolver esses problemas, os pesquisadores estão desenvolvendo técnicas mais robustas, como o Aprendizado Zero-Shot Generalizado (GZSL), onde o modelo deve reconhecer classes vistas e não vistas durante a inferência. A evolução dos modelos de fundação e plataformas como o Ultralytics HUB simplificará ainda mais a integração e a implantação do ZSL, tornando os sistemas de IA menos dependentes da rotulagem de dados extensiva e mais alinhados com o raciocínio semelhante ao humano.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência