Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Aprendizado Zero-Shot

Descubra a Aprendizagem Zero-Shot: uma abordagem de IA de ponta que permite que os modelos classify dados não vistos, revolucionando a deteção de objectos, a PNL e muito mais.

A Aprendizagem Zero-Shot (ZSL) é um paradigma poderoso na aprendizagem automática (ML) que permite aos modelos de que permite aos modelos de inteligência artificial reconhecer, classify ou detect objectos que nunca encontraram durante a durante a fase de dados de treino. Na aprendizagem tradicional tradicional supervisionada, um modelo deve ser treinado em milhares de imagens rotuladas para cada categoria específica que precisa de identificar. A ZSL elimina este constrangimento informações auxiliares - normalmente descrições de texto, atributos ou semânticas - parapreencher a lacuna entre as classes vistas e não vistas classes. Esta capacidade permite aos sistemas de sistemas de inteligência artificial (IA) (IA) sejam significativamente mais flexíveis, escaláveis e capazes de lidar com ambientes dinâmicos em que a recolha exaustiva exaustivos para todos os objectos possíveis é impraticável.

Como funciona a aprendizagem Zero-Shot

O mecanismo central da ZSL envolve a transferência de conhecimentos de conceitos familiares para conceitos não familiares, utilizando um espaço semântico partilhado. espaço semântico partilhado. Em vez de aprender a reconhecer um "gato" apenas através da memorização de padrões de pixéis, o modelo aprende a relação entre caraterísticas visuais e atributos semânticos (por exemplo, "peludo", "bigodes", "quatro "peludo", "bigodes", "quatro patas") derivados do processamento de linguagem natural (PNL).

Este processo baseia-se frequentemente em modelos multimodais que alinham representações de imagem e texto representações de imagem e texto. Por exemplo, a investigação fundamental como o CLIP da OpenAI demonstra como os modelos podem aprender conceitos visuais a partir supervisão de linguagem natural. Quando um modelo ZSL encontra um objeto inédito, como uma espécie rara de ave, extrai as caraterísticas visuais e compara-as com um dicionário de vectores semânticos. Se as caraterísticas visuais se alinharem com a descrição semântica da nova classe, o modelo pode classify corretamente, realizando efetivamente uma previsão "zero-shot".

Distinção de conceitos relacionados

Para compreender plenamente a ZSL, é útil distingui-la de estratégias de aprendizagem semelhantes utilizadas em visão por computador (CV):

  • Aprendizagem de poucas oportunidades (FSL): Enquanto a ZSL não requer exemplos da classe alvo, a FSL fornece ao modelo um conjunto de suporte muito pequeno (normalmente 1 a 5 exemplos) para se adaptar. A ZSL é mais difícil, uma vez que se baseia inteiramente na inferência semântica em vez de exemplos visuais.
  • Aprendizagem única: Um subconjunto de FSL em que o modelo aprende a partir de exatamente um exemplo rotulado. A ZSL difere fundamentalmente porque funciona sem uma única imagem da nova categoria.
  • Aprendizagem por transferência: Este termo lato termo refere-se à transferência de conhecimentos de uma tarefa para outra. A ZSL é um tipo específico de aprendizagem por transferência que utiliza atributos semânticos para transferir conhecimentos para classes não vistas sem a necessidade de tradicional em novos dados.

Aplicações no Mundo Real

A Aprendizagem Zero-Shot está a impulsionar a inovação em vários sectores, permitindo que os sistemas se generalizem para além da sua formação inicial.

  1. Deteção de objectos de vocabulário aberto: Arquitecturas modernas como o YOLO utilizam ZSL para detect objectos com base em em mensagens de texto definidas pelo utilizador. Isto permite a deteção de objectos em cenários onde a definição de uma lista fixa de classes é impossível, como a procura de itens específicos em vastos arquivos de vídeo. Os investigadores da Google Research e de outras instituições estão ativamente a a melhorar ativamente estas capacidades de vocabulário aberto.
  2. Diagnóstico médico: Em IA nos cuidados de saúde, a obtenção de dados rotulados para doenças raras é difícil e dispendiosa. Os modelos ZSL podem ser treinados em condições comuns e descrições de sintomas raros sintomas raros de livros de texto médicos (por exemplo, artigos PubMed ), permitindo ao que o sistema assinale potenciais anomalias raras em radiografias ou exames de ressonância magnética sem necessitar de um conjunto de dados maciço de casos positivos. casos positivos.
  3. Conservação da vida selvagem: Para IA em agricultura e ecologia, identificar espécies espécies ameaçadas de extinção que raramente são fotografadas é fundamental. A ZSL permite aos conservacionistas detect estes animais utilizando descrições baseadas em atributos (por exemplo, padrões específicos de pelo ou formas de cornos) definidos em bases de dados biológicas como a Enciclopédia da Vida.

Deteção de Zero-Shot com Ultralytics

O modelo YOLOUltralytics exemplifica o Zero-Shot Zero-Shot Learning em ação. Permite que os utilizadores definam classes personalizadas dinamicamente em tempo de execução, sem voltar a treinar o modelo. Isto é conseguido através da ligação do modelo YOLO11 com um codificador de texto um codificador de texto baseado em CLIP.

O seguinte exemplo Python demonstra como utilizar YOLO para detect objectos que não faziam parte de um conjunto de dados COCO COCO padrão, como cores específicas de roupas, usando o comando ultralytics pacote.

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])

# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")

# Show the results
results[0].show()

Desafios e perspectivas futuras

Embora a ZSL ofereça um potencial imenso, enfrenta desafios como o problema da mudança de domínio, em que os atributos atributos semânticos aprendidos durante o treino não se relacionam perfeitamente com o aspeto visual de classes não vistas. Além disso, os modelos ZSL podem sofrer de enviesamento, em que a precisão da previsão é significativamente mais elevada para para classes vistas em comparação com as não vistas (Generalized Zero-Shot Learning).

A investigação de organizações como o Laboratório de IA da Universidade de Stanford e a IEEE Computer Society continua a abordar estas limitações. À medida que os modelos de fundação se tornarem mais robustos, espera-se que o ZSL se torne um recurso padrão em ferramentas de ferramentas de visão computacional, reduzindo a dependência de esforços esforços maciços de rotulagem de dados e democratizando o acesso a capacidades avançadas de IA.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora