Descubra a Aprendizagem Zero-Shot: uma abordagem de IA de ponta que permite que os modelos classify dados não vistos, revolucionando a deteção de objectos, a PNL e muito mais.
A Aprendizagem Zero-Shot (ZSL) é um paradigma poderoso na aprendizagem automática (ML) que permite aos modelos de que permite aos modelos de inteligência artificial reconhecer, classify ou detect objectos que nunca encontraram durante a durante a fase de dados de treino. Na aprendizagem tradicional tradicional supervisionada, um modelo deve ser treinado em milhares de imagens rotuladas para cada categoria específica que precisa de identificar. A ZSL elimina este constrangimento informações auxiliares - normalmente descrições de texto, atributos ou semânticas - parapreencher a lacuna entre as classes vistas e não vistas classes. Esta capacidade permite aos sistemas de sistemas de inteligência artificial (IA) (IA) sejam significativamente mais flexíveis, escaláveis e capazes de lidar com ambientes dinâmicos em que a recolha exaustiva exaustivos para todos os objectos possíveis é impraticável.
O mecanismo central da ZSL envolve a transferência de conhecimentos de conceitos familiares para conceitos não familiares, utilizando um espaço semântico partilhado. espaço semântico partilhado. Em vez de aprender a reconhecer um "gato" apenas através da memorização de padrões de pixéis, o modelo aprende a relação entre caraterísticas visuais e atributos semânticos (por exemplo, "peludo", "bigodes", "quatro "peludo", "bigodes", "quatro patas") derivados do processamento de linguagem natural (PNL).
Este processo baseia-se frequentemente em modelos multimodais que alinham representações de imagem e texto representações de imagem e texto. Por exemplo, a investigação fundamental como o CLIP da OpenAI demonstra como os modelos podem aprender conceitos visuais a partir supervisão de linguagem natural. Quando um modelo ZSL encontra um objeto inédito, como uma espécie rara de ave, extrai as caraterísticas visuais e compara-as com um dicionário de vectores semânticos. Se as caraterísticas visuais se alinharem com a descrição semântica da nova classe, o modelo pode classify corretamente, realizando efetivamente uma previsão "zero-shot".
Para compreender plenamente a ZSL, é útil distingui-la de estratégias de aprendizagem semelhantes utilizadas em visão por computador (CV):
A Aprendizagem Zero-Shot está a impulsionar a inovação em vários sectores, permitindo que os sistemas se generalizem para além da sua formação inicial.
O modelo YOLOUltralytics exemplifica o Zero-Shot Zero-Shot Learning em ação. Permite que os utilizadores definam classes personalizadas dinamicamente em tempo de execução, sem voltar a treinar o modelo. Isto é conseguido através da ligação do modelo YOLO11 com um codificador de texto um codificador de texto baseado em CLIP.
O seguinte exemplo Python demonstra como utilizar YOLO para detect objectos que não faziam parte de um conjunto de dados COCO
COCO padrão, como cores específicas de roupas, usando o comando ultralytics pacote.
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes for Zero-Shot detection using text prompts
# The model will now look for these specific descriptions
model.set_classes(["blue backpack", "red apple", "person wearing sunglasses"])
# Run inference on an image to detect the new zero-shot classes
results = model.predict("path/to/image.jpg")
# Show the results
results[0].show()
Embora a ZSL ofereça um potencial imenso, enfrenta desafios como o problema da mudança de domínio, em que os atributos atributos semânticos aprendidos durante o treino não se relacionam perfeitamente com o aspeto visual de classes não vistas. Além disso, os modelos ZSL podem sofrer de enviesamento, em que a precisão da previsão é significativamente mais elevada para para classes vistas em comparação com as não vistas (Generalized Zero-Shot Learning).
A investigação de organizações como o Laboratório de IA da Universidade de Stanford e a IEEE Computer Society continua a abordar estas limitações. À medida que os modelos de fundação se tornarem mais robustos, espera-se que o ZSL se torne um recurso padrão em ferramentas de ferramentas de visão computacional, reduzindo a dependência de esforços esforços maciços de rotulagem de dados e democratizando o acesso a capacidades avançadas de IA.