Potenciar a visão computacional de código aberto com os transformadores do HuggingFace

Nuvola Ladi

5 min. de leitura

14 de fevereiro de 2024

Mergulhe na visão computacional de código aberto com o HuggingFace! Saiba mais sobre aprendizagem por transferência, transformadores e explore mais de 8.000 modelos. Junte-se a Merve Noyan para obter informações e demonstrações práticas, permitindo que os programadores inovem na exploração de IA.

Enquanto continuamos a explorar os destaques do evento YOLO VISION 2023 (YV23), vamos conhecer Merve Noyan, Developer Advocacy Engineer da HuggingFace, a plataforma líder de PNL com modelos pré-treinados para o desenvolvimento eficiente de aplicações linguísticas. Na sua palestra, Merve partilhou algumas ideias incríveis sobre o mundo da visão computacional de código aberto. 

Junte-se a nós numa viagem pelo fascinante universo da aprendizagem por transferência, dos transformadores e do ecossistema de código aberto da visão por computador.

A aprendizagem por transferência revelada: Uma rápida recapitulação

Merve começou com uma breve introdução à aprendizagem por transferência, a varinha mágica que nos permite transferir conhecimentos de uma rede neuronal para outra. Imagine treinar um modelo com base nas caraterísticas universais das camadas iniciais, como arestas e cantos, e depois afiná-lo para tarefas específicas. Esta é a essência da aprendizagem por transferência, reduzindo as dependências de dados e aumentando a precisão.

Merve destacou os backbones convolucionais clássicos como o ResNet e o Inception, preparando o terreno para a viagem transformacional que se avizinha.

Entrar nos Transformers: Um enigma revelado

O que é que torna os Transformers especiais? Merve comparou-o a um enigma, mostrando como diferem dos modelos tradicionais baseados na convolução. O segredo reside na sua capacidade de efetuar uma aprendizagem auto-supervisionada, captando caraterísticas sem a necessidade de dados rotulados. O Vision Transformer, o Data Efficient Transformer, o CLIP e o SWIM CLIP estavam entre o elenco de modelos baseados em transformadores que ela apresentou. 

Estabelecendo alguns pontos em comum com a Ultralytics, que fornece suporte para um modelo de transformador concebido para a deteção de objectos. Este modelo apresenta um codificador híbrido eficaz, seleção de consultas com reconhecimento de IOU e velocidade de inferência ajustável. Notavelmente, ele segue o padrão familiar de outros modelos Ultralytics YOLOv8, apresentando opções para previsão, treinamento, validação e exportação.

O seu balcão único

Merve mergulhou então no tesouro das ofertas do HuggingFace, com mais de 8.000 modelos para tarefas clássicas de visão computacional e 10.000 modelos para aplicações multimodais. O HuggingFace Hub conta com mais de 3.000 conjuntos de dados, o que o torna um espaço de diversão para programadores e entusiastas. Merve sublinhou a experiência perfeita, graças à API consistente do HuggingFace, que oferece modelos prontos a utilizar para vários casos de utilização.

Magia prática com HuggingFace

A palestra passou para demonstrações práticas, mostrando como se pode trabalhar com modelos sem esforço. Desde a instanciação de modelos e processadores até o ajuste fino com a API Trainer, Merve deixou claro que a biblioteca HuggingFace Transformers é a melhor amiga do desenvolvedor. Ela até introduziu o Pipeline API, um favorito pessoal, simplificando o fluxo de trabalho para os utilizadores.

Fig. 1. Apresentação de Merve Noyan no YV23 no Campus Google for Startups em Madrid.

Um olhar sobre as aplicações

Merve encerrou a palestra com um vislumbre de algumas aplicações fantásticas, incluindo o modelo Plot para resposta a perguntas visuais, Blip para legendagem de imagens e o poderoso modelo Segment Anything para segmentação de imagens. A API Pipeline do Ecossistema HuggingFace foi o centro das atenções, facilitando a utilização de modelos sem ter de se aprofundar nos aspectos técnicos.

A cereja no topo do bolo foi a apresentação de Merve sobre a criação de ilusões de ótica com o Elysian Diffusion, uma experiência cativante que dá um toque divertido ao mundo da IA.

Em poucas palavras!

Em conclusão, a palestra de Merve deixou-nos inspirados e ansiosos por explorar as infinitas possibilidades da visão computacional de código aberto. O HuggingFace tornou a IA verdadeiramente acessível, divertida e excitante, dando aos programadores a possibilidade de libertarem a sua criatividade. Um brinde ao futuro da comunidade de código aberto e às incríveis inovações que ela encerra! 

Veja toda a conversa aqui

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência