Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Potencializando a visão computacional de código aberto com os transformers do HuggingFace

Nuvola Ladi

Leitura de 5 minutos

14 de fevereiro de 2024

Mergulhe na visão computacional de código aberto com o Hugging Face! Aprenda sobre transferência de aprendizado, transformers e explore mais de 8.000 modelos. Junte-se a Merve Noyan para obter insights e demonstrações práticas, capacitando os desenvolvedores a inovar na exploração da IA.

Enquanto continuamos a explorar os destaques do evento YOLO VISION 2023 (YV23), vamos conhecer Merve Noyan, Engenheira de Defesa do Desenvolvedor na HuggingFace, a principal plataforma de PNL com modelos pré-treinados para o desenvolvimento eficiente de aplicações de linguagem. Em sua palestra, Merve compartilhou algumas ideias incríveis sobre o mundo da visão computacional de código aberto. 

Junte-se a nós enquanto o levamos em uma jornada pelo fascinante universo da aprendizagem por transferência, transformers e o ecossistema de visão computacional de código aberto.

Transferência de aprendizado revelada: Uma recapitulação rápida

Merve começou com uma rápida introdução sobre transfer learning, a varinha mágica que nos permite transferir conhecimento de uma rede neural para outra. Imagine treinar um modelo nas características universais nas primeiras camadas, como bordas e cantos, e depois ajustá-lo para tarefas específicas. Esta é a essência do transfer learning, reduzindo as dependências de dados e aumentando a precisão.

Merve destacou backbones convolucionais clássicos como ResNet e Inception, preparando o terreno para a jornada transformacional que viria.

Apresentando os transformers: Um enigma revelado

O que torna os Transformers especiais? Merve comparou-os a um enigma, mostrando como eles diferem dos modelos tradicionais baseados em convolução. O segredo está na sua capacidade de realizar aprendizado auto supervisionado, capturando características sem a necessidade de dados rotulados. Vision Transformer, Data Efficient Transformer, CLIP e SWIM CLIP estavam entre o elenco de estrelas de modelos baseados em transformer que ela apresentou. 

Estabelecendo um terreno comum com a Ultralytics, que oferece suporte para um modelo transformer projetado para detecção de objetos. Este modelo apresenta um codificador híbrido eficaz, seleção de consulta com reconhecimento de IOU e velocidade de inferência ajustável. Notavelmente, ele adere ao padrão familiar de outros modelos Ultralytics YOLOv8, apresentando opções para previsão, treinamento, validação e exportação.

Seu balcão único

Merve então mergulhou no tesouro das ofertas da HuggingFace, com mais de 8.000 modelos para tarefas clássicas de visão computacional e 10.000 modelos para aplicações multimodais. O HuggingFace Hub possui mais de 3.000 datasets, tornando-o um playground para desenvolvedores e entusiastas. Merve enfatizou a experiência perfeita, graças à API consistente da HuggingFace, oferecendo modelos prontos para uso para vários casos de uso.

Mágica prática com HuggingFace

A palestra transitou para demonstrações práticas, mostrando como se pode trabalhar sem esforço com modelos. Desde a instanciação de modelos e processadores até o ajuste fino com a API Trainer, Merve deixou claro que a biblioteca HuggingFace Transformers é a melhor amiga de um desenvolvedor. Ela até apresentou a API Pipeline, uma favorita pessoal, simplificando o fluxo de trabalho para os usuários.

Fig 1. Merve Noyan apresentando na YV23 no Google for Startups Campus em Madrid.

Um vislumbre das aplicações

Merve encerrou a palestra com um vislumbre de algumas aplicações fantásticas, incluindo o modelo Plot para visual question answering, Blip para image captioning e o poderoso modelo Segment Anything para segmentação de imagem. A Pipeline API do HuggingFace Ecosystem ganhou destaque, facilitando o uso de modelos sem se aprofundar nos detalhes técnicos.

A cereja do bolo foi a apresentação de Merve sobre a criação de ilusões óticas com o Elysian Diffusion, uma experiência cativante que adiciona um toque divertido ao mundo da IA.

Em resumo!

Em conclusão, a palestra de Merve nos deixou inspirados e ansiosos para explorar as infinitas possibilidades da visão computacional de código aberto. A HuggingFace realmente tornou a IA acessível, divertida e emocionante, capacitando os desenvolvedores a liberar sua criatividade. Um brinde ao futuro da comunidade de código aberto e às incríveis inovações que ela reserva! 

Assista à palestra completa aqui

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência