Impulsionando projetos de visão computacional com ferramentas de código aberto da Hugging Face
Junta-te a nós para revisitar uma palestra do YOLO Vision 2024 focada em explorar como as ferramentas de código aberto da Hugging Face estão avançando o desenvolvimento de IA.

Escolher os algoritmos certos é apenas uma parte da construção de soluções de visão computacional impactantes. Engenheiros de IA frequentemente trabalham com grandes conjuntos de dados, ajustam modelos para tarefas específicas e otimizam sistemas de IA para o desempenho no mundo real. À medida que as aplicações de IA são adotadas mais rapidamente, a necessidade de ferramentas que simplifiquem esses processos também está crescendo.
No YOLO Vision 2024 (YV24), o evento híbrido anual realizado pela Ultralytics, especialistas em IA e entusiastas de tecnologia se reuniram para explorar as inovações mais recentes em visão computacional. O evento provocou discussões sobre vários tópicos, como maneiras de acelerar o desenvolvimento de aplicações de IA.
Um destaque importante do evento foi a palestra sobre a Hugging Face, uma plataforma de IA de código aberto que simplifica o treinamento, a otimização e a implantação de modelos. Pavel Iakubovskii, um Engenheiro de Machine Learning na Hugging Face, compartilhou como suas ferramentas melhoram os fluxos de trabalho para tarefas de visão computacional, como detectar objetos em imagens, categorizar imagens em diferentes grupos e fazer previsões sem treinamento prévio em exemplos específicos (zero-shot learning).
O Hugging Face Hub hospeda e fornece acesso a vários modelos de IA e modelos de visão computacional, como o Ultralytics YOLO11. Neste artigo, vamos recapitular os pontos principais da palestra do Pavel e ver como os desenvolvedores podem usar as ferramentas de código aberto da Hugging Face para criar e implantar modelos de IA rapidamente.

Fig 1. Pavel no palco no YV24.
Link to this sectionO Hugging Face Hub apoia um desenvolvimento de IA mais rápido#
Pavel começou sua palestra apresentando a Hugging Face como uma plataforma de IA de código aberto que oferece modelos pré-treinados para uma variedade de aplicações. Esses modelos são projetados para vários ramos da IA, incluindo processamento de linguagem natural (NLP), visão computacional e IA multimodal, permitindo que os sistemas processem diferentes tipos de dados, como texto, imagens e áudio.
Pavel mencionou que o Hugging Face Hub já hospedou mais de 1 milhão de modelos, e os desenvolvedores podem encontrar facilmente modelos adequados aos seus projetos específicos. A Hugging Face visa simplificar o desenvolvimento de IA oferecendo ferramentas para treinamento, ajuste fino e implantação de modelos. Quando os desenvolvedores podem experimentar diferentes modelos, isso simplifica o processo de integração da IA em aplicações do mundo real.
Embora a Hugging Face fosse inicialmente conhecida por NLP, desde então ela se expandiu para visão computacional e IA multimodal, permitindo que os desenvolvedores enfrentem uma gama mais ampla de tarefas de IA. Ela também possui uma comunidade forte onde os desenvolvedores podem colaborar, compartilhar ideias e obter suporte por meio de fóruns, Discord e GitHub.
Link to this sectionExplorando modelos Hugging Face para aplicações de visão computacional#
Entrando em mais detalhes, Pavel explicou como as ferramentas da Hugging Face tornam mais fácil criar aplicações de visão computacional. Os desenvolvedores podem usá-las para tarefas como classificação de imagens, detecção de objetos e aplicações de visão-linguagem.
Ele também destacou que muitas dessas tarefas de visão computacional podem ser tratadas com modelos pré-treinados disponíveis no Hugging Face Hub, economizando tempo ao reduzir a necessidade de treinamento do zero. Na verdade, a Hugging Face oferece mais de 13.000 modelos pré-treinados para tarefas de classificação de imagens, incluindo modelos para classificação de alimentos, classificação de animais de estimação e detecção de emoções.
Enfatizando a acessibilidade desses modelos, ele disse: "Provavelmente você nem precisa treinar um modelo para o seu projeto - você pode encontrar um no Hub que já foi treinado por alguém da comunidade."
Link to this sectionModelos Hugging Face para detecção de objetos#
Dando outro exemplo, Pavel elaborou como a Hugging Face pode ajudar com a detecção de objetos, uma função fundamental na visão computacional que é usada para identificar e localizar objetos dentro de imagens. Mesmo com dados rotulados limitados, os modelos pré-treinados disponíveis no Hugging Face Hub podem tornar a detecção de objetos mais eficiente.
Ele também deu uma visão geral rápida de vários modelos criados para essa tarefa que você pode encontrar no Hugging Face:
- Modelos de detecção de objetos em tempo real: Para ambientes dinâmicos onde a velocidade é crucial, modelos como o Detection Transformer (DETR) oferecem recursos de detecção de objetos em tempo real. O DETR é treinado no conjunto de dados COCO e foi projetado para processar recursos multiescala de forma eficiente, tornando-o adequado para aplicações sensíveis ao tempo.
- Modelos de visão-linguagem: Esses modelos combinam processamento de imagem e texto, tornando possível que os sistemas de IA correspondam a imagens com descrições ou reconheçam objetos além de seus dados de treinamento. Exemplos incluem CLIP e SigLIP, que melhoram a busca por imagens ao vincular texto a elementos visuais e permitem que as soluções de IA identifiquem novos objetos entendendo seu contexto.
- Modelos de detecção de objetos zero-shot: Eles podem identificar objetos que nunca viram antes ao entender a relação entre imagens e texto. Exemplos incluem OwlVit, GroundingDINO e OmDet, que usam zero-shot learning para detectar novos objetos sem a necessidade de dados de treinamento rotulados.
Link to this sectionComo usar os modelos Hugging Face#
Pavel então mudou o foco para colocar a mão na massa com os modelos Hugging Face, explicando três maneiras pelas quais os desenvolvedores podem aproveitá-los: explorando modelos, testando-os rapidamente e personalizando-os ainda mais.
Ele demonstrou como os desenvolvedores podem navegar pelos modelos diretamente no Hugging Face Hub sem escrever nenhum código, facilitando o teste dos modelos instantaneamente por meio de uma interface interativa. "Você pode experimentar sem escrever sequer uma linha de código ou baixar o modelo no seu computador", acrescentou Pavel. Como alguns modelos são grandes, executá-los no Hub ajuda a evitar limitações de armazenamento e processamento.

Fig 2. Como usar modelos Hugging Face.
Além disso, o Hugging Face Inference API permite que os desenvolvedores executem modelos de IA com chamadas de API simples. É ótimo para testes rápidos, projetos de prova de conceito e prototipagem rápida sem a necessidade de uma configuração complexa.
Para casos de uso mais avançados, os desenvolvedores podem usar a estrutura Hugging Face Transformers, uma ferramenta de código aberto que fornece modelos pré-treinados para tarefas de texto, visão e áudio, suportando PyTorch e TensorFlow. Pavel explicou que, com apenas duas linhas de código, os desenvolvedores podem recuperar um modelo do Hugging Face Hub e vinculá-lo a uma ferramenta de pré-processamento, como um processador de imagem, para analisar dados de imagem para aplicações de Vision AI.
Link to this sectionOtimizando fluxos de trabalho de IA com a Hugging Face#
Em seguida, Pavel explicou como a Hugging Face pode simplificar os fluxos de trabalho de IA. Um tópico importante que ele abordou foi a otimização do mecanismo de atenção em Transformers, um recurso central dos modelos de deep learning que ajuda a focar nas partes mais relevantes dos dados de entrada. Isso melhora a precisão de tarefas envolvendo processamento de linguagem e visão computacional. No entanto, pode exigir muitos recursos.
Otimizar o mecanismo de atenção pode reduzir significativamente o uso de memória enquanto melhora a velocidade. Pavel destacou: "Por exemplo, ao mudar para uma implementação de atenção mais eficiente, você pode obter um desempenho até 1,8x mais rápido."
A Hugging Face fornece suporte integrado para implementações de atenção mais eficientes dentro da estrutura Transformers. Os desenvolvedores podem habilitar essas otimizações simplesmente especificando uma implementação de atenção alternativa ao carregar um modelo.
Link to this sectionOptimum e Torch Compile#
Ele também falou sobre quantização, uma técnica que torna os modelos de IA menores reduzindo a precisão dos números que eles usam sem afetar muito o desempenho. Isso ajuda os modelos a usar menos memória e a serem executados mais rapidamente, tornando-os mais adequados para dispositivos com poder de processamento limitado, como smartphones e sistemas embarcados.
Para melhorar ainda mais a eficiência, Pavel apresentou a biblioteca Hugging Face Optimum, um conjunto de ferramentas projetado para otimizar e implantar modelos. Com apenas algumas linhas de código, os desenvolvedores podem aplicar técnicas de quantização e converter modelos em formatos eficientes como ONNX (Open Neural Network Exchange), permitindo que eles funcionem perfeitamente em diferentes tipos de hardware, incluindo servidores em nuvem e dispositivos de borda.

Fig 3. Pavel falou sobre a biblioteca Optimum e seus recursos.
Por fim, Pavel mencionou os benefícios do Torch Compile, um recurso no PyTorch que otimiza a forma como os modelos de IA processam dados, fazendo com que sejam executados de forma mais rápida e eficiente. A Hugging Face integra o Torch Compile dentro de suas bibliotecas Transformers e Optimum, permitindo que os desenvolvedores aproveitem essas melhorias de desempenho com alterações mínimas no código.
Ao otimizar a estrutura de computação do modelo, o Torch Compile pode acelerar os tempos de inferência e aumentar as taxas de quadros de 29 para 150 quadros por segundo sem comprometer a precisão ou a qualidade.
Link to this sectionImplantando modelos com ferramentas da Hugging Face#
Continuando, Pavel abordou brevemente como os desenvolvedores podem estender e implantar modelos de Vision AI usando ferramentas da Hugging Face após selecionar o modelo certo e escolher a melhor abordagem para o desenvolvimento.
Por exemplo, os desenvolvedores podem implantar aplicações de IA interativas usando Gradio e Streamlit. O Gradio permite que os desenvolvedores criem interfaces baseadas na web para modelos de machine learning, enquanto o Streamlit ajuda a criar aplicações de dados interativas com scripts Python simples.
Pavel também apontou: “Você não precisa começar a escrever tudo do zero”, referindo-se aos guias, notebooks de treinamento e scripts de exemplo que a Hugging Face fornece. Esses recursos ajudam os desenvolvedores a começar rapidamente sem ter que construir tudo do início.

Fig 4. Pavel discutindo os recursos da Hugging Face no YV24.
Link to this sectionBenefícios do Hugging Face Hub#
Encerrando sua palestra, Pavel resumiu as vantagens de usar o Hugging Face Hub. Ele enfatizou como isso simplifica o gerenciamento de modelos e a colaboração. Ele também chamou a atenção para a disponibilidade de guias, notebooks e tutoriais, que podem ajudar tanto iniciantes quanto especialistas a entender e implementar modelos de IA.
"Existem muitos espaços legais já no Hub. Você pode encontrar semelhantes, clonar o código compartilhado, modificar algumas linhas, substituir o modelo pelo seu e enviá-lo de volta", explicou ele, incentivando os desenvolvedores a aproveitar a flexibilidade da plataforma.
Link to this sectionPrincipais pontos#
Durante sua palestra no YV24, Pavel compartilhou como a Hugging Face fornece ferramentas que suportam o treinamento, a otimização e a implantação de modelos de IA. Por exemplo, inovações como Transformers, Optimum e Torch Compile podem ajudar os desenvolvedores a aprimorar o desempenho dos modelos.
À medida que os modelos de IA se tornam mais eficientes, os avanços na quantização e na implantação de borda estão facilitando a execução deles em dispositivos com recursos limitados. Essas melhorias, combinadas com ferramentas como Hugging Face e modelos avançados de visão computacional, como o Ultralytics YOLO11, são fundamentais para a construção de aplicações de Vision AI escaláveis e de alto desempenho.
Junte-se à nossa comunidade crescente! Explore nosso repositório no GitHub para aprender sobre IA e confira nossas licenças YOLO para iniciar seus projetos de Vision AI. Interessado em inovações como visão computacional na saúde ou visão computacional na agricultura? Visite nossas páginas de soluções para descobrir mais!






