Utilizar as ampliações de Albumentations para diversificar os seus dados

Abirami Vina

5 min. de leitura

17 de fevereiro de 2025

Saiba como utilizar Albumentations para aumentos aquando da formação personalizada do Ultralytics YOLO11 para melhorar o desempenho do modelo com diversos dados de formação.

Ao criar uma solução de visão por computador, a recolha de um conjunto diversificado de imagens para treinar modelos de IA de visão pode ser uma parte crucial do processo. Muitas vezes, requer muito tempo e dinheiro e, por vezes, as imagens recolhidas ainda não são suficientemente variadas para que os modelos aprendam eficazmente.

Por exemplo, os modelos de visão por computador, como o Ultralytics YOLO11, podem ser treinados à medida em conjuntos de dados de imagens para várias tarefas de visão por computador relacionadas com diferentes aplicações. A diversidade de dados é fundamental porque ajuda o modelo a generalizar melhor, permitindo-lhe reconhecer objectos e padrões numa vasta gama de cenários do mundo real.

Se estiver a debater-se com a falta de dados diversificados, as técnicas de aumento de dados de imagem podem ser uma óptima solução. Métodos como rodar, inverter e ajustar o brilho podem ajudar a aumentar a variedade do seu conjunto de dados, melhorando a capacidade do modelo para lidar com uma gama mais alargada de condições.

É por isso que o Ultralytics suporta uma integração para aumentar os dados de imagem. Utilizando o Albumentations, uma ferramenta popular que oferece uma coleção de transformações, pode criar diversos dados visuais. Esta integração simplifica o processo de treino do YOLO11, aumentando automaticamente as imagens de treino, o que leva a um melhor desempenho do modelo. 

Neste artigo, iremos explorar a forma como pode utilizar a integração do Albumentations, as suas vantagens e o seu impacto na formação de modelos.

O que é a Albumentação?

Os modelos de visão por computador podem aprender com um vasto conjunto de imagens de alta qualidade a reconhecer objectos em diferentes ambientes. A recolha de grandes conjuntos de dados de fontes do mundo real pode ser lenta, dispendiosa e ineficaz. Para simplificar esta tarefa, pode utilizar a ampliação de dados de imagem para criar novas variações de imagens existentes, ajudando os modelos a aprender com diferentes cenários sem recolher mais dados.

Especificamente, pode tirar partido do Albumentations, uma biblioteca de código aberto introduzida em 2018 para um aumento eficiente dos dados de imagem. Suporta uma variedade de operações, desde alterações geométricas simples, como rotações e inversões, até ajustes mais complexos, como brilho, contraste e adição de ruído.

__wf_reserved_inherit
Fig. 1. Exemplos de diferentes tipos de aumentos de dados de imagem.

Principais caraterísticas das Albumentações

O Albumentations é conhecido pelo seu elevado desempenho, o que significa que pode processar imagens de forma rápida e eficiente. Construído em bibliotecas optimizadas como OpenCV e NumPy, lida com grandes conjuntos de dados com um tempo de processamento mínimo, tornando-o ideal para o aumento rápido de dados durante a formação de modelos.

Eis algumas outras caraterísticas-chave das Albumentações:

  • Vasta gama de transformações: O Albumentations fornece mais de 70 tipos de aumentos. Estas variações ajudam os modelos a aprender a detetar objectos apesar das alterações na iluminação, ângulos ou fundos.
  • Optimizado para velocidade: Utiliza técnicas de otimização avançadas como SIMD (Instrução Única, Dados Múltiplos), que processa vários pontos de dados de uma só vez para acelerar o aumento da imagem e lidar com grandes conjuntos de dados de forma eficiente.
  • Três níveis de aumentos: Melhora os dados de três formas. Por exemplo, as ampliações ao nível do pixel ajustam o brilho e a cor sem alterar os objectos. Entretanto, as ampliações ao nível espacial modificam o posicionamento dos objectos, preservando os detalhes principais, e as ampliações ao nível da mistura misturam partes de imagens diferentes para criar novas amostras.

Porque é que deve utilizar a integração Albumentations?

Pode estar a perguntar-se: há muitas formas de aplicar aumentos a um conjunto de dados e pode até criar os seus próprios aumentos utilizando ferramentas como o OpenCV. Então, porquê escolher uma integração que suporte uma biblioteca como a Albumentations?

A criação manual de aumentos com ferramentas como o OpenCV pode demorar muito tempo e requer alguma experiência. Também pode ser complicado afinar as transformações para obter os melhores resultados. A integração do Albumentations torna este processo mais fácil. Oferece muitas transformações prontas a utilizar que lhe podem poupar tempo e esforço ao preparar o seu conjunto de dados.

Outra razão para escolher a integração Albumentations é o facto de funcionar sem problemas com o pipeline de formação de modelos Ultralytics. Torna muito mais fácil o treino personalizado do YOLO11, uma vez que os aumentos são aplicados automaticamente durante o treino. Simplifica o processo, para que se possa concentrar mais em melhorar o seu modelo do que em lidar com a preparação dos dados. 

Começar a utilizar a integração de Albumentations

Curiosamente, a utilização das integrações do Albumentations para treinar o YOLO11 é mais simples do que parece. Uma vez configuradas as bibliotecas corretas, a integração aplica automaticamente aumentos de dados de imagem durante o treino. Ajuda o modelo a aprender com diferentes variações de imagem utilizando o mesmo conjunto de dados.

De seguida, vamos ver como instalar e utilizar a integração do Albumentations na formação personalizada do YOLO11.

Instalar o pacote Ultralytics Python e Albumentations

Antes de aplicar as ampliações, é necessário instalar o pacote Ultralytics Python e o Albumentations. A integração foi criada de modo a que ambas as bibliotecas funcionem em conjunto sem problemas por defeito, pelo que não precisa de se preocupar com configurações complexas.

Todo o processo de instalação pode ser concluído em apenas alguns minutos com um único comando pip, que é uma ferramenta de gestão de pacotes para a instalação de bibliotecas Python, como mostra a imagem abaixo. 

__wf_reserved_inherit
Fig. 2. Instalação de Ultralytics e Albumentations.

Quando o Albumentations estiver instalado, o modo de treino do modelo Ultralytics aplica automaticamente aumentos de imagem durante o treino. Se o Albumentations não estiver instalado, estas ampliações não serão aplicadas. Para mais pormenores, pode consultar a documentação oficial do Ultralytics.

Treinar o YOLO11 com a ajuda da integração Albumentations

Vamos perceber melhor o que está a acontecer nos bastidores da integração do Albumentations. 

Aqui está um olhar mais atento sobre os aumentos que estão a ser aplicados durante o treino YOLO11:

  • Desfoque: Esta transformação adiciona um ligeiro desfoque a uma imagem. Ajuda o modelo a detetar objectos mesmo quando estes estão desfocados.
  • Desfocagem mediana: Reduz o ruído aleatório, preservando os limites dos objectos numa imagem. Isto torna mais fácil para o modelo detetar objectos em ambientes complexos.
  • Escala de cinzentos: Ao converter uma imagem para preto e branco, este aumento pode ajudar o modelo a concentrar-se em formas e texturas em vez de cores.
  • CLAHE (equalização de histograma adaptativa limitada ao contraste): Este aumento aumenta o contraste nas imagens, particularmente em áreas demasiado escuras ou difíceis de ver, como em condições de pouca luz ou nebulosas. Isto torna os objectos nessas áreas mais claros e mais fáceis de identificar pelo modelo.
__wf_reserved_inherit
Fig. 3. Um exemplo de um aumento da escala de cinzentos aplicado a uma imagem de um gato.

Aplicações do YOLO11 e da integração das Albumentações

Se estiver a treinar o YOLO11 de forma personalizada para uma aplicação específica, a integração do Albumentations pode ajudar a melhorar o desempenho do modelo, adaptando-se a várias condições. Vamos discutir algumas aplicações do mundo real e os desafios que esta integração pode resolver.

Melhorar a imagiologia médica

A IA de visão nos cuidados de saúde está a ajudar os médicos a analisar as imagens médicas com maior precisão para ajudar nos diagnósticos e melhorar os cuidados aos doentes. De facto, cerca de um quinto das organizações de cuidados de saúde já estão a utilizar soluções de IA. 

No entanto, a criação destas soluções de visão por computador tem o seu próprio conjunto de desafios. Os exames médicos podem variar muito entre hospitais, influenciados por factores como diferentes equipamentos, configurações e até mesmo a experiência dos técnicos. As variações de brilho, contraste e exposição podem afetar a consistência e a precisão dos modelos de Vision AI, dificultando o seu desempenho fiável em diferentes ambientes.

É aqui que a integração de ferramentas como o Albumentations se torna essencial. Ao gerar várias versões aumentadas do mesmo exame, o Albumentations permite que o modelo aprenda com uma variedade de qualidades de imagem. Isto ajuda o modelo a tornar-se mais robusto, permitindo-lhe detetar doenças com precisão tanto em imagens de alta como de baixa qualidade. 

__wf_reserved_inherit
Fig. 4. Imagens de raios X aumentadas.

Reforçar a segurança e a vigilância

Outra aplicação interessante da IA de visão é a segurança e a vigilância. A deteção de objectos em tempo real pode ajudar as equipas de segurança a identificar rapidamente potenciais ameaças. 

Uma das principais preocupações relacionadas com esta aplicação é o facto de as câmaras de segurança capturarem imagens sob várias condições de iluminação ao longo do dia, e estas condições podem afetar drasticamente a forma como um modelo compreende essas imagens. Factores como ambientes com pouca luz, brilho ou fraca visibilidade podem dificultar a deteção de objectos ou o reconhecimento de potenciais ameaças de forma consistente pelos modelos de visão por computador.

A integração do Albumentations ajuda-o a aplicar transformações para imitar diferentes condições de iluminação. Isto permite que o modelo aprenda a detetar objectos tanto em ambientes com muita como pouca luz, tornando-o mais fiável e melhorando os tempos de resposta em condições difíceis.

Redefinir os fluxos de trabalho de retalho e a experiência do cliente

Um derrame num corredor de supermercado, um cão a correr pela loja ou uma criança a derrubar um expositor de produtos são apenas alguns exemplos de eventos quotidianos que podem ser casos extremos para a IA de visão em ambientes de retalho . A visão computacional é cada vez mais utilizada para melhorar a experiência do cliente, acompanhando o comportamento do comprador, monitorizando o tráfego pedonal e identificando produtos nas prateleiras. No entanto, estas situações do mundo real podem ser difíceis para os sistemas de IA compreenderem e processarem com precisão.

Embora nem todos os cenários possam ser representados num conjunto de dados de visão por computador, a integração do Albumentations ajuda a aumentar os dados para cobrir muitas situações possíveis, tais como iluminação inesperada, ângulos invulgares ou obstruções. Isto ajuda os modelos de visão por computador a adaptarem-se a várias condições, melhorando a sua capacidade de lidar com casos extremos e fazer previsões precisas em ambientes de retalho dinâmicos.

Principais conclusões

A recolha de diversos dados do mundo real para o treino de modelos pode ser complicada, mas o Albumentations facilita-o ao criar variações de imagem que ajudam os modelos a adaptarem-se a diferentes condições. 

A integração do Albumentations suportada pelo Ultralytics simplifica o processo de aplicação destes aumentos durante a formação personalizada do YOLO11. Isto resulta numa melhor qualidade do conjunto de dados, o que beneficia uma vasta gama de indústrias ao produzir modelos de IA de visão mais precisos e fiáveis.

Junte-se à nossa comunidade e explore o nosso repositório GitHub para saber mais sobre IA e consulte as nossas opções de licenciamento para dar início aos seus projectos de Visão de IA. Interessado em inovações como a IA no fabrico ou a visão computacional na condução autónoma? Visite as nossas páginas de soluções para saber mais. 

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência