Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Aproveitando o aprendizado por reforço em projetos de visão computacional

Abirami Vina

Leitura de 5 minutos

5 de junho de 2025

Descubra como o aprendizado por reforço em aplicações de visão computacional está ajudando os sistemas a ver, tomar decisões e melhorar em aplicações do mundo real em diversos setores.

Uma maneira direta de explicar a inteligência artificial (IA) é que ela é um campo focado em recriar como os humanos pensam e aprendem. É daí que vem a ideia de técnicas de aprendizado em IA, que são diferentes métodos que permitem que as máquinas melhorem seu desempenho ao longo do tempo, assim como as pessoas.

Anteriormente, exploramos as principais técnicas de aprendizado de IA, incluindo aprendizado supervisionado, não supervisionado, por reforço e por transferência, e como cada um desempenha um papel importante em ajudar os modelos de IA a processar informações e tomar decisões.

Hoje, vamos analisar mais de perto o aprendizado por reforço, uma técnica que ensina os sistemas de IA a aprender através da experiência, interagindo com um ambiente e melhorando com base no feedback. Especificamente, exploraremos como o aprendizado por reforço pode ser aplicado a aplicações de visão computacional - sistemas que permitem que as máquinas interpretem e compreendam informações visuais do mundo.

Juntar conceitos como aprendizado por reforço e visão computacional está abrindo novas e empolgantes possibilidades e é uma área ativa de pesquisa. Permite que os sistemas de IA reconheçam o que veem e tomem decisões informadas com base nessas informações visuais. 

O que é aprendizado por reforço?

O aprendizado por reforço é um ramo do aprendizado de máquina onde um agente de IA aprende tomando ações e recebendo feedback na forma de recompensas ou penalidades. O objetivo é descobrir quais ações levam aos melhores resultados ao longo do tempo.

Pode pensar no aprendizado por reforço como treinar um cão. Quando um cão se senta sob comando, você dá-lhe um petisco. Depois de um tempo, o cão aprende que sentar leva a uma recompensa. No aprendizado por reforço, o agente ou modelo de IA é como o cão; o ambiente é o mundo ao seu redor, e a recompensa ajuda-o a entender se fez o movimento certo.

Isto é diferente da aprendizagem supervisionada, onde o modelo de IA recebe muitos exemplos das respostas corretas. Por exemplo, o modelo pode receber uma imagem de um cão e ser informado: "Isto é um cão". 

O aprendizado por reforço, por outro lado, não depende de dados rotulados. Em vez disso, envolve aprender experimentando diferentes ações e aprendendo com os resultados, muito parecido com jogar um jogo e descobrir quais movimentos ajudam você a vencer.

__wf_reserved_inherit
Fig 1. Aprendizado por reforço vs. aprendizado supervisionado.

O aprendizado por reforço é crucial para tarefas onde as decisões são tomadas passo a passo, e cada escolha muda o que acontece a seguir. Este tipo de aprendizado é usado em videogames de estratégia para tornar a jogabilidade mais desafiadora e envolvente para os jogadores.

Como o aprendizado por reforço funciona em soluções de IA

Considere como você aprende a andar de bicicleta. No início, você pode cair. Mas com a prática, você começa a descobrir o que ajuda você a se manter equilibrado. Quanto mais você anda, melhor você fica. Você aprende fazendo, não apenas sendo dito o que fazer.

O aprendizado por reforço funciona de forma semelhante para a IA. Ela aprende através da experiência - experimentando diferentes ações, observando o que acontece e melhorando gradualmente sua capacidade de fazer as escolhas certas ao longo do tempo.

__wf_reserved_inherit
Fig. 2. Entendendo como o aprendizado por reforço funciona.

Aqui está uma visão de alguns dos principais componentes do aprendizado por reforço:

  • Agente: O agente é o aprendiz ou tomador de decisões. Ele interage com o ambiente, tomando ações e visando atingir um objetivo específico.
  • Ambiente: O ambiente inclui tudo com o que o agente interage. Ele muda em resposta às ações do agente e fornece feedback com base nos resultados.
  • Estado: Um estado representa um snapshot da situação atual no ambiente. O agente observa o estado para entender seus arredores e determinar qual ação tomar em seguida.
  • Ação: Uma ação é um movimento ou decisão tomada pelo agente que afeta o ambiente. Cada ação leva a um novo estado e pode influenciar recompensas futuras.
  • Recompensa: Uma recompensa é simplesmente feedback do ambiente que diz ao agente se a sua ação foi benéfica ou não. Recompensas positivas encorajam o agente a repetir boas ações, enquanto recompensas negativas desencorajam ações ruins.
  • Política: Uma política é a estratégia do agente para escolher ações com base no estado atual. Ao longo do tempo, o agente refina sua política para maximizar as recompensas totais que pode obter.

Ao usar esses componentes juntos, o aprendizado por reforço possibilita que os sistemas de IA aprendam comportamentos eficazes por meio de tentativa e erro contínuos. A cada tentativa, o agente se torna melhor em selecionar ações que levam a recompensas maiores e melhores resultados.

Aprendizado por reforço em inovações de visão computacional

A visão computacional é usada para tarefas como detetar objetos em imagens, classificar o que está numa imagem e segmentar uma imagem em diferentes partes. Modelos de visão computacional como o Ultralytics YOLO11 suportam essas tarefas e podem ser usados para construir aplicações impactantes que podem reunir insights visuais.  

No entanto, quando essas tarefas de Visão de IA são combinadas com o aprendizado por reforço, o resultado é uma solução de IA que não apenas vê, mas também aprende a agir com base em insights visuais e melhora com o tempo.

Um exemplo interessante de aprendizado por reforço em aplicações de visão computacional é o uso de robôs em armazéns. Robôs equipados com câmeras e sistemas de visão computacional podem analisar seus arredores, detectar onde cada item está localizado, identificar sua forma e tamanho e entender como ele está posicionado na prateleira.

Cada vez que o robô tenta pegar um item, ele recebe feedback - sucesso se o item for pego corretamente ou falha se cair. Com o tempo, o robô aprende quais ações funcionam melhor para diferentes itens. Em vez de seguir um conjunto fixo de instruções, ele melhora continuamente por meio da experiência.

__wf_reserved_inherit
Fig 3. Um braço robótico usando visão de IA e aprendizado por reforço para pegar objetos.

Aplicações do aprendizado por reforço em visão computacional

Agora que temos uma melhor compreensão do que é o aprendizado por reforço e seu papel na visão computacional, vamos dar uma olhada mais de perto em alguns exemplos de onde o aprendizado por reforço e a visão computacional são usados juntos.

Integrando Visão de IA e aprendizado por reforço para veículos mais inteligentes

Os veículos autônomos podem contar com a Visão de IA para entender seus arredores e com o aprendizado por reforço para tomar decisões com base no que veem. Um ótimo exemplo disso em ação é o AWS DeepRacer.

O AWS DeepRacer é um carro de corrida totalmente autônomo na escala 1/18 que aprende a dirigir usando uma câmera e aprendizado por reforço. Em vez de receber instruções sobre o que fazer, ele descobre as coisas sozinho, tentando, cometendo erros e aprendendo com eles.

A câmera deste pequeno carro funciona como um par de olhos, capturando a pista à frente. Com base no que vê, o carro aprende a dirigir e a que velocidade ir. A cada volta, ele fica melhor. Por exemplo, pode aprender a fazer curvas mais amplas ou a desacelerar antes de curvas acentuadas, aprendendo com tentativas anteriores.

O treino para o DeepRacer começa num ambiente virtual, onde o modelo pratica e aprimora as suas habilidades de condução. Assim que atinge um certo nível de desempenho, essas habilidades são transferidas para pistas do mundo real com carros físicos. 

__wf_reserved_inherit
Fig 4. O AWS DeepRacer usa visão computacional e aprendizado por reforço para dirigir autonomamente. Fonte da imagem: Amazon. 

Avançando em direção a robôs cirúrgicos autônomos

Uma área de pesquisa empolgante que está ganhando atenção é a integração de Visão de IA e aprendizado por reforço em cirurgia robótica. No momento, esta aplicação é ainda amplamente teórica. Os pesquisadores estão executando simulações em ambientes virtuais.

No entanto, os primeiros experimentos estão mostrando resultados promissores, sugerindo que os robôs cirúrgicos poderiam eventualmente realizar procedimentos complexos e delicados com maior precisão, adaptabilidade e mínima intervenção humana.

__wf_reserved_inherit
Fig 5. Os robôs cirúrgicos estão se tornando cada vez mais avançados.

Por exemplo, imagine uma situação em que um pedaço de gaze precisa ser cuidadosamente levantado de um local cirúrgico. Um robô equipado com Visão de IA primeiro analisaria a cena, usando segmentação para identificar a gaze e os tecidos circundantes. 

O aprendizado por reforço ajudaria então o robô cirúrgico a decidir como abordar a tarefa, determinando o melhor ângulo para agarrar a gaze, quanta pressão aplicar e como levantá-la sem perturbar áreas sensíveis próximas. Ao longo do tempo e através da prática repetida em ambientes simulados, o robô poderia aprender a realizar esses movimentos sutis e críticos com crescente habilidade e confiança.

Prós e contras do aprendizado por reforço em visão computacional

O aprendizado por reforço permite que os sistemas de Visão de IA vão além do simples reconhecimento e comecem a tomar decisões com base no que veem. Isso abre novas possibilidades em áreas como robótica, automação e interação em tempo real. 

Aqui estão algumas das principais vantagens de integrar o aprendizado por reforço em fluxos de trabalho de Visão de IA:

  • Menos dependência de dados rotulados: Esses sistemas podem aprender com a interação, então eles não precisam de enormes conjuntos de dados rotulados para começar.
  • Lida melhor com a incerteza: O aprendizado por reforço pode lidar com informações visuais incompletas ou ruidosas, ajustando as ações com base no feedback, em vez de depender apenas de dados perfeitos.
  • Suporta aprendizado de longo prazo: Ajuda os modelos a melhorar ao longo do tempo, aprendendo com sequências de ações, não apenas decisões de uma única etapa.

Por outro lado, aqui estão algumas das limitações do aprendizado por reforço a serem consideradas:

  • Problema de atribuição de crédito: Pode ser difícil para o agente descobrir quais ações específicas contribuíram para um resultado final, especialmente em longas sequências de decisões.
  • Risco de exploração não segura: Durante o treino, o agente pode tentar ações não seguras ou indesejáveis que não seriam aceitáveis em aplicações do mundo real, como cuidados de saúde ou condução autónoma.
  • Convergência lenta: Pode demorar muito para que o modelo realmente atinja um bom desempenho, especialmente para tarefas complexas.

Principais conclusões

O aprendizado por reforço em projetos de visão computacional permite que os sistemas de IA entendam seus arredores e aprendam como agir por meio da experiência. Com modelos como o Ultralytics YOLO11 fornecendo detecção de objetos em tempo real, o sistema pode tomar decisões informadas com base no que vê.

Esta abordagem vai além dos métodos tradicionais, permitindo que a IA melhore através de tentativa e erro, em vez de depender apenas de dados rotulados. Apoia a aprendizagem contínua e ajuda a construir sistemas de Visão de IA mais flexíveis, adaptáveis e inteligentes que melhoram com o tempo.

Junte-se à nossa crescente comunidade. Visite o nosso repositório no GitHub para se aprofundar em IA. Quer começar seus próprios projetos de visão computacional? Explore nossas opções de licenciamento. Saiba mais sobre IA na manufatura e Vision AI na indústria automotiva em nossas páginas de soluções.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência