Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Guias

Aproveitando o aprendizado por reforço em projetos de visão computacional

Descubra como o aprendizado por reforço em aplicações de visão computacional está ajudando sistemas a ver, tomar decisões e melhorar em aplicações reais em vários setores.

ABAbirami Vina
5 min read
Aprendizado por reforço aplicado a projetos de visão computacional

Uma maneira simples de explicar a inteligência artificial (IA) é que se trata de um campo focado em recriar a forma como os humanos pensam e aprendem. É daí que vem a ideia de técnicas de aprendizagem em IA, que são métodos diferentes que permitem que as máquinas melhorem seu desempenho ao longo do tempo, exatamente como as pessoas fazem.

Anteriormente, exploramos as principais técnicas de aprendizagem de IA, incluindo o aprendizado supervisionado, não supervisionado, por reforço e por transferência, e como cada um desempenha um papel importante ao ajudar modelos de IA a processar informações e tomar decisões.

Hoje, analisaremos mais de perto o aprendizado por reforço, uma técnica que ensina sistemas de IA a aprender através da experiência ao interagir com um ambiente e melhorar com base no feedback. Especificamente, exploraremos como o aprendizado por reforço pode ser aplicado a aplicações de visão computacional – sistemas que permitem que as máquinas interpretem e compreendam informações visuais do mundo.

Combinar conceitos como aprendizado por reforço e visão computacional abre novas possibilidades empolgantes e é uma área de pesquisa ativa. Isso permite que sistemas de IA reconheçam o que veem e tomem decisões informadas com base nessa informação visual.

Link to this sectionO que é o aprendizado por reforço?#

O aprendizado por reforço é um ramo do aprendizado de máquina onde um agente de IA aprende ao realizar ações e receber feedback na forma de recompensas ou penalidades. O objetivo é descobrir quais ações levam aos melhores resultados ao longo do tempo.

Você pode pensar no aprendizado por reforço como treinar um cão. Quando um cão senta sob comando, você lhe dá um petisco. Depois de um tempo, o cão aprende que sentar leva a uma recompensa. No aprendizado por reforço, o agente ou modelo de IA é como o cão; o ambiente é o mundo ao seu redor, e a recompensa o ajuda a entender se ele tomou a decisão certa.

Isso é diferente do aprendizado supervisionado, onde o modelo de IA recebe muitos exemplos das respostas corretas. Por exemplo, o modelo pode receber a imagem de um cão e ser instruído: "Isto é um cão".

O aprendizado por reforço, por outro lado, não depende de dados rotulados. Em vez disso, envolve aprender ao experimentar ações diferentes e aprender com os resultados, bem parecido com jogar um jogo e descobrir quais movimentos o ajudam a vencer.

Aprendizagem por reforço vs. aprendizagem supervisionada

Fig 1. Aprendizado por reforço vs. aprendizado supervisionado.

O aprendizado por reforço é crucial para tarefas onde as decisões são tomadas passo a passo, e cada escolha altera o que acontece a seguir. Este tipo de aprendizado é usado em videogames de estratégia para tornar a jogabilidade mais desafiadora e envolvente para os jogadores.

Link to this sectionComo o aprendizado por reforço funciona em soluções de IA#

Considere como você aprende a andar de bicicleta. No início, você pode cair. Mas com a prática, você começa a descobrir o que o ajuda a manter o equilíbrio. Quanto mais você pedala, melhor você fica. Você aprende fazendo, não apenas sendo instruído sobre o que fazer.

O aprendizado por reforço funciona de forma semelhante para a IA. Ele aprende através da experiência - ao tentar ações diferentes, observar o que acontece e melhorar gradualmente sua capacidade de fazer as escolhas certas ao longo do tempo.

Entendendo como a aprendizagem por reforço funciona

Fig 2. Entendendo como funciona o aprendizado por reforço.

Aqui está uma olhada em alguns dos principais componentes do aprendizado por reforço:

  • Agente: O agente é o aprendiz ou o tomador de decisão. Ele interage com o ambiente realizando ações e visa atingir um objetivo específico.
  • Ambiente: O ambiente inclui tudo com o que o agente interage. Ele muda em resposta às ações do agente e fornece feedback com base nos resultados.
  • Estado: Um estado representa um instantâneo da situação atual no ambiente. O agente observa o estado para entender seus arredores e determinar qual ação tomar a seguir.
  • Ação: Uma ação é um movimento ou decisão feita pelo agente que afeta o ambiente. Cada ação leva a um novo estado e pode influenciar recompensas futuras.
  • Recompensa: Uma recompensa é simplesmente um feedback do ambiente que diz ao agente se sua ação foi benéfica ou não. Recompensas positivas encorajam o agente a repetir boas ações, enquanto recompensas negativas desencorajam as ruins.
  • Política: Uma política é a estratégia do agente para escolher ações com base no estado atual. Com o tempo, o agente refina sua política para maximizar as recompensas totais que pode ganhar.

Ao usar esses componentes em conjunto, o aprendizado por reforço possibilita que sistemas de IA aprendam comportamentos eficazes por meio de tentativa e erro contínuos. A cada tentativa, o agente torna-se melhor em selecionar ações que levam a recompensas maiores e melhores resultados.

Link to this sectionAprendizado por reforço em inovações de visão computacional#

A visão computacional é usada para tarefas como detectar objetos em imagens, classificar o que está em uma imagem e segmentar uma imagem em diferentes partes. Modelos de visão computacional como o Ultralytics YOLO11 suportam tais tarefas e podem ser usados para criar aplicações impactantes que podem reunir insights visuais.

No entanto, quando essas tarefas de IA de visão são combinadas com o aprendizado por reforço, o resultado é uma solução de IA que não apenas vê; ela também aprende a agir com base em insights visuais e melhora ao longo do tempo.

Um exemplo interessante de aprendizado por reforço em aplicações de visão computacional é o uso de robôs em armazéns. Robôs equipados com câmeras e sistemas de visão computacional podem analisar seus arredores, detectar onde cada item está localizado, identificar sua forma e tamanho e entender como ele está posicionado na prateleira.

Cada vez que o robô tenta pegar um item, ele recebe um feedback – sucesso se o item for pego corretamente ou falha se ele for derrubado. Com o tempo, o robô aprende quais ações funcionam melhor para itens diferentes. Em vez de seguir um conjunto fixo de instruções, ele melhora continuamente através da experiência.

Um braço robótico usando visão computacional com IA e aprendizagem por reforço para pegar objetos

Fig 3. Um braço robótico usando IA de visão e aprendizado por reforço para pegar objetos.

Link to this sectionAplicações de aprendizado por reforço na visão computacional#

Agora que temos uma compreensão melhor do que é o aprendizado por reforço e seu papel na visão computacional, vamos dar uma olhada mais de perto em alguns exemplos de onde o aprendizado por reforço e a visão computacional são usados juntos.

Link to this sectionIntegrando IA de visão e aprendizado por reforço para veículos mais inteligentes#

Veículos autônomos podem depender tanto da IA de visão para entender seus arredores quanto do aprendizado por reforço para tomar decisões com base no que veem. Um ótimo exemplo disso em ação é o AWS DeepRacer.

O AWS DeepRacer é um carro de corrida totalmente autônomo em escala 1/18 que aprende a dirigir usando uma câmera e aprendizado por reforço. Em vez de ser instruído sobre o que fazer, ele descobre as coisas sozinho ao tentar, cometendo erros e aprendendo com eles.

A câmera deste pequeno carro funciona como um par de olhos, capturando a pista à frente. Com base no que vê, o carro aprende a dirigir e a que velocidade ir. A cada volta, ele melhora. Por exemplo, ele pode aprender a fazer curvas mais largas ou a diminuir a velocidade antes de curvas fechadas ao aprender com tentativas passadas.

O treinamento para o DeepRacer começa em um ambiente virtual, onde o modelo pratica e refina suas habilidades de direção. Assim que atinge um certo nível de desempenho, essas habilidades são transferidas para pistas do mundo real com carros físicos.

O AWS DeepRacer usando visão e aprendizagem por reforço para dirigir autonomamente

Fig 4. O AWS DeepRacer usa visão e aprendizado por reforço para dirigir autonomamente. Fonte da imagem: Amazon.

Link to this sectionMovendo-se em direção a robôs cirúrgicos autônomos#

Uma área de pesquisa empolgante que está ganhando atenção é a integração de IA de visão e aprendizado por reforço na cirurgia robótica. No momento, esta aplicação ainda é amplamente teórica. Os pesquisadores estão executando simulações em ambientes virtuais.

No entanto, experimentos iniciais estão mostrando resultados promissores, sugerindo que robôs cirúrgicos poderiam eventualmente realizar procedimentos complexos e delicados com maior precisão, adaptabilidade e intervenção humana mínima.

Robôs cirúrgicos tornando-se cada vez mais avançados

Fig 5. Robôs cirúrgicos estão se tornando cada vez mais avançados.

Por exemplo, imagine uma situação onde um pedaço de gaze precisa ser cuidadosamente removido de um local cirúrgico. Um robô equipado com IA de visão analisaria primeiro a cena, usando segmentação para identificar a gaze e os tecidos circundantes.

O aprendizado por reforço ajudaria então o robô cirúrgico a decidir como abordar a tarefa, determinando o melhor ângulo para agarrar a gaze, quanta pressão aplicar e como removê-la sem perturbar áreas sensíveis próximas. Com o tempo e através de prática repetida em ambientes simulados, o robô poderia aprender a realizar esses movimentos sutis e críticos com crescente habilidade e confiança.

Link to this sectionPrós e contras do aprendizado por reforço em IA de visão#

O aprendizado por reforço permite que sistemas de IA de visão vão além do simples reconhecimento e comecem a tomar decisões com base no que veem. Isso abre novas possibilidades em áreas como robótica, automação e interação em tempo real.

Aqui estão algumas das principais vantagens de integrar o aprendizado por reforço nos fluxos de trabalho de IA de visão:

  • Menor dependência de dados rotulados: Esses sistemas podem aprender por meio da interação, então eles não precisam de grandes datasets rotulados para começar.
  • Lida melhor com a incerteza: O aprendizado por reforço pode lidar com informações visuais incompletas ou ruidosas ao ajustar ações com base no feedback, em vez de depender apenas de dados perfeitos.
  • Suporta aprendizado de longo prazo: Ajuda os modelos a melhorar com o tempo ao aprender a partir de sequências de ações, não apenas de decisões de passo único.

Por outro lado, aqui estão algumas das limitações do aprendizado por reforço a considerar:

  • Problema de atribuição de crédito: Pode ser difícil para o agente descobrir quais ações específicas contribuíram para um resultado final, especialmente em sequências longas de decisões.
  • Risco de exploração insegura: Durante o treinamento, o agente pode tentar ações inseguras ou indesejáveis que não seriam aceitáveis em aplicações do mundo real, como saúde ou direção autônoma.
  • Convergência lenta: Pode levar muito tempo para o modelo realmente atingir um bom desempenho, especialmente para tarefas complexas.

Link to this sectionPrincipais pontos#

O aprendizado por reforço em projetos de visão computacional permite que sistemas de IA compreendam seus arredores e aprendam como agir através da experiência. Com modelos como o Ultralytics YOLO11 fornecendo detecção de objetos em tempo real, o sistema pode tomar decisões informadas com base no que vê.

Essa abordagem vai além dos métodos tradicionais ao permitir que a IA melhore através de tentativa e feedback, em vez de depender apenas de dados rotulados. Ela suporta o aprendizado contínuo e ajuda a construir sistemas de IA de visão mais flexíveis, adaptáveis e inteligentes que melhoram com o tempo.

Participe da nossa crescente comunidade. Visite nosso repositório no GitHub para se aprofundar em IA. Quer começar seus próprios projetos de visão computacional? Explore nossas opções de licenciamento. Saiba mais sobre IA na manufatura e IA de visão na indústria automotiva em nossas páginas de soluções.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática