Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em “Aceitar todos os cookies”, concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Descubra como o aprendizado por reforço em aplicações de visão computacional está ajudando os sistemas a ver, tomar decisões e melhorar em aplicações do mundo real em diversos setores.
Uma maneira direta de explicar a inteligência artificial (IA) é que ela é um campo focado em recriar como os humanos pensam e aprendem. É daí que vem a ideia de técnicas de aprendizado em IA, que são diferentes métodos que permitem que as máquinas melhorem seu desempenho ao longo do tempo, assim como as pessoas.
Anteriormente, exploramos as principais técnicas de aprendizado de IA, incluindo aprendizado supervisionado, não supervisionado, por reforço e por transferência, e como cada um desempenha um papel importante em ajudar os modelos de IA a processar informações e tomar decisões.
Hoje, vamos analisar mais de perto o aprendizado por reforço, uma técnica que ensina os sistemas de IA a aprender através da experiência, interagindo com um ambiente e melhorando com base no feedback. Especificamente, exploraremos como o aprendizado por reforço pode ser aplicado a aplicações de visão computacional - sistemas que permitem que as máquinas interpretem e compreendam informações visuais do mundo.
Juntar conceitos como aprendizado por reforço e visão computacional está abrindo novas e empolgantes possibilidades e é uma área ativa de pesquisa. Permite que os sistemas de IA reconheçam o que veem e tomem decisões informadas com base nessas informações visuais.
O que é aprendizado por reforço?
O aprendizado por reforço é um ramo do aprendizado de máquina onde um agente de IA aprende tomando ações e recebendo feedback na forma de recompensas ou penalidades. O objetivo é descobrir quais ações levam aos melhores resultados ao longo do tempo.
Pode pensar no aprendizado por reforço como treinar um cão. Quando um cão se senta sob comando, você dá-lhe um petisco. Depois de um tempo, o cão aprende que sentar leva a uma recompensa. No aprendizado por reforço, o agente ou modelo de IA é como o cão; o ambiente é o mundo ao seu redor, e a recompensa ajuda-o a entender se fez o movimento certo.
Isto é diferente da aprendizagem supervisionada, onde o modelo de IA recebe muitos exemplos das respostas corretas. Por exemplo, o modelo pode receber uma imagem de um cão e ser informado: "Isto é um cão".
O aprendizado por reforço, por outro lado, não depende de dados rotulados. Em vez disso, envolve aprender experimentando diferentes ações e aprendendo com os resultados, muito parecido com jogar um jogo e descobrir quais movimentos ajudam você a vencer.
Fig 1. Aprendizado por reforço vs. aprendizado supervisionado.
O aprendizado por reforço é crucial para tarefas onde as decisões são tomadas passo a passo, e cada escolha muda o que acontece a seguir. Este tipo de aprendizado é usado em videogames de estratégia para tornar a jogabilidade mais desafiadora e envolvente para os jogadores.
Como o aprendizado por reforço funciona em soluções de IA
Considere como você aprende a andar de bicicleta. No início, você pode cair. Mas com a prática, você começa a descobrir o que ajuda você a se manter equilibrado. Quanto mais você anda, melhor você fica. Você aprende fazendo, não apenas sendo dito o que fazer.
O aprendizado por reforço funciona de forma semelhante para a IA. Ela aprende através da experiência - experimentando diferentes ações, observando o que acontece e melhorando gradualmente sua capacidade de fazer as escolhas certas ao longo do tempo.
Fig. 2. Entendendo como o aprendizado por reforço funciona.
Aqui está uma visão de alguns dos principais componentes do aprendizado por reforço:
Agente: O agente é o aprendiz ou tomador de decisões. Ele interage com o ambiente, tomando ações e visando atingir um objetivo específico.
Ambiente: O ambiente inclui tudo com o que o agente interage. Ele muda em resposta às ações do agente e fornece feedback com base nos resultados.
Estado: Um estado representa um snapshot da situação atual no ambiente. O agente observa o estado para entender seus arredores e determinar qual ação tomar em seguida.
Ação: Uma ação é um movimento ou decisão tomada pelo agente que afeta o ambiente. Cada ação leva a um novo estado e pode influenciar recompensas futuras.
Recompensa: Uma recompensa é simplesmente feedback do ambiente que diz ao agente se a sua ação foi benéfica ou não. Recompensas positivas encorajam o agente a repetir boas ações, enquanto recompensas negativas desencorajam ações ruins.
Política: Uma política é a estratégia do agente para escolher ações com base no estado atual. Ao longo do tempo, o agente refina sua política para maximizar as recompensas totais que pode obter.
Ao usar esses componentes juntos, o aprendizado por reforço possibilita que os sistemas de IA aprendam comportamentos eficazes por meio de tentativa e erro contínuos. A cada tentativa, o agente se torna melhor em selecionar ações que levam a recompensas maiores e melhores resultados.
Aprendizado por reforço em inovações de visão computacional
A visão por computador é utilizada para tarefas como a deteção de objectos em imagens, a classificação do que está numa imagem e a segmentação de uma imagem em diferentes partes. Modelos de visão por computador como o Ultralytics YOLO11 suportam essas tarefas e podem ser utilizados para criar aplicações com impacto que podem recolher informações visuais.
No entanto, quando essas tarefas de Visão de IA são combinadas com o aprendizado por reforço, o resultado é uma solução de IA que não apenas vê, mas também aprende a agir com base em insights visuais e melhora com o tempo.
Um exemplo interessante de aprendizagem por reforço em aplicações de visão computacional é a utilização de robots em armazéns. Os robôs equipados com câmaras e sistemas de visão por computador podem analisar o ambiente que os rodeia, detect a localização de cada artigo, identificar a sua forma e tamanho e compreender a sua posição na prateleira.
Cada vez que o robô tenta pegar um item, ele recebe feedback - sucesso se o item for pego corretamente ou falha se cair. Com o tempo, o robô aprende quais ações funcionam melhor para diferentes itens. Em vez de seguir um conjunto fixo de instruções, ele melhora continuamente por meio da experiência.
Fig 3. Um braço robótico usando visão de IA e aprendizado por reforço para pegar objetos.
Aplicações do aprendizado por reforço em visão computacional
Agora que temos uma melhor compreensão do que é o aprendizado por reforço e seu papel na visão computacional, vamos dar uma olhada mais de perto em alguns exemplos de onde o aprendizado por reforço e a visão computacional são usados juntos.
Integrando Visão de IA e aprendizado por reforço para veículos mais inteligentes
Os veículos autônomos podem contar com a Visão de IA para entender seus arredores e com o aprendizado por reforço para tomar decisões com base no que veem. Um ótimo exemplo disso em ação é o AWS DeepRacer.
O AWS DeepRacer é um carro de corrida totalmente autônomo na escala 1/18 que aprende a dirigir usando uma câmera e aprendizado por reforço. Em vez de receber instruções sobre o que fazer, ele descobre as coisas sozinho, tentando, cometendo erros e aprendendo com eles.
A câmara deste pequeno carro funciona como um par de olhos, captando a track à sua frente. Com base naquilo que vê, o carro aprende a guiar e a acelerar. A cada volta, vai melhorando. Por exemplo, pode aprender a fazer curvas mais largas ou a abrandar antes de curvas apertadas, aprendendo com as tentativas anteriores.
O treino para o DeepRacer começa num ambiente virtual, onde o modelo pratica e aprimora as suas habilidades de condução. Assim que atinge um certo nível de desempenho, essas habilidades são transferidas para pistas do mundo real com carros físicos.
Fig 4. O AWS DeepRacer usa visão computacional e aprendizado por reforço para dirigir autonomamente. Fonte da imagem: Amazon.
Avançando em direção a robôs cirúrgicos autônomos
Uma área de pesquisa empolgante que está ganhando atenção é a integração de Visão de IA e aprendizado por reforço em cirurgia robótica. No momento, esta aplicação é ainda amplamente teórica. Os pesquisadores estão executando simulações em ambientes virtuais.
No entanto, os primeiros experimentos estão mostrando resultados promissores, sugerindo que os robôs cirúrgicos poderiam eventualmente realizar procedimentos complexos e delicados com maior precisão, adaptabilidade e mínima intervenção humana.
Fig 5. Os robôs cirúrgicos estão se tornando cada vez mais avançados.
Por exemplo, imagine uma situação em que um pedaço de gaze precisa ser cuidadosamente levantado de um local cirúrgico. Um robô equipado com Visão de IA primeiro analisaria a cena, usando segmentação para identificar a gaze e os tecidos circundantes.
O aprendizado por reforço ajudaria então o robô cirúrgico a decidir como abordar a tarefa, determinando o melhor ângulo para agarrar a gaze, quanta pressão aplicar e como levantá-la sem perturbar áreas sensíveis próximas. Ao longo do tempo e através da prática repetida em ambientes simulados, o robô poderia aprender a realizar esses movimentos sutis e críticos com crescente habilidade e confiança.
Prós e contras do aprendizado por reforço em visão computacional
O aprendizado por reforço permite que os sistemas de Visão de IA vão além do simples reconhecimento e comecem a tomar decisões com base no que veem. Isso abre novas possibilidades em áreas como robótica, automação e interação em tempo real.
Aqui estão algumas das principais vantagens de integrar o aprendizado por reforço em fluxos de trabalho de Visão de IA:
Menos dependência de dados rotulados: Esses sistemas podem aprender com a interação, então eles não precisam de enormes conjuntos de dados rotulados para começar.
Lida melhor com a incerteza: O aprendizado por reforço pode lidar com informações visuais incompletas ou ruidosas, ajustando as ações com base no feedback, em vez de depender apenas de dados perfeitos.
Suporta aprendizado de longo prazo: Ajuda os modelos a melhorar ao longo do tempo, aprendendo com sequências de ações, não apenas decisões de uma única etapa.
Por outro lado, aqui estão algumas das limitações do aprendizado por reforço a serem consideradas:
Problema de atribuição de crédito: Pode ser difícil para o agente descobrir quais ações específicas contribuíram para um resultado final, especialmente em longas sequências de decisões.
Risco de exploração não segura: Durante o treino, o agente pode tentar ações não seguras ou indesejáveis que não seriam aceitáveis em aplicações do mundo real, como cuidados de saúde ou condução autónoma.
Convergência lenta: Pode demorar muito para que o modelo realmente atinja um bom desempenho, especialmente para tarefas complexas.
Principais conclusões
A aprendizagem por reforço em projectos de visão por computador permite que os sistemas de IA compreendam o que os rodeia e aprendam a agir através da experiência. Com modelos como o Ultralytics YOLO11 a fornecer deteção de objectos em tempo real, o sistema pode tomar decisões informadas com base no que vê.
Esta abordagem vai além dos métodos tradicionais, permitindo que a IA melhore através de tentativa e erro, em vez de depender apenas de dados rotulados. Apoia a aprendizagem contínua e ajuda a construir sistemas de Visão de IA mais flexíveis, adaptáveis e inteligentes que melhoram com o tempo.