Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Descubra como a aprendizagem por reforço em aplicações de visão por computador está a ajudar os sistemas a ver, a tomar decisões e a melhorar as aplicações do mundo real em todos os sectores.
Uma forma simples de explicar a inteligência artificial (IA) é dizer que se trata de um domínio centrado na recriação da forma como os seres humanos pensam e aprendem. É daqui que vem a ideia de técnicas de aprendizagem em IA, que são métodos diferentes que permitem às máquinas melhorar o seu desempenho ao longo do tempo, tal como acontece com as pessoas.
Anteriormente, explorámos as principais técnicas de aprendizagem de IA, incluindo a aprendizagem supervisionada, não supervisionada, por reforço e por transferência, e a forma como cada uma delas desempenha um papel importante para ajudar os modelos de IA a processar informações e a tomar decisões.
Hoje, vamos analisar mais detalhadamente a aprendizagem por reforço, uma técnica que ensina os sistemas de IA a aprender através da experiência, interagindo com um ambiente e melhorando com base no feedback. Especificamente, vamos explorar a forma como a aprendizagem por reforço pode ser aplicada a aplicações de visão por computador - sistemas que permitem às máquinas interpretar e compreender informações visuais do mundo.
A conjugação de conceitos como a aprendizagem por reforço e a visão por computador está a abrir novas e excitantes possibilidades e é uma área de investigação ativa. Permite que os sistemas de IA reconheçam o que vêem e tomem decisões informadas com base nessa informação visual.
O que é a aprendizagem por reforço?
A aprendizagem por reforço é um ramo da aprendizagem automática em que um agente de IA aprende através de acções e recebe feedback sob a forma de recompensas ou penalizações. O objetivo é descobrir quais as acções que conduzem aos melhores resultados ao longo do tempo.
Pode pensar-se na aprendizagem por reforço como se estivesse a treinar um cão. Quando um cão se senta à sua ordem, dá-lhe uma guloseima. Ao fim de algum tempo, o cão aprende que o facto de se sentar leva a uma recompensa. Na aprendizagem por reforço, o agente ou modelo de IA é como o cão; o ambiente é o mundo que o rodeia e a recompensa ajuda-o a perceber se fez a jogada certa.
Isto é diferente da aprendizagem supervisionada, em que são mostrados ao modelo de IA muitos exemplos de respostas corretas. Por exemplo, pode ser mostrada ao modelo uma imagem de um cão e ser-lhe dito: "Isto é um cão".
A aprendizagem por reforço, por outro lado, não se baseia em dados rotulados. Em vez disso, envolve a aprendizagem através da tentativa de diferentes acções e da aprendizagem com base nos resultados, tal como jogar um jogo e descobrir quais as jogadas que o ajudam a ganhar.
Fig. 1. Aprendizagem por reforço vs. aprendizagem supervisionada.
A aprendizagem por reforço é crucial para tarefas em que as decisões são tomadas passo a passo e cada escolha altera o que acontece a seguir. Este tipo de aprendizagem é utilizado em videojogos de estratégia para tornar a jogabilidade mais desafiante e cativante para os jogadores.
Como funciona a aprendizagem por reforço nas soluções de IA
Pensemos em como se aprende a andar de bicicleta. No início, pode cair. Mas com a prática, começa a perceber o que o ajuda a manter-se equilibrado. Quanto mais se anda de bicicleta, melhor se fica. Aprende-se fazendo, e não apenas quando nos dizem o que fazer.
A aprendizagem por reforço funciona de forma semelhante para a IA. Esta aprende através da experiência - experimentando diferentes acções, observando o que acontece e melhorando gradualmente a sua capacidade de fazer as escolhas certas ao longo do tempo.
Figura 2. Compreender o funcionamento da aprendizagem por reforço.
Eis alguns dos principais componentes da aprendizagem por reforço:
Agente: O agente é o aprendiz ou tomador de decisões. Interage com o ambiente através de acções e visa atingir um objetivo específico.
Ambiente: O ambiente inclui tudo aquilo com que o agente interage. Muda em resposta às acções do agente e fornece feedback com base nos resultados.
Estado: Um estado representa um instantâneo da situação atual no ambiente. O agente observa o estado para compreender o que o rodeia e determinar a ação a tomar a seguir.
Ação: Uma ação é um movimento ou decisão tomada pelo agente que afecta o ambiente. Cada ação leva a um novo estado e pode influenciar recompensas futuras.
Recompensa: Uma recompensa é simplesmente um feedback do ambiente que diz ao agente se a sua ação foi benéfica ou não. As recompensas positivas incentivam o agente a repetir boas acções, enquanto as recompensas negativas desencorajam as más acções.
Política: Uma política é a estratégia do agente para escolher acções com base no estado atual. Ao longo do tempo, o agente aperfeiçoa a sua política para maximizar as recompensas totais que pode ganhar.
Ao utilizar estes componentes em conjunto, a aprendizagem por reforço permite que os sistemas de IA aprendam comportamentos eficazes através de tentativas e erros contínuos. Com cada tentativa, o agente torna-se mais apto a selecionar acções que conduzam a recompensas mais elevadas e a melhores resultados.
Aprendizagem por reforço em inovações de visão computacional
A visão por computador é utilizada para tarefas como a deteção de objectos em imagens, a classificação do que está numa imagem e a segmentação de uma imagem em diferentes partes. Os modelos de visão por computador, como o Ultralytics YOLO11, suportam essas tarefas e podem ser utilizados para criar aplicações com impacto que podem recolher informações visuais.
No entanto, quando estas tarefas de IA de visão são combinadas com a aprendizagem por reforço, o resultado é uma solução de IA que não se limita a ver; também aprende a atuar com base em percepções visuais e melhora com o tempo.
Um exemplo interessante de aprendizagem por reforço em aplicações de visão computacional é a utilização de robots em armazéns. Os robôs equipados com câmaras e sistemas de visão por computador podem analisar o ambiente que os rodeia, detetar a localização de cada artigo, identificar a sua forma e tamanho e compreender a sua posição na prateleira.
Sempre que o robô tenta apanhar um objeto, recebe feedback - sucesso se o objeto for apanhado corretamente ou falha se for deixado cair. Ao longo do tempo, o robô aprende quais as acções que funcionam melhor para diferentes objectos. Em vez de seguir um conjunto fixo de instruções, melhora continuamente através da experiência.
Fig. 3. Um braço robótico que utiliza IA de visão e aprendizagem por reforço para apanhar objectos.
Aplicações da aprendizagem por reforço na visão por computador
Agora que compreendemos melhor o que é a aprendizagem por reforço e o seu papel na visão por computador, vamos analisar mais de perto alguns exemplos em que a aprendizagem por reforço e a visão por computador são utilizadas em conjunto.
Integrar a IA de visão e a aprendizagem por reforço para veículos mais inteligentes
Os veículos autónomos podem contar tanto com a IA de visão para compreender o que os rodeia como com a aprendizagem por reforço para tomar decisões com base no que vêem. Um excelente exemplo disto em ação é o AWS DeepRacer.
O AWS DeepRacer é um carro de corrida totalmente autónomo à escala 1/18 que aprende a conduzir utilizando uma câmara e a aprendizagem por reforço. Em vez de lhe ser dito o que fazer, ele descobre as coisas por si próprio, tentando, cometendo erros e aprendendo com eles.
A câmara deste pequeno carro funciona como um par de olhos, captando a pista à sua frente. Com base naquilo que vê, o carro aprende a guiar e a acelerar. A cada volta, vai melhorando. Por exemplo, pode aprender a fazer curvas mais largas ou a abrandar antes de curvas apertadas, aprendendo com as tentativas anteriores.
O treino para o DeepRacer começa num ambiente virtual, onde o modelo pratica e aperfeiçoa as suas capacidades de condução. Quando atinge um determinado nível de desempenho, essas competências são transferidas para pistas reais com carros físicos.
Fig. 4. O AWS DeepRacer utiliza a visão e a aprendizagem por reforço para conduzir de forma autónoma. Fonte da imagem: Amazon.
A caminho de robôs cirúrgicos autónomos
Uma área de investigação interessante que está a ganhar atenção é a integração da IA de visão e da aprendizagem por reforço na cirurgia robótica. Atualmente, esta aplicação é ainda largamente teórica. Os investigadores estão a realizar simulações em ambientes virtuais.
No entanto, as primeiras experiências estão a mostrar resultados promissores, sugerindo que os robôs cirúrgicos poderão vir a realizar procedimentos complexos e delicados com maior precisão, adaptabilidade e intervenção humana mínima.
Fig. 5. Os robôs cirúrgicos estão a tornar-se cada vez mais avançados.
Por exemplo, imagine uma situação em que um pedaço de gaze tem de ser cuidadosamente retirado de um local de cirurgia. Um robô equipado com Vision AI analisaria primeiro a cena, utilizando a segmentação para identificar a gaze e os tecidos circundantes.
A aprendizagem por reforço ajudaria então o robô cirúrgico a decidir como abordar a tarefa, determinando o melhor ângulo para agarrar a gaze, a quantidade de pressão a aplicar e como levantá-la sem perturbar as áreas sensíveis próximas. Ao longo do tempo e através da prática repetida em ambientes simulados, o robô poderia aprender a executar estes movimentos subtis e críticos com cada vez mais competência e confiança.
Prós e contras da aprendizagem por reforço na IA da visão
A aprendizagem por reforço permite que os sistemas de IA da visão ultrapassem o simples reconhecimento e comecem a tomar decisões com base no que vêem. Isto abre novas possibilidades em áreas como a robótica, a automação e a interação em tempo real.
Eis algumas das principais vantagens da integração da aprendizagem por reforço nos fluxos de trabalho da IA da visão:
Menos dependência de dados rotulados: Estes sistemas podem aprender com a interação, pelo que não precisam de grandes conjuntos de dados rotulados para começar.
Lida melhor com a incerteza: A aprendizagem por reforço pode lidar com informações visuais incompletas ou ruidosas, ajustando as acções com base no feedback, em vez de depender apenas de dados perfeitos.
Apoia a aprendizagem a longo prazo: Ajuda os modelos a melhorar ao longo do tempo, aprendendo com as sequências de acções e não apenas com as decisões de um único passo.
Por outro lado, há que ter em conta algumas das limitações da aprendizagem por reforço:
Problema de atribuição de crédito: Pode ser difícil para o agente descobrir quais as acções específicas que contribuíram para um resultado final, especialmente em longas sequências de decisões.
Risco de exploração insegura: Durante o treino, o agente pode tentar acções inseguras ou indesejáveis que não seriam aceitáveis em aplicações do mundo real, como os cuidados de saúde ou a condução autónoma.
Convergência lenta: Pode demorar muito tempo até que o modelo atinja efetivamente um bom desempenho, especialmente no caso de tarefas complexas.
Principais conclusões
A aprendizagem por reforço em projectos de visão por computador permite que os sistemas de IA compreendam o que os rodeia e aprendam a agir através da experiência. Com modelos como o Ultralytics YOLO11 a fornecer deteção de objectos em tempo real, o sistema pode tomar decisões informadas com base no que vê.
Esta abordagem vai além dos métodos tradicionais, permitindo que a IA melhore através de testes e feedback, em vez de depender apenas de dados rotulados. Apoia a aprendizagem contínua e ajuda a criar sistemas de IA Vision mais flexíveis, adaptáveis e inteligentes que melhoram com o tempo.