Glossário

Aprendizagem profunda por reforço

Descobre o poder da aprendizagem por reforço profundo - onde a IA aprende comportamentos complexos para resolver desafios em jogos, robótica, cuidados de saúde e muito mais.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

A Aprendizagem por Reforço Profundo (DRL) combina os princípios da Aprendizagem por Reforço (RL) com o poder da Aprendizagem Profunda (DL). Permite que os agentes de software aprendam comportamentos ideais em ambientes complexos, muitas vezes de elevada dimensão, através de tentativa e erro. Ao contrário da RL tradicional, que pode ter dificuldades com vastos espaços de estado (como dados brutos de pixel de uma câmara), a DRL utiliza redes neurais profundas (NNs) para aproximar as funções necessárias para a aprendizagem, como a função de valor (previsão de recompensas futuras) ou a política (mapeamento de estados para acções). Isto permite aos agentes DRL resolver problemas anteriormente intratáveis, aprendendo diretamente a partir de entradas sensoriais complexas, como imagens ou leituras de sensores.

Como funciona a aprendizagem por reforço profundo

Na sua essência, o DRL envolve um agente que interage com um ambiente em passos de tempo discretos. O processo desenrola-se normalmente da seguinte forma:

  1. Observação: O agente observa o estado atual do ambiente. No DRL, esse estado pode ser representado por dados de alta dimensão, como pixels de imagens processados por uma Rede Neural Convolucional (CNN).
  2. Seleção da ação: Com base no estado observado, o agente seleciona uma ação utilizando a sua política, que é representada por uma rede neural profunda.
  3. Interação: O agente executa a ação escolhida, levando o ambiente a transitar para um novo estado.
  4. Feedback (recompensa): O ambiente fornece um sinal de recompensa escalar, indicando quão boa ou má foi a ação no estado anterior.
  5. Aprende: O agente utiliza o sinal de recompensa e a transição de estado para atualizar a sua rede neuronal (política ou função de valor) através de algoritmos como o backpropagation e o gradient descent. O objetivo é ajustar os pesos da rede para maximizar a recompensa futura acumulada ao longo do tempo. Este ciclo de aprendizagem repete-se, permitindo que o agente melhore progressivamente a sua estratégia de tomada de decisões.

Conceitos-chave em DRL

Compreender o DRL implica familiarizar-se com várias ideias fundamentais da Aprendizagem por Reforço, agora ampliadas com técnicas de aprendizagem profunda:

  • Agente: O algoritmo ou modelo que aprende a tomar decisões.
  • Ambiente: O mundo ou sistema com o qual o agente interage (por exemplo, uma simulação de jogo, o ambiente de um robô físico). Os ambientes normalizados para investigação são frequentemente fornecidos por conjuntos de ferramentas como o Gymnasium (anteriormente OpenAI Gym).
  • Estado: Uma representação do ambiente num ponto específico no tempo. O DRL é excelente no tratamento de estados representados por grandes quantidades de dados, como imagens ou conjuntos de sensores.
  • Ação: Uma decisão tomada pelo agente que influencia o ambiente.
  • Recompensa: Feedback numérico do ambiente que indica a conveniência imediata de uma ação realizada num estado.
  • Política: A estratégia do agente, mapeando estados para acções. Em DRL, trata-se normalmente de uma rede neural profunda.
  • Função de valor: Estima a recompensa cumulativa esperada a longo prazo de um determinado estado ou par estado-ação. Também é frequentemente representada por uma rede neural profunda.
  • Exploração vs. Exploração: Um compromisso fundamental em que o agente deve equilibrar a tentativa de novas acções para descobrir melhores estratégias (exploração) versus a manutenção de boas acções conhecidas (exploração).

DRL versus outros paradigmas de aprendizagem automática

O DRL difere significativamente de outras abordagens primárias de aprendizagem automática (ML):

  • Aprendizagem supervisionada: Aprende a partir de um conjunto de dados que contém exemplos rotulados (pares de entrada-saída). Tarefas como a classificação de imagens ou a deteção de objectos utilizando modelos como Ultralytics YOLO enquadram-se nesta categoria. O DRL, por outro lado, aprende a partir de sinais de recompensa sem respostas corretas explícitas para cada estado.
  • Aprendizagem não supervisionada: Aprende padrões e estruturas a partir de dados não rotulados (por exemplo, agrupamento). A DRL centra-se na aprendizagem de comportamentos orientados para objectivos através da interação e do feedback.
  • Aprendizagem por reforço (RL): DRL é um tipo específico de RL que emprega redes neurais profundas. A RL tradicional utiliza frequentemente representações mais simples, como tabelas (Q-tables), que não são viáveis para problemas com espaços de estado muito grandes ou contínuos, onde a DRL brilha.

Aplicações no mundo real

A DRL tem impulsionado avanços em vários domínios complexos:

  • Robótica: Treinar robôs para executar tarefas complexas como a manipulação de objectos, a locomoção e a montagem, muitas vezes aprendendo diretamente a partir de dados da câmara ou de sensores. Explora esta questão em recursos como O papel da IA na robótica.
  • Jogar jogos: Atinge um desempenho sobre-humano em jogos complexos, como o Go(AlphaGo da DeepMind) e vários jogos de vídeo(OpenAI Five para Dota 2).
  • Veículos autónomos: Desenvolver políticas de controlo sofisticadas para a navegação, o planeamento de trajectórias e a tomada de decisões em cenários de tráfego dinâmicos, tal como discutido em AI in self-driving cars.
  • Otimização de recursos: Gestão de sistemas complexos como redes de energia(IA em energias renováveis), controlo de sinais de trânsito(IA em gestão de tráfego) e otimização de reacções químicas.
  • Sistemas de recomendação: Otimização de sequências de recomendações para maximizar o envolvimento ou a satisfação do utilizador a longo prazo.
  • Cuidados de saúde: Descobrir as melhores políticas de tratamento ou dosagens de medicamentos com base nos estados e resultados dos pacientes, contribuindo para áreas como a IA nos cuidados de saúde.

Relevância no ecossistema de IA

A Aprendizagem por Reforço Profundo representa uma área significativa da investigação em Inteligência Artificial (IA), alargando os limites da autonomia das máquinas e da tomada de decisões. Embora empresas como Ultralytics se concentrem principalmente em modelos de visão de última geração, como o Ultralytics YOLO , para tarefas como a deteção de objectos e a segmentação de imagens utilizando a aprendizagem supervisionada, os resultados desses sistemas de perceção são muitas vezes contributos cruciais para os agentes DRL. Por exemplo, um robô pode utilizar um modelo Ultralytics YOLO implementado através do Ultralytics HUB para perceber o seu ambiente (representação do estado) antes de uma política DRL decidir a ação seguinte. A compreensão do DRL fornece um contexto para a forma como a perceção avançada se enquadra em sistemas autónomos mais amplos e em problemas de controlo complexos abordados pela comunidade de IA utilizando kits de ferramentas como o Gymnasium e estruturas como o PyTorchPyTorch página inicialPyTorch ) e TensorFlowTensorFlow ). Organizações de investigação como a DeepMind e organismos académicos como a Associação para o Avanço da Inteligência Artificial (AAAI) continuam a impulsionar o progresso neste campo excitante.

Lê tudo