Glossário

Aprendizagem por reforço profundo

Descubra o poder da aprendizagem por reforço profundo - onde a IA aprende comportamentos complexos para resolver desafios em jogos, robótica, cuidados de saúde e muito mais.

A Aprendizagem por Reforço Profundo (DRL) é um subcampo da Aprendizagem Automática (AM) que combina os princípios da Aprendizagem por Reforço (RL) com o poder da Aprendizagem Profunda (DL). Permite que um agente de IA aprenda estratégias de tomada de decisão óptimas através de tentativa e erro em ambientes complexos e de elevada dimensão. Ao utilizar redes neurais profundas, os modelos DRL podem processar dados sensoriais brutos, como pixéis de uma imagem ou dados de sensores, sem necessitar de engenharia manual de caraterísticas. Isto permite-lhes resolver problemas que anteriormente eram intratáveis para os métodos tradicionais de RL.

Como funciona a aprendizagem por reforço profundo

Numa configuração DRL típica, um agente interage com um ambiente ao longo de uma série de passos de tempo. Em cada passo, o agente observa o estado do ambiente, toma uma ação e recebe uma recompensa ou penalização. O objetivo é aprender uma política - uma estratégia para escolher acções - que maximize a recompensa total acumulada ao longo do tempo. A parte "profunda" do DRL resulta da utilização de uma rede neural profunda para aproximar a própria política ou uma função de valor que estima a conveniência de estados ou acções. Esta rede é treinada utilizando algoritmos como a descida gradiente para ajustar os pesos do modelo com base nas recompensas recebidas. Todo esse processo é formalizado usando um Processo de Decisão de Markov (MDP), que fornece a base matemática para modelar a tomada de decisão seqüencial.

Distinções de outros conceitos

É importante distinguir DRL de termos relacionados:

  • Aprendizagem por reforço (RL): A DRL é uma forma moderna e avançada de RL. Embora a RL tradicional se baseie frequentemente em tabelas ou funções lineares para mapear estados para acções, tem dificuldade em lidar com grandes espaços de estado (por exemplo, todas as combinações possíveis de pixels num ecrã). A DRL supera essa limitação usando redes neurais profundas como poderosos aproximadores de funções.
  • Aprendizagem profunda (DL): A DL é a tecnologia que potencia a capacidade do DRL de lidar com entradas complexas. Enquanto a DL é mais frequentemente associada à aprendizagem supervisionada, em que os modelos aprendem a partir de conjuntos de dados rotulados, a DRL aprende a partir do feedback esparso de recompensas, tornando-a adequada para tarefas de otimização e controlo.
  • Aprendizagem supervisionada: Este paradigma de aprendizagem requer um conjunto de dados rotulados para treinar um modelo para fazer previsões. Em contraste, o DRL não precisa de dados rotulados; em vez disso, gera os seus próprios dados através da interação com um ambiente, guiado por um sinal de recompensa. Isto torna-o altamente eficaz para problemas em que os dados rotulados são escassos ou não estão disponíveis.

Aplicações no mundo real

A DRL tem impulsionado avanços em vários domínios complexos:

  • Jogar jogos: Um dos exemplos mais famosos é o AlphaGo da DeepMind, que derrotou o melhor jogador de Go do mundo. O agente DRL aprendeu a jogar milhões de jogos contra si próprio, utilizando o estado visual do tabuleiro para tomar decisões estratégicas. Do mesmo modo, o OpenAI Five aprendeu a jogar o complexo jogo de vídeo Dota 2 a um nível sobre-humano.
  • Robótica: O DRL é utilizado para treinar robôs para executar tarefas complexas como a manipulação de objectos, a locomoção e a montagem. Por exemplo, um robô pode aprender a pegar em objectos desconhecidos processando diretamente os dados da sua câmara e recebendo recompensas positivas por agarrar com sucesso, um tópico explorado nos debates sobre o papel da IA na robótica.
  • Veículos autónomos: A DRL ajuda a desenvolver políticas de controlo sofisticadas para a navegação, o planeamento de percursos e a tomada de decisões em cenários de tráfego dinâmicos, tal como descrito em artigos sobre a IA em veículos autónomos.
  • Gestão de recursos: A DRL pode otimizar sistemas complexos como redes de energia, controlo de sinais de trânsito e otimização de reacções químicas. Um exemplo é a utilização de DRL para gerir o fluxo de tráfego em cidades inteligentes.
  • Sistemas de recomendação: O DRL pode otimizar a sequência de recomendações apresentadas a um utilizador para maximizar o envolvimento ou a satisfação a longo prazo.
  • Cuidados de saúde: A DRL está a ser explorada para descobrir políticas de tratamento e dosagens de medicamentos óptimas com base no estado do paciente, contribuindo para o campo mais vasto da IA nos cuidados de saúde.

Relevância no ecossistema de IA

A Aprendizagem por Reforço Profundo está na vanguarda da investigação em IA, alargando os limites da autonomia das máquinas. Embora empresas como a Ultralytics se concentrem principalmente em modelos de visão de última geração, como o Ultralytics YOLO, para tarefas como a deteção de objectos e a segmentação de imagens, os resultados destes sistemas de perceção são muitas vezes inputs cruciais para os agentes DRL. Por exemplo, um robô pode utilizar um modelo Ultralytics YOLO implementado através do Ultralytics HUB para perceber o seu ambiente (representação do estado) antes de uma política DRL decidir a ação seguinte. A compreensão do DRL fornece um contexto para a forma como a perceção avançada se enquadra em sistemas autónomos mais amplos. Este desenvolvimento é frequentemente facilitado por estruturas como o PyTorch(página inicial do PyTorch) e o TensorFlow(página inicial do TensorFlow) e testado em ambientes de simulação como o Gymnasium. As principais organizações de investigação, como a DeepMind, e os organismos académicos, como a Associação para o Avanço da Inteligência Artificial (AAAI), continuam a impulsionar o progresso neste domínio empolgante.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência