Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Deep Reinforcement Learning

Explora a Aprendizagem por Reforço Profunda (DRL) e como combina a tomada de decisão por IA com aprendizagem profunda. Aprende a usar o Ultralytics YOLO26 como uma camada de perceção hoje.

O Aprendizado por Reforço Profundo (DRL) é um subconjunto avançado de inteligência artificial (IA) que combina as capacidades de tomada de decisão do aprendizado por reforço com o poder perceptual do aprendizado profundo (DL). Enquanto o aprendizado por reforço tradicional depende de métodos tabulares para mapear situações a ações, esses métodos têm dificuldades quando o ambiente é complexo ou visual. O DRL supera isso ao usar redes neurais para interpretar dados de entrada de alta dimensionalidade, como quadros de vídeo ou leituras de sensores, permitindo que máquinas aprendam estratégias eficazes diretamente da experiência bruta, sem instrução humana explícita.

Link to this sectionO Mecanismo Central do DRL#

Em um sistema de DRL, um agente de IA interage com um ambiente em etapas de tempo discretas. Em cada etapa, o agente observa o "estado" atual, seleciona uma ação com base em uma política e recebe um sinal de recompensa indicando o sucesso ou fracasso dessa ação. O objetivo principal é maximizar a recompensa cumulativa ao longo do tempo.

O componente "profundo" refere-se ao uso de redes neurais profundas para aproximar a política (a estratégia para agir) ou a função de valor (a recompensa futura estimada). Isso permite que o agente processe dados não estruturados, utilizando visão computacional (CV) para "enxergar" o ambiente quase como um humano. Essa capacidade é impulsionada por frameworks como PyTorch ou TensorFlow, que facilitam o treinamento dessas redes complexas.

Link to this sectionAplicações no Mundo Real#

O DRL superou a pesquisa teórica e avançou para aplicações práticas de alto impacto em diversos setores:

  • Robótica Avançada: No campo da IA em robótica, o DRL permite que máquinas dominem habilidades motoras complexas que são difíceis de codificar manualmente. Robôs podem aprender a agarrar objetos irregulares ou atravessar terrenos acidentados refinando seus movimentos dentro de motores de física como o NVIDIA Isaac Sim. Isso geralmente envolve o treinamento em dados sintéticos antes de implantar a política em hardware físico.
  • Direção Autônoma: Veículos autônomos aproveitam o DRL para tomar decisões em tempo real em cenários de tráfego imprevisíveis. Enquanto modelos de detecção de objetos identificam pedestres e sinais, algoritmos de DRL utilizam essas informações para determinar políticas de direção seguras para fusões de faixas, navegação em cruzamentos e controle de velocidade, gerenciando efetivamente a latência de inferência necessária para a segurança.

Link to this sectionVisão como um Observador de Estado#

Para muitas aplicações de DRL, o "estado" é visual. Modelos de alta velocidade atuam como os olhos do agente, convertendo imagens brutas em dados estruturados sobre os quais a rede de política pode agir. O exemplo a seguir ilustra como o modelo YOLO26 serve como a camada de percepção para um agente, extraindo observações (por exemplo, contagem de obstáculos) do ambiente.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Link to this sectionDistinguindo DRL de Conceitos Relacionados#

É útil diferenciar o Aprendizado por Reforço Profundo de termos similares para entender sua posição única no cenário da IA:

  • Aprendizado por Reforço (RL): O RL padrão é o conceito fundamental, mas geralmente depende de tabelas de consulta (como Q-tables) que se tornam impraticáveis para grandes espaços de estados. O DRL resolve isso usando aprendizado profundo para aproximar funções, permitindo lidar com entradas complexas como imagens.
  • Aprendizado por Reforço com Feedback Humano (RLHF): Enquanto o DRL normalmente otimiza para uma função de recompensa definida matematicamente (por exemplo, pontos em um jogo), o RLHF refina modelos—especificamente Grandes Modelos de Linguagem (LLMs)—usando preferências humanas subjetivas para alinhar o comportamento da IA com valores humanos, uma técnica popularizada por grupos de pesquisa como a OpenAI.
  • Aprendizado Não Supervisionado: Os métodos não supervisionados buscam padrões ocultos em dados sem feedback explícito. Em contraste, o DRL é orientado a objetivos, impulsionado por um sinal de recompensa que guia ativamente o agente em direção a um objetivo específico, conforme discutido em textos fundamentais de Sutton e Barto.

Desenvolvedores que procuram gerenciar os conjuntos de dados necessários para as camadas de percepção de sistemas DRL podem utilizar a Ultralytics Platform, que simplifica fluxos de trabalho de anotação e treinamento na nuvem. Além disso, pesquisadores frequentemente usam ambientes padronizados, como o Gymnasium, para realizar benchmarks de seus algoritmos de DRL em relação a baselines estabelecidos.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática