Explore como os modelos de raciocínio da IA vão além da correspondência de padrões para a dedução lógica. Saiba como Ultralytics e a Ultralytics impulsionam o raciocínio visual.
Os modelos de raciocínio representam uma evolução significativa na inteligência artificial, indo além da simples correspondência de padrões para realizar deduções lógicas em várias etapas, resolução de problemas e tomada de decisões. Ao contrário das arquiteturas tradicionais de aprendizagem profunda, que dependem fortemente de correlações estatísticas encontradas em vastos conjuntos de dados, os modelos de raciocínio são projetados para "pensar" sobre um problema. Eles frequentemente empregam técnicas como sugestões em cadeia de pensamento ou blocos de notas internos para dividir consultas complexas em etapas intermediárias antes de gerar uma resposta final. Essa capacidade permite que eles realizem tarefas que exigem matemática, codificação e raciocínio científico com uma precisão muito maior do que os modelos de linguagem grandes (LLMs) padrão .
A mudança para o raciocínio envolve treinar modelos para gerar o seu próprio monólogo interno ou traço de raciocínio. Desenvolvimentos recentes em 2024 e 2025, como a série OpenAI o1, demonstraram que alocar mais tempo de computação para o "raciocínio em tempo de inferência" aumenta significativamente o desempenho. Ao usar estratégias de aprendizagem por reforço, esses modelos aprendem a verificar os seus próprios passos, retroceder quando detect e refinar a sua lógica antes de apresentar uma solução. Isso contrasta com os modelos mais antigos, que simplesmente prevêem o próximo token mais provável com base na probabilidade.
Os modelos de raciocínio estão a ser incorporados em fluxos de trabalho sofisticados, onde a precisão é fundamental.
É importante diferenciar os «Modelos de Raciocínio» da IA Generativa de uso geral.
Embora o raciocínio baseado em texto seja bem conhecido, o raciocínio visual é uma fronteira em rápido crescimento. Isso envolve interpretar cenas visuais complexas para responder a perguntas "por que" ou "como", em vez de apenas "o que" está presente. Ao combinar a detecção de objetos em alta velocidade de modelos como o Ultralytics com um mecanismo de raciocínio, os sistemas podem analisar relações de causa e efeito em feeds de vídeo.
Por exemplo, em veículos autónomos, um sistema não deve apenas detect peão, mas também raciocinar que «o peão está a olhar para o telemóvel e a caminhar em direção ao berma, portanto, pode entrar na faixa de rodagem».
O exemplo a seguir demonstra como extrair dados estruturados usando o YOLO26, que podem então ser inseridos num modelo de raciocínio para obter insights sobre uma cena.
from ultralytics import YOLO
# Load the YOLO26 model for high-accuracy detection
model = YOLO("yolo26n.pt")
# Run inference on an image containing multiple objects
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names and coordinates for logic processing
# A reasoning model could use this data to determine spatial relationships
detections = []
for r in results:
for box in r.boxes:
detections.append(
{"class": model.names[int(box.cls)], "confidence": float(box.conf), "bbox": box.xywh.tolist()}
)
print(f"Structured data for reasoning: {detections}")
A trajetória da IA está a avançar em direção à inteligência artificial geral (AGI), onde as capacidades de raciocínio serão fundamentais. Estamos a assistir a uma convergência em que a aprendizagem multimodal permite que os modelos raciocinem simultaneamente em texto, código, áudio e vídeo. Plataformas como Ultralytics estão a evoluir para suportar esses fluxos de trabalho complexos, permitindo que os utilizadores gerenciem conjuntos de dados que alimentam tanto a percepção visual quanto o treinamento do raciocínio lógico.
Para uma leitura mais aprofundada sobre os fundamentos técnicos, explorar artigos de investigação sobre cadeias de pensamento fornece uma visão profunda sobre como os prompts podem desbloquear capacidades de raciocínio latentes. Além disso, compreender a IA neuro-simbólica ajuda a contextualizar como a lógica e as redes neurais estão a ser combinadas para criar sistemas mais robustos.