深圳Yolo 视觉
深圳
立即加入
词汇表

作用机制(MoA)

了解“多智能体混合系统”(MoA)如何利用多个大型语言模型(LLM)来解决复杂任务。学习如何将Ultralytics 作为视觉智能体集成到 MoA 工作流中。

代理混合体(MoA)是一种先进的人工智能架构,它利用多个 大型语言模型(LLMs)或自主 代理协同解决复杂任务。MoA 系统不再依赖单一模型生成响应,而是同时向多个不同的模型发起查询。这些初始代理会生成独立的答案,这些答案 随后会被传递给聚合器或合成器代理。 聚合器会对这些多元 视角进行评估、优化和整合,最终生成单一的高质量输出结果。这种协作方式显著提升了推理 能力,并缓解了独立模型固有的偏见或缺陷,标志着自然语言处理(NLP) 和问题解决领域 取得重大飞跃。

代理混合模型与专家混合模型

虽然它们听起来很相似,但必须将MoA与相关的概念 “专家混合模型”(MoE)区分开来。

  • 专家混合模型(MoE):在单一 神经网络架构内运行。它在推理过程中利用路由 机制,仅针对每个令牌激活特定的、专业化的子层(专家)。这 在保持高参数数量的同时,优化了计算效率。
  • 代理混合(MoA):在模型或系统层面运行。它涉及完全独立的 AI 代理——通常基于不同的基础 模型构建——在管道中进行交互。MoA 的运作方式更类似于 模型集合与智能审查 流程的结合,正如近期多代理系统研究中所述。

实际应用

MoA 架构在需要深度推理、事实核查和多样化数据综合的环境中表现尤为出色。

  • 复杂的软件工程:在软件开发中,一个MoA系统可能会利用 Anthropic 来编写核心逻辑, OpenAI GPT-4o来生成单元测试,以及一个本地化模型 进行安全审计。最终,一个聚合代理会审查整合后的代码、对其进行测试,并输出一个经过优化且无错误的 脚本。
  • 自动化医学诊断: 医疗保健领域的AI应用中,诊断机制管道可 部署专用代理来审查病史、分析实验室结果并处理医学影像。 综合代理会汇总这些发现,协助医生形成全面的诊断,从而大幅 降低人为失误的风险。

将视觉技术整合到MoA工作流程中

现代多智能体(MoA)系统正日益呈现多模态特征,这意味着它们依赖 计算机视觉(CV)模型来感知 物理世界,然后在此基础上进行推理。例如,在 制造业人工智能领域,一个视觉智能体可以 检查实时摄像头画面,并将其实证观察结果发送给推理智能体。

以下Python 演示了 Ultralytics 如何在 MoA 管道中充当“视觉 代理”,提取上下文数据并将其输入到下游的大型语言模型(LLMs)中。开发人员可以利用 Ultralytics 无缝 管理和微调这些专业的视觉工具。

from ultralytics import YOLO

# Initialize YOLO26 as a dedicated visual agent
visual_agent = YOLO("yolo26n.pt")

# The agent observes the environment by running inference on an image
results = visual_agent("https://ultralytics.com/images/bus.jpg")

# Extract structured data to pass to the MoA aggregator
detected_classes = [visual_agent.names[int(cls)] for cls in results[0].boxes.cls]
unique_objects = set(detected_classes)

# This text context is then sent to the reasoning agent
print(f"Visual Agent Report: I have identified {', '.join(unique_objects)} in the scene.")

通过弥合基于 PyTorch 构建的高性能视觉模型与 Google 先进认知引擎之间的鸿沟,MoA生态系统实现了对人类协作模式的模拟。它们正 迅速成为代理式RAG管道的骨干, 为构建更强大、更可靠的自主系统铺平了道路。

让我们携手共创人工智能的未来!

开启您的机器学习未来之旅