探索 GPT(生成式预训练 Transformer)的基础知识。了解这些模型的工作原理,以及如何将它们与 Ultralytics YOLO26 集成以用于视觉任务。
GPT(Generative Pre-trained Transformer,生成式预训练 Transformer)指一类神经网络模型,旨在通过预测序列中的下一个元素来生成类人文本并解决复杂任务。这些模型基于 Transformer 架构,特别是利用解码器块,使它们能够并行而非顺序地处理数据。“预训练”方面表明模型经历了一个初始的 无监督学习 阶段,在包含书籍、文章和网站在内的大规模数据集上,以学习语言的统计结构。“生成式”则表示模型的主要能力:创建新内容,而不仅仅是 classify 现有输入。
GPT模型的核心是 注意力机制,这是一种数学技术,允许网络衡量句子中不同词语之间的相对重要性。这种机制使模型能够理解上下文、细微差别和长距离依赖关系,例如,知道段落末尾的代词指的是开头提到的名词。
在初始预训练之后,这些模型通常会进行 微调,以使其专门用于特定任务或与人类价值观保持一致。人类反馈强化学习 (RLHF) 等技术常被用于确保模型生成安全、有用和准确的响应。这种两步过程——通用预训练后进行特定微调——正是GPT模型成为多功能 基础模型 的原因。
GPT模型已从理论研究走向实际,成为各行各业的日常工具。
尽管GPT擅长自然语言处理(NLP),但它经常与计算机视觉(CV)结合,以创建多模态系统。常见的工作流程是使用像Ultralytics YOLO26这样的高速检测器来识别图像中的物体,然后将结构化输出输入到GPT模型中以生成描述性叙述。
以下示例演示了如何使用YOLO26提取对象名称,以创建用于GPT提示的上下文字符串:
from ultralytics import YOLO
# Load the YOLO26 model (optimized for speed and accuracy)
model = YOLO("yolo26n.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to construct a text description
class_names = [model.names[int(cls)] for cls in results[0].boxes.cls]
# This string serves as the context for a GPT prompt
print(f"Detected objects for GPT context: {', '.join(class_names)}")
区分GPT与其他流行架构有助于理解其具体作用。
尽管GPT模型具有令人印象深刻的能力,但它们仍面临诸如幻觉等挑战,即它们自信地生成虚假信息。研究人员正在积极致力于改进AI伦理和安全协议。此外,GPT与Ultralytics Platform等工具的集成,能够构建更强大的管道,使视觉和语言模型协同工作,解决复杂的现实世界问题。

开启您的机器学习未来之旅