深圳Yolo 视觉
深圳
立即加入
词汇表

GGUF

了解 GGUF——一种适用于本地 LLM 推理的高效格式。了解它如何在消费级硬件上实现 AI 功能,并集成到全新的Ultralytics 。

GPT-Generated Unified Format(GGUF)是一种高效二进制文件格式,专为存储和 运行大型语言模型(LLMs)以及 其他 人工智能架构而开发。 GGUF最初由开源框架 llama.cpp 推出, 可在标准 消费级硬件(包括标准CPU和Apple Silicon)上实现快速的实时推理。通过 模型量化大幅降低内存需求, 该格式使复杂的 生成式AI得以普及,而无需依赖昂贵的 企业级GPU。

GGUF 对阵 GGML

在研究GGUF文件是什么时,从业者通常会将其与其前身GGML进行比较。虽然GGML 为将语言模型引入边缘计算奠定了基础,但在向后兼容性方面却存在困难。 两者的主要 区别在于,GGUF通过采用键值对结构来管理元数据,从而解决了这一问题,确保在新增模型 功能时,旧版应用程序不会出现故障。这种结构优势使得模型能够在各种环境中 顺畅部署,这与 工程师评估不同的 模型部署方案以确保 生产系统稳定性 的方式如出一辙。

实际应用

GGUF 已迅速成为本地人工智能开发领域的标杆。以下是当前应用该框架的两种具体方式:

  • 使用 Ollama 本地执行 LLM:一个广泛的应用场景是将 GGUF 与 Ollama 结合使用,Ollama 是一款轻量级应用程序,可简化 在本地运行开放权重模型的过程。通过加载 GGUF 模型,开发者可以构建完全离线运行的 以隐私为先的对话代理,这对安全的 边缘计算应用大有裨益。
  • 通过 ComfyUI 生成图像:在视觉人工智能领域,社区已广泛采用 ComfyUI 的 UNet 加载器配合 GGUF 来运行大型扩散 模型。这一创新使创作者能够在 VRAM 较低的消费级硬件上生成高质量图像,从而无缝 弥合了基于文本的 机器学习模型与构建在 PyTorchTensorFlow等构建的视觉生成 管道之间的鸿沟。

技术实现与代码示例

使用 python 通过编程方式加载和操作 GGUF 文件非常简单。这与使用专用 推理引擎初始化 Ultralytics 等最先进的计算机视觉模型类似,GGUF 模型也可以 直接加载到内存中,以便立即执行任务。

from llama_cpp import Llama

# Load a quantized GGUF model for local CPU or GPU inference
llm = Llama(model_path="./model-q4_k_m.gguf", n_ctx=2048)

# Generate a response based on a prompt
output = llm("What is edge AI?", max_tokens=32)

# Print the generated text
print(output["choices"][0]["text"])

未来展望与优化

更广泛的人工智能行业,从OpenAI的尖端前沿研究到 Anthropic 的尖端前沿研究,到开源开发者社区,都在不断突破 推理效率的边界。对于同时涉足文本和视觉模态的从业者而言,高效管理这些高度 优化的模型至关重要。Ultralytics 端到端的MLOps系统, 可确保开发者能够处理从 自动化数据集标注和云端训练到最终部署阶段的全部流程,从而最大限度地提升现代 边缘AI应用的性能。

若想进一步了解这些语言架构在大规模场景下的工作原理,建议阅读 维基百科上关于“大型语言模型”的页面,或查阅 vLLM 官方文档中概述的高级服务机制。

让我们一起共建AI的未来!

开启您的机器学习未来之旅