敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

xAI 推出与 FLUX.1 集成的 Grok 2.0

Abirami Vina

4 分钟阅读

2024年9月5日

了解 Elon Musk 的 xAI 推出的 Grok 2.0 及其与 FLUX.1 的集成。探索功能、基准、模型比较以及如何试用等详细信息。

8 月 14 日,Elon Musk 的 AI 公司 xAI 在 X(前身为 Twitter)上宣布发布 Grok 2.0,这是一个与 Black Forest Labs 的图像生成模型 FLUX.1 集成的 聊天机器人。FLUX.1 是一种先进的模型,能够创建高度逼真的图像,包括可能被视为敏感或具有潜在误导性的图像。

与许多阻止或过滤某些类型内容(如暴力、露骨或欺骗性图像)的流行的图像生成器不同,FLUX.1 的限制较少。有些人认为这是自由表达的胜利,而另一些人则对其先进的功能印象深刻。然而,人们也对这种强大技术的伦理影响和潜在滥用表示担忧。让我们深入了解 Grok 2.0 带来了什么,是什么让 FLUX.1 脱颖而出,以及您如何亲自尝试这些创新工具。

了解 FLUX.1:AI 图像生成器

FLUX.1 是 Black Forest Labs 于 2024 年 8 月 1 日推出的先进的开源 AI 图像生成器。Black Forest Labs 是一家由前 Stability AI 工程师创立的初创公司,他们因在广泛使用的 Stable Diffusion 模型 上的工作而闻名。FLUX.1 旨在直接与 MidJourney 和 DALL-E 3 等老牌厂商竞争,并为 AI 生成的图像带来了新的质量和灵活性水平。例如,FLUX.1 在处理许多模型难以处理的棘手细节方面做得非常出色,例如生成逼真的人手或标志上可读的文本。

Black Forest Labs 提供了三种不同的 FLUX.1 变体,可用于不同的应用。以下是这些变体的详细介绍:

  • FLUX.1 [pro]:旗舰模型,用于商业用途,旨在提供最高质量的输出。
  • FLUX.1 [dev]:一个开放权重版本,可用于非商业用途。它是研究和开发的理想选择。
  • FLUX.1 [schnell]:一个在 Apache 2.0 许可下进行速度优化的模型,非常适合需要快速图像生成的个人项目和本地开发。
__wf_reserved_inherit
图 1. 了解 FLUX.1 的变体

FLUX.1 是如何工作的?

FLUX.1 采用混合模型架构,结合了 Transformer 和 Diffusion 技术,模型大小为 120 亿参数(神经网络中可调整的部分,帮助其从数据中学习)。Transformer 是一种神经网络,可以通过识别数据中的模式和关系来理解文本和图像等序列。Diffusion 模型的工作原理是从随机噪声开始,逐步细化,直到形成清晰的图像。通过结合这两种方法,FLUX.1 可以利用两种架构的优势来生成与给定的文本提示相匹配的高质量图像。 

FLUX.1 还使用了诸如旋转位置嵌入和流匹配等先进技术。 旋转位置嵌入 帮助模型理解文本和图像中元素的顺序和位置,以确保所有内容在整体上都有意义。流匹配 是一种在生成模型中使用的技术,使从随机噪声创建图像的过程更加平滑和高效。

FLUX.1 的基准测试

在将 FLUX.1 与其他流行的模型(如 MidJourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra)进行比较时,FLUX.1 在 AI 图像生成方面树立了新的基准。它在图像质量、提示遵循度、输出多样性以及对不同尺寸和宽高比的支持等关键领域表现出色。FLUX.1 [pro] 和 [dev] 模型以生成与用户需求高度匹配的高质量图像而著称,并且这些模型在提供清晰准确的结果方面通常优于其他模型。另一方面,FLUX.1 [schnell] 是用于快速图像生成的最先进模型之一,并且性能优于 MidJourney 等更复杂的模型。

__wf_reserved_inherit
图 2. Midjourney v6 和 FLUX.1[pro] 的比较

Grok 2.0:来自埃隆·马斯克的 xAI 的最新成果

Grok 2.0 是埃隆·马斯克的 AI 公司 xAI 开发的最新大型语言模型。Grok 2.0 于 2024 年 8 月发布,X Premium 和 Premium+ 用户可以在 X 平台(前身为 Twitter)上使用。此外,它很快将通过企业 API 提供给开发人员和企业。

__wf_reserved_inherit
图 3. Grok 2.0 解释 meme 的一个例子。

Grok 2.0 构建于 Transformer 架构之上,与其旧版本 Grok 1.5 相比,它更擅长遵循指令、推理问题和提供准确信息。该聊天机器人已经过与其他领先 AI 模型的测试,并显示出令人印象深刻的结果。在涉及研究生水平的科学问题、一般知识和复杂数学问题的基准测试中,Grok 2.0 的表现优于 GPT-4 Turbo、Claude 3.5 Sonnet 和 Llama 3 405B 等流行模型。Grok 2.0 还擅长需要视觉理解的任务,并在视觉数学推理和基于文档的问答方面取得了高分。

Grok 2.0 和 FLUX.1 之间的联系

FLUX.1 已集成到 Grok 2.0 中,以提供文本和图像生成的无缝结合。虽然如今结合不同的技术来提高功能和用户体验很常见,但这种特殊的集成受到了很多关注。 

一方面,FLUX.1 的集成因其为 Grok 2.0 增加了一种“乐趣”元素而受到一些人的称赞。用户可以尝试生成有创意且有时前卫的图像——这些图像会受到其他 AI 工具的限制或严格审核。例如,用户在 X 上分享了描绘公众人物处于不适当或有争议情况的图像,声称它支持言论自由的理念。

另一方面,批评人士认为,FLUX.1 缺乏明确的道德准则可能会导致严重的道德和社会问题,例如虚假信息和深度伪造。一些人担心,在一个最具影响力的社交媒体平台上结合强大的、未经审查的文本和图像生成可能会加剧虚假信息的传播。

Grok 2.0 及其不受限制的方法

这不仅仅是关于图像生成。Grok 2.0 本身比我们最近熟悉的 ChatGPT 等其他 AI 工具更不受限制。这种缺乏审核使得该模型能够以一些人觉得令人兴奋而另一些人觉得令人不安的方式来突破界限。

例如,已经观察到 Grok 2.0 生成的文本内容很容易被解释为虚假或误导性新闻。最近发生的一起事件涉及 Grok 2.0 编造关于 NBA 球员克莱·汤普森 якобы 的虚假故事, якобы 他正在进行“砖头破坏狂潮”。AI 聊天机器人误解了篮球术语“throwing bricks”,该术语仅指投篮不中。相反,Grok 2.0 从字面上理解了它,并编造了一个关于汤普森用真正的砖头实施破坏行为的故事。该帖子迅速在 X 上走红,一些用户甚至添加了虚假的受害者帐户来助长虚假信息。

__wf_reserved_inherit
图 4. Grok 2 撰写的 X 上的帖子。

尽管存在这些担忧,但一些用户欣赏 Grok 2.0 的“言论自由”立场。他们认为,与受到严格审核的 AI 模型相比,它允许进行更开放的对话和创作自由。他们将 Grok 2.0 视为对他们认为过于谨慎的“觉醒”AI的反击,后者限制了对敏感话题的讨论。对于这些用户来说,Grok 2.0 提供了一个感觉不那么受社会规范约束的平台。

亲自试用 FLUX.1 和 Grok 2.0

有几种不同的选择可以尝试 FLUX.1 和 Grok 2.0。可以通过 Hugging Face、Replicate 和 Fal.ai 等 AI 平台直接访问 FLUX.1。同时,Grok 2.0 仅适用于 X Premium 和 Premium+ 订阅者。

主要要点

FLUX.1 和 Grok 2.0 正在推动 AI 的边界并引发深刻的对话。FLUX.1 凭借其生成高度详细和逼真图片的能力,在 AI 生成图像方面树立了新标准。Grok 2.0 正在使用 FLUX.1 来增强其能力,使其超越了纯粹的基于文本的交互。一方面,爱好者们对这些工具提供的创作自由和未经审查的探索感到兴奋。另一方面,批评人士正在对虚假信息、深度伪造以及在这种不受监管的能力在像 X 这样有影响力的平台上的伦理影响发出警报。随着 FLUX.1 和 Grok 2.0 的发展,它们正处于关于数字时代的自由、创造力和责任的辩论中心——这场辩论可能会在未来几年塑造 AI 的未来。

要了解有关 Ultralytics 的更多信息,请查看我们的 GitHub 存储库,加入我们的社区,并探索我们在医疗保健制造业等行业的最新 AI 解决方案!🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板