视觉 AI

xAI 发布集成 FLUX.1 的 Grok 2.0

了解 Elon Musk 旗下 xAI 的 Grok 2.0 及其与 FLUX.1 的集成。探索其功能、基准测试、模型对比以及如何试用等详细信息。

ABAbirami Vina

4 min readSeptember 5, 2024

8月14日，Elon Musk的AI公司xAI在X（前身为Twitter）上宣布发布了Grok 2.0，这是一款集成了Black Forest Labs的图像生成模型FLUX.1的聊天机器人。FLUX.1是一款先进的模型，能够创建高度逼真的图像，包括那些可能被视为敏感或具有潜在误导性的图像。

与许多会拦截或过滤特定类型内容（如暴力、露骨或欺骗性图像）的主流图像生成器不同，FLUX.1 的限制更少。有些人认为这是言论自由的胜利，而另一些人则对其先进的功能印象深刻。然而，人们也对这种强大技术的伦理影响和潜在滥用表示担忧。让我们深入了解 Grok 2.0 带来了什么，FLUX.1 的独特之处，以及你如何亲自尝试这些创新工具。

Link to this section认识 FLUX.1：一款 AI 图像生成器#

FLUX.1 是 Black Forest Labs 于 2024 年 8 月 1 日推出的一款先进开源 AI 图像生成器。Black Forest Labs 是一家由前 Stability AI 工程师创立的初创公司，他们因在广受欢迎的Stable Diffusion 模型上的工作而闻名。FLUX.1 旨在直接与 MidJourney 和 DALL-E 3 等成熟的竞争对手抗衡，为 AI 生成的图像带来了新的质量和灵活性水平。例如，FLUX.1 在处理许多模型难以处理的棘手细节方面表现出色，比如生成看起来真实的人手或标志上的可读文本。

Black Forest Labs 提供三种不同版本的 FLUX.1，可用于不同的应用场景。以下是这些版本的详细介绍：

FLUX.1 [pro]：旗舰模型，用于商业用途，旨在提供最高质量的输出。
FLUX.1 [dev]：开放权重版本，可用于非商业用途。它非常适合研究和开发。
FLUX.1 [schnell]：在 Apache 2.0 许可下速度优化的模型，非常适合需要快速生成图像的个人项目和本地开发。

FLUX.1 变体图表

图 1. 了解 FLUX.1 的版本

Link to this sectionFLUX.1 是如何工作的？#

FLUX.1 使用了一种结合了 Transformer 和扩散技术的混合模型架构，模型大小为 120 亿参数（神经网络中帮助其从数据中学习的可调节部分）。Transformer 是一种神经网络，通过识别数据中的模式和关系来理解文本和图像等序列。扩散模型的工作原理是从随机噪声开始，逐步细化，直到形成清晰的图像。通过结合这两种方法，FLUX.1 可以利用两种架构的优势，生成符合给定文本提示的高质量图像。

FLUX.1 还使用了旋转位置嵌入和流匹配等先进技术。旋转位置嵌入帮助模型理解文本和图像中元素的顺序和位置，以确保一切协调一致。流匹配是生成模型中使用的一种技术，旨在使从随机噪声创建图像的过程更平滑、更高效。

Link to this sectionFLUX.1 基准测试#

当将 FLUX.1 与 MidJourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra 等其他流行模型进行比较时，FLUX.1 在 AI 图像生成方面树立了新的基准。它在图像质量、提示词遵循程度、输出多样性以及对不同尺寸和纵横比的支持等方面表现出色。FLUX.1 [pro] 和 [dev] 模型在生成高质量且紧贴用户需求的图像方面脱颖而出，这些模型在提供清晰准确的结果方面通常优于其他模型。另一方面，FLUX.1 [schnell] 是用于快速图像生成的最先进模型之一，表现优于 MidJourney 等更复杂的模型。

Midjourney v6 与 FLUX.1 [pro] 的对比

图2. Midjourney v6与FLUX.1[pro]的比较

Link to this sectionGrok 2.0：埃隆·马斯克旗下 xAI 的最新作品#

Grok 2.0 是埃隆·马斯克的 AI 公司 xAI 开发的最新大型语言模型。Grok 2.0 发布于 2024 年 8 月，目前供 X 平台（前身为 Twitter）的 X Premium 和 Premium+ 用户使用。此外，它很快也将通过企业 API 提供给开发者和企业。

Grok 2.0 解释表情包的示例

图 3. Grok 2.0 解释梗图的示例。

Grok 2.0 基于 Transformer 架构构建。与旧版本 Grok 1.5 相比，它更善于遵循指令、通过推理解决问题并提供准确信息。该聊天机器人已针对其他领先的 AI 模型进行了测试，并显示出令人印象深刻的结果。在涉及研究生水平科学问题、常识和复杂数学问题的基准测试中，Grok 2.0 的表现优于 GPT-4 Turbo、Claude 3.5 Sonnet 和 Llama 3 405B 等流行模型。Grok 2.0 还擅长需要视觉理解的任务，并在视觉数学推理和基于文档的问答中获得了高分。

Link to this sectionGrok 2.0 与 FLUX.1 的结合#

FLUX.1 已集成到 Grok 2.0 中，以提供文本和图像生成的无缝结合。虽然如今结合不同技术来提升功能和用户体验很常见，但这一特定的集成受到了广泛关注。

一方面，FLUX.1 的集成因给 Grok 2.0 增添了“乐趣”而受到了一些人的赞赏。用户可以尝试生成富有创造力甚至有时带有边缘色彩的图像——这些内容在其他 AI 工具中会受到限制或受到严格审核。例如，用户已经在 X 上分享了描绘公众人物处于不当或争议情境中的图像，并声称这支持了言论自由的观念。

另一方面，批评者认为 FLUX.1 缺乏明确的伦理准则可能会导致严重的伦理和社会问题，例如虚假信息和深度伪造。一些人担心，在最具影响力的社交媒体平台之一上结合强大的、不受审查的文本和图像生成功能，可能会加剧虚假信息的传播。

Link to this sectionGrok 2.0 及其不受限制的方法#

这不仅仅关乎图像生成。Grok 2.0 本身就比我们最近熟悉的 ChatGPT 等其他 AI 工具限制更少。这种缺乏审核的机制使模型能够以一些人觉得兴奋、另一些人觉得不安的方式突破界限。

例如，据观察，Grok 2.0 生成的文本内容很容易被解读为虚假或误导性新闻。最近发生了一起事件，Grok 2.0 编造了一个关于 NBA 球员 Klay Thompson 所谓的“持砖破坏狂潮”的虚假故事。AI 聊天机器人误解了篮球术语“throwing bricks”（投篮打铁），该词仅指投篮不中。相反，Grok 2.0 从字面上理解了它，并编造了一个 Thompson 用真正的砖块进行破坏活动的故事。该帖子迅速在 X 上传播开来，甚至有用户添加了虚假的受害者账户来推波助澜，助长了误导信息。

由 Grok 2 在 X 上撰写的帖子

图4. 由Grok 2编写的X平台帖文。

尽管有这些担忧，一些用户还是赞赏 Grok 2.0 的“言论自由”立场。他们认为，与受到严格审核的 AI 模型相比，它允许更开放的对话和创造性自由。他们将 Grok 2.0 视为对他们眼中限制敏感话题讨论的、过度谨慎的"觉醒" AI的一种反击。对这些用户来说，Grok 2.0 提供了一个感觉不受社会规范束缚的平台。

Link to this section亲自尝试 FLUX.1 和 Grok 2.0#

尝试 FLUX.1 和 Grok 2.0 有几种不同的选择。可以通过 Hugging Face、Replicate 和 Fal.ai 等 AI 平台直接访问 FLUX.1。同时，Grok 2.0 仅提供给 X Premium 和 Premium+ 订阅用户。

Link to this section关键要点#

FLUX.1 和 Grok 2.0 正在突破 AI 的界限，并引发深刻的对话。FLUX.1 凭借其生成高度详细和逼真图像的能力，在 AI 生成图像领域树立了新标准。Grok 2.0 正在利用 FLUX.1 增强其超越纯文本交互的功能。一方面，爱好者们对这些工具提供的创作自由和不受审查的探索感到兴奋。另一方面，批评者对误导信息、深度伪造以及在 X 这样具有影响力的平台上使用此类不受监管的功能所带来的伦理风险发出了警告。随着 FLUX.1 和 Grok 2.0 的演进，它们正处于关于数字时代自由、创造力和责任辩论的中心——这一辩论很可能会在未来几年塑造 AI 的未来。

想了解更多关于 Ultralytics 的信息，请查看我们的 GitHub 仓库，加入我们的社区，，并探索我们在医疗保健和制造业等行业的最新 AI 解决方案！ 🚀