遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

2024 年以生成式 AI 浪潮开启

盘点 2024 年第一季度的激动人心的 AI 创新。我们将涵盖 OpenAI 的 Sora AI、Neuralink 脑机芯片以及最新 LLM 等突破性成果。

ABAbirami Vina
6 min read
2024 年初的生成式 AI 突破

AI 社区似乎每天都在占据头条。2024 年的前几个月令人兴奋,充满了新的 AI 创新。从功能强大的大型语言模型到人脑植入物,2024 年正变得令人惊叹。

我们看到 AI 正在改变各个行业,使信息获取变得更加便捷,甚至正在迈出将人类思维与机器融合的第一步。让我们回顾一下 2024 年第一季度,深入了解 AI 在短短几个月内取得的进展。

Link to this sectionLLM 成为趋势#

大型语言模型(LLM)旨在基于海量文本数据理解、生成和处理人类语言,在 2024 年第一季度占据了中心舞台。许多大型科技公司发布了各自的 LLM 模型,每一款都有其独特的功能。GPT-3 等早期 LLM 的惊人成功激发了这一趋势。以下是 2024 年初一些最值得关注的 LLM 发布。

Link to this sectionAnthropic 的 Claude 3#

Anthropic 于 2024 年 3 月 14 日发布了 Claude 3。Claude 3 模型有三个版本:Opus、Sonnet 和 Haiku,分别服务于不同的市场和需求。Haiku 是速度最快的模型,针对快速、基础的响应进行了优化。Sonnet 在速度和智能之间取得了平衡,针对企业应用。Opus 是最先进的版本,提供了无与伦比的智能和推理能力,非常适合处理复杂任务并达到顶级基准测试标准。

Claude 3 拥有许多先进的功能和改进:

  • 增强的多语言对话:提升了包括西班牙语、日语和法语在内的语言能力。
  • 先进的视觉功能:能够处理各种视觉格式。
  • 最小化拒绝:展现出更强的理解力,减少了不必要的拒绝,这意味着语境掌握能力得到了提升。
  • 扩展的上下文窗口:它提供 200K 的上下文窗口,但能够根据客户需求处理超过 100 万 token 的输入。

显示 Claude 3 上下文感知能力与之前版本对比的图表

图 1. Claude 3 比之前的版本具有更强的上下文感知能力。

Link to this sectionDatabricks 的 DBRX#

Databricks DBRX 是 Databricks 于 2024 年 3 月 27 日发布的一款开源、通用 LLM。DBRX 在各种基准测试中表现出色,包括语言理解、编程和数学。它超越了其他成熟模型,同时体积比同类模型小约 40%。

将 DBRX 与其他模型进行比较

图 2. DBRX 与其他模型的比较。

DBRX 使用下一 token 预测技术并结合细粒度的混合专家(MoE)架构进行训练,这就是我们能看到其训练和推理性能显著提升的原因。其架构允许模型通过咨询一组多样化的专业子模型(“专家”)来更准确地预测序列中的下一个单词。这些子模型擅长处理不同类型的信息或任务。

Link to this sectionGoogle 的 Gemini 1.5#

Google 于 2024 年 2 月 15 日推出了 Gemini 1.5,这是一款计算高效的多模态 AI 模型,能够分析大量的文本、视频和音频数据。该最新模型在性能、效率和功能方面更为先进。Gemini 1.5 的一个关键特性是其在长上下文理解方面的突破。该模型能够稳定处理多达 100 万个 token。Gemini 1.5 的性能也归功于基于 MoE 的新架构。

比较流行 LLM 的上下文长度

图 3. 主流 LLM 上下文长度对比

以下是 Gemini 1.5 的一些最有趣的功能:

  • 改进的数据处理:允许直接上传大型 PDF、代码仓库或长视频作为提示词。模型可以跨模态进行推理并输出文本。
  • 多文件上传与查询:开发人员现在可以上传多个文件并进行提问。
  • 可用于不同任务:它针对跨不同任务进行了优化,并在数学、科学、推理、多语言、视频理解和代码等领域表现出改进。

Link to this sectionAI 带来的惊人视觉效果#

2024 年第一季度揭晓了多款生成式 AI 模型,它们能够创造出如此逼真的视觉效果,以至于引发了关于社交媒体未来和 AI 进展的辩论。让我们深入探讨这些引发热议的模型。

Link to this sectionOpenAI 的 Sora#

ChatGPT 的创建者 OpenAI 于 2024 年 2 月 15 日宣布了一款名为 Sora 的尖端文本转视频深度学习模型。Sora 是一款文本转视频生成器,能够根据用户的文字提示生成长达一分钟、且具备高质量视觉效果的视频。

例如,看看下面这个提示词。

“一个精美的纸艺珊瑚礁世界,充满了色彩斑斓的鱼类和海洋生物。”

这里是输出视频中的一帧。

由 OpenAI Sora 生成的视频中的一帧

图 4. Sora 生成视频中的一帧。

Sora 的架构通过融合用于纹理生成的扩散模型和用于结构一致性的 Transformer 模型实现了这一点。到目前为止,Sora 的访问权限已开放给红队人员以及精选的视觉艺术家、设计师和电影制作人,以了解其风险并收集反馈。

Link to this sectionStability AI 的 Stable Diffusion 3#

Stability AI 于 2024 年 2 月 22 日宣布推出 Stable Diffusion 3,这是一款文本转图像生成模型。该模型融合了 diffusion transformer 架构和 flow matching 技术。他们尚未发布技术论文,但有几个关键特性值得关注。

由 Stable Diffusion 3 生成的一张巫师施展宇宙魔法的图片

图 5. 基于以下提示词生成的图像:“史诗动漫风格的艺术作品,一个巫师站在山顶,在夜晚向黑暗的天空施展宇宙魔法,魔法光芒形成了“Stable Diffusion 3”字样” (来源)

Stable Diffusion 的最新模型提供了更佳的性能、图像质量,并在创建包含多个主体的图像时具有更高的准确性。Stable Diffusion 3 还将提供从 8 亿到 80 亿参数不等的多种模型,允许用户根据自己对可扩展性和细节的具体需求进行选择。

Link to this sectionGoogle 的 Lumiere#

2024 年 1 月 23 日,Google 推出了 Lumiere,这是一款文本转视频扩散模型。Lumiere 使用了一种名为 Space-Time-U-Net(简称 STUNet)的架构。它可以帮助 Lumiere 理解物体在视频中的位置以及运动方式。通过这种方式,它能够生成流畅且栩栩如生的视频。

由 Google Lumiere 生成的熊猫弹奏尤克里里的视频中的一帧

图 6. 基于提示词“熊猫在家中弹尤克里里”生成的视频中的一帧。

凭借每段视频生成 80 帧的能力,Lumiere 正在突破界限,为 AI 领域的视频质量设定了新标准。以下是 Lumiere 的一些功能:

  • 图像转视频:从一张图像和一个提示词开始,Lumiere 可以将图像制作成视频。
  • 风格化生成:Lumiere 可以使用单一参考图像以特定风格创作视频。
  • 动态静止画(Cinemagraphs):Lumiere 可以为图像中的特定区域设置动画,从而创建动态场景,例如让特定的物体移动,而场景的其余部分保持静止。
  • 视频修复(Video Inpainting):它可以修改视频的局部,例如更改视频中人物的服饰或改变背景细节。

Link to this section未来已来#

2024 年初还带来了许多感觉像是出自科幻电影的 AI 创新。那些我们以前认为不可能的事情现在正在成为现实。随着以下发现,未来似乎不再那么遥远。

2024 年 1 月 29 日,Elon Musk 的 Neuralink 成功在一名人类患者身上植入了其无线脑机芯片。这是将人脑与计算机相连的重大一步。Elon Musk 分享说,Neuralink 的首款产品,名为“Telepathy”(心灵感应),正在研发中。

Neuralink 植入物

图 7. Neuralink 植入设备

其目标是使用户,特别是那些失去肢体功能的人,能够通过思想轻松控制设备。潜在的应用远不止于便利。Elon Musk 设想了一个瘫痪患者能够轻松交流的未来。

Link to this section迪士尼的 HoloTile Floor#

2024 年 1 月 18 日,华特迪士尼幻想工程(Walt Disney Imagineering)发布了 HoloTile Floor。它被称为世界上第一个多人、全向跑步机地面系统。

迪士尼幻想工程师 Lanny Smoot 在 HoloTile 地板上

图 8。迪士尼幻想工程师 Lanny Smoot 在他的最新发明 HoloTile 地板上摆姿势。

它可以像念力一样在任何人和物体下移动,以实现沉浸式的虚拟和增强现实体验。你可以在上面向任何方向行走并避免碰撞。迪士尼的 HoloTile Floor 也可以安装在舞台上,用于舞蹈和创意表演。

Link to this sectionApple 的 Vision Pro#

2024 年 2 月 2 日,Apple 万众期待的 Vision Pro 头显上市。它拥有一系列旨在重新定义虚拟和增强现实体验的功能与应用。Vision Pro 头显通过融合娱乐、生产力和空间计算来满足广泛的受众需求。Apple 自豪地宣布,超过 600 款从生产力工具到游戏和娱乐服务的应用已在 Vision Pro 发布时完成了优化。

Link to this sectionCognition 的 Devin#

2024 年 3 月 12 日,Cognition 发布了一款名为 Devin 的软件工程助手。Devin 是世界上首次尝试构建自动 AI 软件工程师的成果。与提供建议或完成特定任务的传统编码助手不同,Devin 旨在处理从最初构思到最终完成的整个软件开发项目。

它能够学习新技术、构建和部署完整的应用程序、查找并修复错误、训练自己的模型、为开源和生产代码库做贡献,甚至可以从 Upwork 等网站接取真实的开发工作。

将 Devin 与其他模型进行比较

图 9. Devin 与其他模型的比较。

Devin 在 SWE-bench 上进行了评估,这是一个具有挑战性的基准测试,要求智能体解决在 Django 和 scikit-learn 等开源项目中发现的现实世界 GitHub 问题。它成功端到端解决了 13.86% 的问题,而此前的最佳水平为 1.96%。

Link to this section荣誉提名#

近期发生了太多事情,无法在本文中一一列举。但以下是一些其他的荣誉提名。

  • NVIDIA 的 LATTE3D 于 2024 年 3 月 21 日发布,是一款文本转 3D AI 模型,可以即时根据文本提示创建 3D 表示。
  • 由首席执行官 David Holz 预告的 Midjourney 全新文本转视频生成器已于 1 月开始训练,预计很快发布。
  • 为推进 AI PC 革命,Lenovo 于 2024 年 1 月 8 日发布了采用 E Ink Prism 技术和高性能 AI 的笔记本电脑 ThinkBook 13x。

Link to this section与我们一起随时掌握 AI 趋势!#

2024 年初见证了 AI 的突破性进步和许多重大的技术里程碑。但这只是 AI 能力的开始。如果你想了解更多关于最新 AI 进展的信息,Ultralytics 已为你准备好了。

查看我们的 GitHub 仓库,了解我们在计算机视觉和 AI 方面的最新贡献。你也可以查看我们的解决方案页面,了解 AI 如何应用于制造业医疗保健等行业。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅