使用 Ultralytics YOLO11 构建 AI 驱动的无人机应用
学习如何使用 Ultralytics YOLO11 构建 AI 驱动的无人机应用,实现实时物体检测和基于无人机的计算机视觉任务。

门店购物和在线购物看起来很相似,但它们依赖于不同的物流。门店需要货架补货,而在线订单则依赖于送货上门。得益于技术的进步,这两种购物体验正在同步重塑。
例如,配送领域正在发生重大转变。人工智能驱动的无人机正在改变产品送达我们家中的方式。预计这些智能无人机在未来十年内将处理约 808 million deliveries,将天空转变为日常商业的最新配送路径。
送货无人机使用人工智能 (AI) 和 computer vision(AI 的一个子领域,用于分析视觉数据)来导航并绕过障碍物。像 Ultralytics YOLO11 这样的计算机视觉模型可以帮助无人机实时检测和追踪物体,使其能够更好地理解周围环境并与之交互。

Fig 1。一台正在将包裹送往目的地的送货无人机。
像 Meituan 和 DJI 这样的公司已经在其无人机中集成了计算机视觉。事实上,无人机在各行各业的迅速采用已经使 AI drone market 有望在 2031 年飙升至 2069 亿美元。
在本文中,我们将仔细研究像 Ultralytics YOLO11 这样的计算机视觉模型如何应用于无人机配送等基于无人机的应用中。我们将通过一个示例来展示在投入真实场景之前,这些技术是如何开发和测试的。
Link to this section在无人机上使用 Ultralytics YOLO11 检测房屋#
送货无人机的一个关键能力是在导航过程中识别房屋。为了重现此功能并了解其工作原理,我们将训练一个能够在航拍无人机拍摄的画面中识别房屋的计算机视觉模型。我们将为此 custom-train YOLO11,这涉及通过使用标注的示例对预训练的 YOLO11 模型进行微调,以识别和检测房屋。
为此,我们需要高质量的无人机视频数据。有趣的是,即使没有真正的无人机,我们仍然可以生成真实的航拍视频。让我们看看如何操作。
Link to this section使用 Google Earth Studio 创建人工无人机拍摄画面#
Google Earth Studio 是一个基于 Web 的动画工具,用户可以使用它利用 Google Earth 的卫星和 3D 影像创建静态和动画内容。我们可以利用它创建逼真的航拍画面。
第一步是打开 Google Earth Studio 并创建一个项目,如下所示。
你需要一个 Google 账户来登录。

Fig 2. 在 Google Earth Studio 上创建项目。
登录后,你可以为人工无人机视频选择一个位置。使用页面左上角的搜索栏,你可以搜索地点。在本教程中,我们将选择加拿大。此外,由于我们要训练一个检测房屋的模型,我们的无人机视频应该包含房屋的航拍视图。

Fig 3. 使用 Google Earth Studio 选择位置。
接下来,我们可以设置第一帧和最后一帧来捕获人工无人机拍摄画面的运动。一旦你选择了无人机拍摄的起始位置,使用蓝色菱形设置第一帧,如下所示。

Fig 4. 使用蓝色菱形设置第一帧。
接下来,我们可以选择最后一帧来确定无人机的目的地。这将帮助我们为无人机画面创建移动效果。为此,将进度条(如下突出显示)向右滑动到特定时间,以便为无人机拍摄创建移动效果。再次使用蓝色菱形设置最后一点。

Fig 5. 通过移动进度条设置最后一帧。
最后,你可以保存此项目,并通过点击页面右上角的红色“Render”按钮进行渲染。这将为你提供无人机拍摄的最终视频输出,从而成功创建人工无人机视频画面。

Fig 6. 渲染最终输出视频。
Link to this section如何标注无人机数据?#
既然我们已经创建了人工无人机视频画面,下一步就是对其中的房屋进行 label or annotate。我们还需要将视频的各个帧分离开来。
要开始此操作,我们将安装 LabelImg。LabelImg 是一个开源图像标注工具。你可以通过在终端运行以下命令,使用 pip 包安装程序直接安装它:“pip install labelImg”。
安装完成后,你可以在终端或命令提示符中使用命令“labelImg”运行该工具。这将带你进入如下所示的页面。

Fig 7. LabelImg 工具界面。
同时,我们可以使用在线视频转图像转换器或名为 FFmpeg 的工具将视频拆分为帧。FFmpeg 是一组用于处理音频、视频、字幕和相关元数据等多媒体内容的库和工具。
你可以使用以下终端命令来分离无人机视频的每一帧:
ffmpeg -i input_video.mp4 frame_%04d.png分离出无人机视频的帧后,我们就可以开始标注其中的物体(房屋)。通过 LabelImg 工具导航到图像文件夹,我们可以标注每张图像中的物体。确保保存并验证每个标注的图像。标注完成后,我们现在可以使用这些数据进行 YOLO11 训练。

Fig 8. 保存已标注图像的示例。
Link to this sectionYOLO11 模型训练工作流程#
在开始训练 YOLO11 之前,我们将整理图像和标签。首先创建两个文件夹:一个命名为“train”,另一个命名为“valid”。将图像分别存入这些文件夹。在每个文件夹内,分别为图像及其对应的标签文件(文本格式)创建子文件夹,如下所示。

Fig 9. 创建图像和标签文件夹的示例。
然后,我们可以按照如下方式开始训练 YOLO11 模型:
- 第 1 步: 安装 Ultralytics Python package。你可以通过在终端中运行命令“pip install ultralytics”来完成。如果你遇到任何安装问题,请查看我们的 troubleshooting guide,了解有助于解决问题的技巧和窍门。
- 第 2 步: 成功安装包后,创建一个名为“data.yaml”的文件。这是一个对于训练模型至关重要的配置文件。在 data.yaml 文件中,包含以下信息:你的训练数据集路径、验证数据集路径、类别数量 (nc) 以及类别名称列表 (names),如下所示。

Fig 10. data.yaml 文件的示例。
- 第 3 步: 一旦“data.yaml”文件配置完成,你可以使用以下 Python 代码开始训练模型。此代码加载预训练的 YOLO11 模型并根据你的配置对其进行训练。
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt") # choose your model, e.g., YOLO11 nano
# Train the model with your data and settings
model.train(data="data.yaml", epochs=100, imgsz=640)- 第 4 步: 训练完成后,你应该会看到类似于下方所示的输出。这意味着你已成功为基于无人机的应用训练了 YOLO11 模型。

Fig 11. 模型训练后的输出。
Link to this section在无人机上使用 Ultralytics YOLO11 运行预测#
训练后的 YOLO11 模型现在可以通过称为 inferencing 的过程进行预测。推理涉及使用模型根据训练过程中学到的知识来分析新的、未见过的数据。在这种情况下,该模型可用于通过在图像或视频中的特定物体(如房屋)周围绘制边界框来查找和标记它们。
要运行预测,你可以使用以下 Python 代码在输入视频上使用训练好的 YOLO11 模型。在此示例中,我们将使用与训练时相同的人工无人机视频,但如果你愿意,也可以使用任何其他视频文件。
# Import library
from ultralytics import YOLO
# Load the YOLO model
model = YOLO("best.pt") # Choose your custom-trained model
# Predict the results from the model
results = model.predict(source="path/to/original/video.mp4", show=True, save=True)运行此代码后,将保存带有预测结果和边界框的输出视频文件。

Fig 12. 输出视频文件中的一帧。
Link to this section集成 Ultralytics YOLO11 用于无人机的各种应用#
为无人机配送包裹检测房屋只是计算机视觉和 YOLO11 应用的一个例子。以下是计算机视觉、YOLO11 和航拍无人机的其他一些现实应用:
-
监控与安全: AI drones 可用于实时监控大面积区域。它们可以检测入侵、追踪可疑活动,并加强边境及大型公共活动的安全。
-
灾难响应与搜救: 无人机配备热成像相机和目标检测功能,可以帮助定位灾区的幸存者。它们还可以评估损失并运送紧急物资。
-
农业与精准农业: 集成了计算机视觉的无人机可用于分析作物健康状况并检测疾病,帮助农民在增加产量的同时降低成本。
-
测绘与地理空间分析: 通过收集高分辨率 3D 地图,AI 无人机可以协助城市规划和土地调查。与传统方法相比,它们提供更快、更准确的地形评估。
Link to this section关键要点#
由计算机视觉驱动的 AI 无人机正在改变许多行业,从配送包裹到协助紧急救援和农业。在本指南中,我们介绍了创建人工无人机视频、标注其中的物体、训练 YOLO11 并使用它来检测房屋的过程。
将目标检测应用于无人机画面使这些无人机更加智能,允许它们实时自动识别和追踪物体。随着技术的进步,AI 驱动的无人机很可能在加快配送速度、提高安全性和协助灾难响应方面发挥更大的作用。
加入 our community 并探索我们的 GitHub repository 以了解更多关于视觉 AI 的信息,并查看 our licensing options 以开启你的计算机视觉项目。对 AI in manufacturing 或 computer vision in the automotive 行业等创新感兴趣吗?访问我们的解决方案页面以发现更多内容。






