遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Data Preprocessing

了解数据预处理如何将原始数据转换为 AI 的干净输入。探索缩放和归一化等关键技术,以提升 Ultralytics YOLO26 的准确性。

数据预处理是机器学习流程中至关重要的第一步,它将原始数据转换为算法可理解的整洁格式。在现实世界中,数据往往是不完整、不一致的,且缺乏特定的行为或趋势,对计算机而言显得“脏”或“有噪声”。预处理弥合了原始信息与神经网络所需结构化输入之间的鸿沟,显著影响最终模型的准确性和效率。通过标准化和清理数据集,工程师能够确保像YOLO26这样的复杂架构能够学习到有意义的模式,而非噪声。

Link to this section为什么数据预处理很重要?#

机器学习模型,尤其是那些用于计算机视觉的模型,对输入数据的质量和规模非常敏感。如果没有适当的预处理,模型在训练期间可能难以收敛或产生不可靠的预测。例如,如果数据集中的图像具有不同的分辨率或色彩标度,模型就必须花费额外的能力来学习处理这些不一致性,而不是专注于实际的目标检测任务。

预处理技术的主要目标是:

  • 改善数据质量:消除错误、异常值和重复项,以确保数据集准确地代表问题空间。
  • 标准化输入:将特征(如像素值)重新缩放到统一范围(通常在 0 到 1 之间),以帮助像梯度下降这样的优化算法更顺畅地运行。
  • 降低复杂度:通过降维等技术简化数据表示,从而加快学习过程。

Link to this section预处理中的关键技术#

有几种标准方法可用于准备训练数据,每种方法都在数据管道中发挥特定作用。

  • 数据清理:这涉及处理缺失值(插补)、纠正不一致的标注以及过滤掉损坏的文件。在视觉 AI 的语境下,这可能意味着移除模糊的图像或修复不正确的边界框坐标。
  • 归一化和缩放:由于像素强度差异很大,归一化图像可以确保高值像素不会主导学习过程。常见方法包括最小-最大缩放和 Z-score 归一化
  • 编码:分类数据(例如类标签“猫”、“狗”)必须转换为数值格式。独热编码或标签编码等技术是标准做法。
  • 调整大小和格式化:深度学习模型通常期望输入固定大小的数据。预处理管道会自动将大小不一的图像调整为标准尺寸(例如 640x640 像素),这对于实时推理很常见。

Link to this section实际应用#

数据预处理在各个行业中无处不在,确保原始输入转化为可操作的见解。

Link to this section医学影像诊断#

医疗 AI 中,预处理对于分析 X 光片或 MRI 扫描至关重要。原始医学图像通常包含来自传感器的噪声,或根据所用机器的不同而产生亮度和对比度的差异。诸如直方图均衡化之类的预处理步骤可以增强对比度,使肿瘤或骨折更清晰可见,而降噪滤波器则可以理清图像结构。这种准备工作使模型能够以更高的精度进行肿瘤检测,并通过减少假阴性来挽救生命。

Link to this section自动驾驶#

自动驾驶汽车依赖于来自多种传感器的输入,包括激光雷达、雷达和摄像头。这些传感器以不同的速率和尺度产生数据。预处理会对这些数据流进行同步,并在融合数据之前过滤掉雨水或眩光等环境噪声。对于自动驾驶车辆而言,这确保了感知系统能接收到道路的一致视图,从而在实时环境中实现安全导航和可靠的行人检测

Link to this section相关概念#

区分数据预处理与机器学习流程中出现的其他术语非常重要。

  • 数据增强的区别:预处理准备的是模型技术上可用的数据(例如调整大小),而增强则是生成现有数据的变体(例如旋转或翻转图像)以增加数据集的多样性。有关更多详细信息,请参阅我们的YOLO 数据增强指南。
  • 特征工程的区别:预处理侧重于清理和格式化。特征工程涉及从数据中创建新的、有意义的变量以提高模型性能,例如根据身高和体重列计算“身体质量指数”。
  • 数据标注的区别:标注是定义真实值(Ground Truth)的过程,例如在对象周围绘制边界框。预处理发生在数据收集和标注之后,但在数据输入神经网络之前。

Link to this section实践示例#

在 Ultralytics 生态系统中,预处理通常会在训练管道中自动处理。不过,你也可以使用 OpenCV 等库手动预处理图像。以下代码片段演示了如何加载图像,将其调整为像 YOLO26 这样的模型的标准输入大小,并对像素值进行归一化。

import cv2
import numpy as np

# Load an image using OpenCV
image = cv2.imread("bus.jpg")

# Resize the image to 640x640, a standard YOLO input size
resized_image = cv2.resize(image, (640, 640))

# Normalize pixel values from 0-255 to 0-1 for model stability
normalized_image = resized_image / 255.0

# Add a batch dimension (H, W, C) -> (1, H, W, C) for inference
input_tensor = np.expand_dims(normalized_image, axis=0)

print(f"Processed shape: {input_tensor.shape}")

对于大规模项目,利用 Ultralytics Platform 等工具可以简化这些工作流程。该平台简化了数据集管理,自动化了许多预处理和标注任务,从而加速从原始数据到部署模型的转换。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅