了解图像识别如何赋予人工智能classify 和理解视觉效果的能力,从而推动医疗保健、零售、安防等领域的创新。
图像识别是计算机视觉(CV)领域中的一项重要技术。 计算机视觉 (CV)技术中的一项重要技术。 识别图像中的物体、人物、地点和文字。这项技术的核心是让计算机 以模仿人类感知的方式 "看到 "并解释视觉数据。通过分析数字图像或视频帧的像素内容 数字图像或视频帧的像素内容、 机器学习 (ML)算法可以提取 有意义的模式,并为视觉输入赋予高级概念。这种能力是现代 人工智能(AI)的基础,使 系统自动执行以前需要人眼观察和理解的任务。
现代图像识别系统主要依赖于 深度学习(DL)架构。具体来说就是 卷积神经网络 (CNN) 已成为行业标准,因为它们能够保留数据中的空间关系。这些网络 通过层层数学滤波器处理图像,执行 特征提取来识别简单的形状 如边缘和纹理,然后将它们组合起来识别复杂的实体,如人脸或车辆。
这些模型需要大量的 训练数据。大量标注照片的集合 如著名的ImageNet 数据集,可让模型学习特定像素排列对应于特定类别ImageNet 如 "金奖")的统计概率。 像素的特定排列对应于特定类别(如 "金毛寻回犬 "或 "交通灯")的统计概率。 寻回犬 "或 "交通信号灯"。
虽然经常与其他术语交替使用,但识别其中的细微差别对开发人员来说非常重要:
图像识别的用途几乎遍及各个领域。在 在医疗保健领域 放射科医生自动识别 X 射线和核磁共振成像中的异常,从而更快地诊断出肺炎或肿瘤等疾病。 肺炎或肿瘤。这属于 医学图像分析。
另一个突出的应用案例是汽车行业,特别是自动驾驶汽车。 自动驾驶汽车。自动驾驶汽车利用 识别算法来识别车道标记、读取限速标志并实时detect 行人,从而做出对安全至关重要的决策。 安全关键决策。同样,在 智能零售环境中,系统通过识别 在智能零售环境中,系统利用识别功能,在顾客从货架上挑选商品时识别商品,从而实现无收银员结账。
开发人员可以使用最先进的模型轻松实现识别功能,例如 YOLO11.虽然YOLO 以检测而闻名,但它也支持 高速分类任务。下面是 Python代码段演示了如何 加载预训练模型并识别图像主体的方法。
from ultralytics import YOLO
# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")
# Perform inference on an external image URL
# The model will identify the most likely class (e.g., 'sportscar')
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top predicted class name
print(f"Top Prediction: {results[0].names[results[0].probs.top1]}")
随着硬件的改进,该领域正朝着边缘人工智能的方向发展、 在这里,识别直接在智能手机和摄像头等设备上进行,而不是在云端。这种转变 减少了延迟,提高了私密性。此外,在 模型量化技术的进步使这些强大的 工具变得足够轻便,可以在微控制器上运行,从而扩大了物联网应用的范围。 物联网应用领域。

