Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Распознавание изображений

Узнайте, как распознавание изображений позволяет искусственному интеллекту classify и понимать визуальные образы, стимулируя инновации в здравоохранении, розничной торговле, безопасности и т. д.

Распознавание изображений - важнейшая технология в более широкой области компьютерного зрения (КВ), которая позволяет программному обеспечению идентифицировать объекты, людей, места и надписи на изображениях. По своей сути эта технология позволяет компьютерам "видеть" и интерпретировать визуальные данные таким образом, чтобы имитировать человеческое восприятие. Анализируя содержимое пикселей цифровых изображений или видеокадров, алгоритмы машинного обучения (ML) могут извлекать извлекать значимые закономерности и определять высокоуровневые концепции визуальных данных. Эта способность является основой современного искусственного интеллекта (ИИ), позволяя автоматизировать задачи, которые раньше требовали человеческого взгляда и понимания.

Основные технологии и механизмы

Современные системы распознавания изображений преимущественно опираются на архитектуры глубокого обучения (ГОО). В частности, Конволюционные нейронные сети (КНС) стали отраслевым стандартом благодаря своей способности сохранять пространственные связи в данных. Эти сети обрабатывают изображения с помощью слоев математических фильтров, выполняя извлечение признаков для идентификации простых форм таких как края и текстуры, а затем объединяют их для распознавания сложных объектов, таких как лица или автомобили.

Для эффективной работы этих моделей необходимо большое количество обучающие данные. Массивные коллекции помеченных фотографий, такие как знаменитый набор данныхImageNet , позволяют модели узнать статистическую вероятность того, что определенное расположение пикселей соответствует определенному классу, например "золотистый Ретривер" или "Светофор".

Отличие распознавания изображений от смежных терминов

Хотя эти термины часто используются как взаимозаменяемые, определение их нюансов важно для разработчиков:

  • Распознавание изображений в сравнении с классификацией изображений. Классификация изображений: Классификация - это особая подзадача, целью которой является присвоение единой метки всему изображению (например, "Это фотография пляжа"). Распознавание - это более широкий термин, включающий в себя классификацию.
  • Распознавание изображений по сравнению с распознаванием объектов. Обнаружение объектов: Обнаружение делает распознавание еще одним шагом вперед. В то время как распознавание определяет , что находится на изображении, обнаружение объекта обнаружение объектов определяет , где они находятся, рисуя ограничительную рамку вокруг определенных объектов.
  • Распознавание изображений по сравнению с оптическим распознаванием символов (OCR). Оптическое распознавание символов (OCR): OCR - это специализированная форма распознавания, ориентированная исключительно на идентификацию текстовых символов и их преобразование в цифровые строки.

Применение в реальном мире

Полезность распознавания образов охватывает практически все отрасли. На сайте здравоохранении алгоритмы помогают радиологам, автоматически распознавая аномалии на рентгеновских и магнитно-резонансных снимках, что позволяет быстрее диагностировать такие заболевания, как пневмонии или опухоли. Это относится к специализированной области анализ медицинских изображений.

Другим важным примером использования является автомобильная промышленность, в частности, для автономных транспортных средств. Самостоятельно управляемые автомобили используют алгоритмы идентификации для распознавания разметки полосы движения, знаков ограничения скорости и detect пешеходов в режиме реального времени, чтобы принимать принятия важных для безопасности решений. Аналогично, в интеллектуальные системы розничной торговли используют распознавание для для облегчения бескассового обслуживания путем идентификации товаров, когда покупатели берут их с полки.

Реализация распознавания изображений с помощью YOLO11

Разработчики могут легко реализовать возможности распознавания, используя самые современные модели, такие как YOLO11. Несмотря на то, что YOLO известна в области распознавания, она также поддерживает высокоскоростные задачи классификации. Следующее Python фрагмент демонстрирует, как загрузить предварительно обученную модель и определить главный объект изображения.

from ultralytics import YOLO

# Load a pre-trained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Perform inference on an external image URL
# The model will identify the most likely class (e.g., 'sportscar')
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top predicted class name
print(f"Top Prediction: {results[0].names[results[0].probs.top1]}")

Тенденции будущего

По мере совершенствования аппаратного обеспечения область переходит к краевому ИИ, когда распознавание происходит непосредственно на устройствах, таких как смартфоны и камеры, а не в облаке. Такой переход уменьшает задержки и повышает уровень конфиденциальности. Кроме того, достижения в области квантования моделей делают эти мощные эти мощные инструменты достаточно легкими для работы на микроконтроллерах, что расширяет горизонты IoT-приложений.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас