Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Распознавание изображений

Узнайте, как распознавание изображений использует ИИ и глубокое обучение для идентификации визуальных данных. Изучите реальные приложения и внедрите Ultralytics для получения передовых результатов.

Распознавание изображений — это фундаментальная технология в более широкой области компьютерного зрения (CV), которая позволяет программным системам идентифицировать объекты, людей, места и текст на цифровых изображениях. Анализируя пиксельное содержимое изображения или видеокадра, эта технология пытается имитировать возможности визуального восприятия человеческого глаза и мозга. Опираясь на искусственный интеллект (ИИ), распознавание изображений преобразует неструктурированные визуальные данные в структурированную, пригодную для использования информацию, служа основой для автоматизации в различных отраслях, от здравоохранения до автономного транспорта.

Основные механизмы и технологии

Современные системы распознавания изображений вышли за рамки традиционного программирования на основе правил и в значительной степени опираются на алгоритмы глубокого обучения (DL). Наиболее распространенной архитектурой, используемой для этих задач, является сверточная нейронная сеть (CNN). CNN обрабатывает изображения в виде сетки значений, обычно представляющих цветовые каналы красного, зеленого и синего (RGB), и пропускает их через несколько слоев математических операций.

В ходе этого процесса сеть выполняет извлечение признаков. Начальные слои могут detect геометрические узоры, такие как края или углы, в то время как более глубокие слои объединяют эти узоры для распознавания сложных структур, таких как глаза, колеса или листья. Для достижения высокой точности эти модели требуют огромных объемов меченых обучающих данных. Крупномасштабные общедоступные наборы данных, такие как ImageNet, помогают моделям изучать статистическую вероятность того, что определенное визуальное расположение соответствует такому понятию, как «кошка», «велосипед» или «стоп-знак ».

Отличие признания от смежных понятий

Хотя термин «распознавание изображений» часто используется как универсальное выражение, он отличается от других конкретных задач компьютерного зрения. Понимание этих нюансов имеет решающее значение для выбора правильной модели для проекта:

  • Распознавание и классификация изображений: Классификация — это задача присвоения одного ярлыка всему изображению (например, помечать картинку как «пляж»). Распознавание — это более широкая функция, которая позволяет системе понимать содержание.
  • Распознавание и обнаружение объектов: В то время как распознавание определяет, что находится на изображении, обнаружение определяет, где оно находится. Алгоритмы обнаружения обводят каждый объект ограничительной рамкой, отделяя его от фона.
  • Распознавание против сегментации экземпляров: Это позволяет сделать распознавание еще более точным, определяя не просто границы объекта, а его точные пиксельные контуры. Это крайне важно для приложений, требующих точных измерений, таких как анализ биомедицинских изображений.

Применение в реальном мире

Полезность распознавания изображений охватывает практически все секторы, в которых генерируются визуальные данные.

  • Медицинская диагностика: в здравоохранении алгоритмы распознавания помогают радиологам, анализируя медицинские изображения, такие как рентген и МРТ. Такие инструменты, как ИИ в радиологии , могут выявлять аномалии, такие как опухоли или переломы, быстрее и иногда точнее, чем при наблюдении только человеком .
  • Розничная торговля и инвентаризация: Умныесупермаркеты используют распознавание для track , когда их берут с полок, что позволяет автоматизировать системы оформления покупок. Аналогичным образом, складские роботы используют его для идентификации и сортировки посылок.
  • Безопасность и контроль доступа: Системы распознавания лиц обеспечивают безопасный доступ к смартфонам и зданиям путем проверки личности по базе данных сохраненных лиц.

Реализация распознавания изображений с помощью YOLO26

Для разработчиков и исследователей реализация распознавания изображений стала значительно более доступной благодаря современным моделям, таким как YOLO26, который поддерживает классификацию, обнаружение и сегментацию встроенными средствами. Следующий пример демонстрирует, как выполнить распознавание (в частности, обнаружение объектов) на изображении с помощью ultralytics Пакет Python .

from ultralytics import YOLO

# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")

# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results with bounding boxes and labels
results[0].show()

Для команд, которые хотят аннотировать свои собственные наборы данных и обучать пользовательские модели в облаке, Ultralytics предлагает оптимизированную среду для управления весь жизненный цикл проекта по распознаванию изображений, от сбора данных до развертывания.

Тенденции будущего

С ростом вычислительной мощности распознавание изображений эволюционирует в понимание видео, когда системы анализируют временной контекст между кадрами. Кроме того, интеграция генеративного ИИ позволяет системам не только распознавать изображения, но и генерировать их подробные текстовые описания, устраняя разрыв между обработкой естественного языка (NLP) и зрением.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас