Узнайте, как распознавание изображений использует ИИ и глубокое обучение для идентификации визуальных данных. Изучите реальные приложения и внедрите Ultralytics для получения передовых результатов.
Распознавание изображений — это фундаментальная технология в более широкой области компьютерного зрения (CV), которая позволяет программным системам идентифицировать объекты, людей, места и текст на цифровых изображениях. Анализируя пиксельное содержимое изображения или видеокадра, эта технология пытается имитировать возможности визуального восприятия человеческого глаза и мозга. Опираясь на искусственный интеллект (ИИ), распознавание изображений преобразует неструктурированные визуальные данные в структурированную, пригодную для использования информацию, служа основой для автоматизации в различных отраслях, от здравоохранения до автономного транспорта.
Современные системы распознавания изображений вышли за рамки традиционного программирования на основе правил и в значительной степени опираются на алгоритмы глубокого обучения (DL). Наиболее распространенной архитектурой, используемой для этих задач, является сверточная нейронная сеть (CNN). CNN обрабатывает изображения в виде сетки значений, обычно представляющих цветовые каналы красного, зеленого и синего (RGB), и пропускает их через несколько слоев математических операций.
В ходе этого процесса сеть выполняет извлечение признаков. Начальные слои могут detect геометрические узоры, такие как края или углы, в то время как более глубокие слои объединяют эти узоры для распознавания сложных структур, таких как глаза, колеса или листья. Для достижения высокой точности эти модели требуют огромных объемов меченых обучающих данных. Крупномасштабные общедоступные наборы данных, такие как ImageNet, помогают моделям изучать статистическую вероятность того, что определенное визуальное расположение соответствует такому понятию, как «кошка», «велосипед» или «стоп-знак ».
Хотя термин «распознавание изображений» часто используется как универсальное выражение, он отличается от других конкретных задач компьютерного зрения. Понимание этих нюансов имеет решающее значение для выбора правильной модели для проекта:
Полезность распознавания изображений охватывает практически все секторы, в которых генерируются визуальные данные.
Для разработчиков и исследователей реализация распознавания изображений стала значительно более доступной благодаря
современным моделям, таким как YOLO26, который поддерживает
классификацию, обнаружение и сегментацию встроенными средствами. Следующий пример демонстрирует, как выполнить распознавание
(в частности, обнаружение объектов) на изображении с помощью ultralytics Пакет Python .
from ultralytics import YOLO
# Load a pre-trained YOLO26 model (n for nano, fastest speed)
model = YOLO("yolo26n.pt")
# Run inference on an image to recognize and locate objects
# The source can be a file path, URL, or webcam (source=0)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results with bounding boxes and labels
results[0].show()
Для команд, которые хотят аннотировать свои собственные наборы данных и обучать пользовательские модели в облаке, Ultralytics предлагает оптимизированную среду для управления весь жизненный цикл проекта по распознаванию изображений, от сбора данных до развертывания.
С ростом вычислительной мощности распознавание изображений эволюционирует в понимание видео, когда системы анализируют временной контекст между кадрами. Кроме того, интеграция генеративного ИИ позволяет системам не только распознавать изображения, но и генерировать их подробные текстовые описания, устраняя разрыв между обработкой естественного языка (NLP) и зрением.