Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Распознавание изображений

Узнайте, как распознавание изображений позволяет ИИ классифицировать и понимать визуальные данные, стимулируя инновации в здравоохранении, розничной торговле, безопасности и других областях.

Распознавание изображений — это широкая область компьютерного зрения, которая позволяет машинам идентифицировать и интерпретировать объекты, людей, места и действия в цифровых изображениях или видео. Это фундаментальная технология, лежащая в основе бесчисленных приложений, от разблокировки телефона с помощью распознавания лица до обеспечения возможности автономным транспортным средствам перемещаться в сложных условиях. По своей сути, распознавание изображений использует алгоритмы машинного обучения (ML) и глубокого обучения (DL) для анализа пикселей и извлечения значимых закономерностей, имитируя способность человека понимать визуальную информацию.

Распознавание изображений в сравнении со смежными задачами

Несмотря на то, что термины часто используются как взаимозаменяемые, распознавание изображений — это общий термин, который охватывает несколько более конкретных задач. Важно отличать его от подкатегорий:

  • Классификация изображений: Это простейшая форма распознавания изображений. Она включает в себя присвоение одного лейбла всему изображению из предопределенного набора категорий. Например, модель может классифицировать изображение как содержащее «кошку», «собаку» или «машину». Результатом является одна метка для всего изображения.
  • Детекция объектов: Более сложная задача: детектирование объектов не только классифицирует объекты на изображении, но и определяет их местоположение, обычно рисуя ограничивающую рамку вокруг каждого из них. Например, самоуправляемый автомобиль использует детектирование объектов для идентификации и определения местоположения пешеходов, других транспортных средств и дорожных знаков.
  • Сегментация изображений: Эта задача идет на шаг дальше, определяя точные пиксели, принадлежащие каждому объекту на изображении. Она создает подробную маску для каждого объекта, что имеет решающее значение для приложений, требующих глубокого понимания формы и границ объекта, например, в анализе медицинских изображений.

Как работает распознавание изображений

Современное распознавание изображений в основном основано на сверточных нейронных сетях (CNN), типе нейронной сети, особенно эффективном при обработке данных, представленных в виде сетки, таких как изображения. Этот процесс обычно включает в себя:

  1. Сбор данных: Собирается большой набор данных размеченных изображений. Известные примеры включают ImageNet и COCO.
  2. Обучение модели: CNN обучается на этом наборе данных. Во время обучения сеть учится идентифицировать закономерности — от простых краев и текстур до сложных частей объектов — посредством процесса, называемого извлечением признаков. Веса модели корректируются, чтобы минимизировать разницу между ее прогнозами и истинными метками.
  3. Инференс (вывод): После обучения модель может делать прогнозы на новых, ранее не виденных изображениях. Этот процесс применения обученной модели называется инференсом.

Применение в реальном мире

Распознавание изображений стало неотъемлемой частью многих отраслей:

  • Здравоохранение: В ИИ в здравоохранении распознавание изображений помогает радиологам обнаруживать опухоли, переломы и другие аномалии на рентгеновских снимках, МРТ и КТ. Например, модели можно обучать на наборах данных медицинских изображений для выявления опухолей головного мозга с высокой точностью, помогая врачам ставить более быстрые диагнозы.
  • Розничная торговля: Ритейлеры используют распознавание изображений для управления запасами, устанавливая камеры для мониторинга полок и обнаружения, когда запасы продуктов заканчиваются. Функции визуального поиска на сайтах электронной коммерции, которые позволяют клиентам загружать фотографию для поиска похожих продуктов, являются еще одним популярным приложением. Вы можете узнать больше об этом на нашей странице, посвященной ИИ в розничной торговле.

Инструменты и обучение

Разработка приложений распознавания изображений часто предполагает использование специализированных библиотек и фреймворков. Ключевые технологии включают в себя:

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена