Глоссарий

Конволют

Узнайте, как свертка позволяет использовать искусственный интеллект в компьютерном зрении, обеспечивая точность в таких задачах, как обнаружение объектов, распознавание изображений и медицинская визуализация.

Свертка является фундаментальной операцией в глубоком обучении (ГОО), особенно в области компьютерного зрения (КЗ). Она служит основным строительным блоком для конволюционных нейронных сетей (CNN), позволяя моделям автоматически и эффективно изучать иерархические характеристики на основе данных в виде сетки, таких как изображения. Процесс включает в себя скольжение небольшого фильтра, известного как ядро, по входному изображению для создания карт признаков, которые выделяют определенные детали, такие как края, текстуры или формы. Этот метод вдохновлен организацией зрительной коры животных и очень эффективен для задач, в которых важны пространственные отношения между точками данных.

Как работает свертка

По своей сути свертка - это математическая операция, которая объединяет два набора информации. В контексте CNN она объединяет входные данные (значения пикселей изображения) с ядром. Ядро - это небольшая матрица весов, которая действует как детектор признаков. Это ядро перемещается по высоте и ширине входного изображения и в каждой позиции выполняет поэлементное умножение с перекрывающейся частью изображения. Результаты суммируются, чтобы создать один пиксель в выходной карте признаков. Этот скользящий процесс повторяется по всему изображению.

Используя различные ядра, CNN может научиться определять широкий спектр признаков. Ранние слои могут научиться распознавать простые паттерны, такие как края и цвета, а более глубокие слои могут комбинировать эти базовые признаки для определения более сложных структур, таких как глаза, колеса или текст. Способность выстраивать иерархию визуальных признаков - вот что дает CNN силу в задачах видения. Вычислительная эффективность этого процесса достигается за счет двух ключевых принципов:

  • Совместное использование параметров: Для всего изображения используется одно и то же ядро, что значительно сокращает общее количество обучаемых параметров по сравнению с полностью связанной сетью. Эта концепция эффективного использования параметров также помогает модели лучше обобщаться.
  • Пространственная локальность: Операция предполагает, что пиксели, расположенные близко друг к другу, более тесно связаны между собой, чем удаленные, - сильное индуктивное предубеждение, которое очень эффективно для естественных изображений.

Важность в глубоком обучении

Свертка является краеугольным камнем современного компьютерного зрения. Такие модели, как Ultralytics YOLO, широко используют сверточные слои в своих базовых архитектурах для мощного извлечения признаков. Это позволяет решать широкий спектр задач, от обнаружения объектов и сегментации изображений до более сложных задач. Эффективность и действенность свертки сделали ее основным методом обработки изображений и других пространственных данных, став основой для многих современных архитектур, подробно описанных в таких ресурсах, как "История моделей зрения".

Применение в реальном мире

  • Анализ медицинских изображений: В ИИ для здравоохранения CNN используют свертки для анализа медицинских снимков, таких как МРТ или КТ. Ядра можно обучить определять специфические текстуры и формы, характерные для опухолей или других аномалий, что помогает рентгенологам быстрее и точнее ставить диагнозы. Подробнее об этих достижениях можно прочитать в таких журналах, как Radiology: Искусственный интеллект.
  • Автономные транспортные средства: Самостоятельно управляемые автомобили используют CNN для восприятия окружающей обстановки. Конволюты обрабатывают данные с камер в режиме реального времени, чтобы определить пешеходов, другие транспортные средства, полосы движения и дорожные знаки. Это позволяет системе автомобиля составить полное представление об окружающей обстановке и безопасно ориентироваться, как это показано в технологии, разработанной такими компаниями, как Waymo.

Конволюция в сравнении со смежными понятиями

Полезно отличать свертку от других операций нейронной сети:

  • Полностью связанные слои: В полностью связанном слое каждый нейрон связан с каждым нейроном в предыдущем слое. Для изображений это крайне неэффективно, поскольку игнорирует пространственную структуру и приводит к огромному количеству параметров. Конволюция, с ее локальной связностью и разделением параметров, гораздо более масштабируема и лучше подходит для данных изображений.
  • Трансформаторы зрения (ViT): В отличие от CNN, которые определяют локальные признаки, трансформаторы зрения используют механизм самовнимания для моделирования глобальных отношений между различными участками изображения. Несмотря на свою мощь, ViT обычно требуют больших наборов данных для изучения этих связей с нуля, в то время как индуктивный подход сверток делает их более эффективными. Гибридные модели, такие как RT-DETR, стремятся объединить сильные стороны обоих подходов.

Инструменты и обучение

Реализация и обучение моделей, использующих свертку, облегчается различными фреймворками глубокого обучения. Такие библиотеки, как PyTorch(официальный сайт PyTorch) и TensorFlow(официальный сайт TensorFlow), предоставляют надежные инструменты для построения CNN. Высокоуровневые API, такие как Keras, еще больше упрощают разработку.

Для упрощения работы такие платформы, как Ultralytics HUB, позволяют пользователям управлять наборами данных, проводить обучение моделей и с легкостью развертывать мощные модели, такие как YOLO11. Понимание основных понятий, таких как свертка, размер ядра, страйд, прокладка и результирующее рецептивное поле, имеет решающее значение для эффективного обучения модели и проектирования архитектуры.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена