Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Свёрточная операция

Узнайте, как свертка (convolution) обеспечивает возможности ИИ в компьютерном зрении, позволяя выполнять такие задачи, как обнаружение объектов, распознавание изображений и медицинская визуализация с высокой точностью.

Свёртка — это фундаментальная операция в глубоком обучении (DL), особенно в области компьютерного зрения (CV). Она служит основным строительным блоком для свёрточных нейронных сетей (CNN), позволяя моделям автоматически и эффективно изучать иерархические признаки из сетчатых данных, таких как изображения. Процесс включает в себя скольжение небольшого фильтра, известного как ядро, по входному изображению для создания карт признаков, которые выделяют определенные закономерности, такие как края, текстуры или формы. Этот метод вдохновлен организацией зрительной коры головного мозга животных и очень эффективен для задач, где важны пространственные взаимосвязи между точками данных.

Как работает свертка (Convolution)

По своей сути, свертка — это математическая операция, объединяющая два набора информации. В контексте CNN она объединяет входные данные (значения пикселей изображения) с ядром. Ядро — это небольшая матрица весов, которая действует как детектор признаков. Это ядро скользит по высоте и ширине входного изображения и в каждой позиции выполняет поэлементное умножение с перекрывающейся частью изображения. Результаты суммируются для создания одного пикселя в выходной карте признаков. Этот процесс скольжения повторяется по всему изображению.

Используя различные ядра, CNN может научиться обнаруживать широкий спектр признаков. Ранние слои могут научиться распознавать простые шаблоны, такие как края и цвета, в то время как более глубокие слои могут объединять эти основные признаки для идентификации более сложных структур, таких как глаза, колеса или текст. Эта способность строить иерархию визуальных признаков — вот что дает CNN их мощь в задачах машинного зрения. Этот процесс становится вычислительно эффективным благодаря двум ключевым принципам:

  • Совместное использование параметров (Parameter Sharing): Одно и то же ядро используется для всего изображения, что значительно сокращает общее количество обучаемых параметров по сравнению с полносвязной сетью. Эта концепция эффективного использования параметров также помогает модели лучше обобщать.
  • Пространственная локальность: Операция предполагает, что пиксели, близкие друг к другу, связаны сильнее, чем удаленные, — сильное индуктивное смещение, которое очень эффективно для естественных изображений.

Важность в глубоком обучении

Свёртка — краеугольный камень современного компьютерного зрения. Такие модели, как Ultralytics YOLO, широко используют свёрточные слои в своих backbone архитектурах для мощного извлечения признаков. Это обеспечивает широкий спектр применений, от обнаружения объектов и сегментации изображений до более сложных задач. Эффективность свёртки сделала ее основным методом обработки изображений и других пространственных данных, образуя основу для многих современных архитектур, подробно описанных в таких ресурсах, как история моделей зрения.

Применение в реальном мире

  • Анализ медицинских изображений: В ИИ для здравоохранения CNN используют свертки для анализа медицинских снимков, таких как МРТ или КТ. Ядра можно обучить для обнаружения конкретных текстур и форм, характерных для опухолей или других аномалий, помогая радиологам ставить более быструю и точную диагностику. Вы можете прочитать больше об этих достижениях в таких журналах, как Radiology: Artificial Intelligence.
  • Автономные транспортные средства: Самоуправляемые автомобили полагаются на CNN для восприятия окружающей среды. Свертки обрабатывают входные данные с камер в режиме реального времени для идентификации пешеходов, других транспортных средств, полос движения и дорожных знаков. Это позволяет системе автомобиля формировать полное представление об окружающей среде и безопасно перемещаться, как это видно в технологиях, разработанных такими компаниями, как Waymo.

Свёртка и смежные концепции

Полезно отличать свертку от других операций нейронной сети:

  • Полносвязные слои: В полносвязном слое каждый нейрон связан с каждым нейроном в предыдущем слое. Для изображений это крайне неэффективно, поскольку игнорирует пространственную структуру и приводит к огромному количеству параметров. Свертка, с ее локальной связностью и совместным использованием параметров, гораздо более масштабируема и лучше подходит для данных изображений.
  • Vision Transformers (ViT): В отличие от локального обнаружения признаков в CNN, Vision Transformers используют механизм само-внимания для моделирования глобальных взаимосвязей между различными патчами изображения. Хотя ViT и являются мощными, им обычно требуются большие наборы данных для изучения этих взаимосвязей с нуля, тогда как индуктивное смещение сверток делает их более эффективными с точки зрения данных. Гибридные модели, такие как RT-DETR, стремятся объединить сильные стороны обоих подходов.

Инструменты и обучение

Внедрение и обучение моделей, использующих свертку, облегчается различными фреймворками глубокого обучения. Такие библиотеки, как PyTorch (официальный сайт PyTorch) и TensorFlow (официальный сайт TensorFlow), предоставляют надежные инструменты для создания CNN. API высокого уровня, такие как Keras, еще больше упрощают разработку.

Для упрощения работы такие платформы, как Ultralytics HUB, позволяют пользователям управлять наборами данных, выполнять обучение моделей и с легкостью развертывать мощные модели, такие как YOLOv8. Понимание основных концепций, таких как свертка, размер ядра, шаг, заполнение и результирующее рецептивное поле, имеет решающее значение для эффективного обучения моделей и проектирования архитектуры.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена