Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Капсульные сети (CapsNet)

Изучите капсульные сети (CapsNets) и то, как они решают проблемы, связанные с ограничениями CNN. Узнайте о динамической маршрутизации, пространственных иерархиях и сравнении CapsNets с YOLO26.

Капсульные сети, часто сокращенно называемые CapsNets, представляют собой передовую архитектуру в области глубокого обучения, разработанную для преодоления определенных ограничений, присущих традиционным нейронным сетям. Введенные Джеффри Хинтоном и его командой, CapsNets пытаются более точно имитировать биологическую нейронную организацию человеческого мозга, чем стандартные модели. В отличие от типичной сверточной нейронной сети (CNN), которая превосходно обнаруживает особенности, но часто теряет пространственные отношения из-за понижения разрешения, капсульная сеть организует нейроны в группы, называемые «капсулами». Эти капсулы кодируют не только вероятность наличия объекта, но и его конкретные свойства, такие как ориентация, размер и текстура, эффективно сохраняя иерархические пространственные отношения в визуальных данных.

Ограничения традиционных CNN

Чтобы понять инновационность CapsNets, полезно посмотреть, как работают стандартные модели компьютерного зрения. Обычная CNN использует слои извлечения признаков, за которыми следуют слои объединения — в частности, максимальное объединение— для уменьшения вычислительной нагрузки и достижения инвариантности по переносу. Это означает, что CNN может идентифицировать «кошку» независимо от того, где она находится на изображении.

Однако при этом часто теряются точные данные о местоположении, что приводит к «проблеме Пикассо»: CNN может правильно classify лицо, даже если рот находится на лбу, просто потому, что все необходимые признаки присутствуют. CapsNets решают эту проблему путем удаления слоев пулинга и их замены процессом, который учитывает пространственную иерархию объектов.

Как работают капсульные сети

Основным строительным блоком этой архитектуры является капсула, вложенный набор нейронов, который выдает вектор, а не скалярное значение. В векторной математике вектор имеет как величину, так и направление. В CapsNet:

  • Магнитуда (длина): представляет вероятность существования конкретного объекта в текущем вводе.
  • Направление (ориентация): кодирует параметры инстанциирования, такие как оценка положения объекта, масштаб и поворот.

Капсулы в нижних слоях (обнаруживающие простые формы, такие как края) предсказывают выходные данные капсул в верхних слоях (обнаруживающих сложные объекты, такие как глаза или шины). Эта коммуникация управляется алгоритмом, называемым «динамическая маршрутизация» или «маршрутизация по соглашению». Если прогноз капсулы нижнего уровня совпадает с состоянием капсулы верхнего уровня, связь между ними усиливается. Это позволяет сети распознавать объекты с различных 3D-точек зрения без необходимости массивного увеличения объема данных, которое обычно требуется для обучения CNN поворотам и масштабированию.

Основные различия: CapsNets и CNNs

Хотя обе архитектуры имеют основополагающее значение для компьютерного зрения (CV), они различаются по способу обработки и представления визуальных данных:

  • Скаляр против вектора: нейроны CNN используют скалярные выходы для обозначения наличия признака. CapsNets используют векторы для кодирования наличия (длины) и параметров позы (ориентации).
  • Маршрутизация против пулинга: CNN используют пулинг для понижающей дискретизации данных, часто теряя детали местоположения. CapsNets используют динамическую маршрутизацию для сохранения пространственных данных, что делает их высокоэффективными для задач, требующих точного отслеживания объектов.
  • Эффективность данных: поскольку капсулы неявно понимают 3D-точки обзора и аффинные преобразования, они часто могут обобщать на основе меньшего количества обучающих данных по сравнению с CNN, которым может потребоваться большое количество примеров для изучения всех возможных поворотов объекта.

Применение в реальном мире

Хотя CapsNets часто требуют больших вычислительных затрат по сравнению с оптимизированными моделями, такими как YOLO26, они предлагают явные преимущества в специализированных областях:

  1. Анализ медицинских изображений: в здравоохранении точная ориентация и форма аномалии имеют критическое значение. Исследователи применили CapsNets для сегментации опухолей головного мозга, где модель должна отличать опухоль от окружающих тканей на основе тонких пространственных иерархий, которые стандартные CNN могут сглаживать . Вы можете изучить связанные исследования по капсульным сетям в медицинской визуализации.
  2. Распознавание перекрывающихся цифр: CapsNets достигли передовых результатов на MNIST , особенно в сценариях, где цифры перекрываются. Поскольку сеть отслеживает «позу» каждой цифры, она может разделить две перекрывающиеся цифры (например, «3» поверх «5») как отдельные объекты, а не объединять их в одну запутанную карту особенностей.

Практический контекст и реализация

Капсульные сети в первую очередь представляют собой архитектуру классификации. Хотя они обеспечивают теоретическую надежность, в современных промышленных приложениях часто предпочитают высокоскоростные CNN или трансформеры для обеспечения производительности в реальном времени. Тем не менее, полезно понимать бенчмарки классификации, используемые для CapsNets, такие как MNIST.

Следующий пример демонстрирует, как обучить современную Модель YOLO на наборе MNIST с использованием ultralytics пакет. Это соответствует основной тестовой задаче, используемой для валидации капсульных сетей.

from ultralytics import YOLO

# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")

# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)

# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")

Будущее капсул и искусственного зрения

Принципы, лежащие в основе капсульных сетей, продолжают влиять на исследования в области безопасности и интерпретируемости ИИ. Благодаря явному моделированию отношений между частями и целым, капсулы предлагают альтернативу «черному ящику» в виде «стеклянного ящика» для глубоких нейронных сетей, что делает принятие решений более объяснимым. Будущие разработки направлены на объединение пространственной устойчивости капсул со скоростью вывода архитектур, таких как YOLO11 или более новой YOLO26 для улучшения производительности в области обнаружения 3D-объектов и робототехники. Исследователи также изучают матричные капсулы с EM-маршрутизацией для дальнейшего сокращения вычислительных затрат алгоритма согласования.

Для разработчиков, которые хотят эффективно управлять наборами данных и обучать модели, Ultralytics предоставляет единую среду для аннотирования данных, обучения в облаке и развертывания моделей, которые обеспечивают баланс между скоростью CNN и точностью, необходимой для сложных задач машинного зрения .

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас