Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Капсульные сети (CapsNet)

Откройте для себя Capsule Networks (CapsNets): революционную архитектуру нейронных сетей, превосходно справляющуюся с пространственными иерархиями и взаимосвязями признаков.

Капсульные сети, часто сокращенно CapsNets, представляют собой тип архитектуры нейронной сети (NN), разработанный для преодоления некоторых ключевых ограничений сверточных нейронных сетей (CNNs). CapsNets, представленные Джеффри Хинтоном и его командой, нацелены на лучшее распознавание иерархических связей между признаками в изображении. В отличие от нейронов в стандартной CNN, которые выводят одно скалярное значение, "капсулы" в CapsNet выводят вектор, что позволяет им кодировать более подробную информацию о свойствах объекта, таких как его поза (положение, размер, ориентация), деформация и текстура. Эта структура делает их более устойчивыми к изменениям точки обзора и ориентации.

Как работают капсульные сети?

Основное новшество CapsNets (капсульных нейронных сетей) — их способность сохранять пространственные иерархии между признаками. В то время как CNN может распознавать компоненты лица, такие как рот, нос и глаза, она явно не понимает их пространственные взаимосвязи. CapsNets, однако, используют группы нейронов, называемые капсулами, для идентификации этих частей и их относительной ориентации. Это достигается с помощью процесса, называемого «динамической маршрутизацией», когда капсулы нижнего уровня отправляют свой вывод капсулам более высокого уровня, которые могут наилучшим образом учесть их результаты. Этот подход принципиально отличается от слоев пулинга в CNN, которые часто отбрасывают важную пространственную информацию. Оригинальная концепция была подробно описана в статье Dynamic Routing Between Capsules.

CapsNets против сверточных нейронных сетей

Основное различие между CapsNets и CNN заключается в том, как они обрабатывают пространственную информацию и абстракцию.

  • Пространственная инвариантность: CNN достигают пространственной инвариантности с помощью слоев объединения, что может привести к потере точных данных о местоположении. CapsNets, напротив, разработаны как «эквивариантные», то есть они могут понимать и сохранять информацию о позе объекта при его перемещении по кадру.
  • Эффективность данных: Благодаря своей сложной внутренней структуре, CapsNets часто могут достигать высокой точности со значительно меньшим количеством данных для обучения по сравнению с моделями глубокого обучения (DL), требующими большого количества данных.
  • Иерархическое представление: CapsNets строят явное дерево разбора визуальных объектов, что позволяет им понимать целое как композицию его частей. Это более интуитивный способ выполнения таких задач, как обнаружение объектов, чем то, что предлагается стандартными CNN.

Хотя такие модели, как Ultralytics YOLO, в высшей степени оптимизированы для скорости и точности в практических задачах компьютерного зрения (CV), CapsNets представляют собой альтернативную архитектурную философию, ориентированную на улучшение фундаментального понимания визуальных сцен. Вы можете изучить сравнения различных моделей обнаружения объектов, чтобы понять текущую ситуацию.

Применение в реальном мире

Хотя CapsNets по-прежнему являются в первую очередь областью активных исследований и реже развертываются, чем устоявшиеся модели, такие как YOLO11, они продемонстрировали перспективность в нескольких областях:

  1. Распознавание символов: CapsNets достигли самых современных результатов на наборе данных MNIST рукописных цифр, демонстрируя свою способность эффективно обрабатывать вариации в ориентации и стиле, превосходя традиционные подходы к классификации изображений в некоторых тестах.
  2. Анализ медицинских изображений: Их способность понимать пространственные конфигурации делает их подходящими для анализа медицинских снимков. Например, исследования изучали использование CapsNets для таких задач, как сегментация опухолей головного мозга, где определение точной формы и местоположения аномалий имеет решающее значение. Это относится к более широкой области анализа медицинских изображений.

Дальнейшие потенциальные применения включают улучшение обнаружения объектов, особенно для загроможденных сцен, улучшение понимания сцен в робототехнике и вклад в создание более надежных систем восприятия для автономных транспортных средств. Несмотря на то, что вычислительные требования остаются проблемой, текущие исследования направлены на оптимизацию эффективности CapsNet для более широкого применения в машинном обучении (ML) и потенциальную интеграцию в такие фреймворки, как PyTorch или TensorFlow.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена