Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Капсульные сети (CapsNet)

Откройте для себя Capsule Networks (CapsNets): революционную архитектуру нейронных сетей, превосходно справляющуюся с пространственными иерархиями и взаимосвязями признаков.

Капсульные сети (CapsNets) представляют собой сложную эволюцию в области Глубокое обучение (ГОО), разработанное для решения специфических ограничения, обнаруженные в традиционных Конволюционные нейронные сети (CNN). Впервые эта архитектура была представлена известным исследователем Джеффри Хинтоном и его коллегами. Эта архитектура организует нейроны в группы, известные как "капсулы". В отличие от стандартных нейронов которые выводят одно скалярное значение активации, капсула выводит вектор. Ориентация и длина вектора позволяют сети кодировать более богатую информацию об объекте, такую как его точное положение, размер, ориентация и текстура. Эта возможность позволяет модели лучше понимать иерархические отношения между признаками, по сути выполнять "обратную графику" для деконструкции визуальной сцены.

Понимание основного механизма

Определяющей характеристикой CapsNet является ее способность сохранять пространственные отношения между различными частями объекта. В стандартном компьютерного зрения (КЗ) с использованием CNN, слои часто используют операции объединения для уменьшения размерности, что обычно приводит к отбрасыванию точных пространственных данных для достижения инвариантности. Однако сети CapsNet стремятся к "эквивариантности", то есть если объект перемещается или поворачивается в изображении изображение, векторное представление капсулы изменяется пропорционально, а не становится неузнаваемым.

Это достигается с помощью процесса, называемого "динамической маршрутизацией" или "маршрутизацией по соглашению". Вместо того чтобы просто пересылать сигналы всем нейронам следующего слоя, капсулы нижнего уровня посылают свои выходы капсулам более высокого уровня. капсулам более высокого уровня, которые "согласны" с их предсказаниями. Например, капсула, обнаруживающая нос, подаст сигнал капсуле капсулу лица, если пространственная ориентация совпадает, что усиливает структурное понимание процесса выделения признаков. процесса извлечения признаков. Эта концепция была подробно описана в исследовательской работе, посвященной Динамическая маршрутизация между капсулами.

Отличие сетей CapsNet от CNN

Хотя обе архитектуры играют ключевую роль в машинном обучении (ML), они значительно отличаются друг от друга в том, как они обрабатывают визуальные данные:

  • Скалярные и векторные выходы: Нейроны CNN выдают скалярное значение, указывающее на наличие признака. CapsNet используют векторные выходы для представления существования объекта и его свойств (поза, деформация, оттенок).
  • Объединение против маршрутизации: CNN используют слои объединения (например, макс. pooling) для достижения трансляционной инвариантности, при этом часто теряется информация о местоположении. CapsNet используют динамическую маршрутизацию для сохраняя пространственную иерархию, что делает их потенциально более эффективными для таких задач, как оценка позы.
  • Эффективность данных: Поскольку сети CapsNet кодируют вариации точек зрения внутри себя, они могут потребовать меньше обучающих данных для обобщения по сравнению с традиционными моделями, которым часто требуется обширное для обучения вращению или аффинным преобразований.

Применение в реальном мире

Хотя сети CapsNet требуют больших вычислительных затрат и не так широко распространены, как оптимизированные архитектуры, такие как YOLO11они показали себя перспективными в определенных областях с высокими ставками доменах:

  1. Анализ медицинских изображений: Способность работать с пространственными иерархиями делает CapsNet ценным инструментом для анализа медицинских изображений. Например, исследователи применяли их для сегментации опухолей мозга, где различение точной формы и ориентации опухоли от окружающих тканей имеет решающее значение для точной диагностики.
  2. Распознавание рукописных цифр: CapsNets достигла наилучших результатов на наборе данных на наборе данныхMNIST , особенно в сценариях с перекрывающимися цифрами, где стандартные стандартные модели классификации изображений могут столкнуться с трудностями для разделения признаков.

Практическая реализация

Хотя теоретические преимущества CapsNet несомненны, современные промышленные стандарты часто отдают предпочтение высоко оптимизированным CNN или моделям на основе трансформаторов для повышения скорости. Тем не менее, вы можете поэкспериментировать с задачами классификации - основным эталоном для CapsNets - используя ultralytics библиотека. Следующий пример демонстрирует обучение модели классификации YOLO11 классификационной модели на наборе данных MNIST - распространенной площадке для тестирования иерархического распознавания признаков.

from ultralytics import YOLO

# Load a pretrained YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on the MNIST dataset (automatically downloaded)
# This task parallels classic CapsNet benchmarks
results = model.train(data="mnist", epochs=5, imgsz=64)

# Run inference on a sample digit image
predict_results = model.predict("path/to/digit_image.png")

Перспективы на будущее

Исследование сетей капсул продолжает оказывать влияние на развитие безопасности и интерпретируемости ИИ. Благодаря явному моделированию отношения "часть-целое", они предлагают путь к более объяснимому ИИ по сравнению с "черным ящиком" некоторых глубоких сетей. некоторых глубоких сетей. Будущие достижения могут быть направлены на интеграцию этих концепций в обнаружение 3D-объектов и снижение вычислительных затрат алгоритмов маршрутизации, потенциально объединяя эффективность таких моделей, как YOLO26 с надежным пространственным пониманием капсул.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас