Изучите капсульные сети (CapsNets) и то, как они решают проблемы, связанные с ограничениями CNN. Узнайте о динамической маршрутизации, пространственных иерархиях и сравнении CapsNets с YOLO26.
Капсульные сети, часто сокращенно называемые CapsNets, представляют собой передовую архитектуру в области глубокого обучения, разработанную для преодоления определенных ограничений, присущих традиционным нейронным сетям. Введенные Джеффри Хинтоном и его командой, CapsNets пытаются более точно имитировать биологическую нейронную организацию человеческого мозга, чем стандартные модели. В отличие от типичной сверточной нейронной сети (CNN), которая превосходно обнаруживает особенности, но часто теряет пространственные отношения из-за понижения разрешения, капсульная сеть организует нейроны в группы, называемые «капсулами». Эти капсулы кодируют не только вероятность наличия объекта, но и его конкретные свойства, такие как ориентация, размер и текстура, эффективно сохраняя иерархические пространственные отношения в визуальных данных.
Чтобы понять инновационность CapsNets, полезно посмотреть, как работают стандартные модели компьютерного зрения. Обычная CNN использует слои извлечения признаков, за которыми следуют слои объединения — в частности, максимальное объединение— для уменьшения вычислительной нагрузки и достижения инвариантности по переносу. Это означает, что CNN может идентифицировать «кошку» независимо от того, где она находится на изображении.
Однако при этом часто теряются точные данные о местоположении, что приводит к «проблеме Пикассо»: CNN может правильно classify лицо, даже если рот находится на лбу, просто потому, что все необходимые признаки присутствуют. CapsNets решают эту проблему путем удаления слоев пулинга и их замены процессом, который учитывает пространственную иерархию объектов.
Основным строительным блоком этой архитектуры является капсула, вложенный набор нейронов, который выдает вектор, а не скалярное значение. В векторной математике вектор имеет как величину, так и направление. В CapsNet:
Капсулы в нижних слоях (обнаруживающие простые формы, такие как края) предсказывают выходные данные капсул в верхних слоях (обнаруживающих сложные объекты, такие как глаза или шины). Эта коммуникация управляется алгоритмом, называемым «динамическая маршрутизация» или «маршрутизация по соглашению». Если прогноз капсулы нижнего уровня совпадает с состоянием капсулы верхнего уровня, связь между ними усиливается. Это позволяет сети распознавать объекты с различных 3D-точек зрения без необходимости массивного увеличения объема данных, которое обычно требуется для обучения CNN поворотам и масштабированию.
Хотя обе архитектуры имеют основополагающее значение для компьютерного зрения (CV), они различаются по способу обработки и представления визуальных данных:
Хотя CapsNets часто требуют больших вычислительных затрат по сравнению с оптимизированными моделями, такими как YOLO26, они предлагают явные преимущества в специализированных областях:
Капсульные сети в первую очередь представляют собой архитектуру классификации. Хотя они обеспечивают теоретическую надежность, в современных промышленных приложениях часто предпочитают высокоскоростные CNN или трансформеры для обеспечения производительности в реальном времени. Тем не менее, полезно понимать бенчмарки классификации, используемые для CapsNets, такие как MNIST.
Следующий пример демонстрирует, как обучить современную
Модель YOLO на наборе MNIST с использованием
ultralytics пакет. Это соответствует основной тестовой задаче, используемой для валидации капсульных сетей.
from ultralytics import YOLO
# Load a YOLO26 classification model (optimized for speed and accuracy)
model = YOLO("yolo26n-cls.pt")
# Train the model on the MNIST dataset
# This dataset helps evaluate how well a model learns handwritten digit features
results = model.train(data="mnist", epochs=5, imgsz=32)
# Run inference on a sample image
# The model predicts the digit class (0-9)
predict = model("https://docs.ultralytics.com/datasets/classify/mnist/")
Принципы, лежащие в основе капсульных сетей, продолжают влиять на исследования в области безопасности и интерпретируемости ИИ. Благодаря явному моделированию отношений между частями и целым, капсулы предлагают альтернативу «черному ящику» в виде «стеклянного ящика» для глубоких нейронных сетей, что делает принятие решений более объяснимым. Будущие разработки направлены на объединение пространственной устойчивости капсул со скоростью вывода архитектур, таких как YOLO11 или более новой YOLO26 для улучшения производительности в области обнаружения 3D-объектов и робототехники. Исследователи также изучают матричные капсулы с EM-маршрутизацией для дальнейшего сокращения вычислительных затрат алгоритма согласования.
Для разработчиков, которые хотят эффективно управлять наборами данных и обучать модели, Ultralytics предоставляет единую среду для аннотирования данных, обучения в облаке и развертывания моделей, которые обеспечивают баланс между скоростью CNN и точностью, необходимой для сложных задач машинного зрения .