Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Swin Transformer

Узнай, как архитектура Swin Transformer использует сдвигаемые окна для эффективного компьютерного зрения, и изучи рабочие процессы на платформе Ultralytics.

Представленная исследователями Microsoft в знаковой статье 2021 года "Swin Transformer: Hierarchical Vision Transformer using Shifted Windows", эта архитектура глубокого обучения (DL) адаптирует механизм внимания для обработки сложностей визуальных данных высокого разрешения. В отличие от моделей обработки естественного языка, которые обрабатывают текстовые токены одинаковой длины, эта архитектура учитывает, что визуальные элементы сильно различаются по масштабу. Создавая иерархическое представление и используя уникальную технику окон, она достигает линейной вычислительной сложности относительно размера изображения, что делает ее высокоэффективным бэкбоном для множества задач компьютерного зрения (CV).

Link to this sectionКак работают сдвигающиеся окна и иерархический дизайн#

Основная инновация заключается в том, как модель структурирует извлечение признаков. Она начинает с деления входного изображения на небольшие неперекрывающиеся патчи. Однако, в отличие от ранних моделей, она постепенно объединяет эти соседние патчи в более крупные области в более глубоких слоях. Этот иерархический подход позволяет сети извлекать богатые карты признаков, которые представляют глобальный контекст в разных масштабах, от крошечных визуальных деталей до крупных объектов.

Для поддержания вычислительной эффективности механизм self-attention вычисляется только внутри локальных изолированных окон, а не по всему изображению. Чтобы обеспечить передачу информации через границы, окна «сдвигаются» между последовательными слоями. Эта схема сдвигающихся окон эффективно соединяет независимые области, обеспечивая комплексные многомасштабные пространственные иерархии без тяжелой вычислительной нагрузки, связанной с глобальным вниманием.

Link to this sectionSwin Transformer против Vision Transformer (ViT)#

При сравнении современных архитектур важно отличать эту модель от стандартного Vision Transformer (ViT). Оригинальный ViT рассматривает изображения как последовательность патчей фиксированного размера и вычисляет глобальное внимание для всех них одновременно. Хотя это очень точно, это приводит к квадратичной вычислительной сложности, что означает, что время обработки и требования к памяти резко возрастают по мере увеличения разрешения изображения.

Напротив, иерархический и основанный на окнах дизайн архитектуры Swin сохраняет сложность линейной. Это делает её гораздо более практичной для задач плотного предсказания, требующих входных и выходных данных высокого разрешения. Следовательно, она достигает результатов современного уровня на таких бенчмарках, как набор данных COCO test-dev для многомасштабного обнаружения объектов и набор данных для семантической сегментации ADE20K для точной сегментации изображений.

Link to this sectionРеальные применения в современном ИИ#

Благодаря своей гибкости и эффективности официальная GitHub-репозитория Microsoft Research реализация была адаптирована для сложных, высокоответственных отраслей.

Link to this sectionИнтеграция с PyTorch и Ultralytics#

Для разработчиков, создающих собственные нейронные сети, внедрение этой архитектуры выполняется просто с использованием официальной документации PyTorch. Библиотека torchvision включает в себя предобученные версии, такие как облегченный вариант Tiny, оптимизированный на ImageNet.

import torch
from torchvision.models import Swin_T_Weights, swin_t

# Load a pre-trained Tiny variant with ImageNet weights
weights = Swin_T_Weights.IMAGENET1K_V1
model = swin_t(weights=weights)
model.eval()

# Run a single batch containing a 3-channel, 224x224 dummy image tensor
dummy_image = torch.randn(1, 3, 224, 224)
output = model(dummy_image)

# The output shape is [1, 1000], representing the 1000 ImageNet classes
print(f"Prediction tensor shape: {output.shape}")

Хотя бэкбоны на основе трансформеров предлагают отличное многомасштабное представление, современные приложения часто требуют чисто end-to-end оптимизаций для периферийных AI-устройств. Например, Ultralytics YOLO26 предоставляет архитектуру, изначально являющуюся end-to-end, которая меньше, быстрее и обладает высокой точностью «из коробки», преуспевая в real-time периферийных средах. Независимо от использования архитектур с тяжелыми трансформерами или быстрых сверточных моделей, ты можешь управлять всем своим рабочим процессом — от аннотирования данных до обучения — через Ultralytics Platform. Эта комплексная облачная цепочка инструментов делает развертывание моделей и непрерывный мониторинг моделей простыми и эффективными.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения