Глоссарий

Оптический поток

Откройте для себя возможности оптического потока в компьютерном зрении. Узнайте, как он оценивает движение, улучшает анализ видео и стимулирует инновации в области искусственного интеллекта.

Оптический поток - это основная концепция компьютерного зрения (КВ), которая предполагает оценку движения объектов, поверхностей и краев в визуальной сцене, вызванного относительным движением между наблюдателем (например, камерой) и сценой. При этом вычисляется поле векторов, описывающих направление и скорость движения пикселей или объектов между двумя последовательными видеокадрами. Это позволяет получить детальное, низкоуровневое понимание того, как движутся объекты, что является основополагающим для многих задач динамического анализа сцены.

Как работает оптический поток

Основным допущением большинства алгоритмов оптического потока является "постоянство яркости", которое предполагает, что интенсивность пикселя, соответствующего определенной точке на объекте, остается постоянной в течение коротких временных интервалов. Найдя смещение, которое сохраняет эту яркость, алгоритмы могут оценить движение. Существует два основных подхода к расчету оптического потока:

  • Плотный оптический поток: этот метод вычисляет вектор движения для каждого отдельного пикселя на изображении. Он позволяет получить высокодетализированное поле движения, что полезно для таких задач, как сегментация изображений и понимание сложной динамики сцены. Классическим примером является метод Хорна-Шунка, а современные модели глубокого обучения, такие как RAFT, обеспечивают самую высокую производительность.
  • Разреженный оптический поток: вместо анализа каждого пикселя этот метод отслеживает разреженный набор "интересных" особенностей (например, углы или ключевые точки) во всех кадрах. Метод Лукаса-Канаде является хорошо известным разреженным алгоритмом. Этот подход более эффективен с точки зрения вычислений и хорошо подходит для приложений, где требуется только движение определенных точек, например, при отслеживании объектов.

Оптический поток в сравнении с отслеживанием объектов

Хотя оптический поток и отслеживание объектов связаны между собой, они решают разные задачи.

  • Оптический поток описывает низкоуровневое движение пикселей. Его результатом является набор векторов, представляющих движение между двумя кадрами. По своей сути он не понимает понятия "объект" и не сохраняет его идентичность с течением времени.
  • Отслеживание объектов Это задача более высокого уровня, направленная на определение местоположения конкретного объекта и прослеживание его пути в нескольких кадрах с присвоением ему последовательного идентификатора. Алгоритмы отслеживания часто используют такие техники, как оптический поток, в качестве входных данных для предсказания положения объекта в следующем кадре после того, как он был идентифицирован моделью обнаружения объектов, например моделью Ultralytics YOLO. Вы можете увидеть это в действии в режиме отслеживания объектов в Ultralytics.

Короче говоря, оптический поток отвечает на вопрос "Как движутся пиксели?", а отслеживание объектов - на вопрос "Куда поехала эта машина?".

Применение в реальном мире

Оптический поток имеет решающее значение для многих приложений, требующих понимания движения на видео:

  • Автономные системы: Автономные транспортные средства и роботы используют оптический поток для визуальной одометрии (оценки собственного движения), обнаружения препятствий и понимания относительного движения объектов в окружающей среде. Например, он помогает самодвижущемуся автомобилю оценить свою скорость относительно дороги или отследить соседние автомобили. Такие компании, как Waymo, в значительной степени полагаются на восприятие движения. Изучите ИИ в самодвижущихся автомобилях, чтобы получить больше информации.
  • Сжатие видео: Такие стандарты, как MPEG, используют методы оценки движения, похожие на оптический поток, для предсказания последующих кадров на основе предыдущих. Кодируя только векторы движения и ошибки предсказания (остатки), достигается значительное сжатие данных.
  • Распознавание действий: Понимание действий человека на видео, являющееся ключевой частью оценки позы, часто предполагает анализ моделей движения, полученных из оптического потока. Это очень важно для приложений в спортивной аналитике и умных фитнес-технологиях.
  • Стабилизация видео: Технологии цифровой стабилизации изображения позволяют использовать оптический поток для оценки дрожания камеры и его компенсации, что позволяет получить более плавное видео. Эта технология широко распространена в современных смартфонах и фотоаппаратах.
  • Анализ медицинских изображений: Используется для отслеживания движения тканей, например, движения сердечной мышцы на эхокардиограммах или деформации органов во время процедур. Смотрите такие ресурсы, как журнал Радиология: Искусственный интеллект о соответствующих достижениях.
  • Робототехника: Позволяет роботам ориентироваться, взаимодействовать с объектами и выполнять задачи на основе визуальной обратной связи о движении в окружающей среде. Интеграция с такими системами, как ROS, часто включает в себя анализ движения.

Инструменты и реализация

Такие библиотеки, как OpenCV, обеспечивают реализацию классических алгоритмов оптического потока, а документация к ним включает подробные учебники по оптическому потоку OpenCV. Для подходов глубокого обучения обычно используются такие фреймворки, как PyTorch (посетите официальный сайт PyTorch) и TensorFlow (посетите официальный сайт TensorFlow), которые часто используют предварительно обученные модели, доступные через такие платформы, как Hugging Face. Для обучения этих моделей требуются крупномасштабные наборы видео данных с информацией об истинном потоке, такие как наборы данных FlyingThings3D или Sintel. Платформы, подобные Ultralytics HUB, могут помочь в управлении наборами данных и рабочими процессами обучения моделей для соответствующих задач компьютерного зрения.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена