Embodied AI

Исследуй воплощенный ИИ (Embodied AI) и узнай, как интеллектуальные системы взаимодействуют с физическим миром. Узнай, как наделить роботов способностью восприятия с помощью Ultralytics YOLO26.

Embodied AI представляет собой значительный сдвиг от пассивных алгоритмов к интеллектуальным системам, способным воспринимать, рассуждать и взаимодействовать в физической или симулированной 3D-среде. В отличие от традиционных моделей машинного обучения, работающих исключительно со статичными наборами данных, такие системы обладают «телом» — будь то физическое шасси робота или виртуальный аватар, — которое позволяет им выполнять действия и учиться на основе постоянной обратной связи от окружающей среды. Объединяя данные датчиков с интеллектуальным принятием решений, воплощенные агенты сокращают разрыв между цифровыми вычислениями и выполнением действий в реальном мире.

Link to this sectionКак воплощенные системы воспринимают мир#

В основе этих динамических систем лежит продвинутое компьютерное зрение, которое позволяет агенту пространственно понимать свое окружение. Чтобы безопасно и эффективно перемещаться, воплощенные агенты в значительной степени полагаются на обнаружение объектов в реальном времени и непрерывное оценивание позы. Когда ты разрабатываешь нейронные пути для этих агентов, ты часто интегрируешь фреймворки глубокого обучения из экосистемы PyTorch или инструменты развертывания TensorFlow для обработки сложных пространственных данных.

Для достижения истинной автономности эти системы все чаще используют визуально-языковые модели наряду с надежными движками инференса в реальном времени. Это позволяет ИИ не просто распознавать чашку, но и понимать сложные инструкции, такие как «подними красную чашку рядом с краем стола». Исследования таких учреждений, как Институт человекоцентричного искусственного интеллекта (HAI) Стэнфорда, продолжают расширять границы того, как эти агенты интегрируют мультисенсорные данные.

Link to this sectionРазграничение смежных терминов в области искусственного интеллекта#

Понимание этой области требует разграничения ее с тесно связанными концепциями:

Робототехника: Робототехника в значительной степени фокусируется на механическом аппаратном обеспечении, приводах и управлении моторами. Embodied AI предоставляет уровень когнитивного программного обеспечения, который делает оборудование автономным, как это видно в таких проектах, как робот Atlas от Boston Dynamics.
Физический ИИ: Хотя эти термины часто используются как взаимозаменяемые, физический ИИ строго требует наличия материального оборудования в реальном мире. Embodied AI является более широким понятием, охватывающим виртуальных агентов, обученных в симулированных 3D-средах с физикой, таких как робототехническая платформа Isaac от NVIDIA.
AI-агент: Традиционные AI-агенты работают в цифровых пространствах (например, просматривая веб-страницы или написание кода). Воплощенные агенты специализируются на работе с пространственной размерностью, физическими ограничениями и непрерывными сенсорными потоками.

Link to this sectionРеальные приложения#

Интеграция когнитивных рассуждений с физическим действием привела к трансформационным приложениям в различных отраслях, что широко задокументировано в цифровой библиотеке ACM для исследований в области ИИ.

Автономные транспортные средства: Беспилотные автомобили полагаются на воплощенный интеллект для навигации по городским улицам. Они обрабатывают непрерывные данные с лидаров и камер, чтобы интерпретировать дорожные знаки и движения пешеходов, подобно тому, как технология беспилотного вождения Waymo безопасно взаимодействует с динамичной городской средой.
Умное производство: Роботизированные манипуляторы, оснащенные моделями Ultralytics YOLO26, выполняют сложные задачи на сборочной линии. Они динамически идентифицируют, выбирают и сортируют дефектные детали, демонстрируя принципы, исследованные в недавних робототехнических исследованиях DeepMind.
Сельскохозяйственные дроны: беспилотные летательные аппараты используют пространственное восприятие для мониторинга состояния посевов и интеллектуального распыления ресурсов только там, где это необходимо, что сокращает отходы и повышает урожайность.

Link to this sectionСоздание восприятия для воплощенных агентов#

Разработчики, создающие такие физические системы, часто используют платформу Ultralytics для аннотирования динамических обучающих данных и бесшовного развертывания легких моделей edge AI непосредственно на маломощном оборудовании.

Ниже приведен пример на языке Python, демонстрирующий, как агент-робот может использовать модель компьютерного зрения для непрерывного обнаружения интерактивных объектов в своей среде.

from ultralytics import YOLO

# Load the lightweight YOLO26 model designed for real-time edge hardware
model = YOLO("yolo26n.pt")

# Perform continuous object detection on a robotic camera feed
results = model.predict(source="camera_feed.mp4", stream=True)

# Process the spatial bounding boxes to guide robotic interaction
for r in results:
    print(f"Detected {len(r.boxes)} objects ready for physical interaction.")

По мере того как области аппаратного проектирования и когнитивного моделирования созревают — под руководством усилий по обеспечению безопасности, таких как исследования Anthropic в области безопасности ИИ и новейшие модели рассуждений OpenAI — воплощенные системы будут продолжать переходить из исследовательских лабораторий в повседневную среду, что часто освещается в робототехнических обзорах IEEE Spectrum.