Keypoints
Узнай, как ключевые точки (keypoints) определяют геометрию и позу объектов в ИИ. Исследуй оценку позы с Ultralytics YOLO26 и начни работу с нашим простым в использовании SDK на Python.
Ключевые точки — это отдельные пространственные локации или ориентиры на изображении, которые определяют значимые характеристики объекта или субъекта. В контексте компьютерного зрения и машинного обучения ключевая точка обычно представляется набором координат (X, Y), которые указывают на конкретную часть объекта, например, локоть человека, угол здания или центр колеса автомобиля. В отличие от более простых задач, которые только определяют наличие объекта, идентификация ключевых точек позволяет моделям искусственного интеллекта (ИИ) понимать геометрию, позу и структурное устройство объекта. Эта способность является фундаментальной для продвинутого визуального анализа, позволяя машинам интерпретировать язык тела, отслеживать точные движения и совмещать цифровые наложения с объектами реального мира.
Link to this sectionРоль ключевых точек в моделях ИИ#
Ключевые точки служат фундаментальными данными для оценки позы — метода, который отображает скелетную структуру человека или животного. Детектируя заранее заданный набор точек, таких как плечи, колени и лодыжки, алгоритмы могут восстанавливать полную позу субъекта в реальном времени. Этот процесс выходит за рамки стандартного обнаружения объектов, которое обычно выдает ограничивающую рамку вокруг объекта без понимания его внутренней формы.
Современные архитектуры, такие как передовая Ultralytics YOLO26, эволюционировали для прогнозирования этих ключевых точек с высокой точностью и скоростью. Эти модели используют сети глубинного обучения (DL), обученные на огромных аннотированных наборах данных, таких как COCO Keypoints, чтобы изучать визуальные паттерны, связанные с суставами и чертами лица. Во время вывода модель регрессирует координаты для каждой ключевой точки, часто включая показатель достоверности, чтобы указать на надежность прогноза.
Link to this sectionКлючевые точки против схожих концепций#
Полезно отличать ключевые точки от других распространенных результатов компьютерного зрения, чтобы понять их уникальную полезность:
- Ключевые точки против ограничивающих рамок: Ограничивающая рамка обеспечивает грубую локализацию, заключая весь объект в прямоугольник. Ключевые точки обеспечивают мелкозернистую локализацию конкретных частей внутри этого объекта.
- Ключевые точки против сегментации изображений: Сегментация изображений классифицирует каждый пиксель для создания точной маски формы объекта. Хотя сегментация предлагает детальную информацию о границах, ключевые точки предлагают структурное резюме («скелет»), которое часто более эффективно для анализа движения и кинематики.
- Ключевые точки против дескрипторов признаков: В традиционной обработке изображений, такой как SIFT (Scale-Invariant Feature Transform), ключевые точки — это точки интереса (углы, пятна), используемые для сопоставления изображений. В современной оценке позы с помощью DL ключевые точки — это семантические метки (например, «левое запястье»), изученные сетью.
Link to this sectionРеальные приложения#
Способность отслеживать конкретные части тела или характеристики объектов открывает разнообразные возможности применения в различных отраслях:
- Спортивная аналитика: Тренеры и спортсмены используют оценку позы для анализа биомеханики. Отслеживая ключевые точки на суставах, системы могут вычислять углы и скорости для улучшения техники в таких видах спорта, как гольф, теннис или бег. Посмотри, как модели Ultralytics YOLO отслеживают удары в гольфе, чтобы предоставить практические рекомендации.
- Здравоохранение и реабилитация: Платформы физической терапии используют ключевые точки для удаленного контроля упражнений пациентов. Система гарантирует, что пациенты поддерживают правильную форму во время реабилитационных процедур, снижая риск травм и отслеживая прогресс восстановления.
- Дополненная реальность (AR): Фильтры в социальных сетях и приложения для виртуальной примерки полагаются на ключевые точки лица (контуры глаз, носа, рта), чтобы надежно закрепить цифровые маски или очки на лице пользователя, сохраняя выравнивание даже при движении.
- Мониторинг водителя: Автомобильные системы безопасности отслеживают ориентиры лица, чтобы обнаруживать признаки сонливости или отвлечения, предупреждая водителя, если его глаза закрыты или положение головы указывает на недостаток внимания.
Link to this sectionРеализация обнаружения ключевых точек с помощью YOLO26#
Используя Ultralytics Platform или Python SDK, разработчики могут легко реализовать обнаружение ключевых точек. Следующий пример демонстрирует, как загрузить предобученную модель YOLO26-pose и запустить вывод на изображении для обнаружения скелетов человека.
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")Этот простой рабочий процесс позволяет быстро развертывать сложные приложения компьютерного зрения (CV). Для пользователей, желающих обучить свои собственные модели ключевых точек — например, для обнаружения конкретных точек на промышленном оборудовании или видах животных, — Ultralytics Platform упрощает процесс аннотирования данных и обучения моделей в облаке.
Link to this sectionРасширенные соображения#
Успешное развертывание обнаружения ключевых точек требует решения таких задач, как окклюзия (когда часть тела скрыта) и разнообразные условия освещения. Современные модели решают это с помощью надежной аугментации данных во время обучения, подвергая сеть воздействию различных сценариев. Кроме того, интеграция ключевых точек с алгоритмами отслеживания объектов позволяет последовательно идентифицировать людей с течением времени в видеопотоках, что необходимо для таких приложений, как безопасность или поведенческий анализ.






