Ultralytics YOLO26 so với các model Ultralytics YOLO khác cho pose estimation
Khám phá cách Ultralytics YOLO26 cải thiện việc ước tính tư thế (pose estimation) với hỗ trợ tốt hơn cho các keypoint phi con người, hội tụ nhanh hơn, xử lý che khuất cải tiến và triển khai thời gian thực hiệu quả.
Khi nhìn vào tư thế của một người, ta rất dễ nhận ra liệu họ đang khom lưng, cúi người về phía trước hay đứng thẳng. Con người có thể nhanh chóng hiểu được mối liên hệ giữa các bộ phận khác nhau trên cơ thể.
Đây là một phần vốn có trong cách chúng ta diễn giải chuyển động và ngôn ngữ cơ thể trong cuộc sống hàng ngày. Tuy nhiên, đối với máy móc, kiểu hiểu biết trực quan này không phải là tự động. Việc dạy cho hệ thống nhận diện chuyển động và cấu trúc đòi hỏi các kỹ thuật deep learning và computer vision nâng cao cho phép nó diễn giải hình ảnh một cách có ý nghĩa.
Đặc biệt, pose estimation là một kỹ thuật vision AI giúp model computer vision có thể xây dựng sự hiểu biết tương tự. Thay vì chỉ đơn thuần phát hiện một đối tượng trong hình ảnh, model dự đoán các keypoint đại diện cho các mốc cấu trúc quan trọng.
Các keypoint này có thể tương ứng với các khớp cơ thể, chi động vật, bộ phận máy móc hoặc thậm chí là các điểm cố định như góc sân đấu. Bằng cách xác định và theo dõi các điểm này, hệ thống có thể hiểu vị trí, sự căn chỉnh và chuyển động theo cách có cấu trúc và có thể đo lường được.
Khi pose estimation được áp dụng vào nhiều kịch bản thực tế hơn, các model phải xử lý các keypoint không phải của con người, các cảnh phức tạp và các tập dữ liệu tùy chỉnh hiệu quả hơn. Ví dụ, các model hiện đại như Ultralytics YOLO26 hỗ trợ các tác vụ computer vision như pose estimation và được xây dựng dựa trên các model YOLO pose trước đó với những cải tiến về kiến trúc và huấn luyện nhằm tăng cường tính linh hoạt và hiệu suất tổng thể.

Hình 1. Một ví dụ về pose estimation được kích hoạt bởi YOLO (Nguồn)
Trong bài viết này, chúng ta sẽ so sánh YOLO26-pose với các model Ultralytics YOLO pose trước đó và khám phá cách nó cải thiện tính linh hoạt, tốc độ hội tụ và hiệu suất trong các cảnh phức tạp. Hãy bắt đầu thôi!
Link to this sectionPose estimation là gì?#
Trước khi đi sâu vào so sánh các model Ultralytics YOLO pose, hãy cùng tìm hiểu kỹ hơn về ý nghĩa thực sự của pose estimation trong bối cảnh computer vision.
Pose estimation là một kỹ thuật được sử dụng để phát hiện và theo dõi các keypoint cụ thể trong hình ảnh hoặc khung hình video. Các keypoint này có thể đại diện cho các mốc cấu trúc quan trọng, chẳng hạn như khớp trên cơ thể người, chi của động vật, thành phần của máy móc hoặc các điểm tham chiếu cố định trong một khung cảnh.

Hình 2. Ước tính tư thế của công nhân sử dụng human pose estimation (Nguồn)
Bằng cách xác định tọa độ của các điểm này, một model có thể hiểu cách một đối tượng được đặt vị trí và cách nó di chuyển theo thời gian. Không giống như phân loại hình ảnh (image classification), vốn gán một nhãn duy nhất cho toàn bộ hình ảnh, hoặc các model phát hiện đối tượng (object detection) tập trung vào việc vẽ bounding box xung quanh các đối tượng, pose estimation cung cấp thông tin không gian chi tiết hơn về cấu trúc và chuyển động.
Link to this sectionTổng quan về YOLO26-pose#
YOLO26-pose có sẵn ở nhiều biến thể hoặc kích thước model, bao gồm các tùy chọn nhẹ như YOLO26n-pose và các model lớn hơn như YOLO26m-pose, YOLO26l-pose và YOLO26x-pose. Điều này cho phép các nhóm chọn sự cân bằng phù hợp giữa tốc độ và độ chính xác tùy theo phần cứng và nhu cầu hiệu suất của họ.
Ultralytics cũng cung cấp các model pose tiền huấn luyện (pretrained) trên các tập dữ liệu lớn, chung như tập dữ liệu COCO, cụ thể là các chú thích COCO-Pose (COCO keypoints) cho human pose estimation, vì vậy bạn không cần phải bắt đầu từ con số không. Trong hầu hết các trường hợp, các nhóm thực hiện fine-tune các model này trên tập dữ liệu của riêng họ để thích ứng với các keypoint, bố cục hoặc môi trường cụ thể.
Việc này thường bao gồm việc chuẩn bị các tệp chú thích (annotation) tùy chỉnh xác định tọa độ keypoint và nhãn lớp theo một định dạng có cấu trúc. Các chú thích này ánh xạ các keypoint tới tọa độ pixel cụ thể trong mỗi hình ảnh, cho phép model học các mối quan hệ không gian chính xác trong quá trình huấn luyện.
Sử dụng các model pretrained giúp quá trình huấn luyện nhanh hơn, giảm yêu cầu về dữ liệu và giúp đưa các dự án vào sản xuất hiệu quả hơn.
Link to this sectionCác ứng dụng thực tế của human pose estimation#
Dưới đây là sơ lược về một số trường hợp sử dụng thực tế mà pose estimation đóng vai trò quan trọng:
- Chăm sóc sức khỏe và phục hồi chức năng: Các bác sĩ lâm sàng có thể sử dụng các model pose để đánh giá tư thế, theo dõi tiến trình hồi phục và phân tích các kiểu chuyển động trong quá trình vật lý trị liệu.
- Hệ thống tự hành: Drone và camera thông minh có thể sử dụng thông tin tư thế để hiểu rõ hơn về hướng và chuyển động của đối tượng trong các cảnh động.
- An toàn tại nơi làm việc: Các tổ chức có thể theo dõi vị trí cơ thể và các chuyển động lặp đi lặp lại để giúp xác định các rủi ro an toàn tiềm ẩn.
- Thể dục và đào tạo cá nhân: Fitness apps sử dụng pose estimation để theo dõi tư thế tập luyện, đếm số lần tập và cung cấp phản hồi theo thời gian thực về tư thế và chuyển động được duy trì trong suốt các bài hướng dẫn thể dục.

Hình 3. Pose estimation có thể giúp theo dõi các điểm chính trên cơ thể trong quá trình vận động thể thao. (Nguồn)
Link to this sectionKhám phá sự hỗ trợ của Ultralytics YOLO26 cho pose estimation#
Ultralytics YOLO26 được xây dựng dựa trên các model Ultralytics YOLO trước đó với các bản cập nhật được thiết kế để làm cho việc huấn luyện và triển khai trở nên thực tiễn hơn.
Giống như các phiên bản trước, nó hỗ trợ pose estimation như một phần của khung làm việc thống nhất. Điểm khác biệt chính là YOLO26 được xây dựng để linh hoạt và ổn định hơn trên phạm vi rộng hơn các trường hợp sử dụng thực tế.

Hình 4. Benchmarking YOLO26 (Nguồn)
Các model Ultralytics YOLO pose trước đó phần lớn chịu ảnh hưởng bởi pose datasets của con người, điều đó có nghĩa là các phần của các phương pháp cũ đã được tối ưu hóa dựa trên cấu trúc khớp của con người. YOLO26 loại bỏ các giả định cụ thể về con người đó.
Kết quả là nó phù hợp hơn cho các keypoint không phải của con người, chẳng hạn như phát hiện các góc của sân tennis hoặc các mốc cấu trúc tùy chỉnh khác. Điều này rất quan trọng vì khi mới cài đặt, các model YOLO26-pose tiền huấn luyện được huấn luyện trên các tập dữ liệu như COCO-pose và dự đoán các keypoint của con người được xác định trong các chú thích của tập dữ liệu.
Tuy nhiên, khi các nhóm muốn phát hiện các loại mốc khác nhau, chẳng hạn như thành phần máy móc, điểm đánh dấu sân thể thao hoặc các điểm hạ tầng, model thường cần được fine-tune trên một tập dữ liệu tùy chỉnh nơi các keypoint cụ thể đó được chú thích.
Vì YOLO26 không bị ràng buộc bởi các giả định về cấu trúc khớp người, nó có thể thích ứng hiệu quả hơn trong quá trình fine-tuning. Sự linh hoạt này cho phép model học các bố cục keypoint tùy chỉnh một cách đáng tin cậy hơn, dẫn đến các chỉ số đánh giá được cải thiện khi xác thực trên các tập dữ liệu với cấu hình keypoint độc đáo.
YOLO26-pose cũng được thiết kế để cải thiện việc định vị keypoint khi các bộ phận của đối tượng bị che khuất một phần hoặc xuất hiện ở quy mô rất nhỏ. Trong các cảnh thực tế liên quan đến các đối tượng ở xa, cảnh quay từ drone hoặc các kịch bản đối tượng nhỏ, điều này có thể dẫn đến các dự đoán keypoint chính xác hơn so với các model pose trước đó.
Một bản cập nhật quan trọng khác là công thức loss được cải thiện được sử dụng trong quá trình huấn luyện. Hàm loss xác định cách model sửa chữa lỗi của mình trong khi học.
Khi nói đến YOLO26-pose, quá trình này hiệu quả hơn, giúp model học nhanh hơn và đạt được độ chính xác cao trong ít epoch hơn, trong đó một epoch đề cập đến một lần đi qua toàn bộ tập dữ liệu huấn luyện.
Nhìn chung, YOLO26-pose xây dựng dựa trên các model Ultralytics YOLO pose trước đó với những cải tiến rõ ràng hơn trong việc hỗ trợ keypoint không phải của con người và hội tụ huấn luyện, đồng thời duy trì cùng một quy trình làm việc quen thuộc.
Link to this sectionSo sánh YOLO26-pose với Ultralytics YOLOv5#
Phiên bản sớm nhất của các model Ultralytics YOLO, Ultralytics YOLOv5, được xây dựng chủ yếu cho object detection. Mặc dù YOLOv5 sau đó đã mở rộng để hỗ trợ instance segmentation, nó không bao gồm một head chuyên dụng cho pose estimation trong khung làm việc chính thức của Ultralytics.
Các nhóm cần phát hiện keypoint thường dựa vào các triển khai riêng biệt hoặc các sửa đổi tùy chỉnh. Ultralytics YOLO26 bao gồm pose estimation như một tác vụ tích hợp, với một head kiến trúc chuyên dụng được thiết kế đặc biệt để dự đoán các keypoint.
Điều này có nghĩa là các model YOLO26-pose có thể được huấn luyện, xác thực và triển khai trong cùng một quy trình làm việc thống nhất giống như detection và segmentation. Đối với các dự án tập trung vào phát hiện keypoint có cấu trúc, YOLO26 cung cấp khả năng hỗ trợ pose gốc và kiến trúc đặc thù cho tác vụ mà YOLOv5 không cung cấp sẵn.
Link to this sectionNhững khác biệt chính: YOLO26-pose so với Ultralytics YOLOv8-pose#
Ultralytics YOLOv8 đã giới thiệu pose estimation gốc trong khung làm việc thống nhất của Ultralytics, giúp dễ dàng huấn luyện và triển khai các model keypoint sử dụng cùng quy trình làm việc như detection và segmentation. Nó dựa vào một pipeline hậu xử lý truyền thống với non-maximum suppression (NMS) và sử dụng các công thức loss trước đó để hồi quy bounding box và huấn luyện.
YOLO26 xây dựng dựa trên nền tảng này với các cập nhật về kiến trúc và huấn luyện ảnh hưởng trực tiếp đến pose estimation. Một sự khác biệt lớn là thiết kế end-to-end. YOLO26 loại bỏ nhu cầu sử dụng NMS bên ngoài trong quá trình inference, giúp đơn giản hóa việc triển khai và cải thiện tính nhất quán của độ trễ (latency), đặc biệt là trên CPU và các thiết bị edge.
Một cải tiến quan trọng khác là trong phương pháp huấn luyện. YOLO26 giới thiệu trình tối ưu hóa MuSGD cùng với các chiến lược loss cập nhật. Đối với các tác vụ pose, nó tích hợp Residual Log-Likelihood Estimation, cải thiện cách mô hình hóa sự không chắc chắn (uncertainty) của keypoint. Kết hợp lại, những thay đổi này có thể dẫn đến sự hội tụ nhanh hơn và các dự đoán keypoint ổn định hơn, đặc biệt là trong các cảnh phức tạp hoặc bị che khuất một phần.
Tóm lại, YOLOv8-pose đã thiết lập một nền tảng vững chắc và linh hoạt. YOLO26-pose tinh chỉnh nền tảng đó với hiệu suất huấn luyện được cải thiện, xử lý che khuất tốt hơn và linh hoạt hơn cho các ứng dụng pose thực tế, không phải của con người.
Link to this sectionYOLO26-pose so với Ultralytics YOLO11-pose: Có gì cải tiến?#
Ultralytics YOLO11 xây dựng dựa trên Ultralytics YOLOv8 bằng cách tinh chỉnh các lớp backbone và trích xuất đặc trưng. Nó giảm FLOPs, cải thiện hiệu suất tham số và mang lại mAP cao hơn trong khi vẫn duy trì hiệu suất thời gian thực mạnh mẽ. Đối với các tác vụ pose, điều này có nghĩa là độ chính xác keypoint tốt hơn với kiến trúc nhẹ hơn.
YOLO26-pose tiếp tục quá trình đó với một sự chuyển đổi kiến trúc cơ bản hơn. Nói một cách đơn giản, YOLO11 đã tinh chỉnh hiệu suất và độ chính xác của YOLOv8, và YOLO26 xây dựng trên nền tảng đó với các cập nhật về kiến trúc và huấn luyện nhằm đạt được sự hội tụ nhanh hơn, inference ổn định hơn và cải thiện độ chính xác pose trong các kịch bản phức tạp.
Link to this sectionTại sao bạn nên bắt đầu sử dụng model YOLO26 cho pose estimation?#
Khi bạn khám phá sự khác biệt giữa các model Ultralytics YOLO, bạn có thể tự hỏi liệu có nên chuyển sang YOLO26-pose hay không.
Câu trả lời ngắn gọn là đây là một bản nâng cấp dễ dàng. Nếu bạn đã sử dụng Ultralytics YOLOv8-pose hoặc Ultralytics YOLO11-pose, việc chuyển sang YOLO26-pose thường chỉ đơn giản là thay đổi phiên bản model, không cần phải xây dựng lại pipeline của bạn.
Bạn có thể hưởng lợi từ sự hỗ trợ tốt hơn cho các keypoint không phải của con người, hội tụ nhanh hơn trong quá trình huấn luyện và xử lý các điểm bị che khuất tốt hơn, tất cả trong khi vẫn ở trong cùng khung làm việc Ultralytics. Đối với hầu hết các dự án pose mới và hiện có, việc chuyển sang YOLO26-pose là cách đơn giản nhất để đạt được những cải tiến đó với ít khó khăn nhất.
Ngoài ra, YOLO26-pose được hỗ trợ đầy đủ trong Ultralytics Python package, được xây dựng trên PyTorch và giúp việc huấn luyện, xác thực và triển khai trở nên đơn giản. Các model có thể được xuất sang các định dạng như ONNX, TensorRT, OpenVINO, CoreML và TFLite, giúp dễ dàng triển khai trên GPU, CPU và các thiết bị edge mà không cần thay đổi quy trình làm việc tổng thể của bạn.
Link to this sectionCác điểm chính cần lưu ý#
Ultralytics YOLO26-pose làm cho pose estimation trở nên linh hoạt và đáng tin cậy hơn, đặc biệt khi làm việc với các keypoint không phải của con người hoặc các cảnh phức tạp. Nó huấn luyện nhanh hơn, xử lý che khuất tốt hơn và mang lại kết quả nhất quán hơn trên các tập dữ liệu khác nhau. Đối với các nhóm đã sử dụng các model Ultralytics YOLO pose, YOLO26 mang đến những cải tiến rõ ràng mà không làm thay đổi quy trình làm việc hiện tại.
Bạn muốn biết thêm về AI? Hãy xem cộng đồng và kho lưu trữ GitHub của chúng tôi. Khám phá các trang giải pháp của chúng tôi để tìm hiểu về AI trong robot và thị giác máy tính trong nông nghiệp. Khám phá các tùy chọn cấp phép của chúng tôi và bắt đầu xây dựng với thị giác máy tính ngay hôm nay!






