Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Hướng dẫn

Tất cả những điều bạn cần biết về các tác vụ computer vision

Tìm hiểu cách thức hoạt động của các tác vụ computer vision như theo dõi đối tượng, instance segmentation và phân loại hình ảnh và cách Ultralytics YOLO11 hỗ trợ các tác vụ đó.

ABAbirami Vina
4 min read
Các tác vụ computer vision được hỗ trợ bởi Ultralytics YOLO11

Nhờ vào camera và những tiến bộ trong trí tuệ nhân tạo (AI), máy tính và máy móc hiện nay có khả năng nhìn thế giới theo cách tương tự như con người. Ví dụ, chúng có thể nhận diện con người, theo dõi đối tượng và thậm chí hiểu được ngữ cảnh của những gì đang diễn ra trong video.

Cụ thể, computer vision là nhánh của AI cho phép máy móc hiểu và diễn giải thông tin thị giác từ thế giới xung quanh chúng. Thị giác máy tính bao gồm nhiều tác vụ đa dạng, mỗi tác vụ được thiết kế để trích xuất một loại thông tin chi tiết cụ thể từ hình ảnh hoặc video. Ví dụ, object detection giúp xác định và định vị các mục khác nhau trong một bức ảnh, trong khi các tác vụ khác như tracking, segmentation và pose estimation giúp máy móc hiểu chuyển động, hình dạng và vị trí chính xác hơn.

computer vision task được sử dụng cho một ứng dụng cụ thể phụ thuộc vào loại thông tin chi tiết mà bạn cần. Các model thị giác máy tính như Ultralytics YOLO11 hỗ trợ nhiều tác vụ thị giác máy tính khác nhau, biến chúng thành lựa chọn đáng tin cậy để xây dựng các hệ thống Vision AI trong thực tế.

Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn các tác vụ thị giác máy tính được hỗ trợ bởi các model như YOLO11. Chúng ta sẽ khám phá cách thức hoạt động của từng tác vụ và cách chúng được ứng dụng trong các ngành công nghiệp khác nhau. Hãy cùng bắt đầu nào!

Link to this sectionTác vụ thị giác máy tính là gì?#

Các tác vụ thị giác máy tính nhằm mục đích tái tạo các khả năng thị giác của con người theo những cách khác nhau. Những tác vụ này có thể giúp máy móc phát hiện đối tượng, theo dõi chuyển động của chúng, ước tính tư thế và thậm chí phác thảo các phần tử riêng lẻ trong hình ảnh và video. Thông thường, các tác vụ thị giác máy tính được kích hoạt bởi các model phân tách dữ liệu thị giác thành các phần nhỏ hơn để chúng có thể diễn giải những gì đang diễn ra rõ ràng hơn.

Vision AI models như các model Ultralytics YOLO hỗ trợ nhiều tác vụ, chẳng hạn như detection, tracking và segmentation, trong cùng một framework. Nhờ sự linh hoạt này, các model YOLO11 rất dễ được áp dụng cho nhiều trường hợp sử dụng đa dạng.

Các tác vụ computer vision được YOLO11 hỗ trợ

Fig 1. Các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11.

Một ví dụ điển hình là trong phân tích thể thao. YOLO11 có thể được sử dụng để phát hiện từng cầu thủ trên sân bằng object detection, sau đó theo dõi họ trong suốt trận đấu bằng object tracking. Trong khi đó, các khả năng pose estimation của YOLO11 có thể giúp phân tích các chuyển động và kỹ thuật của cầu thủ, và instance segmentation có thể tách từng cầu thủ khỏi hậu cảnh, làm tăng độ chính xác cho việc phân tích.

Cùng với nhau, các tác vụ thị giác máy tính được kích hoạt bởi YOLO11 này tạo nên một bức tranh hoàn chỉnh về những gì đang diễn ra trong trận đấu, mang lại cho các đội những thông tin chi tiết sâu sắc hơn về hiệu suất cầu thủ, chiến thuật và chiến lược tổng thể.

Link to this sectionTổng quan về các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11#

Giờ đây, khi chúng ta đã xem xét các tác vụ thị giác máy tính là gì, hãy cùng tìm hiểu chi tiết hơn về từng tác vụ được YOLO11 hỗ trợ, sử dụng các ví dụ thực tế.

Link to this sectionHỗ trợ của YOLO11 cho image classification#

Khi nhìn vào một bức ảnh, hầu hết mọi người đều có thể dễ dàng nhận biết đó là con chó, ngọn núi hay biển báo giao thông vì tất cả chúng ta đều đã học được những thứ này trông như thế nào. Image classification giúp máy móc làm điều tương tự bằng cách dạy chúng cách phân loại và dán nhãn một hình ảnh dựa trên đối tượng chính của nó - cho dù đó là "xe hơi," "chuối," hay "phim chụp X-quang có vết nứt." Nhãn này giúp các hệ thống thị giác máy tính hiểu nội dung thị giác để chúng có thể phản hồi hoặc đưa ra quyết định phù hợp.

Một ứng dụng thú vị của tác vụ thị giác máy tính này là giám sát động vật hoang dã. Image classification có thể được sử dụng để xác định các loài động vật khác nhau từ ảnh chụp ngoài tự nhiên. Bằng cách tự động dán nhãn hình ảnh, các nhà nghiên cứu có thể theo dõi quần thể, giám sát các mô hình di cư và xác định các loài có nguy cơ tuyệt chủng dễ dàng hơn để hỗ trợ các nỗ lực bảo tồn.

Sử dụng YOLO11 để phân loại hình ảnh

Fig 2. Một ví dụ về việc sử dụng YOLO11 cho image classification.

Link to this sectionKhả năng object detection của YOLO11#

Mặc dù image classification hữu ích để có cái nhìn tổng quan về nội dung ảnh, nhưng nó chỉ gán một nhãn duy nhất cho toàn bộ hình ảnh. Trong các tình huống yêu cầu thông tin chi tiết, chẳng hạn như vị trí chính xác và danh tính của nhiều đối tượng, object detection trở nên cần thiết.

Object detection là quá trình xác định và định vị các đối tượng riêng lẻ trong một hình ảnh, thường bằng cách vẽ các bounding box xung quanh chúng. Ultralytics YOLO11 hoạt động đặc biệt hiệu quả trong việc object detection thời gian thực, khiến nó trở nên lý tưởng cho nhiều ứng dụng đa dạng.

Ví dụ, hãy xem xét các giải pháp thị giác máy tính được sử dụng trong các cửa hàng bán lẻ để xếp hàng lên kệ. Object detection có thể giúp đếm trái cây, rau củ và các mặt hàng khác, đảm bảo hàng tồn kho chính xác. Trong lĩnh vực nông nghiệp, cùng công nghệ này có thể giám sát độ chín của cây trồng để giúp nông dân xác định thời điểm thu hoạch tốt nhất, thậm chí phân biệt giữa nông sản chín và chưa chín.

Phát hiện trái cây bằng Ultralytics YOLO11

Fig 3. Phát hiện trái cây bằng Ultralytics YOLO11.

Link to this sectionSử dụng YOLO11 cho instance segmentation#

Object detection sử dụng bounding box để xác định và định vị các đối tượng trong hình ảnh, nhưng nó không nắm bắt được hình dạng chính xác của chúng. Đó là lúc instance segmentation phát huy tác dụng. Thay vì vẽ một hộp xung quanh một đối tượng, instance segmentation vạch ra đường viền chính xác của nó.

Bạn có thể hình dung thế này: thay vì chỉ chỉ ra rằng "có một quả táo ở khu vực này," nó vạch ra và lấp đầy hình dạng chính xác của quả táo một cách cẩn thận. Quá trình chi tiết này giúp các hệ thống AI hiểu rõ các ranh giới của một đối tượng, đặc biệt là khi các đối tượng ở gần nhau.

Instance segmentation có thể được áp dụng cho nhiều ứng dụng, từ kiểm tra cơ sở hạ tầng đến khảo sát địa chất. Ví dụ, dữ liệu từ các cuộc khảo sát địa chất có thể được phân tích bằng YOLO11 để segment cả các vết nứt bề mặt lớn và nhỏ hoặc các bất thường. Bằng cách vẽ các ranh giới chính xác xung quanh những điểm bất thường này, các kỹ sư có thể xác định chính xác các vấn đề và giải quyết chúng trước khi dự án bắt đầu.

Phân đoạn vết nứt được kích hoạt bằng YOLO11

Fig 4. Phân đoạn vết nứt được kích hoạt bởi YOLO11.

Link to this sectionObject tracking: Theo dõi các đối tượng qua các khung hình với YOLO11#

Cho đến nay, các tác vụ thị giác máy tính mà chúng ta đã xem xét đều tập trung vào những gì có trong một hình ảnh duy nhất. Tuy nhiên, khi nói đến video, chúng ta cần những thông tin chi tiết vượt ra ngoài một khung hình. Tác vụ object tracking có thể được sử dụng cho việc này.

Khả năng object tracking của YOLO11 có thể theo dõi một đối tượng cụ thể, như một người hoặc một chiếc xe, khi nó di chuyển qua một loạt các khung hình video. Ngay cả khi góc máy thay đổi hoặc các đối tượng khác xuất hiện, hệ thống vẫn tiếp tục theo dõi cùng một mục tiêu.

Điều này rất quan trọng đối với các ứng dụng yêu cầu giám sát theo thời gian, chẳng hạn như theo dõi xe cộ trong giao thông. Trên thực tế, YOLO11 có thể theo dõi phương tiện một cách chính xác, theo dõi từng chiếc xe để giúp ước tính tốc độ của chúng trong thời gian thực. Điều này khiến object tracking trở thành thành phần chính trong các hệ thống như giám sát giao thông.

Theo dõi đối tượng YOLO11 được sử dụng để ước tính tốc độ

Fig 5. Sự hỗ trợ của YOLO11 cho object tracking có thể được sử dụng để ước tính tốc độ.

Link to this sectionPhát hiện oriented bounding boxes (OBB) bằng YOLO11#

Các đối tượng trong thế giới thực không phải lúc nào cũng được căn chỉnh hoàn hảo - chúng có thể bị nghiêng, nằm ngang hoặc được đặt ở các góc kỳ lạ. Ví dụ, trong ảnh vệ tinh, tàu thuyền và các tòa nhà thường xuất hiện ở trạng thái xoay.

Các phương pháp object detection truyền thống sử dụng các khung hình chữ nhật cố định không điều chỉnh theo hướng của đối tượng, gây khó khăn cho việc nắm bắt chính xác các hình dạng xoay này. Oriented bounding box (OBB) detection giải quyết vấn đề này bằng cách sử dụng các hộp xoay để khớp vừa vặn xung quanh một đối tượng, căn chỉnh theo góc của nó để có khả năng phát hiện chính xác hơn.

Liên quan đến giám sát cảng, sự hỗ trợ của YOLO11 cho OBB detection có thể giúp xác định và theo dõi chính xác các tàu thuyền bất kể hướng của chúng, đảm bảo rằng mọi con tàu ra vào cảng đều được giám sát đúng cách. Việc phát hiện chính xác này cung cấp thông tin thời gian thực về vị trí và chuyển động của tàu, điều này rất quan trọng để quản lý các cảng bận rộn và tránh va chạm.

Phát hiện tàu thuyền sử dụng phát hiện OBB và YOLO11

Fig 6. Phát hiện thuyền bằng OBB detection và YOLO11.

Link to this sectionPose estimation và YOLO11: Theo dõi các điểm chính (key points)#

Pose estimation là một kỹ thuật thị giác máy tính theo dõi các điểm chính, chẳng hạn như khớp, chi hoặc các dấu hiệu khác, để hiểu cách một đối tượng chuyển động. Thay vì coi toàn bộ đối tượng hoặc cơ thể là một đơn vị hoàn chỉnh, phương pháp này chia nhỏ nó thành các phần chính. Điều này cho phép phân tích chi tiết các chuyển động, cử chỉ và tương tác.

Một ứng dụng phổ biến của công nghệ này là human pose estimation. Bằng cách theo dõi vị trí của các bộ phận cơ thể khác nhau trong thời gian thực, nó cung cấp một cái nhìn rõ ràng về cách một người đang di chuyển. Thông tin này có thể được sử dụng cho nhiều mục đích khác nhau, từ nhận diện cử chỉ và giám sát hoạt động đến phân tích hiệu suất trong thể thao.

Tương tự, trong vật lý trị liệu, các nhà trị liệu có thể sử dụng human pose estimation và YOLO11 để giám sát chuyển động của bệnh nhân trong các bài tập. Điều này giúp đảm bảo rằng mỗi chuyển động được thực hiện đúng cách trong khi vẫn theo dõi tiến trình theo thời gian.

YOLO11 theo dõi quá trình tập luyện bằng ước tính pose

Fig 7. YOLO11 có thể giám sát quá trình tập luyện bằng pose estimation.

Link to this sectionKhám phá cách YOLO11 hỗ trợ các tác vụ thị giác máy tính khác nhau#

Giờ đây, khi đã khám phá chi tiết tất cả các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11, hãy cùng tìm hiểu cách YOLO11 hỗ trợ chúng.

YOLO11 không chỉ là một model - nó là một bộ các biến thể model chuyên biệt, mỗi biến thể được thiết kế cho một tác vụ thị giác máy tính cụ thể. Điều này biến YOLO11 thành một công cụ linh hoạt có thể thích ứng với nhiều ứng dụng đa dạng. Bạn cũng có thể fine-tune các model này trên các datasets tùy chỉnh để giải quyết các thách thức độc đáo trong dự án của mình.

Dưới đây là các YOLO11 model variants được đào tạo trước cho các tác vụ thị giác cụ thể:

  • YOLO11: Model này phát hiện và dán nhãn nhiều đối tượng trong thời gian thực, khiến nó trở nên lý tưởng cho nhận diện thị giác tốc độ cao.
  • YOLO11-seg: Biến thể này tập trung vào segmentation bằng cách sử dụng các mask chi tiết để tách đối tượng khỏi hậu cảnh của chúng.
  • YOLO11-obb: Model này được thiết kế để phát hiện các đối tượng xoay bằng cách vẽ các bounding box căn chỉnh theo hướng của từng đối tượng.
  • YOLO11-cls: Biến thể này phân loại hình ảnh bằng cách gán một nhãn danh mục duy nhất dựa trên nội dung tổng thể.
  • YOLO11-pose: Model này ước tính các điểm chính trên cơ thể để theo dõi tư thế, vị trí chi và chuyển động.

Mỗi biến thể đều có sẵn ở các kích thước khác nhau, cho phép người dùng lựa chọn sự cân bằng phù hợp giữa tốc độ và độ chính xác cho nhu cầu cụ thể của họ.

Link to this sectionCác điểm chính cần lưu ý#

Các tác vụ thị giác máy tính đang thay đổi cách máy móc hiểu và tương tác với thế giới. Bằng cách chia nhỏ hình ảnh và video thành các thành phần chính, các công nghệ này giúp việc phân tích đối tượng, chuyển động và tương tác một cách chi tiết trở nên dễ dàng hơn.

Từ việc cải thiện an toàn giao thông và hiệu suất thể thao đến tối ưu hóa các quy trình công nghiệp, các model như YOLO11 có thể cung cấp những thông tin chi tiết theo thời gian thực thúc đẩy sự đổi mới. Khi Vision AI tiếp tục phát triển, nó có khả năng sẽ đóng một vai trò ngày càng quan trọng trong cách chúng ta diễn giải và sử dụng dữ liệu thị giác mỗi ngày.

Tham gia cộng đồng của chúng tôi và truy cập kho lưu trữ GitHub của chúng tôi để thấy AI hoạt động trong thực tế. Khám phá các tùy chọn cấp phép của chúng tôi và tìm hiểu thêm về AI trong nông nghiệpthị giác máy tính trong sản xuất trên các trang giải pháp của chúng tôi.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning