Tất cả những gì bạn cần biết về nhiệm vụ thị giác máy tính

Tìm hiểu cách thức hoạt động của các tác vụ thị giác máy tính như theo dõi đối tượng, phân đoạn thể hiện và phân loại hình ảnh và cách Ultralytics YOLO11 hỗ trợ họ.

Viết bởi

Abirami Vina

phút đọc

Ngày 16 tháng 4 năm 2025

Nhiệm vụ thị giác máy tính là gì?

Tổng quan về các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11

YOLO11 hỗ trợ phân loại hình ảnh

YOLO11 khả năng phát hiện đối tượng của

Sử dụng YOLO11 ví dụ như phân đoạn

Theo dõi đối tượng: Theo dõi các đối tượng trên các khung hình với YOLO11

Phát hiện các hộp giới hạn định hướng (OBB) bằng cách sử dụng YOLO11

Ước tính tư thế và YOLO11 : Theo dõi các điểm chính

Khám phá cách YOLO11 hỗ trợ nhiều tác vụ thị giác máy tính khác nhau

Những điểm chính

Nhờ có máy ảnh và những tiến bộ trong trí tuệ nhân tạo (AI), máy tính và máy móc hiện có thể nhìn thế giới theo cách tương tự như con người. Ví dụ, chúng có thể nhận dạng con người, theo dõi các vật thể và thậm chí hiểu được bối cảnh của những gì đang diễn ra trong video.

Cụ thể, thị giác máy tính là nhánh của AI cho phép máy móc hiểu và diễn giải thông tin trực quan từ thế giới xung quanh chúng. Thị giác máy tính bao gồm nhiều tác vụ khác nhau, mỗi tác vụ được thiết kế để trích xuất một loại thông tin chi tiết cụ thể từ hình ảnh hoặc video. Ví dụ, phát hiện đối tượng giúp xác định và định vị các mục khác nhau trong một bức ảnh, trong khi các tác vụ khác như theo dõi, phân đoạn và ước tính tư thế giúp máy móc hiểu chuyển động, hình dạng và vị trí chính xác hơn.

Nhiệm vụ thị giác máy tính được sử dụng cho một ứng dụng cụ thể phụ thuộc vào loại thông tin chi tiết bạn cần. Các mô hình thị giác máy tính như Ultralytics YOLO11 hỗ trợ nhiều nhiệm vụ thị giác máy tính khác nhau, khiến nó trở thành lựa chọn đáng tin cậy để xây dựng các hệ thống AI thị giác trong thế giới thực.

Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn các tác vụ thị giác máy tính được hỗ trợ bởi các mô hình như YOLO11 . Chúng ta sẽ khám phá cách thức hoạt động của từng nhiệm vụ và cách chúng được sử dụng trong các ngành công nghiệp khác nhau. Hãy bắt đầu nào!

Nhiệm vụ thị giác máy tính là gì?

Nhiệm vụ thị giác máy tính nhằm mục đích sao chép khả năng thị giác của con người theo nhiều cách khác nhau. Các nhiệm vụ này có thể giúp máy móc phát hiện vật thể, theo dõi chuyển động của chúng, ước tính tư thế và thậm chí phác thảo các thành phần riêng lẻ trong hình ảnh và video. Thông thường, các nhiệm vụ thị giác máy tính được kích hoạt bởi các mô hình chia dữ liệu trực quan thành các phần nhỏ hơn để chúng có thể diễn giải những gì đang diễn ra rõ ràng hơn.

Các mô hình AI tầm nhìn như Ultralytics YOLO các mô hình hỗ trợ nhiều tác vụ, chẳng hạn như phát hiện, theo dõi và phân đoạn, trong một khuôn khổ. Do tính linh hoạt này, YOLO11 các mô hình dễ dàng áp dụng cho nhiều trường hợp sử dụng khác nhau.

Hình 1. Nhiệm vụ thị giác máy tính được hỗ trợ bởi YOLO11 .

‍

Một ví dụ điển hình về điều này là trong phân tích thể thao. YOLO11 có thể được sử dụng để phát hiện từng cầu thủ trên sân bằng cách phát hiện vật thể, sau đó có thể theo dõi họ trong suốt trận đấu bằng cách theo dõi vật thể. Trong khi đó, YOLO11 Khả năng ước tính tư thế có thể giúp phân tích chuyển động và kỹ thuật của người chơi, và phân đoạn trường hợp có thể tách từng người chơi khỏi nền, tăng thêm độ chính xác cho quá trình phân tích.

Cùng nhau, những YOLO11 - Các tác vụ thị giác máy tính được kích hoạt tạo ra bức tranh toàn cảnh về những gì đang diễn ra trong trò chơi, giúp các đội hiểu sâu hơn về hiệu suất, chiến thuật và chiến lược chung của người chơi.

Tổng quan về các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11

Bây giờ chúng ta đã xem xét các nhiệm vụ thị giác máy tính là gì, hãy cùng tìm hiểu sâu hơn về từng nhiệm vụ được hỗ trợ bởi YOLO11 chi tiết hơn bằng cách sử dụng các ví dụ thực tế.

YOLO11 hỗ trợ phân loại hình ảnh

Khi bạn nhìn vào một bức ảnh, hầu hết mọi người có thể dễ dàng biết được liệu nó có hiển thị một con chó, một ngọn núi hay một biển báo giao thông hay không vì chúng ta đều đã biết những thứ này thường trông như thế nào. Phân loại hình ảnh giúp máy móc thực hiện điều tương tự bằng cách dạy chúng cách phân loại và dán nhãn một hình ảnh dựa trên đối tượng chính của nó - cho dù đó là "ô tô", "quả chuối" hay "ảnh chụp X-quang có gãy xương". Nhãn này giúp các hệ thống thị giác máy tính hiểu được nội dung hình ảnh để chúng có thể phản hồi hoặc đưa ra quyết định phù hợp.

Một ứng dụng thú vị của nhiệm vụ thị giác máy tính này là giám sát động vật hoang dã. Phân loại hình ảnh có thể được sử dụng để xác định các loài động vật khác nhau từ các bức ảnh chụp trong tự nhiên. Bằng cách tự động dán nhãn hình ảnh, các nhà nghiên cứu có thể theo dõi quần thể, giám sát các mô hình di cư và xác định các loài có nguy cơ tuyệt chủng dễ dàng hơn để hỗ trợ các nỗ lực bảo tồn.

Hình 2. Một ví dụ về việc sử dụng YOLO11 để phân loại hình ảnh.

‍

YOLO11 khả năng phát hiện đối tượng của

Trong khi phân loại hình ảnh hữu ích để có được ý tưởng tổng thể về nội dung của hình ảnh, nó chỉ gán một nhãn cho toàn bộ hình ảnh. Trong những tình huống cần thông tin chi tiết, chẳng hạn như vị trí chính xác và danh tính của nhiều đối tượng, thì phát hiện đối tượng trở nên cần thiết.

Phát hiện đối tượng là quá trình xác định và định vị các đối tượng riêng lẻ trong một hình ảnh, thường bằng cách vẽ các hộp giới hạn xung quanh chúng. Ultralytics YOLO11 có hiệu suất đặc biệt tốt khi phát hiện đối tượng theo thời gian thực, khiến nó trở nên lý tưởng cho nhiều ứng dụng khác nhau.

Ví dụ, hãy lấy các giải pháp thị giác máy tính được sử dụng trong các cửa hàng bán lẻ để sắp xếp hàng lên kệ. Phát hiện đối tượng có thể giúp đếm trái cây, rau và các mặt hàng khác, đảm bảo kiểm kê chính xác. Trong các cánh đồng nông nghiệp, công nghệ tương tự có thể theo dõi độ chín của cây trồng để giúp nông dân xác định thời điểm thu hoạch tốt nhất, thậm chí phân biệt được sản phẩm chín và chưa chín.

Hình 3. Phát hiện trái cây bằng cách sử dụng Ultralytics YOLO11 .

‍

Sử dụng YOLO11 ví dụ như phân đoạn

Phát hiện đối tượng sử dụng các hộp giới hạn để xác định và định vị các đối tượng trong hình ảnh, nhưng không nắm bắt được hình dạng chính xác của chúng. Đó là lúc phân đoạn thể hiện phát huy tác dụng. Thay vì vẽ một hộp xung quanh một đối tượng, phân đoạn thể hiện theo dõi đường viền chính xác của đối tượng đó.

Bạn có thể nghĩ về nó như thế này: thay vì chỉ đơn giản chỉ ra rằng "có một quả táo trong khu vực này", nó sẽ phác thảo và tô màu cẩn thận hình dạng chính xác của quả táo. Quá trình chi tiết này giúp các hệ thống AI hiểu rõ ranh giới của một đối tượng, đặc biệt là khi các đối tượng ở gần nhau.

Phân đoạn trường hợp có thể được áp dụng cho nhiều ứng dụng, từ kiểm tra cơ sở hạ tầng đến khảo sát địa chất. Ví dụ, dữ liệu từ các cuộc khảo sát địa chất có thể được phân tích bằng cách sử dụng YOLO11 để phân đoạn cả vết nứt hoặc bất thường trên bề mặt lớn và nhỏ. Bằng cách vẽ ranh giới chính xác xung quanh các bất thường này, các kỹ sư có thể xác định chính xác các vấn đề và giải quyết chúng trước khi dự án bắt đầu.

Hình 4. YOLO11 -kích hoạt phân đoạn vết nứt.

‍

Theo dõi đối tượng: Theo dõi các đối tượng trên các khung hình với YOLO11

Cho đến nay, các tác vụ thị giác máy tính mà chúng ta đã xem xét tập trung vào những gì có trong một hình ảnh duy nhất. Tuy nhiên, khi nói đến video, chúng ta cần những hiểu biết sâu sắc vượt ra ngoài một khung hình. Nhiệm vụ theo dõi đối tượng có thể được sử dụng cho mục đích này.

YOLO11 Khả năng theo dõi đối tượng có thể theo dõi một đối tượng cụ thể, như một người hoặc một chiếc xe, khi nó di chuyển qua một loạt các khung hình video. Ngay cả khi góc máy ảnh thay đổi hoặc các đối tượng khác xuất hiện, hệ thống vẫn tiếp tục theo dõi cùng một mục tiêu.

Điều này rất quan trọng đối với các ứng dụng cần theo dõi theo thời gian, chẳng hạn như theo dõi ô tô trong giao thông. Trên thực tế, YOLO11 có thể theo dõi chính xác các phương tiện, theo dõi từng xe để giúp ước tính tốc độ của chúng theo thời gian thực. Điều này làm cho việc theo dõi đối tượng trở thành một thành phần quan trọng trong các hệ thống như giám sát giao thông.

Hình 5. YOLO11 Sự hỗ trợ của 's cho việc theo dõi đối tượng có thể được sử dụng để ước tính tốc độ.

‍

Phát hiện các hộp giới hạn định hướng (OBB) bằng cách sử dụng YOLO11

Các vật thể trong thế giới thực không phải lúc nào cũng được căn chỉnh hoàn hảo - chúng có thể bị nghiêng, nghiêng sang một bên hoặc được định vị ở các góc kỳ lạ. Ví dụ, trong hình ảnh vệ tinh, tàu thuyền và tòa nhà thường xuất hiện bị xoay.

Các phương pháp phát hiện vật thể truyền thống sử dụng các hộp hình chữ nhật cố định không điều chỉnh theo hướng của vật thể, khiến việc nắm bắt chính xác các hình dạng xoay này trở nên khó khăn. Phát hiện hộp giới hạn định hướng (OBB) giải quyết vấn đề này bằng cách sử dụng các hộp xoay để vừa khít xung quanh vật thể, căn chỉnh theo góc của vật thể để phát hiện chính xác hơn.

Về việc giám sát bến cảng, YOLO11 Hỗ trợ phát hiện OBB có thể giúp xác định và theo dõi chính xác các tàu bất kể hướng của chúng, đảm bảo mọi tàu ra vào cảng đều được giám sát đúng cách. Phát hiện chính xác này cung cấp thông tin thời gian thực về vị trí và chuyển động của tàu, điều này rất quan trọng để quản lý các cảng đông đúc và ngăn ngừa va chạm.

Hình 6. Phát hiện thuyền bằng cách sử dụng phát hiện OBB và YOLO11 .

‍

Ước tính tư thế và YOLO11 : Theo dõi các điểm chính

Pose estimate là một kỹ thuật thị giác máy tính theo dõi các điểm chính, chẳng hạn như khớp, chân tay hoặc các dấu hiệu khác, để hiểu cách một vật thể di chuyển. Thay vì coi toàn bộ vật thể hoặc cơ thể là một đơn vị hoàn chỉnh, phương pháp này chia nhỏ nó thành các phần chính. Điều này giúp có thể phân tích các chuyển động, cử chỉ và tương tác một cách chi tiết.

Một ứng dụng phổ biến của công nghệ này là ước tính tư thế của con người. Bằng cách theo dõi vị trí của các bộ phận cơ thể khác nhau theo thời gian thực, nó cung cấp một bức tranh rõ ràng về cách một người đang di chuyển. Thông tin này có thể được sử dụng cho nhiều mục đích khác nhau, từ nhận dạng cử chỉ và theo dõi hoạt động đến phân tích hiệu suất trong thể thao.

Tương tự như vậy, trong phục hồi chức năng vật lý, các nhà trị liệu có thể sử dụng ước tính tư thế của con người và YOLO11 để theo dõi chuyển động của bệnh nhân trong khi tập thể dục. Điều này giúp đảm bảo rằng mỗi chuyển động được thực hiện chính xác trong khi theo dõi tiến trình theo thời gian.

Hình 7. YOLO11 có thể theo dõi quá trình tập luyện bằng cách ước tính tư thế.

‍

Khám phá cách YOLO11 hỗ trợ nhiều tác vụ thị giác máy tính khác nhau

Bây giờ chúng ta đã khám phá tất cả các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11 chi tiết, chúng ta hãy cùng tìm hiểu cách YOLO11 hỗ trợ họ.

YOLO11 không chỉ là một mô hình - mà là một bộ các biến thể mô hình chuyên biệt, mỗi biến thể được thiết kế cho một nhiệm vụ thị giác máy tính cụ thể. Điều này làm cho YOLO11 một công cụ đa năng có thể thích ứng với nhiều ứng dụng khác nhau. Bạn cũng có thể tinh chỉnh các mô hình này trên các tập dữ liệu tùy chỉnh để giải quyết những thách thức riêng biệt của dự án.

Sau đây là các biến thể mô hình YOLO11 được đào tạo trước cho các nhiệm vụ thị giác cụ thể:

YOLO11 : Mô hình này phát hiện và dán nhãn nhiều đối tượng theo thời gian thực, lý tưởng cho việc nhận dạng hình ảnh tốc độ cao.
YOLO11 -seg : Biến thể này tập trung vào phân đoạn bằng cách sử dụng mặt nạ chi tiết để tách các đối tượng khỏi nền của chúng.
YOLO11 -obb : Mô hình này được thiết kế để phát hiện các vật thể bị xoay bằng cách vẽ các hộp giới hạn thẳng hàng với hướng của từng vật thể.
YOLO11 -cls : Biến thể này phân loại hình ảnh bằng cách gán một nhãn danh mục duy nhất dựa trên nội dung tổng thể.
YOLO11 -pose : Mô hình này ước tính các điểm chính trên cơ thể để theo dõi tư thế, vị trí chân tay và chuyển động.

Mỗi phiên bản đều có nhiều kích cỡ khác nhau, cho phép người dùng lựa chọn sự cân bằng phù hợp giữa tốc độ và độ chính xác cho nhu cầu cụ thể của mình.

Những điểm chính

Nhiệm vụ thị giác máy tính đang thay đổi cách máy móc hiểu và tương tác với thế giới. Bằng cách chia nhỏ hình ảnh và video thành các yếu tố chính, các công nghệ này giúp phân tích các đối tượng, chuyển động và tương tác chi tiết dễ dàng hơn.

Từ việc cải thiện an toàn giao thông và hiệu suất thể thao đến hợp lý hóa các quy trình công nghiệp, các mô hình như YOLO11 có thể cung cấp thông tin chi tiết theo thời gian thực thúc đẩy sự đổi mới. Khi Vision AI tiếp tục phát triển, nó có thể sẽ đóng vai trò ngày càng quan trọng trong cách chúng ta diễn giải và sử dụng dữ liệu trực quan hàng ngày.

Tham gia cộng đồng của chúng tôi và truy cập kho lưu trữ GitHub của chúng tôi để xem AI hoạt động. Khám phá các tùy chọn cấp phép của chúng tôi và tìm hiểu thêm về AI trong nông nghiệp và thị giác máy tính trong sản xuất trên các trang giải pháp của chúng tôi.

Tất cả những gì bạn cần biết về nhiệm vụ thị giác máy tính

Nhiệm vụ thị giác máy tính là gì?