Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả cookie”, bạn đồng ý lưu trữ cookie trên thiết bị của mình để cải thiện khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thông tin thêm
Tìm hiểu cách thức hoạt động của các tác vụ thị giác máy tính như theo dõi đối tượng, phân đoạn thể hiện và phân loại hình ảnh cũng như cách Ultralytics YOLO11 hỗ trợ chúng.
Nhờ có máy ảnh và những tiến bộ trong trí tuệ nhân tạo (AI), máy tính và máy móc hiện có thể nhìn thế giới theo cách tương tự như con người. Ví dụ, chúng có thể nhận dạng con người, theo dõi các vật thể và thậm chí hiểu được bối cảnh của những gì đang diễn ra trong video.
Cụ thể, thị giác máy tính là nhánh của AI cho phép máy móc hiểu và diễn giải thông tin trực quan từ thế giới xung quanh chúng. Thị giác máy tính bao gồm nhiều tác vụ khác nhau, mỗi tác vụ được thiết kế để trích xuất một loại thông tin chi tiết cụ thể từ hình ảnh hoặc video. Ví dụ, phát hiện đối tượng giúp xác định và định vị các mục khác nhau trong một bức ảnh, trong khi các tác vụ khác như theo dõi, phân đoạn và ước tính tư thế giúp máy móc hiểu chuyển động, hình dạng và vị trí chính xác hơn.
Nhiệm vụ thị giác máy tính được sử dụng cho một ứng dụng cụ thể phụ thuộc vào loại thông tin chi tiết bạn cần. Các mô hình thị giác máy tính như Ultralytics YOLO11 hỗ trợ nhiều nhiệm vụ thị giác máy tính khác nhau, khiến nó trở thành lựa chọn đáng tin cậy để xây dựng các hệ thống AI thị giác trong thế giới thực.
Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn các tác vụ thị giác máy tính được hỗ trợ bởi các mô hình như YOLO11. Chúng ta sẽ khám phá cách thức hoạt động của từng tác vụ và cách chúng được sử dụng trong các ngành công nghiệp khác nhau. Hãy bắt đầu nào!
Nhiệm vụ thị giác máy tính là gì?
Nhiệm vụ thị giác máy tính nhằm mục đích sao chép khả năng thị giác của con người theo nhiều cách khác nhau. Các nhiệm vụ này có thể giúp máy móc phát hiện vật thể, theo dõi chuyển động của chúng, ước tính tư thế và thậm chí phác thảo các thành phần riêng lẻ trong hình ảnh và video. Thông thường, các nhiệm vụ thị giác máy tính được kích hoạt bởi các mô hình chia dữ liệu trực quan thành các phần nhỏ hơn để chúng có thể diễn giải những gì đang diễn ra rõ ràng hơn.
Các mô hình AI về thị giác như mô hình YOLO của Ultralytics hỗ trợ nhiều tác vụ, chẳng hạn như phát hiện, theo dõi và phân đoạn, trong một khuôn khổ. Do tính linh hoạt này, các mô hình YOLO11 dễ dàng áp dụng cho nhiều trường hợp sử dụng khác nhau.
Hình 1. Nhiệm vụ thị giác máy tính được hỗ trợ bởi YOLO11.
Một ví dụ điển hình về điều này là trong phân tích thể thao. YOLO11 có thể được sử dụng để phát hiện từng cầu thủ trên sân bằng cách phát hiện đối tượng, sau đó có thể theo dõi họ trong suốt trận đấu bằng cách theo dõi đối tượng. Trong khi đó, khả năng ước tính tư thế của YOLO11 có thể giúp phân tích chuyển động và kỹ thuật của cầu thủ, và phân đoạn trường hợp có thể tách từng cầu thủ khỏi bối cảnh, tăng độ chính xác cho phân tích.
Cùng nhau, các tác vụ thị giác máy tính hỗ trợ YOLO11 này tạo ra bức tranh toàn cảnh về những gì đang diễn ra trong trò chơi, giúp các đội hiểu sâu hơn về hiệu suất, chiến thuật và chiến lược chung của người chơi.
Tổng quan về các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11
Bây giờ chúng ta đã tìm hiểu nhiệm vụ thị giác máy tính là gì, hãy cùng tìm hiểu sâu hơn về từng nhiệm vụ được YOLO11 hỗ trợ thông qua các ví dụ thực tế.
Hỗ trợ phân loại hình ảnh của YOLO11
Khi bạn nhìn vào một bức ảnh, hầu hết mọi người có thể dễ dàng biết được liệu nó có hiển thị một con chó, một ngọn núi hay một biển báo giao thông hay không vì chúng ta đều đã biết những thứ này thường trông như thế nào. Phân loại hình ảnh giúp máy móc thực hiện điều tương tự bằng cách dạy chúng cách phân loại và dán nhãn một hình ảnh dựa trên đối tượng chính của nó - cho dù đó là "ô tô", "quả chuối" hay "ảnh chụp X-quang có gãy xương". Nhãn này giúp các hệ thống thị giác máy tính hiểu được nội dung hình ảnh để chúng có thể phản hồi hoặc đưa ra quyết định phù hợp.
Một ứng dụng thú vị của nhiệm vụ thị giác máy tính này là giám sát động vật hoang dã. Phân loại hình ảnh có thể được sử dụng để xác định các loài động vật khác nhau từ các bức ảnh chụp trong tự nhiên. Bằng cách tự động dán nhãn hình ảnh, các nhà nghiên cứu có thể theo dõi quần thể, giám sát các mô hình di cư và xác định các loài có nguy cơ tuyệt chủng dễ dàng hơn để hỗ trợ các nỗ lực bảo tồn.
Hình 2. Ví dụ về việc sử dụng YOLO11 để phân loại hình ảnh.
Khả năng phát hiện đối tượng của YOLO11
Trong khi phân loại hình ảnh hữu ích để có được ý tưởng tổng thể về nội dung của hình ảnh, nó chỉ gán một nhãn cho toàn bộ hình ảnh. Trong những tình huống cần thông tin chi tiết, chẳng hạn như vị trí chính xác và danh tính của nhiều đối tượng, thì phát hiện đối tượng trở nên cần thiết.
Phát hiện đối tượng là quá trình xác định và định vị các đối tượng riêng lẻ trong một hình ảnh, thường bằng cách vẽ các hộp giới hạn xung quanh chúng. Ultralytics YOLO11 hoạt động đặc biệt tốt trong việc phát hiện đối tượng theo thời gian thực, khiến nó trở nên lý tưởng cho nhiều ứng dụng.
Ví dụ, hãy lấy các giải pháp thị giác máy tính được sử dụng trong các cửa hàng bán lẻ để sắp xếp hàng lên kệ. Phát hiện đối tượng có thể giúp đếm trái cây, rau và các mặt hàng khác, đảm bảo kiểm kê chính xác. Trong các cánh đồng nông nghiệp, công nghệ tương tự có thể theo dõi độ chín của cây trồng để giúp nông dân xác định thời điểm thu hoạch tốt nhất, thậm chí phân biệt được sản phẩm chín và chưa chín.
Hình 3. Phát hiện trái cây bằng Ultralytics YOLO11.
Sử dụng YOLO11 để phân đoạn ví dụ
Phát hiện đối tượng sử dụng các hộp giới hạn để xác định và định vị các đối tượng trong hình ảnh, nhưng không nắm bắt được hình dạng chính xác của chúng. Đó là lúc phân đoạn thể hiện phát huy tác dụng. Thay vì vẽ một hộp xung quanh một đối tượng, phân đoạn thể hiện theo dõi đường viền chính xác của đối tượng đó.
Bạn có thể nghĩ về nó như thế này: thay vì chỉ đơn giản chỉ ra rằng "có một quả táo trong khu vực này", nó sẽ phác thảo và tô màu cẩn thận hình dạng chính xác của quả táo. Quá trình chi tiết này giúp các hệ thống AI hiểu rõ ranh giới của một đối tượng, đặc biệt là khi các đối tượng ở gần nhau.
Phân đoạn thể hiện có thể được áp dụng cho nhiều ứng dụng, từ kiểm tra cơ sở hạ tầng đến khảo sát địa chất. Ví dụ, dữ liệu từ các cuộc khảo sát địa chất có thể được phân tích bằng YOLO11 để phân đoạn cả vết nứt bề mặt lớn và nhỏ hoặc bất thường. Bằng cách vẽ ranh giới chính xác xung quanh các bất thường này, các kỹ sư có thể xác định chính xác các vấn đề và giải quyết chúng trước khi dự án bắt đầu.
Hình 4. Phân đoạn vết nứt được hỗ trợ bởi YOLO11.
Theo dõi đối tượng: Theo dõi đối tượng trên các khung hình với YOLO11
Cho đến nay, các tác vụ thị giác máy tính mà chúng ta đã xem xét tập trung vào những gì có trong một hình ảnh duy nhất. Tuy nhiên, khi nói đến video, chúng ta cần những hiểu biết sâu sắc vượt ra ngoài một khung hình. Nhiệm vụ theo dõi đối tượng có thể được sử dụng cho mục đích này.
Khả năng theo dõi đối tượng của YOLO11 có thể theo dõi một đối tượng cụ thể, như một người hoặc một chiếc xe, khi nó di chuyển qua một loạt các khung hình video. Ngay cả khi góc máy ảnh thay đổi hoặc các đối tượng khác xuất hiện, hệ thống vẫn tiếp tục theo dõi cùng một mục tiêu.
Điều này rất quan trọng đối với các ứng dụng cần theo dõi theo thời gian, chẳng hạn như theo dõi ô tô trong giao thông. Trên thực tế, YOLO11 có thể theo dõi chính xác các phương tiện, theo dõi từng ô tô để giúp ước tính tốc độ của chúng theo thời gian thực. Điều này làm cho việc theo dõi đối tượng trở thành một thành phần quan trọng trong các hệ thống như giám sát giao thông.
Hình 5. Khả năng theo dõi đối tượng của YOLO11 có thể được sử dụng để ước tính tốc độ.
Phát hiện các hộp giới hạn định hướng (OBB) bằng cách sử dụng YOLO11
Các vật thể trong thế giới thực không phải lúc nào cũng được căn chỉnh hoàn hảo - chúng có thể bị nghiêng, nghiêng sang một bên hoặc được định vị ở các góc kỳ lạ. Ví dụ, trong hình ảnh vệ tinh, tàu thuyền và tòa nhà thường xuất hiện bị xoay.
Các phương pháp phát hiện vật thể truyền thống sử dụng các hộp hình chữ nhật cố định không điều chỉnh theo hướng của vật thể, khiến việc nắm bắt chính xác các hình dạng xoay này trở nên khó khăn. Phát hiện hộp giới hạn định hướng (OBB) giải quyết vấn đề này bằng cách sử dụng các hộp xoay để vừa khít xung quanh vật thể, căn chỉnh theo góc của vật thể để phát hiện chính xác hơn.
Về giám sát bến cảng, hỗ trợ phát hiện OBB của YOLO11 có thể giúp xác định và theo dõi chính xác các tàu bất kể hướng của chúng, đảm bảo rằng mọi tàu vào hoặc rời bến cảng đều được giám sát đúng cách. Phát hiện chính xác này cung cấp thông tin thời gian thực về vị trí và chuyển động của tàu, điều này rất quan trọng để quản lý các cảng đông đúc và ngăn ngừa va chạm.
Hình 6. Phát hiện thuyền bằng cách sử dụng phát hiện OBB và YOLO11.
Ước tính tư thế và YOLO11: Theo dõi các điểm chính
Pose estimate là một kỹ thuật thị giác máy tính theo dõi các điểm chính, chẳng hạn như khớp, chân tay hoặc các dấu hiệu khác, để hiểu cách một vật thể di chuyển. Thay vì coi toàn bộ vật thể hoặc cơ thể là một đơn vị hoàn chỉnh, phương pháp này chia nhỏ nó thành các phần chính. Điều này giúp có thể phân tích các chuyển động, cử chỉ và tương tác một cách chi tiết.
Một ứng dụng phổ biến của công nghệ này là ước tính tư thế của con người. Bằng cách theo dõi vị trí của các bộ phận cơ thể khác nhau theo thời gian thực, nó cung cấp một bức tranh rõ ràng về cách một người đang di chuyển. Thông tin này có thể được sử dụng cho nhiều mục đích khác nhau, từ nhận dạng cử chỉ và theo dõi hoạt động đến phân tích hiệu suất trong thể thao.
Tương tự như vậy, trong phục hồi chức năng vật lý, các nhà trị liệu có thể sử dụng ước tính tư thế con người và YOLO11 để theo dõi chuyển động của bệnh nhân trong khi tập thể dục. Điều này giúp đảm bảo rằng mỗi chuyển động được thực hiện chính xác trong khi theo dõi tiến trình theo thời gian.
Hình 7. YOLO11 có thể theo dõi quá trình tập luyện bằng cách ước tính tư thế.
Khám phá cách YOLO11 hỗ trợ nhiều tác vụ thị giác máy tính khác nhau
Bây giờ chúng ta đã khám phá chi tiết tất cả các tác vụ thị giác máy tính được YOLO11 hỗ trợ, hãy cùng tìm hiểu cách YOLO11 hỗ trợ chúng.
YOLO11 không chỉ là một mô hình - mà là một bộ các biến thể mô hình chuyên biệt, mỗi biến thể được thiết kế cho một tác vụ thị giác máy tính cụ thể. Điều này làm cho YOLO11 trở thành một công cụ đa năng có thể được điều chỉnh cho nhiều ứng dụng khác nhau. Bạn cũng có thể tinh chỉnh các mô hình này trên các tập dữ liệu tùy chỉnh để giải quyết các thách thức riêng biệt của dự án.
YOLO11 : Mô hình này phát hiện và dán nhãn nhiều đối tượng theo thời gian thực, lý tưởng cho việc nhận dạng hình ảnh tốc độ cao.
YOLO11-seg : Biến thể này tập trung vào phân đoạn bằng cách sử dụng mặt nạ chi tiết để tách các đối tượng khỏi nền của chúng.
YOLO11-obb : Mô hình này được thiết kế để phát hiện các vật thể bị xoay bằng cách vẽ các hộp giới hạn thẳng hàng với hướng của từng vật thể.
YOLO11-cls : Biến thể này phân loại hình ảnh bằng cách gán một nhãn danh mục duy nhất dựa trên nội dung tổng thể.
YOLO11-pose : Mô hình này ước tính các điểm chính trên cơ thể để theo dõi tư thế, vị trí chân tay và chuyển động.
Mỗi phiên bản đều có nhiều kích cỡ khác nhau, cho phép người dùng lựa chọn sự cân bằng phù hợp giữa tốc độ và độ chính xác cho nhu cầu cụ thể của mình.
Những điểm chính
Nhiệm vụ thị giác máy tính đang thay đổi cách máy móc hiểu và tương tác với thế giới. Bằng cách chia nhỏ hình ảnh và video thành các yếu tố chính, các công nghệ này giúp phân tích các đối tượng, chuyển động và tương tác chi tiết dễ dàng hơn.
Từ việc cải thiện an toàn giao thông và hiệu suất thể thao đến hợp lý hóa các quy trình công nghiệp, các mô hình như YOLO11 có thể cung cấp thông tin chi tiết theo thời gian thực thúc đẩy sự đổi mới. Khi Vision AI tiếp tục phát triển, nó có thể sẽ đóng vai trò ngày càng quan trọng trong cách chúng ta diễn giải và sử dụng dữ liệu trực quan hàng ngày.