Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Tìm hiểu cách thức hoạt động của các tác vụ thị giác máy tính như theo dõi đối tượng, phân đoạn thể hiện và phân loại hình ảnh và cách Ultralytics YOLO11 hỗ trợ họ.
Nhờ camera và những tiến bộ trong trí tuệ nhân tạo (AI), máy tính và máy móc hiện nay có thể nhìn thế giới theo cách tương tự như con người. Ví dụ, chúng có thể nhận dạng con người, track các đối tượng và thậm chí hiểu được bối cảnh của những gì đang diễn ra trong video.
Cụ thể, thị giác máy tính là một nhánh của AI cho phép máy móc hiểu và diễn giải thông tin trực quan từ thế giới xung quanh. Thị giác máy tính bao gồm nhiều tác vụ khác nhau, mỗi tác vụ được thiết kế để trích xuất một loại thông tin chi tiết cụ thể từ hình ảnh hoặc video. Ví dụ: phát hiện đối tượng giúp xác định và định vị các mục khác nhau trong một bức tranh, trong khi các tác vụ khác như theo dõi, phân đoạn và ước tính tư thế giúp máy móc hiểu chuyển động, hình dạng và vị trí chính xác hơn.
Nhiệm vụ thị giác máy tính được sử dụng cho một ứng dụng cụ thể phụ thuộc vào loại thông tin chi tiết bạn cần. Các mô hình thị giác máy tính như Ultralytics YOLO11 hỗ trợ nhiều tác vụ thị giác máy tính khác nhau, khiến nó trở thành lựa chọn đáng tin cậy để xây dựng các hệ thống AI thị giác trong thế giới thực.
Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn các tác vụ thị giác máy tính được hỗ trợ bởi các mô hình như YOLO11 . Chúng ta sẽ khám phá cách thức hoạt động của từng nhiệm vụ và cách chúng được áp dụng trong các ngành công nghiệp khác nhau. Hãy bắt đầu thôi!
Các tác vụ computer vision là gì?
Nhiệm vụ thị giác máy tính nhằm mục đích mô phỏng khả năng thị giác của con người theo nhiều cách khác nhau. Những nhiệm vụ này có thể giúp máy móc detect các vật thể, track chuyển động, ước lượng tư thế và thậm chí phác thảo các yếu tố riêng lẻ trong hình ảnh và video. Thông thường, các tác vụ thị giác máy tính được hỗ trợ bởi các mô hình chia nhỏ dữ liệu hình ảnh thành các phần nhỏ hơn để có thể diễn giải những gì đang diễn ra rõ ràng hơn.
Các mô hình AI tầm nhìn như Ultralytics YOLO Các mô hình hỗ trợ nhiều tác vụ, chẳng hạn như phát hiện, theo dõi và phân đoạn, trong một khuôn khổ. Nhờ tính linh hoạt này, YOLO11 các mô hình dễ dàng áp dụng cho nhiều trường hợp sử dụng khác nhau.
Hình 1. Nhiệm vụ thị giác máy tính được hỗ trợ bởi YOLO11 .
Một ví dụ điển hình về điều này là trong phân tích thể thao. YOLO11 có thể được sử dụng để detect mỗi cầu thủ trên sân sử dụng tính năng phát hiện vật thể, sau đó nó có thể theo dõi họ trong suốt trận đấu bằng tính năng theo dõi vật thể. Trong khi đó, YOLO11 Khả năng ước tính tư thế có thể giúp phân tích chuyển động và kỹ thuật của người chơi, và phân đoạn trường hợp có thể tách từng người chơi khỏi nền, tăng độ chính xác cho quá trình phân tích.
Cùng nhau, những YOLO11 -Các tác vụ thị giác máy tính được kích hoạt sẽ tạo ra bức tranh hoàn chỉnh về những gì đang diễn ra trong trò chơi, giúp các đội hiểu sâu hơn về hiệu suất, chiến thuật và chiến lược tổng thể của người chơi.
Tổng quan về các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11
Bây giờ chúng ta đã xem xét các nhiệm vụ thị giác máy tính là gì, hãy cùng tìm hiểu sâu hơn về từng nhiệm vụ được hỗ trợ bởi YOLO11 chi tiết hơn, sử dụng các ví dụ thực tế.
YOLO11 hỗ trợ phân loại hình ảnh
Khi nhìn vào một bức ảnh, hầu hết mọi người đều có thể dễ dàng nhận ra đó là hình ảnh một chú chó, một ngọn núi hay một biển báo giao thông, bởi vì chúng ta đều đã biết những thứ này thường trông như thế nào. Phân loại hình ảnh giúp máy móc làm điều tương tự bằng cách dạy chúng cách classify và gắn nhãn hình ảnh dựa trên đối tượng chính của nó - có thể là "ô tô", "chuối" hoặc "ảnh chụp X-quang có vết gãy". Nhãn này giúp hệ thống thị giác máy tính hiểu được nội dung hình ảnh để có thể phản hồi hoặc đưa ra quyết định phù hợp.
Một ứng dụng thú vị của nhiệm vụ thị giác máy tính này là theo dõi động vật hoang dã. Phân loại hình ảnh có thể được sử dụng để xác định các loài động vật khác nhau từ ảnh chụp ngoài tự nhiên. Bằng cách tự động dán nhãn hình ảnh, các nhà nghiên cứu có thể track dân số, theo dõi mô hình di cư và xác định các loài có nguy cơ tuyệt chủng dễ dàng hơn để hỗ trợ các nỗ lực bảo tồn.
Hình 2. Một ví dụ về việc sử dụng YOLO11 để phân loại hình ảnh.
YOLO11 khả năng phát hiện đối tượng của
Mặc dù phân loại hình ảnh rất hữu ích để có được ý tưởng tổng thể về nội dung của một hình ảnh, nhưng nó chỉ gán một nhãn cho toàn bộ hình ảnh. Trong các tình huống cần thông tin chi tiết, chẳng hạn như vị trí chính xác và danh tính của nhiều đối tượng, thì phát hiện đối tượng trở nên cần thiết.
Phát hiện đối tượng là quá trình xác định và định vị từng đối tượng trong một hình ảnh, thường bằng cách vẽ các hộp giới hạn xung quanh chúng. Ultralytics YOLO11 có hiệu suất đặc biệt tốt trong việc phát hiện đối tượng theo thời gian thực, khiến nó trở nên lý tưởng cho nhiều ứng dụng khác nhau.
Ví dụ, hãy xem xét các giải pháp thị giác máy tính được sử dụng trong các cửa hàng bán lẻ để sắp xếp hàng hóa lên kệ. Phát hiện đối tượng có thể giúp đếm trái cây, rau và các mặt hàng khác, đảm bảo kiểm kê chính xác. Trong các cánh đồng nông nghiệp, công nghệ tương tự có thể theo dõi độ chín của cây trồng để giúp nông dân xác định thời điểm thu hoạch tốt nhất, thậm chí phân biệt giữa sản phẩm chín và chưa chín.
Hình 3. Phát hiện trái cây bằng cách sử dụng Ultralytics YOLO11 .
Sử dụng YOLO11 ví dụ như phân khúc
Phát hiện đối tượng sử dụng các khung giới hạn để xác định và định vị các đối tượng trong một hình ảnh, nhưng nó không nắm bắt được hình dạng chính xác của chúng. Đó là lúc phân vùng thể hiện xuất hiện. Thay vì vẽ một hộp xung quanh một đối tượng, phân vùng thể hiện theo dõi đường viền chính xác của nó.
Bạn có thể hình dung nó như thế này: thay vì chỉ đơn giản chỉ ra rằng "có một quả táo trong khu vực này", nó cẩn thận phác thảo và lấp đầy hình dạng chính xác của quả táo. Quá trình chi tiết này giúp các hệ thống AI hiểu rõ các ranh giới của một đối tượng, đặc biệt khi các đối tượng ở gần nhau.
Phân đoạn dữ liệu có thể được áp dụng cho nhiều ứng dụng, từ kiểm tra cơ sở hạ tầng đến khảo sát địa chất. Ví dụ, dữ liệu từ các cuộc khảo sát địa chất có thể được phân tích bằng cách sử dụng YOLO11 ĐẾN segment cả các vết nứt hoặc bất thường lớn nhỏ trên bề mặt. Bằng cách vạch ra ranh giới chính xác xung quanh những bất thường này, các kỹ sư có thể xác định chính xác các vấn đề và giải quyết chúng trước khi dự án bắt đầu.
Hình 4. YOLO11 -kích hoạt phân đoạn vết nứt.
Theo dõi đối tượng: Theo dõi các đối tượng trên các khung hình với YOLO11
Cho đến nay, các tác vụ computer vision mà chúng ta đã xem xét tập trung vào những gì có trong một hình ảnh duy nhất. Tuy nhiên, khi nói đến video, chúng ta cần những hiểu biết sâu sắc vượt ra ngoài một khung hình. Tác vụ theo dõi đối tượng có thể được sử dụng cho việc này.
YOLO11 Khả năng theo dõi đối tượng của nó có thể theo dõi một đối tượng cụ thể, chẳng hạn như người hoặc xe hơi, khi nó di chuyển qua một loạt khung hình video. Ngay cả khi góc quay camera thay đổi hoặc các đối tượng khác xuất hiện, hệ thống vẫn tiếp tục theo dõi cùng một mục tiêu.
Điều này rất quan trọng đối với các ứng dụng cần theo dõi theo thời gian, chẳng hạn như theo dõi ô tô trong giao thông. Trên thực tế, YOLO11 có thể chính xác track xe cộ, theo dõi từng xe để ước tính tốc độ theo thời gian thực. Điều này khiến việc theo dõi đối tượng trở thành một thành phần quan trọng trong các hệ thống như giám sát giao thông.
Hình 5. YOLO11 Hỗ trợ theo dõi đối tượng có thể được sử dụng để ước tính tốc độ.
Phát hiện các hộp giới hạn định hướng (OBB) bằng cách sử dụng YOLO11
Các đối tượng trong thế giới thực không phải lúc nào cũng được căn chỉnh hoàn hảo - chúng có thể bị nghiêng, nằm ngang hoặc được định vị ở các góc kỳ lạ. Ví dụ: trong ảnh vệ tinh, tàu và tòa nhà thường xuất hiện bị xoay.
Các phương pháp object detection truyền thống sử dụng các hộp hình chữ nhật cố định không điều chỉnh theo hướng của đối tượng, gây khó khăn cho việc nắm bắt chính xác các hình dạng xoay này. Oriented bounding box (OBB) detection giải quyết vấn đề này bằng cách sử dụng các hộp xoay để vừa khít xung quanh một đối tượng, căn chỉnh với góc của nó để phát hiện chính xác hơn.
Về việc giám sát bến cảng, YOLO11 hỗ trợ của 's cho phát hiện OBB có thể giúp xác định chính xác và track Tàu thuyền bất kể hướng di chuyển, đảm bảo mọi tàu thuyền ra vào cảng đều được giám sát chặt chẽ. Việc phát hiện chính xác này cung cấp thông tin thời gian thực về vị trí và chuyển động của tàu thuyền, điều này rất quan trọng để quản lý các cảng đông đúc và ngăn ngừa va chạm.
Hình 6. Phát hiện thuyền bằng cách sử dụng phát hiện OBB và YOLO11 .
Ước tính tư thế và YOLO11 : Theo dõi các điểm chính
Ước tính tư thế (Pose estimation) là một kỹ thuật thị giác máy tính theo dõi các điểm chính, chẳng hạn như khớp, chi hoặc các điểm đánh dấu khác, để hiểu cách một đối tượng di chuyển. Thay vì coi toàn bộ đối tượng hoặc cơ thể như một đơn vị hoàn chỉnh, phương pháp này chia nó thành các bộ phận chính. Điều này giúp có thể phân tích các chuyển động, cử chỉ và tương tác một cách chi tiết.
Một ứng dụng phổ biến của công nghệ này là ước tính tư thế người. Bằng cách theo dõi vị trí của các bộ phận cơ thể khác nhau trong thời gian thực, nó cung cấp một hình ảnh rõ ràng về cách một người đang di chuyển. Thông tin này có thể được sử dụng cho nhiều mục đích khác nhau, từ nhận dạng cử chỉ và giám sát hoạt động đến phân tích hiệu suất trong thể thao.
Tương tự như vậy, trong phục hồi chức năng vật lý, các nhà trị liệu có thể sử dụng ước tính tư thế con người và YOLO11 để theo dõi chuyển động của bệnh nhân trong khi tập luyện. Điều này giúp đảm bảo mỗi chuyển động được thực hiện chính xác, đồng thời theo dõi tiến trình theo thời gian.
Hình 7. YOLO11 có thể theo dõi quá trình tập luyện bằng cách ước tính tư thế.
Khám phá cách YOLO11 hỗ trợ nhiều tác vụ thị giác máy tính khác nhau
Bây giờ chúng ta đã khám phá tất cả các nhiệm vụ thị giác máy tính được hỗ trợ bởi YOLO11 chi tiết, chúng ta hãy cùng tìm hiểu cách YOLO11 hỗ trợ họ.
YOLO11 không chỉ là một mô hình - mà là một bộ các biến thể mô hình chuyên biệt, mỗi biến thể được thiết kế cho một nhiệm vụ thị giác máy tính cụ thể. Điều này làm cho YOLO11 Một công cụ đa năng có thể được điều chỉnh cho nhiều ứng dụng khác nhau. Bạn cũng có thể tinh chỉnh các mô hình này trên các tập dữ liệu tùy chỉnh để giải quyết những thách thức riêng biệt của dự án.
YOLO11 : Mô hình này phát hiện và dán nhãn nhiều đối tượng theo thời gian thực, lý tưởng cho việc nhận dạng hình ảnh tốc độ cao.
YOLO11 -seg : Biến thể này tập trung vào phân đoạn bằng cách sử dụng mặt nạ chi tiết để tách các đối tượng khỏi nền của chúng.
YOLO11 - obb : Mô hình này được thiết kế để detect xoay các đối tượng bằng cách vẽ các hộp giới hạn thẳng hàng với hướng của từng đối tượng.
YOLO11 -cls : Biến thể này phân loại hình ảnh bằng cách gán một nhãn danh mục duy nhất dựa trên nội dung tổng thể.
YOLO11 -pose : Mô hình này ước tính các điểm chính trên cơ thể để track tư thế, vị trí của các chi và chuyển động.
Mỗi biến thể có các kích thước khác nhau, cho phép người dùng chọn sự cân bằng phù hợp giữa tốc độ và độ chính xác cho các nhu cầu cụ thể của họ.
Những điều cần nhớ
Các tác vụ thị giác máy tính đang thay đổi cách máy móc hiểu và tương tác với thế giới. Bằng cách chia nhỏ hình ảnh và video thành các yếu tố chính, các công nghệ này giúp phân tích chi tiết các đối tượng, chuyển động và tương tác dễ dàng hơn.
Từ việc cải thiện an toàn giao thông và hiệu suất thể thao đến việc hợp lý hóa các quy trình công nghiệp, các mô hình như YOLO11 có thể cung cấp thông tin chi tiết theo thời gian thực thúc đẩy đổi mới. Khi Vision AI tiếp tục phát triển, nó có thể sẽ đóng vai trò ngày càng quan trọng trong cách chúng ta diễn giải và sử dụng dữ liệu trực quan hàng ngày.