Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Cài đặt Cookie
Bằng cách nhấp vào “Chấp nhận tất cả Cookie”, bạn đồng ý với việc lưu trữ cookie trên thiết bị của mình để tăng cường khả năng điều hướng trang web, phân tích việc sử dụng trang web và hỗ trợ các nỗ lực tiếp thị của chúng tôi. Thêm thông tin
Tìm hiểu cách các tác vụ computer vision (thị giác máy tính) như object tracking (theo dõi đối tượng), instance segmentation (phân vùng thể hiện) và image classification (phân loại ảnh) hoạt động và cách Ultralytics YOLO11 hỗ trợ chúng.
Nhờ có camera và những tiến bộ trong trí tuệ nhân tạo (AI), máy tính và máy móc giờ đây có thể nhìn thế giới theo cách tương tự như cách con người nhìn. Ví dụ: chúng có thể nhận ra người, theo dõi đồ vật và thậm chí hiểu được bối cảnh của những gì đang xảy ra trong một video.
Cụ thể, thị giác máy tính là một nhánh của AI cho phép máy móc hiểu và diễn giải thông tin trực quan từ thế giới xung quanh. Thị giác máy tính bao gồm nhiều tác vụ khác nhau, mỗi tác vụ được thiết kế để trích xuất một loại thông tin chi tiết cụ thể từ hình ảnh hoặc video. Ví dụ: phát hiện đối tượng giúp xác định và định vị các mục khác nhau trong một bức tranh, trong khi các tác vụ khác như theo dõi, phân đoạn và ước tính tư thế giúp máy móc hiểu chuyển động, hình dạng và vị trí chính xác hơn.
Tác vụ thị giác máy tính được sử dụng cho một ứng dụng cụ thể phụ thuộc vào loại thông tin chi tiết bạn cần. Các mô hình thị giác máy tính như Ultralytics YOLO11 hỗ trợ các tác vụ thị giác máy tính khác nhau, khiến nó trở thành một lựa chọn đáng tin cậy để xây dựng các hệ thống Vision AI trong thế giới thực.
Trong hướng dẫn này, chúng ta sẽ xem xét kỹ hơn về các tác vụ thị giác máy tính được hỗ trợ bởi các mô hình như YOLO11. Chúng ta sẽ khám phá cách mỗi tác vụ hoạt động và cách chúng đang được sử dụng trong các ngành công nghiệp khác nhau. Hãy bắt đầu nào!
Các tác vụ computer vision là gì?
Các tác vụ thị giác máy tính (computer vision tasks) hướng đến việc tái tạo khả năng thị giác của con người theo nhiều cách khác nhau. Các tác vụ này có thể giúp máy móc phát hiện đối tượng, theo dõi chuyển động của chúng, ước tính tư thế và thậm chí phác thảo các yếu tố riêng lẻ trong hình ảnh và video. Thông thường, các tác vụ thị giác máy tính được hỗ trợ bởi các mô hình chia nhỏ dữ liệu trực quan thành các phần nhỏ hơn để chúng có thể diễn giải rõ ràng hơn những gì đang xảy ra.
Các mô hình AI thị giác như các mô hình Ultralytics YOLO hỗ trợ nhiều tác vụ, chẳng hạn như phát hiện, theo dõi và phân đoạn, trong một khung duy nhất. Do tính linh hoạt này, các mô hình YOLO11 rất dễ áp dụng cho nhiều trường hợp sử dụng khác nhau.
Hình 1. Các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11.
Một ví dụ điển hình về điều này là trong phân tích thể thao. YOLO11 có thể được sử dụng để phát hiện từng cầu thủ trên sân bằng cách sử dụng phát hiện đối tượng, sau đó nó có thể theo dõi họ trong suốt trận đấu bằng cách theo dõi đối tượng. Trong khi đó, khả năng ước tính tư thế của YOLO11 có thể giúp phân tích các chuyển động và kỹ thuật của người chơi, và phân vùng thể hiện có thể tách từng người chơi khỏi nền, tăng thêm độ chính xác cho phân tích.
Cùng nhau, các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11 này tạo ra một bức tranh hoàn chỉnh về những gì đang xảy ra trong trận đấu, giúp các đội hiểu sâu hơn về hiệu suất, chiến thuật và chiến lược tổng thể của người chơi.
Tổng quan về các tác vụ thị giác máy tính được hỗ trợ bởi YOLO11
Sau khi xem xét các tác vụ thị giác máy tính là gì, hãy đi sâu vào tìm hiểu chi tiết từng tác vụ được YOLO11 hỗ trợ, sử dụng các ví dụ thực tế.
Khả năng hỗ trợ phân loại ảnh của YOLO11
Khi bạn nhìn vào một bức ảnh, hầu hết mọi người có thể dễ dàng nhận biết đó là chó, núi hay biển báo giao thông vì chúng ta đều đã học được hình dáng đặc trưng của chúng. Phân loại ảnh giúp máy móc làm điều tương tự bằng cách dạy chúng phân loại và gắn nhãn ảnh dựa trên đối tượng chính của nó - cho dù đó là "ô tô", "chuối" hay "ảnh chụp X-quang có vết nứt". Nhãn này giúp các hệ thống thị giác máy tính hiểu nội dung trực quan để chúng có thể phản hồi hoặc đưa ra quyết định phù hợp.
Một ứng dụng thú vị của tác vụ thị giác máy tính này là giám sát động vật hoang dã. Phân loại hình ảnh có thể được sử dụng để xác định các loài động vật khác nhau từ ảnh chụp trong tự nhiên. Bằng cách tự động gắn nhãn hình ảnh, các nhà nghiên cứu có thể theo dõi quần thể, giám sát các kiểu di cư và xác định các loài có nguy cơ tuyệt chủng dễ dàng hơn để hỗ trợ các nỗ lực bảo tồn.
Hình 2. Một ví dụ về sử dụng YOLO11 để phân loại ảnh.
Khả năng phát hiện đối tượng của YOLO11
Mặc dù phân loại hình ảnh rất hữu ích để có được ý tưởng tổng thể về nội dung của một hình ảnh, nhưng nó chỉ gán một nhãn cho toàn bộ hình ảnh. Trong các tình huống cần thông tin chi tiết, chẳng hạn như vị trí chính xác và danh tính của nhiều đối tượng, thì phát hiện đối tượng trở nên cần thiết.
Phát hiện đối tượng là quá trình xác định và định vị các đối tượng riêng lẻ trong một hình ảnh, thường bằng cách vẽ các khung giới hạn xung quanh chúng. Ultralytics YOLO11 hoạt động đặc biệt tốt trong việc phát hiện đối tượng theo thời gian thực, khiến nó trở nên lý tưởng cho một loạt các ứng dụng.
Ví dụ, hãy xem xét các giải pháp thị giác máy tính được sử dụng trong các cửa hàng bán lẻ để sắp xếp hàng hóa lên kệ. Phát hiện đối tượng có thể giúp đếm trái cây, rau và các mặt hàng khác, đảm bảo kiểm kê chính xác. Trong các cánh đồng nông nghiệp, công nghệ tương tự có thể theo dõi độ chín của cây trồng để giúp nông dân xác định thời điểm thu hoạch tốt nhất, thậm chí phân biệt giữa sản phẩm chín và chưa chín.
Hình 3. Phát hiện trái cây bằng Ultralytics YOLO11.
Sử dụng YOLO11 cho phân vùng thể hiện (instance segmentation)
Phát hiện đối tượng sử dụng các khung giới hạn để xác định và định vị các đối tượng trong một hình ảnh, nhưng nó không nắm bắt được hình dạng chính xác của chúng. Đó là lúc phân vùng thể hiện xuất hiện. Thay vì vẽ một hộp xung quanh một đối tượng, phân vùng thể hiện theo dõi đường viền chính xác của nó.
Bạn có thể hình dung nó như thế này: thay vì chỉ đơn giản chỉ ra rằng "có một quả táo trong khu vực này", nó cẩn thận phác thảo và lấp đầy hình dạng chính xác của quả táo. Quá trình chi tiết này giúp các hệ thống AI hiểu rõ các ranh giới của một đối tượng, đặc biệt khi các đối tượng ở gần nhau.
Phân đoạn thể hiện (Instance segmentation) có thể được áp dụng cho nhiều ứng dụng, từ kiểm tra cơ sở hạ tầng đến khảo sát địa chất. Ví dụ: dữ liệu từ các cuộc khảo sát địa chất có thể được phân tích bằng YOLO11 để phân đoạn các vết nứt hoặc bất thường trên bề mặt lớn và nhỏ. Bằng cách vẽ các ranh giới chính xác xung quanh những bất thường này, các kỹ sư có thể xác định các vấn đề và giải quyết chúng trước khi một dự án bắt đầu.
Hình 4. Phân đoạn vết nứt được hỗ trợ bởi YOLO11.
Theo dõi đối tượng: Theo dõi các đối tượng qua các khung hình với YOLO11
Cho đến nay, các tác vụ computer vision mà chúng ta đã xem xét tập trung vào những gì có trong một hình ảnh duy nhất. Tuy nhiên, khi nói đến video, chúng ta cần những hiểu biết sâu sắc vượt ra ngoài một khung hình. Tác vụ theo dõi đối tượng có thể được sử dụng cho việc này.
Khả năng theo dõi đối tượng của YOLO11 có thể theo dõi một đối tượng cụ thể, chẳng hạn như người hoặc ô tô, khi nó di chuyển qua một loạt các khung hình video. Ngay cả khi góc camera thay đổi hoặc các đối tượng khác xuất hiện, hệ thống vẫn tiếp tục theo dõi cùng một mục tiêu.
Điều này rất quan trọng đối với các ứng dụng yêu cầu giám sát theo thời gian, chẳng hạn như theo dõi xe hơi trong giao thông. Trên thực tế, YOLO11 có thể theo dõi xe một cách chính xác, theo dõi từng xe để giúp ước tính tốc độ của chúng trong thời gian thực. Điều này làm cho việc theo dõi đối tượng trở thành một thành phần quan trọng trong các hệ thống như giám sát giao thông.
Hình 5. Hỗ trợ của YOLO11 đối với theo dõi đối tượng có thể được sử dụng để ước tính tốc độ.
Phát hiện hộp giới hạn có hướng (OBB) bằng YOLO11
Các đối tượng trong thế giới thực không phải lúc nào cũng được căn chỉnh hoàn hảo - chúng có thể bị nghiêng, nằm ngang hoặc được định vị ở các góc kỳ lạ. Ví dụ: trong ảnh vệ tinh, tàu và tòa nhà thường xuất hiện bị xoay.
Các phương pháp object detection truyền thống sử dụng các hộp hình chữ nhật cố định không điều chỉnh theo hướng của đối tượng, gây khó khăn cho việc nắm bắt chính xác các hình dạng xoay này. Oriented bounding box (OBB) detection giải quyết vấn đề này bằng cách sử dụng các hộp xoay để vừa khít xung quanh một đối tượng, căn chỉnh với góc của nó để phát hiện chính xác hơn.
Đối với giám sát cảng, hỗ trợ của YOLO11 cho phát hiện OBB có thể giúp xác định và theo dõi chính xác các tàu bất kể hướng của chúng, đảm bảo rằng mọi tàu ra vào cảng đều được theo dõi đúng cách. Phát hiện chính xác này cung cấp thông tin theo thời gian thực về vị trí và chuyển động của tàu, điều này rất quan trọng để quản lý các cảng bận rộn và ngăn ngừa va chạm.
Hình 6. Phát hiện thuyền bằng cách sử dụng OBB detection và YOLO11.
Ước tính tư thế và YOLO11: Theo dõi các điểm chính
Ước tính tư thế (Pose estimation) là một kỹ thuật thị giác máy tính theo dõi các điểm chính, chẳng hạn như khớp, chi hoặc các điểm đánh dấu khác, để hiểu cách một đối tượng di chuyển. Thay vì coi toàn bộ đối tượng hoặc cơ thể như một đơn vị hoàn chỉnh, phương pháp này chia nó thành các bộ phận chính. Điều này giúp có thể phân tích các chuyển động, cử chỉ và tương tác một cách chi tiết.
Một ứng dụng phổ biến của công nghệ này là ước tính tư thế người. Bằng cách theo dõi vị trí của các bộ phận cơ thể khác nhau trong thời gian thực, nó cung cấp một hình ảnh rõ ràng về cách một người đang di chuyển. Thông tin này có thể được sử dụng cho nhiều mục đích khác nhau, từ nhận dạng cử chỉ và giám sát hoạt động đến phân tích hiệu suất trong thể thao.
Tương tự, trong phục hồi chức năng, các nhà trị liệu có thể sử dụng ước tính tư thế người và YOLO11 để theo dõi chuyển động của bệnh nhân trong khi tập thể dục. Điều này giúp đảm bảo rằng mỗi chuyển động được thực hiện chính xác đồng thời theo dõi tiến trình theo thời gian.
Hình 7. YOLO11 có thể theo dõi quá trình tập luyện bằng cách sử dụng pose estimation.
Khám phá cách YOLO11 hỗ trợ các tác vụ thị giác máy tính khác nhau
Sau khi khám phá chi tiết tất cả các tác vụ thị giác máy tính được YOLO11 hỗ trợ, hãy cùng tìm hiểu cách YOLO11 hỗ trợ chúng.
YOLO11 không chỉ là một mô hình duy nhất - nó là một bộ các biến thể mô hình chuyên biệt, mỗi biến thể được thiết kế cho một tác vụ thị giác máy tính cụ thể. Điều này làm cho YOLO11 trở thành một công cụ linh hoạt có thể được điều chỉnh cho một loạt các ứng dụng. Bạn cũng có thể tinh chỉnh các mô hình này trên bộ dữ liệu tùy chỉnh để giải quyết những thách thức riêng của dự án.
Dưới đây là các biến thể mô hình YOLO11 được huấn luyện trước cho các tác vụ thị giác cụ thể:
YOLO11: Mô hình này phát hiện và gắn nhãn nhiều đối tượng trong thời gian thực, khiến nó trở nên lý tưởng cho nhận dạng hình ảnh tốc độ cao.
YOLO11-seg: Biến thể này tập trung vào phân đoạn bằng cách sử dụng mặt nạ chi tiết để tách các đối tượng khỏi nền của chúng.
YOLO11-obb: Mô hình này được thiết kế để phát hiện các đối tượng xoay bằng cách vẽ các khung giới hạn thẳng hàng với hướng của mỗi đối tượng.
YOLO11-cls: Biến thể này phân loại hình ảnh bằng cách gán một nhãn danh mục duy nhất dựa trên nội dung tổng thể.
YOLO11-pose: Mô hình này ước tính các điểm chính trên cơ thể để theo dõi tư thế, vị trí chi và chuyển động.
Mỗi biến thể có các kích thước khác nhau, cho phép người dùng chọn sự cân bằng phù hợp giữa tốc độ và độ chính xác cho các nhu cầu cụ thể của họ.
Những điều cần nhớ
Các tác vụ thị giác máy tính đang thay đổi cách máy móc hiểu và tương tác với thế giới. Bằng cách chia nhỏ hình ảnh và video thành các yếu tố chính, các công nghệ này giúp phân tích chi tiết các đối tượng, chuyển động và tương tác dễ dàng hơn.
Từ việc cải thiện an toàn giao thông và hiệu suất thể thao đến hợp lý hóa các quy trình công nghiệp, các mô hình như YOLO11 có thể cung cấp thông tin chi tiết theo thời gian thực, thúc đẩy sự đổi mới. Khi Vision AI tiếp tục phát triển, nó có thể sẽ đóng một vai trò ngày càng quan trọng trong cách chúng ta diễn giải và sử dụng dữ liệu trực quan hàng ngày.