Giải thích về các Ứng dụng của Thị giác Máy tính

Khi tìm hiểu lịch sử của các mô hình thị giác máy tính , chúng ta đã thấy thị giác máy tính đã phát triển như thế nào và con đường dẫn đến các mô hình thị giác tiên tiến ngày nay. Các mô hình hiện đại như Ultralytics YOLOv8 hỗ trợ nhiều tác vụ thị giác máy tính và đang được sử dụng trong nhiều ứng dụng thú vị.

Trong bài viết này, chúng ta sẽ xem xét những kiến thức cơ bản về thị giác máy tính và các mô hình thị giác. Chúng ta sẽ đề cập đến cách chúng hoạt động và các ứng dụng đa dạng của chúng trong nhiều ngành công nghiệp khác nhau. Những đổi mới về thị giác máy tính có mặt ở khắp mọi nơi, âm thầm định hình thế giới của chúng ta. Hãy cùng khám phá chúng từng cái một!

Thị giác máy tính là gì?

Trí tuệ nhân tạo (AI) là một thuật ngữ bao trùm nhiều công nghệ nhằm mục đích tái tạo một phần trí thông minh của con người. Một lĩnh vực con của AI là thị giác máy tính. Thị giác máy tính tập trung vào việc cung cấp cho máy móc đôi mắt có thể nhìn, quan sát và hiểu môi trường xung quanh.

Giống như thị giác của con người, các giải pháp thị giác máy tính nhằm mục đích phân biệt các vật thể, tính toán khoảng cách và detect chuyển động. Tuy nhiên, không giống như con người, những người có cả đời kinh nghiệm để giúp họ nhìn và hiểu, máy tính dựa vào lượng dữ liệu khổng lồ, camera độ nét cao và các thuật toán phức tạp.

Hình 1. So sánh Thị giác Người và Thị giác Máy tính.

‍

Các hệ thống thị giác máy tính có thể xử lý và phân tích dữ liệu trực quan như hình ảnh và video với tốc độ và độ chính xác đáng kinh ngạc. Khả năng phân tích nhanh chóng và chính xác lượng lớn thông tin trực quan biến thị giác máy tính thành một công cụ mạnh mẽ trong nhiều ngành công nghiệp, từ sản xuất đến chăm sóc sức khỏe.

Các mô hình Vision hỗ trợ nhiều tác vụ thị giác máy tính khác nhau

Các mô hình thị giác máy tính là cốt lõi của bất kỳ ứng dụng thị giác máy tính nào. Về cơ bản, chúng là các thuật toán tính toán được hỗ trợ bởi các kỹ thuật deep learning, được thiết kế để cung cấp cho máy móc khả năng diễn giải và hiểu thông tin trực quan. Các mô hình thị giác cho phép các tác vụ thị giác máy tính quan trọng, từ phân loại hình ảnh đến nhận diện đối tượng. Hãy cùng xem xét kỹ hơn một số tác vụ này và các trường hợp sử dụng của chúng một cách chi tiết hơn.

Phân loại ảnh

Phân loại ảnh bao gồm việc phân loại và gắn nhãn ảnh vào các lớp hoặc danh mục được xác định trước. Một mô hình thị giác như YOLOv8 có thể được đào tạo trên các tập dữ liệu lớn gồm các ảnh đã được gắn nhãn. Trong quá trình đào tạo, mô hình học cách nhận dạng các mẫu và đặc điểm liên quan đến từng lớp. Sau khi được đào tạo, nó có thể dự đoán danh mục của các ảnh mới, chưa từng thấy bằng cách phân tích các đặc điểm của chúng và so sánh chúng với các mẫu đã học.

Hình 2. Một ví dụ về phân loại hình ảnh. (Nguồn: towardsdatascience.com)

‍

Có nhiều loại phân loại hình ảnh khác nhau. Ví dụ, khi xử lý hình ảnh y tế , bạn có thể sử dụng phân loại nhị phân để chia ảnh thành hai nhóm, chẳng hạn như nhóm khỏe mạnh hoặc nhóm bệnh. Một loại khác là phân loại đa lớp. Nó có thể giúp classify Chia hình ảnh thành nhiều nhóm, chẳng hạn như phân loại các loài động vật khác nhau trong một trang trại như lợn, dê và bò. Hoặc, giả sử bạn muốn classify phân loại động vật thành các nhóm và phân nhóm, giống như phân loại động vật thành động vật có vú và chim, rồi phân loại sâu hơn thành các loài như sư tử, hổ, đại bàng và chim sẻ; phân loại theo thứ bậc sẽ là lựa chọn tốt nhất.

Phát hiện đối tượng

Phát hiện đối tượng là quá trình xác định và định vị các đối tượng trong hình ảnh và khung hình video bằng cách sử dụng thị giác máy tính. Nó bao gồm hai nhiệm vụ: bản địa hóa đối tượng, vẽ các khung giới hạn xung quanh các đối tượng và phân loại đối tượng, xác định danh mục của từng đối tượng. Dựa trên các chú thích khung giới hạn, một mô hình thị giác có thể học cách nhận dạng các mẫu và đặc điểm cụ thể cho từng danh mục đối tượng và dự đoán sự hiện diện và vị trí của các đối tượng này trong các hình ảnh mới, chưa từng thấy.

‍

Phát hiện đối tượng có nhiều trường hợp sử dụng trong các ngành công nghiệp khác nhau, từ thể thao đến sinh học biển. Ví dụ: trong bán lẻ, công nghệ Just Walk Out của Amazon sử dụng tính năng phát hiện đối tượng để tự động hóa quy trình thanh toán bằng cách xác định các mặt hàng mà khách hàng chọn. Sự kết hợp giữa thị giác máy tính và dữ liệu cảm biến cho phép khách hàng lấy đồ và rời đi mà không cần phải xếp hàng chờ đợi.

Đây là cái nhìn chi tiết hơn về cách nó hoạt động:

Camera gắn trên trần nhà ghi lại hình ảnh khách hàng di chuyển xung quanh cửa hàng và cảnh quay video này được xử lý theo thời gian thực bởi các mô hình thị giác.
‍
Phát hiện đối tượng được sử dụng để detect sản phẩm chính xác mà khách hàng chọn và đặt vào giỏ hàng để cập nhật giỏ hàng ảo của họ cho phù hợp.
‍
Cảm biến trọng lượng trên kệ cải thiện độ chính xác bằng cách phát hiện việc loại bỏ hoặc thay thế mặt hàng.
‍
Khi khách hàng rời khỏi cửa hàng, công nghệ phát hiện đối tượng và nhận dạng khuôn mặt có thể được sử dụng để xác nhận rằng khách hàng đã rời đi và thông tin chi tiết thanh toán của họ, như thẻ tín dụng, có thể được sử dụng để tự động tính phí cho họ.

Phân vùng ngữ nghĩa (Semantic segmentation) và phân vùng thực thể (instance segmentation)

Phân vùng ngữ nghĩa (Semantic segmentation) và phân vùng thực thể (instance segmentation) là các tác vụ thị giác máy tính giúp phân chia hình ảnh thành các phân đoạn có ý nghĩa. Phân vùng ngữ nghĩa phân loại các pixel dựa trên ý nghĩa ngữ nghĩa của chúng và coi tất cả các đối tượng trong một danh mục là một thực thể duy nhất có cùng nhãn. Nó phù hợp để gán nhãn cho các đối tượng không đếm được như "bầu trời" hoặc "đại dương" hoặc các cụm như "lá cây" hoặc "cỏ".

Mặt khác, phân đoạn thể hiện có thể phân biệt các thể hiện khác nhau của cùng một lớp bằng cách gán một nhãn duy nhất cho mỗi đối tượng được phát hiện. Bạn có thể sử dụng phân đoạn thể hiện để segment các đối tượng có thể đếm được, trong đó số lượng và tính độc lập của các đối tượng là quan trọng. Điều này cho phép nhận dạng và phân biệt chính xác hơn.

Hình 4. Một ví dụ về phân vùng ngữ nghĩa và phân vùng thể hiện.

‍

Chúng ta có thể hiểu rõ hơn sự tương phản giữa phân đoạn ngữ nghĩa và phân đoạn thể hiện bằng một ví dụ liên quan đến xe tự lái . Phân đoạn ngữ nghĩa rất hữu ích cho các tác vụ đòi hỏi phải hiểu nội dung của một cảnh và có thể được sử dụng trong xe tự hành để classify Các đặc điểm trên đường, như vạch kẻ đường dành cho người đi bộ và biển báo giao thông. Trong khi đó, phân đoạn trường hợp có thể được sử dụng trong xe tự hành để phân biệt người đi bộ, phương tiện và chướng ngại vật riêng lẻ.

Ước tính tư thế

Ước tính tư thế (Pose estimation) là một nhiệm vụ thị giác máy tính tập trung vào việc phát hiện và theo dõi các điểm chính về tư thế của một đối tượng trong hình ảnh hoặc video. Nó thường được sử dụng nhất để ước tính tư thế người, với các điểm chính bao gồm các khu vực như vai và đầu gối. Ước tính tư thế của một người giúp chúng ta hiểu và nhận ra các hành động và chuyển động quan trọng cho các ứng dụng khác nhau.

‍

Ước tính tư thế có thể được sử dụng trong thể thao để phân tích cách các vận động viên di chuyển. NBA sử dụng ước tính tư thế để nghiên cứu các chuyển động và vị trí của người chơi trong trận đấu. Bằng cách theo dõi các điểm chính như vai, khuỷu tay, đầu gối và mắt cá chân, ước tính tư thế cung cấp thông tin chi tiết về chuyển động của người chơi. Những thông tin chi tiết này giúp các huấn luyện viên phát triển các chiến lược tốt hơn, tối ưu hóa các chương trình đào tạo và thực hiện các điều chỉnh theo thời gian thực trong các trận đấu. Ngoài ra, dữ liệu có thể giúp theo dõi sự mệt mỏi và nguy cơ chấn thương của người chơi để cải thiện sức khỏe và hiệu suất tổng thể của người chơi.

Phát hiện vật thể bằng khung giới hạn xoay (Oriented bounding boxes object detection)

Nhận diện đối tượng bằng hộp giới hạn xoay (Oriented Bounding Boxes Object Detection) (OBB) sử dụng các hình chữ nhật xoay để xác định và định vị chính xác các đối tượng trong một hình ảnh. Không giống như các hộp giới hạn tiêu chuẩn thẳng hàng với các trục của hình ảnh, OBB xoay để phù hợp với hướng của đối tượng. Điều này làm cho chúng đặc biệt hữu ích cho các đối tượng không hoàn toàn nằm ngang hoặc thẳng đứng. Chúng rất tuyệt vời trong việc xác định và cô lập chính xác các đối tượng xoay để ngăn chặn sự chồng chéo trong môi trường đông đúc.

Hình 6. Một ví dụ về phát hiện hộp giới hạn định hướng trên ảnh chụp từ trên không của thuyền bằng cách sử dụng YOLOV8 .

‍

Trong giám sát hàng hải, việc xác định và theo dõi tàu là chìa khóa cho an ninh và quản lý tài nguyên. Phát hiện OBB có thể được sử dụng để định vị chính xác tàu, ngay cả khi chúng được xếp dày đặc hoặc định hướng ở các góc khác nhau. Nó giúp theo dõi luồng vận chuyển, quản lý giao thông hàng hải và tối ưu hóa hoạt động cảng. Nó cũng có thể hỗ trợ ứng phó thảm họa bằng cách nhanh chóng xác định và đánh giá thiệt hại cho tàu và cơ sở hạ tầng sau các sự kiện như bão hoặc tràn dầu.

Theo dõi đối tượng

Cho đến nay, chúng ta đã thảo luận về các tác vụ thị giác máy tính liên quan đến hình ảnh. Theo dõi đối tượng là một tác vụ thị giác máy tính có thể track Một vật thể xuyên suốt các khung hình của video. Nó bắt đầu bằng việc xác định vật thể trong khung hình đầu tiên bằng các thuật toán phát hiện, sau đó liên tục theo dõi vị trí của vật thể khi nó di chuyển qua video. Theo dõi vật thể bao gồm các kỹ thuật như phát hiện vật thể, trích xuất đặc điểm và dự đoán chuyển động để đảm bảo việc theo dõi chính xác.

‍

Các mô hình tầm nhìn như YOLOv8 có thể được sử dụng để track cá trong sinh học biển . Sử dụng camera dưới nước, các nhà nghiên cứu có thể theo dõi chuyển động và hành vi của cá trong môi trường sống tự nhiên của chúng. Quá trình này bắt đầu bằng việc phát hiện từng con cá trong những khung hình đầu tiên, sau đó theo dõi vị trí của chúng trong suốt video. Việc theo dõi cá giúp các nhà khoa học hiểu được mô hình di cư, hành vi xã hội và tương tác với môi trường. Nó cũng hỗ trợ các hoạt động đánh bắt cá bền vững bằng cách cung cấp thông tin chi tiết về sự phân bố và số lượng cá.

Tổng quan về thị giác máy tính

Thị giác máy tính đang tích cực thay đổi cách chúng ta sử dụng công nghệ và tương tác với thế giới. Bằng cách sử dụng các mô hình deep learning và các thuật toán phức tạp để hiểu hình ảnh và video, thị giác máy tính giúp các ngành công nghiệp hợp lý hóa nhiều quy trình. Các tác vụ thị giác máy tính như nhận diện đối tượng và theo dõi đối tượng đang giúp tạo ra các giải pháp chưa từng được hình dung trước đây. Khi công nghệ thị giác máy tính tiếp tục được cải thiện, tương lai sẽ có nhiều ứng dụng sáng tạo hơn nữa!

Hãy cùng nhau học hỏi và phát triển! Khám phá kho lưu trữ GitHub của chúng tôi để xem những đóng góp của chúng tôi cho AI. Xem cách chúng tôi đang định nghĩa lại các ngành công nghiệp như xe tự lái và nông nghiệp với AI. 🚀

Khám phá cách các ứng dụng của thị giác máy tính hoạt động

Thị giác máy tính là gì?

Các mô hình Vision hỗ trợ nhiều tác vụ thị giác máy tính khác nhau

Phân loại ảnh

Phát hiện đối tượng

Phân vùng ngữ nghĩa (Semantic segmentation) và phân vùng thực thể (instance segmentation)

Ước tính tư thế

Phát hiện vật thể bằng khung giới hạn xoay (Oriented bounding boxes object detection)

Theo dõi đối tượng

Tổng quan về thị giác máy tính

Đọc thêm trong danh mục này

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tự động hóa quản lý sự cố giao thông với Ultralytics YOLO26

Khám phá lý do tại sao Ultralytics YOLO26 dễ dàng đưa vào sản xuất hơn!

Hãy cùng nhau xây dựng tương lai
của AI!

Khám phá cách các ứng dụng của thị giác máy tính hoạt động

Thị giác máy tính là gì?

Các mô hình Vision hỗ trợ nhiều tác vụ thị giác máy tính khác nhau

Phân loại ảnh

Phát hiện đối tượng

Phân vùng ngữ nghĩa (Semantic segmentation) và phân vùng thực thể (instance segmentation)

Ước tính tư thế

Phát hiện vật thể bằng khung giới hạn xoay (Oriented bounding boxes object detection)

Theo dõi đối tượng

Tổng quan về thị giác máy tính

Đọc thêm trong danh mục này

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tự động hóa quản lý sự cố giao thông với Ultralytics YOLO26

Khám phá lý do tại sao Ultralytics YOLO26 dễ dàng đưa vào sản xuất hơn!

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!