Khám phá cách thức hoạt động của ứng dụng thị giác máy tính

Abirami Vina

5 phút đọc

Ngày 9 tháng 8 năm 2024

Hãy cùng chúng tôi tìm hiểu sâu hơn về các ứng dụng của thị giác máy tính. Chúng tôi cũng sẽ hướng dẫn bạn thực hiện nhiều tác vụ thị giác máy tính khác nhau như phát hiện và phân đoạn đối tượng.

Khi chúng tôi khám phá lịch sử của các mô hình thị giác máy tính , chúng tôi đã thấy thị giác máy tính đã phát triển như thế nào và con đường dẫn đến các mô hình thị giác tiên tiến mà chúng ta có ngày nay. Các mô hình hiện đại như Ultralytics YOLOv8 hỗ trợ nhiều tác vụ thị giác máy tính và đang được sử dụng trong nhiều ứng dụng thú vị. 

Trong bài viết này, chúng ta sẽ xem xét những điều cơ bản về thị giác máy tính và các mô hình thị giác. Chúng ta sẽ đề cập đến cách chúng hoạt động và các ứng dụng đa dạng của chúng trong nhiều ngành công nghiệp khác nhau. Những đổi mới về thị giác máy tính ở khắp mọi nơi, âm thầm định hình thế giới của chúng ta. Hãy cùng khám phá từng cái một! 

Tầm nhìn máy tính là gì?

Trí tuệ nhân tạo (AI) là một thuật ngữ bao trùm bao gồm nhiều công nghệ nhằm mục đích sao chép một phần trí thông minh của con người. Một trong những lĩnh vực con của AI là thị giác máy tính. Thị giác máy tính tập trung vào việc cung cấp cho máy móc đôi mắt có thể nhìn thấy, quan sát và hiểu được môi trường xung quanh. 

Giống như thị giác của con người, các giải pháp thị giác máy tính hướng đến việc phân biệt các vật thể, tính toán khoảng cách và phát hiện chuyển động. Tuy nhiên, không giống như con người, những người có cả cuộc đời kinh nghiệm để giúp họ nhìn và hiểu, máy tính dựa vào lượng dữ liệu khổng lồ, camera độ nét cao và các thuật toán phức tạp. 

__wf_reserved_thừa kế
Hình 1. So sánh thị giác của con người và thị giác máy tính.

Hệ thống thị giác máy tính có thể xử lý và phân tích dữ liệu trực quan như hình ảnh và video với tốc độ và độ chính xác đáng kinh ngạc. Khả năng phân tích nhanh chóng và chính xác lượng thông tin trực quan khổng lồ khiến thị giác máy tính trở thành một công cụ mạnh mẽ trong nhiều ngành công nghiệp, từ sản xuất đến chăm sóc sức khỏe .

Các mô hình tầm nhìn hỗ trợ nhiều tác vụ tầm nhìn máy tính khác nhau

Các mô hình thị giác máy tính là cốt lõi của bất kỳ ứng dụng thị giác máy tính nào. Về cơ bản, chúng là các thuật toán tính toán được hỗ trợ bởi các kỹ thuật học sâu được thiết kế để cung cấp cho máy khả năng diễn giải và hiểu thông tin trực quan. Các mô hình thị giác cho phép thực hiện các tác vụ thị giác máy tính quan trọng, từ phân loại hình ảnh đến phát hiện đối tượng . Chúng ta hãy xem xét kỹ hơn một số tác vụ này và các trường hợp sử dụng của chúng một cách chi tiết hơn. 

Phân loại hình ảnh

Phân loại hình ảnh bao gồm việc phân loại và dán nhãn hình ảnh vào các lớp hoặc danh mục được xác định trước. Một mô hình thị giác như YOLOv8 có thể được đào tạo trên các tập dữ liệu lớn của hình ảnh được dán nhãn. Trong quá trình đào tạo, mô hình học cách nhận dạng các mẫu và đặc điểm liên quan đến từng lớp. Sau khi được đào tạo, nó có thể dự đoán danh mục hình ảnh mới, chưa từng thấy bằng cách phân tích các đặc điểm của chúng và so sánh chúng với các mẫu đã học. 

__wf_reserved_thừa kế
Hình 2. Một ví dụ về phân loại hình ảnh. (nguồn: towarddatascience.com)

Có nhiều loại phân loại hình ảnh khác nhau. Ví dụ, khi xử lý hình ảnh y tế , bạn có thể sử dụng phân loại nhị phân để chia hình ảnh thành hai nhóm, như khỏe mạnh hoặc ốm yếu. Một loại khác là phân loại đa lớp. Nó có thể giúp phân loại hình ảnh thành nhiều nhóm, như phân loại các loài động vật khác nhau trong một trang trại như lợn, dê và bò. Hoặc, giả sử bạn muốn phân loại động vật thành các nhóm và phân nhóm, như phân loại động vật thành động vật có vú và chim rồi phân thành các loài như sư tử, hổ, đại bàng và chim sẻ; phân loại theo thứ bậc sẽ là lựa chọn tốt nhất.

Phát hiện đối tượng

Phát hiện đối tượng là quá trình xác định và định vị các đối tượng trong hình ảnh và khung video bằng thị giác máy tính. Nó bao gồm hai nhiệm vụ: định vị đối tượng, vẽ các hộp giới hạn xung quanh các đối tượng và phân loại đối tượng, xác định danh mục của từng đối tượng. Dựa trên các chú thích hộp giới hạn, mô hình thị giác có thể học cách nhận dạng các mẫu và đặc điểm cụ thể cho từng danh mục đối tượng và dự đoán sự hiện diện và vị trí của các đối tượng này trong các hình ảnh mới, chưa nhìn thấy. 

__wf_reserved_thừa kế
Hình 3. Phát hiện đối tượng YOLOv8 được sử dụng để phát hiện cầu thủ trên sân bóng đá.

Phát hiện vật thể có nhiều trường hợp sử dụng trong nhiều ngành công nghiệp khác nhau, từ thể thao đến sinh học biển. Ví dụ, trong bán lẻ , công nghệ Just Walk Out của Amazon sử dụng phát hiện vật thể để tự động thanh toán bằng cách xác định các mặt hàng mà khách hàng lấy. Sự kết hợp giữa thị giác máy tính và dữ liệu cảm biến cho phép khách hàng lấy các mặt hàng của họ và rời đi mà không cần xếp hàng chờ đợi. 

Sau đây là cái nhìn sâu hơn về cách thức hoạt động của nó:

  • Các camera gắn trên trần nhà sẽ ghi lại hình ảnh khách hàng di chuyển trong cửa hàng và cảnh quay video này sẽ được xử lý theo thời gian thực bằng mô hình thị giác.
  • Phát hiện đối tượng được sử dụng để phát hiện chính xác sản phẩm mà khách hàng cầm lên và đặt vào giỏ hàng để cập nhật giỏ hàng ảo của họ cho phù hợp.
  • Cảm biến trọng lượng trên kệ cải thiện độ chính xác bằng cách phát hiện việc loại bỏ hoặc thay thế sản phẩm.
  • Khi khách hàng ra khỏi cửa hàng, công nghệ phát hiện vật thể và nhận dạng khuôn mặt có thể được sử dụng để xác nhận rằng khách hàng đã rời đi và thông tin thanh toán của họ, như thẻ tín dụng, có thể được sử dụng để tự động tính phí.

Phân đoạn ngữ nghĩa và trường hợp

Phân đoạn ngữ nghĩa và phân đoạn thể hiện là các tác vụ thị giác máy tính giúp phân chia hình ảnh thành các phân đoạn có ý nghĩa. Phân đoạn ngữ nghĩa phân loại các pixel dựa trên ý nghĩa ngữ nghĩa của chúng và coi tất cả các đối tượng trong một danh mục là một thực thể duy nhất có cùng nhãn. Nó phù hợp để gắn nhãn các đối tượng không đếm được như "bầu trời" hoặc "đại dương" hoặc các cụm như "lá" hoặc "cỏ".

Mặt khác, phân đoạn thể hiện có thể phân biệt các thể hiện khác nhau của cùng một lớp bằng cách gán một nhãn duy nhất cho mỗi đối tượng được phát hiện. Bạn có thể sử dụng phân đoạn thể hiện để phân đoạn các đối tượng có thể đếm được khi số lượng và tính độc lập của các đối tượng là quan trọng. Nó cho phép nhận dạng và phân biệt chính xác hơn.

__wf_reserved_thừa kế
Hình 4. Một ví dụ về phân đoạn ngữ nghĩa và phân đoạn thể hiện.

Chúng ta có thể hiểu rõ hơn sự tương phản giữa phân đoạn ngữ nghĩa và phân đoạn thể hiện bằng một ví dụ liên quan đến xe tự lái . Phân đoạn ngữ nghĩa rất phù hợp cho các tác vụ đòi hỏi phải hiểu nội dung của một cảnh và có thể được sử dụng trong xe tự hành để phân loại các đặc điểm trên đường, như vạch qua đường dành cho người đi bộ và biển báo giao thông. Trong khi đó, phân đoạn thể hiện có thể được sử dụng trong xe tự hành để xác định giữa từng người đi bộ, phương tiện và chướng ngại vật. 

Ước tính tư thế

Ước tính tư thế là một nhiệm vụ thị giác máy tính tập trung vào việc phát hiện và theo dõi các điểm chính của tư thế của một vật thể trong hình ảnh hoặc video. Nó thường được sử dụng nhất để ước tính tư thế của con người, với các điểm chính bao gồm các khu vực như vai và đầu gối. Ước tính tư thế của con người giúp chúng ta hiểu và nhận ra các hành động và chuyển động quan trọng cho nhiều ứng dụng khác nhau.

__wf_reserved_thừa kế
Hình 5. Một ví dụ về ước tính tư thế bằng YOLOv8.

Ước tính tư thế có thể được sử dụng trong thể thao để phân tích cách các vận động viên di chuyển. NBA sử dụng ước tính tư thế để nghiên cứu chuyển động và vị trí của cầu thủ trong suốt trận đấu. Bằng cách theo dõi các điểm chính như vai, khuỷu tay, đầu gối và mắt cá chân, ước tính tư thế cung cấp thông tin chi tiết về chuyển động của cầu thủ. Những thông tin này giúp huấn luyện viên phát triển các chiến lược tốt hơn, tối ưu hóa các chương trình đào tạo và thực hiện các điều chỉnh theo thời gian thực trong suốt trận đấu. Ngoài ra, dữ liệu có thể giúp theo dõi tình trạng mệt mỏi và nguy cơ chấn thương của cầu thủ để cải thiện sức khỏe và hiệu suất tổng thể của cầu thủ.

Phát hiện đối tượng hộp giới hạn định hướng

Hộp giới hạn định hướng Phát hiện đối tượng (OBB) sử dụng các hình chữ nhật xoay để xác định và định vị chính xác các đối tượng trong hình ảnh. Không giống như các hộp giới hạn tiêu chuẩn căn chỉnh với các trục hình ảnh, OBB xoay để khớp với hướng của đối tượng. Điều này làm cho chúng đặc biệt hữu ích đối với các đối tượng không hoàn toàn nằm ngang hoặc thẳng đứng. Chúng rất tuyệt vời trong việc xác định chính xác và cô lập các đối tượng xoay để tránh chồng chéo trong môi trường đông đúc.

__wf_reserved_thừa kế
Hình 6. Một ví dụ về phát hiện hộp giới hạn định hướng trên ảnh hàng không của thuyền bằng YOLOV8.

Trong giám sát hàng hải , việc xác định và theo dõi tàu là chìa khóa cho an ninh và quản lý tài nguyên. Phát hiện OBB có thể được sử dụng để định vị chính xác tàu, ngay cả khi chúng được đóng gói dày đặc hoặc định hướng theo nhiều góc độ khác nhau. Nó giúp giám sát các tuyến đường vận chuyển, quản lý giao thông hàng hải và tối ưu hóa hoạt động của cảng. Nó cũng có thể hỗ trợ ứng phó thảm họa bằng cách nhanh chóng xác định và đánh giá thiệt hại cho tàu và cơ sở hạ tầng sau các sự kiện như bão hoặc tràn dầu .

Theo dõi đối tượng

Cho đến nay, chúng ta đã thảo luận về các tác vụ thị giác máy tính liên quan đến hình ảnh. Theo dõi đối tượng là một tác vụ thị giác máy tính có thể theo dõi một đối tượng trong suốt các khung hình của video. Nó bắt đầu bằng cách xác định đối tượng trong khung hình đầu tiên bằng các thuật toán phát hiện và sau đó liên tục theo dõi vị trí của đối tượng khi đối tượng di chuyển qua video. Theo dõi đối tượng bao gồm các kỹ thuật như phát hiện đối tượng, trích xuất đặc điểm và dự đoán chuyển động để giữ cho việc theo dõi chính xác.

__wf_reserved_thừa kế
Hình 7. Sử dụng YOLOv8 để theo dõi cá.

Các mô hình thị giác như YOLOv8 có thể được sử dụng để theo dõi cá trong sinh học biển . Sử dụng máy ảnh dưới nước, các nhà nghiên cứu có thể theo dõi chuyển động và hành vi của cá trong môi trường sống tự nhiên của chúng. Quá trình bắt đầu bằng cách phát hiện từng con cá trong các khung hình đầu tiên và sau đó theo dõi vị trí của chúng trong suốt video. Theo dõi cá giúp các nhà khoa học hiểu được các mô hình di cư, hành vi xã hội và tương tác với môi trường. Nó cũng hỗ trợ các hoạt động đánh bắt bền vững bằng cách cung cấp thông tin chi tiết về sự phân bố và số lượng cá.

Cái nhìn cuối cùng về tầm nhìn máy tính

Thị giác máy tính đang tích cực thay đổi cách chúng ta sử dụng công nghệ và tương tác với thế giới. Bằng cách sử dụng các mô hình học sâu và các thuật toán phức tạp để hiểu hình ảnh và video, thị giác máy tính giúp các ngành công nghiệp hợp lý hóa nhiều quy trình. Các tác vụ thị giác máy tính như phát hiện đối tượng và theo dõi đối tượng đang giúp tạo ra các giải pháp chưa từng được hình dung trước đây. Khi công nghệ thị giác máy tính tiếp tục cải thiện, tương lai sẽ có nhiều ứng dụng sáng tạo hơn nữa! 

Hãy cùng nhau học hỏi và phát triển! Khám phá kho lưu trữ GitHub của chúng tôi để xem những đóng góp của chúng tôi cho AI. Xem cách chúng tôi đang định nghĩa lại các ngành công nghiệp như xe tự láinông nghiệp bằng AI. 🚀

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard