Đón xem YOLO Vision 2025!
25 tháng 9, 2025
10:00 — 18:00 BST
Sự kiện kết hợp
Yolo Vision 2024

Khám phá cách các ứng dụng của thị giác máy tính hoạt động

Abirami Vina

5 phút đọc

9 tháng 8, 2024

Hãy cùng chúng tôi tìm hiểu sâu hơn về các ứng dụng của thị giác máy tính. Chúng ta cũng sẽ xem qua các tác vụ thị giác máy tính khác nhau như phát hiện và phân đoạn đối tượng.

Khi chúng ta khám phá lịch sử của các mô hình thị giác máy tính, chúng ta đã thấy thị giác máy tính đã phát triển như thế nào và con đường dẫn đến các mô hình thị giác tiên tiến mà chúng ta có ngày nay. Các mô hình hiện đại như Ultralytics YOLOv8 hỗ trợ nhiều tác vụ thị giác máy tính và đang được sử dụng trong nhiều ứng dụng thú vị. 

Trong bài viết này, chúng ta sẽ xem xét những kiến thức cơ bản về thị giác máy tính và các mô hình thị giác. Chúng ta sẽ đề cập đến cách chúng hoạt động và các ứng dụng đa dạng của chúng trong nhiều ngành công nghiệp khác nhau. Những đổi mới về thị giác máy tính có mặt ở khắp mọi nơi, âm thầm định hình thế giới của chúng ta. Hãy cùng khám phá chúng từng cái một! 

Thị giác máy tính là gì?

Trí tuệ nhân tạo (AI) là một thuật ngữ bao trùm nhiều công nghệ nhằm mục đích tái tạo một phần trí thông minh của con người. Một lĩnh vực con của AI là thị giác máy tính. Thị giác máy tính tập trung vào việc cung cấp cho máy móc đôi mắt có thể nhìn, quan sát và hiểu môi trường xung quanh. 

Giống như thị giác của con người, các giải pháp computer vision nhằm phân biệt các đối tượng, tính toán khoảng cách và phát hiện chuyển động. Tuy nhiên, không giống như con người, những người có cả một đời kinh nghiệm để giúp họ nhìn và hiểu, máy tính dựa vào lượng lớn dữ liệu, camera độ phân giải cao và các thuật toán phức tạp. 

Hình 1. So sánh Thị giác Người và Thị giác Máy tính.

Các hệ thống thị giác máy tính có thể xử lý và phân tích dữ liệu trực quan như hình ảnh và video với tốc độ và độ chính xác đáng kinh ngạc. Khả năng phân tích nhanh chóng và chính xác lượng lớn thông tin trực quan biến thị giác máy tính thành một công cụ mạnh mẽ trong nhiều ngành công nghiệp, từ sản xuất đến chăm sóc sức khỏe.

Các mô hình Vision hỗ trợ nhiều tác vụ thị giác máy tính khác nhau

Các mô hình thị giác máy tính là cốt lõi của bất kỳ ứng dụng thị giác máy tính nào. Về cơ bản, chúng là các thuật toán tính toán được hỗ trợ bởi các kỹ thuật deep learning, được thiết kế để cung cấp cho máy móc khả năng diễn giải và hiểu thông tin trực quan. Các mô hình thị giác cho phép các tác vụ thị giác máy tính quan trọng, từ phân loại hình ảnh đến nhận diện đối tượng. Hãy cùng xem xét kỹ hơn một số tác vụ này và các trường hợp sử dụng của chúng một cách chi tiết hơn. 

Phân loại ảnh

Phân loại hình ảnh bao gồm việc phân loại và gắn nhãn hình ảnh vào các lớp hoặc danh mục được xác định trước. Một mô hình thị giác như YOLOv8 có thể được huấn luyện trên các tập dữ liệu lớn gồm hình ảnh được gắn nhãn. Trong quá trình huấn luyện, mô hình học cách nhận dạng các mẫu và đặc điểm liên quan đến từng lớp. Sau khi được huấn luyện, nó có thể dự đoán danh mục của hình ảnh mới, chưa từng thấy bằng cách phân tích các đặc điểm của chúng và so sánh chúng với các mẫu đã học. 

Hình 2. Một ví dụ về phân loại hình ảnh. (Nguồn: towardsdatascience.com)

Có nhiều loại phân loại hình ảnh khác nhau. Ví dụ: khi xử lý hình ảnh y tế, bạn có thể sử dụng phân loại nhị phân để chia hình ảnh thành hai nhóm, chẳng hạn như khỏe mạnh hoặc bệnh tật. Một loại khác là phân loại đa lớp. Nó có thể giúp phân loại hình ảnh thành nhiều nhóm, chẳng hạn như phân loại các động vật khác nhau trong một trang trại như lợn, dê và bò. Hoặc, giả sử bạn muốn phân loại động vật thành các nhóm và nhóm con, chẳng hạn như phân loại động vật thành động vật có vú và chim, sau đó phân loại sâu hơn thành các loài như sư tử, hổ, đại bàng và chim sẻ; phân loại thứ bậc sẽ là lựa chọn tốt nhất.

Phát hiện đối tượng

Phát hiện đối tượng là quá trình xác định và định vị các đối tượng trong hình ảnh và khung hình video bằng cách sử dụng thị giác máy tính. Nó bao gồm hai nhiệm vụ: bản địa hóa đối tượng, vẽ các khung giới hạn xung quanh các đối tượng và phân loại đối tượng, xác định danh mục của từng đối tượng. Dựa trên các chú thích khung giới hạn, một mô hình thị giác có thể học cách nhận dạng các mẫu và đặc điểm cụ thể cho từng danh mục đối tượng và dự đoán sự hiện diện và vị trí của các đối tượng này trong các hình ảnh mới, chưa từng thấy. 

Hình 3. Phát hiện đối tượng bằng YOLOv8 được sử dụng để phát hiện cầu thủ trên sân bóng đá.

Phát hiện đối tượng có nhiều trường hợp sử dụng trong các ngành công nghiệp khác nhau, từ thể thao đến sinh học biển. Ví dụ: trong bán lẻ, công nghệ Just Walk Out của Amazon sử dụng tính năng phát hiện đối tượng để tự động hóa quy trình thanh toán bằng cách xác định các mặt hàng mà khách hàng chọn. Sự kết hợp giữa thị giác máy tính và dữ liệu cảm biến cho phép khách hàng lấy đồ và rời đi mà không cần phải xếp hàng chờ đợi. 

Đây là cái nhìn chi tiết hơn về cách nó hoạt động:

  • Camera gắn trên trần nhà ghi lại hình ảnh khách hàng di chuyển xung quanh cửa hàng và cảnh quay video này được xử lý theo thời gian thực bởi các mô hình thị giác.
  • Phát hiện đối tượng được sử dụng để phát hiện chính xác sản phẩm mà khách hàng chọn và đặt vào giỏ hàng của họ để cập nhật giỏ hàng ảo của họ cho phù hợp.
  • Cảm biến trọng lượng trên kệ cải thiện độ chính xác bằng cách phát hiện việc loại bỏ hoặc thay thế mặt hàng.
  • Khi khách hàng rời khỏi cửa hàng, công nghệ phát hiện đối tượng và nhận dạng khuôn mặt có thể được sử dụng để xác nhận rằng khách hàng đã rời đi và thông tin chi tiết thanh toán của họ, như thẻ tín dụng, có thể được sử dụng để tự động tính phí cho họ.

Phân vùng ngữ nghĩa (Semantic segmentation) và phân vùng thực thể (instance segmentation)

Phân vùng ngữ nghĩa (Semantic segmentation) và phân vùng thực thể (instance segmentation) là các tác vụ thị giác máy tính giúp phân chia hình ảnh thành các phân đoạn có ý nghĩa. Phân vùng ngữ nghĩa phân loại các pixel dựa trên ý nghĩa ngữ nghĩa của chúng và coi tất cả các đối tượng trong một danh mục là một thực thể duy nhất có cùng nhãn. Nó phù hợp để gán nhãn cho các đối tượng không đếm được như "bầu trời" hoặc "đại dương" hoặc các cụm như "lá cây" hoặc "cỏ".

Mặt khác, phân đoạn thể hiện (Instance segmentation) có thể phân biệt các thể hiện khác nhau của cùng một lớp bằng cách gán một nhãn duy nhất cho mỗi đối tượng được phát hiện. Bạn có thể sử dụng phân đoạn thể hiện (Instance segmentation) để phân đoạn các đối tượng có thể đếm được, trong đó số lượng và tính độc lập của các đối tượng là quan trọng. Nó cho phép xác định và phân biệt chính xác hơn.

Hình 4. Một ví dụ về phân vùng ngữ nghĩa và phân vùng thể hiện.

Chúng ta có thể hiểu rõ hơn sự tương phản giữa phân đoạn ngữ nghĩa và phân đoạn thể hiện với một ví dụ liên quan đến xe tự lái. Phân đoạn ngữ nghĩa rất phù hợp cho các tác vụ yêu cầu hiểu nội dung của một cảnh và có thể được sử dụng trong xe tự hành để phân loại các đặc điểm trên đường, như vạch kẻ đường dành cho người đi bộ và biển báo giao thông. Trong khi đó, phân đoạn thể hiện có thể được sử dụng trong xe tự hành để xác định giữa những người đi bộ, phương tiện và chướng ngại vật riêng lẻ. 

Ước tính tư thế

Ước tính tư thế (Pose estimation) là một nhiệm vụ thị giác máy tính tập trung vào việc phát hiện và theo dõi các điểm chính về tư thế của một đối tượng trong hình ảnh hoặc video. Nó thường được sử dụng nhất để ước tính tư thế người, với các điểm chính bao gồm các khu vực như vai và đầu gối. Ước tính tư thế của một người giúp chúng ta hiểu và nhận ra các hành động và chuyển động quan trọng cho các ứng dụng khác nhau.

Hình 5. Một ví dụ về ước tính tư thế bằng YOLOv8.

Ước tính tư thế có thể được sử dụng trong thể thao để phân tích cách các vận động viên di chuyển. NBA sử dụng ước tính tư thế để nghiên cứu các chuyển động và vị trí của người chơi trong trận đấu. Bằng cách theo dõi các điểm chính như vai, khuỷu tay, đầu gối và mắt cá chân, ước tính tư thế cung cấp thông tin chi tiết về chuyển động của người chơi. Những thông tin chi tiết này giúp các huấn luyện viên phát triển các chiến lược tốt hơn, tối ưu hóa các chương trình đào tạo và thực hiện các điều chỉnh theo thời gian thực trong các trận đấu. Ngoài ra, dữ liệu có thể giúp theo dõi sự mệt mỏi và nguy cơ chấn thương của người chơi để cải thiện sức khỏe và hiệu suất tổng thể của người chơi.

Phát hiện vật thể bằng khung giới hạn xoay (Oriented bounding boxes object detection)

Nhận diện đối tượng bằng hộp giới hạn xoay (Oriented Bounding Boxes Object Detection) (OBB) sử dụng các hình chữ nhật xoay để xác định và định vị chính xác các đối tượng trong một hình ảnh. Không giống như các hộp giới hạn tiêu chuẩn thẳng hàng với các trục của hình ảnh, OBB xoay để phù hợp với hướng của đối tượng. Điều này làm cho chúng đặc biệt hữu ích cho các đối tượng không hoàn toàn nằm ngang hoặc thẳng đứng. Chúng rất tuyệt vời trong việc xác định và cô lập chính xác các đối tượng xoay để ngăn chặn sự chồng chéo trong môi trường đông đúc.

Hình 6. Một ví dụ về phát hiện hộp giới hạn xoay (Oriented Bounding Box Detection) trên ảnh chụp từ trên không về thuyền bằng YOLOV8.

Trong giám sát hàng hải, việc xác định và theo dõi tàu là chìa khóa cho an ninh và quản lý tài nguyên. Phát hiện OBB có thể được sử dụng để định vị chính xác tàu, ngay cả khi chúng được xếp dày đặc hoặc định hướng ở các góc khác nhau. Nó giúp theo dõi luồng vận chuyển, quản lý giao thông hàng hải và tối ưu hóa hoạt động cảng. Nó cũng có thể hỗ trợ ứng phó thảm họa bằng cách nhanh chóng xác định và đánh giá thiệt hại cho tàu và cơ sở hạ tầng sau các sự kiện như bão hoặc tràn dầu.

Theo dõi đối tượng

Đến thời điểm này, chúng ta đã thảo luận về các tác vụ thị giác máy tính liên quan đến hình ảnh. Theo dõi đối tượng là một tác vụ thị giác máy tính có thể theo dõi một đối tượng trong suốt các khung hình của video. Nó bắt đầu bằng cách xác định đối tượng trong khung hình đầu tiên bằng các thuật toán phát hiện, sau đó liên tục theo dõi vị trí của nó khi nó di chuyển qua video. Theo dõi đối tượng bao gồm các kỹ thuật như phát hiện đối tượng, trích xuất đặc trưng và dự đoán chuyển động để giữ cho việc theo dõi chính xác.

Hình 7. Sử dụng YOLOv8 để theo dõi cá.

Các mô hình Vision như YOLOv8 có thể được sử dụng để theo dõi cá trong sinh học biển. Sử dụng camera dưới nước, các nhà nghiên cứu có thể theo dõi sự di chuyển và hành vi của cá trong môi trường sống tự nhiên của chúng. Quá trình này bắt đầu bằng cách phát hiện từng con cá trong các khung hình đầu tiên và sau đó theo dõi vị trí của chúng trong suốt video. Theo dõi cá giúp các nhà khoa học hiểu được các kiểu di cư, hành vi xã hội và tương tác với môi trường. Nó cũng hỗ trợ các hoạt động đánh bắt bền vững bằng cách cung cấp thông tin chi tiết về sự phân bố và số lượng cá.

Tổng quan về thị giác máy tính

Thị giác máy tính đang tích cực thay đổi cách chúng ta sử dụng công nghệ và tương tác với thế giới. Bằng cách sử dụng các mô hình deep learning và các thuật toán phức tạp để hiểu hình ảnh và video, thị giác máy tính giúp các ngành công nghiệp hợp lý hóa nhiều quy trình. Các tác vụ thị giác máy tính như nhận diện đối tượng và theo dõi đối tượng đang giúp tạo ra các giải pháp chưa từng được hình dung trước đây. Khi công nghệ thị giác máy tính tiếp tục được cải thiện, tương lai sẽ có nhiều ứng dụng sáng tạo hơn nữa! 

Hãy cùng nhau học hỏi và phát triển! Khám phá kho lưu trữ GitHub của chúng tôi để xem những đóng góp của chúng tôi cho AI. Xem cách chúng tôi đang định nghĩa lại các ngành công nghiệp như xe tự láinông nghiệp với AI. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard