Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

Các loại kỹ thuật học AI được sử dụng trong thị giác máy tính

Abirami Vina

4 phút đọc

6 tháng 11, 2024

Khám phá các loại kỹ thuật máy học và học sâu khác nhau được sử dụng trong các ứng dụng thị giác máy tính, từ học có giám sát đến học chuyển giao.

Học máy là một loại trí tuệ nhân tạo (AI) giúp máy tính học hỏi từ dữ liệu để chúng có thể tự đưa ra quyết định mà không cần lập trình chi tiết cho từng tác vụ. Nó liên quan đến việc tạo ra các mô hình thuật toán có thể xác định các mẫu trong dữ liệu. Bằng cách xác định các mẫu trong dữ liệu và học hỏi từ chúng, các thuật toán này có thể dần dần cải thiện hiệu suất của chúng theo thời gian.

Một lĩnh vực mà học máy đóng vai trò quan trọng là trong thị giác máy tính, một lĩnh vực AI tập trung vào dữ liệu trực quan. Thị giác máy tính sử dụng học máy để giúp máy tính phát hiện và nhận ra các mẫu trong hình ảnh và video. Được thúc đẩy bởi những tiến bộ trong học máy, giá trị thị trường toàn cầu của thị giác máy tính ước tính vào khoảng 175,72 tỷ đô la vào năm 2032. 

Trong bài viết này, chúng ta sẽ xem xét các loại học máy khác nhau được sử dụng trong thị giác máy tính, bao gồm học có giám sát, học không giám sát, học tăng cường và học chuyển giao, đồng thời mỗi loại đóng vai trò như thế nào trong các ứng dụng khác nhau. Hãy bắt đầu!

Tổng quan về học máy trong thị giác máy tính

Thị giác máy tính dựa vào học máy, đặc biệt là các kỹ thuật như học sâumạng nơ-ron, để diễn giải và phân tích thông tin trực quan. Các phương pháp này giúp máy tính có thể thực hiện các tác vụ thị giác máy tính như phát hiện đối tượng trong hình ảnh, phân loại hình ảnh theo danh mục và nhận dạng khuôn mặt. Học máy cũng rất cần thiết cho các ứng dụng thị giác máy tính thời gian thực như kiểm soát chất lượng trong sản xuấtchẩn đoán hình ảnh y tế trong chăm sóc sức khỏe. Trong những trường hợp này, mạng nơ-ron giúp máy tính diễn giải dữ liệu trực quan phức tạp, chẳng hạn như phân tích quét não để phát hiện khối u

Trên thực tế, nhiều mô hình thị giác máy tính tiên tiến, như Ultralytics YOLO11, được xây dựng trên mạng nơ-ron. 

Hình 1. Phân đoạn ảnh chụp não bằng Ultralytics YOLO11.

Có nhiều loại phương pháp học máy khác nhau, chẳng hạn như học có giám sát, học không giám sát, học chuyển giao và học tăng cường, đang thúc đẩy những giới hạn về khả năng trong lĩnh vực thị giác máy tính. Trong các phần sau, chúng ta sẽ khám phá từng loại này để hiểu cách chúng đóng góp vào thị giác máy tính.

Tìm hiểu về học có giám sát

Học có giám sát (Supervised learning) là loại học máy được sử dụng phổ biến nhất. Trong học có giám sát, các mô hình được huấn luyện (trained) bằng cách sử dụng dữ liệu được gán nhãn (labeled data). Mỗi đầu vào được gắn thẻ với đầu ra chính xác, điều này giúp mô hình học hỏi. Tương tự như một học sinh học tập (student learning) từ giáo viên, dữ liệu được gán nhãn này đóng vai trò như một hướng dẫn hoặc người giám sát.

Trong quá trình huấn luyện (training), mô hình được cung cấp cả dữ liệu đầu vào (thông tin cần xử lý) và dữ liệu đầu ra (các câu trả lời chính xác). Thiết lập này giúp mô hình học được mối liên hệ giữa đầu vào và đầu ra. Mục tiêu chính của học có giám sát là để mô hình khám phá ra một quy tắc hoặc mẫu liên kết chính xác mỗi đầu vào với đầu ra chính xác của nó. Với ánh xạ này, mô hình có thể đưa ra các dự đoán chính xác khi gặp dữ liệu mới. Ví dụ: nhận dạng khuôn mặt trong thị giác máy tính (computer vision) dựa vào học có giám sát để xác định khuôn mặt dựa trên các mẫu đã học này.

Một ứng dụng phổ biến của việc này là mở khóa điện thoại thông minh (smartphone) của bạn bằng nhận dạng khuôn mặt. Mô hình được huấn luyện trên các hình ảnh được gán nhãn khuôn mặt của bạn, do đó, khi bạn mở khóa điện thoại, nó sẽ so sánh hình ảnh trực tiếp với những gì nó đã học. Nếu nó phát hiện ra sự trùng khớp, điện thoại của bạn sẽ mở khóa.

Hình 2. Nhận dạng khuôn mặt có thể được sử dụng để mở khóa điện thoại thông minh của bạn.

Học không giám sát hoạt động như thế nào trong AI?

Học không giám sát (Unsupervised learning) là một loại học máy sử dụng dữ liệu không được gán nhãn - mô hình không được cung cấp bất kỳ hướng dẫn hoặc câu trả lời chính xác nào trong quá trình huấn luyện. Thay vào đó, nó tự học cách khám phá các mẫu và thông tin chi tiết. 

Học không giám sát xác định các mẫu bằng ba phương pháp chính: 

Một ứng dụng quan trọng của học không giám sát là nén ảnh (image compression), trong đó các kỹ thuật như phân cụm k-means (k-means clustering) làm giảm kích thước ảnh mà không ảnh hưởng đến chất lượng hình ảnh. Các pixel được nhóm thành các cụm và mỗi cụm được biểu diễn bằng một màu trung bình, tạo ra một hình ảnh có ít màu hơn và kích thước tệp nhỏ hơn.

Hình 3. Một ví dụ về nén ảnh không giám sát.

Tuy nhiên, học không giám sát phải đối mặt với những hạn chế nhất định. Nếu không có câu trả lời được xác định trước, nó có thể gặp khó khăn với độ chính xác và đánh giá (evaluation) hiệu suất (performance). Nó thường đòi hỏi nỗ lực thủ công để diễn giải kết quả và gán nhãn cho các nhóm, đồng thời nó nhạy cảm với các vấn đề như giá trị bị thiếu và nhiễu, có thể ảnh hưởng đến chất lượng của kết quả.

Giải thích về học tăng cường

Không giống như học có giám sát và học không giám sát, học tăng cường (reinforcement learning) không dựa vào dữ liệu huấn luyện. Thay vào đó, nó sử dụng các tác nhân mạng nơ-ron để tương tác với một môi trường nhằm đạt được một mục tiêu cụ thể. 

Quá trình này bao gồm ba thành phần chính:

  • Tác nhân (Agent): Người học hoặc người ra quyết định.
  • Môi trường (Environment): Mọi thứ mà tác nhân tương tác, có thể là thật hoặc ảo.
  • Tín hiệu thưởng (Reward signal): Một giá trị số được đưa ra sau mỗi hành động, hướng dẫn tác nhân đến mục tiêu.

Khi tác nhân thực hiện các hành động, nó sẽ ảnh hưởng đến môi trường, sau đó môi trường phản hồi bằng thông tin phản hồi. Thông tin phản hồi giúp tác nhân đánh giá các lựa chọn của mình và điều chỉnh hành vi của mình. Tín hiệu thưởng giúp tác nhân hiểu được những hành động nào đưa nó đến gần hơn với việc đạt được mục tiêu của mình.

Học tăng cường là chìa khóa cho các trường hợp sử dụng như lái xe tự động (autonomous driving)robot (robotics). Trong lái xe tự động (autonomous driving), các tác vụ như điều khiển xe, phát hiện và tránh vật thể học hỏi dựa trên thông tin phản hồi. Các mô hình được huấn luyện bằng cách sử dụng các tác nhân mạng nơ-ron để phát hiện người đi bộ hoặc các vật thể khác và thực hiện hành động thích hợp để tránh va chạm (avoid collision). Tương tự, trong robot (robotics), học tăng cường cho phép các tác vụ như điều khiển vật thể và điều khiển chuyển động.

Một ví dụ tuyệt vời về học tăng cường trong thực tế là một dự án của OpenAI, nơi các nhà nghiên cứu huấn luyện các tác nhân AI (trained AI agents) để chơi trò chơi điện tử (video game) nhiều người chơi phổ biến, Dota 2. Sử dụng mạng nơ-ron, các tác nhân này đã xử lý một lượng lớn thông tin từ môi trường trò chơi (game environment) để đưa ra các quyết định chiến lược nhanh chóng. Thông qua phản hồi liên tục, các tác nhân đã học hỏi và cải thiện theo thời gian, cuối cùng đạt đến trình độ kỹ năng đủ cao để đánh bại một số người chơi hàng đầu của trò chơi (game’s top players)

Hình 4. So sánh cách diễn giải Dota Matrix giữa con người và AI.

Tìm hiểu những kiến thức cơ bản về học chuyển giao (transfer learning)

Học chuyển giao (Transfer learning) khác với các loại hình học máy khác. Thay vì huấn luyện một mô hình từ đầu, nó sử dụng một mô hình đã được huấn luyện trước trên một tập dữ liệu lớn và tinh chỉnh nó cho một nhiệm vụ mới, nhưng có liên quan. Kiến thức thu được trong quá trình huấn luyện ban đầu được sử dụng để cải thiện hiệu suất của nhiệm vụ mới. Học chuyển giao (Transfer learning) giúp giảm thời gian cần thiết để huấn luyện cho một nhiệm vụ mới, tùy thuộc vào độ phức tạp của nó. Nó hoạt động bằng cách giữ lại các lớp ban đầu của mô hình để nắm bắt các đặc trưng chung và thay thế các lớp cuối cùng bằng các lớp của nhiệm vụ cụ thể mới. 

Chuyển đổi phong cách nghệ thuật là một ứng dụng thú vị của học chuyển giao trong lĩnh vực thị giác máy tính. Kỹ thuật này cho phép một mô hình chuyển đổi một hình ảnh sao cho phù hợp với phong cách của các tác phẩm nghệ thuật khác nhau. Để đạt được điều này, một mạng nơ-ron được huấn luyện trước trên một tập dữ liệu lớn gồm các hình ảnh được ghép nối với phong cách nghệ thuật của chúng. Thông qua quá trình này, mô hình học cách xác định các đặc trưng hình ảnh chung và các mẫu phong cách.

Sau khi mô hình được huấn luyện, nó có thể được tinh chỉnh để áp dụng phong cách của một bức tranh cụ thể cho một hình ảnh mới. Mạng thích ứng với hình ảnh mới trong khi vẫn giữ lại các đặc trưng phong cách đã học được, cho phép nó tạo ra một kết quả độc đáo kết hợp nội dung gốc với phong cách nghệ thuật đã chọn. Ví dụ: bạn có thể chụp ảnh một dãy núi và áp dụng phong cách của bức Tiếng thét của Edvard Munch, tạo ra một hình ảnh nắm bắt được cảnh vật nhưng mang phong cách táo bạo, biểu cảm của bức tranh.

Hình 5. Một ví dụ về chuyển đổi phong cách nghệ thuật sử dụng học chuyển giao.

So sánh sự khác biệt giữa các loại hình học máy

Bây giờ chúng ta đã đề cập đến các loại hình học máy chính, hãy xem xét kỹ hơn từng loại để giúp bạn hiểu rõ hơn về sự phù hợp nhất cho các ứng dụng khác nhau.

  • Học có giám sát (Supervised learning): Loại hình này có độ chính xác cao khi làm việc với dữ liệu được gắn nhãn, nhưng đòi hỏi nhiều dữ liệu và có thể nhạy cảm với nhiễu.
  • Học không giám sát (Unsupervised learning): Nó hữu ích cho việc khám phá dữ liệu chưa được gắn nhãn để tìm các mẫu ẩn, mặc dù kết quả có thể kém chính xác hơn và khó diễn giải hơn.
  • Học tăng cường (Reinforcement learning): Nó huấn luyện các tác nhân để đưa ra các quyết định từng bước trong môi trường phức tạp, nhưng thường đòi hỏi sức mạnh tính toán đáng kể.
  • Học chuyển giao (Transfer learning): Phương pháp này sử dụng các mô hình đã được huấn luyện trước để tăng tốc độ huấn luyện và cải thiện hiệu suất trên các nhiệm vụ mới, đặc biệt khi dữ liệu bị hạn chế.
Hình 6. So sánh tất cả các loại hình học máy. Hình ảnh của tác giả.

Việc chọn đúng loại hình học máy phụ thuộc vào một số yếu tố. Học có giám sát hoạt động tốt nếu bạn có nhiều dữ liệu được gắn nhãn và một nhiệm vụ rõ ràng. Học không giám sát rất hữu ích cho việc khám phá dữ liệu hoặc khi có ít ví dụ được gắn nhãn. Học tăng cường là lý tưởng cho các nhiệm vụ phức tạp đòi hỏi ra quyết định từng bước, trong khi học chuyển giao rất phù hợp khi dữ liệu bị hạn chế hoặc tài nguyên bị ràng buộc. Bằng cách xem xét các yếu tố này, bạn có thể chọn phương pháp phù hợp nhất cho dự án thị giác máy tính của mình.

Tóm lại

Các kỹ thuật học máy có thể giải quyết nhiều thách thức khác nhau, đặc biệt là trong các lĩnh vực như thị giác máy tính. Bằng cách hiểu các loại hình khác nhau, học có giám sát, học không giám sát, học tăng cường và học chuyển giao, bạn có thể chọn phương pháp tốt nhất cho nhu cầu của mình.

 Học có giám sát rất phù hợp cho các nhiệm vụ đòi hỏi độ chính xác cao và dữ liệu được gắn nhãn, trong khi học không giám sát là lý tưởng để tìm các mẫu trong dữ liệu chưa được gắn nhãn. Học tăng cường hoạt động tốt trong các môi trường phức tạp, dựa trên quyết định và học chuyển giao rất hữu ích khi bạn muốn xây dựng dựa trên các mô hình đã được huấn luyện trước với dữ liệu hạn chế. 

Mỗi phương pháp đều có những điểm mạnh và ứng dụng riêng, từ nhận dạng khuôn mặt đến robot đến chuyển đổi phong cách nghệ thuật. Việc chọn đúng loại hình có thể mở ra những khả năng mới trong các ngành như chăm sóc sức khỏe, ô tô và giải trí.

Để khám phá thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia với cộng đồng của chúng tôi. Khám phá các ứng dụng AI trong xe tự láinông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard