Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Thị giác AI

Các kỹ thuật học AI được sử dụng trong thị giác máy tính

Khám phá các loại hình học máy (machine learning) và kỹ thuật học sâu (deep learning) được sử dụng trong các ứng dụng thị giác máy tính, từ học có giám sát đến học chuyển tiếp (transfer learning).

ABAbirami Vina
4 min read
Các kỹ thuật học AI được sử dụng trong thị giác máy tính

Machine learning là một loại artificial intelligence (AI) giúp máy tính học hỏi từ dữ liệu để chúng có thể tự đưa ra quyết định mà không cần lập trình chi tiết cho từng tác vụ. Công nghệ này bao gồm việc tạo ra các algorithmic models có khả năng nhận diện các mẫu trong dữ liệu. Bằng cách xác định các mẫu trong data và học hỏi từ đó, các thuật toán này có thể dần dần cải thiện performance theo thời gian.

Một lĩnh vực mà machine learning đóng vai trò then chốt là computer vision, một nhánh của AI tập trung vào visual data. Computer vision sử dụng machine learning để giúp máy tính phát hiện và nhận diện các mẫu trong hình ảnh và video. Được thúc đẩy bởi những tiến bộ trong machine learning, global market value của computer vision ước tính đạt khoảng 175,72 tỷ USD vào năm 2032.

Trong bài viết này, chúng ta sẽ xem xét các loại machine learning khác nhau được sử dụng trong computer vision, bao gồm học có giám sát (supervised), không giám sát (unsupervised), tăng cường (reinforcement) và chuyển đổi (transfer learning), cũng như vai trò của từng loại trong các ứng dụng khác nhau. Hãy bắt đầu ngay thôi!

Link to this sectionTổng quan về machine learning trong computer vision#

Computer vision dựa vào machine learning, đặc biệt là các kỹ thuật như deep learningneural networks để diễn giải và phân tích thông tin hình ảnh. Các phương pháp này giúp máy tính thực hiện các computer vision tasks như detecting objects trong ảnh, classifying images theo danh mục và recognizing faces. Machine learning cũng rất cần thiết cho các computer vision applications thời gian thực như quality control trong manufacturingmedical imaging trong healthcare. Trong những trường hợp này, neural networks giúp máy tính diễn giải dữ liệu hình ảnh phức tạp, chẳng hạn như analyzing brain scans để detect tumors.

Trên thực tế, nhiều model computer vision tiên tiến, như Ultralytics YOLO11, đều được xây dựng trên neural networks.

Phân đoạn ảnh chụp não sử dụng Ultralytics YOLO11

Hình 1. Phân đoạn ảnh quét não sử dụng Ultralytics YOLO11.

Có một số phương pháp học trong machine learning, như supervised learning, unsupervised learning, transfer learning và reinforcement learning, đang thúc đẩy các giới hạn của những gì có thể thực hiện được trong computer vision. Trong các phần tiếp theo, chúng ta sẽ khám phá từng loại này để hiểu cách chúng đóng góp vào computer vision.

Link to this sectionKhám phá supervised learning#

Supervised learning là loại machine learning được sử dụng phổ biến nhất. Trong supervised learning, các model được trained bằng cách sử dụng labeled data. Mỗi đầu vào đều được gắn nhãn với đầu ra chính xác, giúp model học hỏi. Tương tự như một student learning từ giáo viên, dữ liệu được gắn nhãn này đóng vai trò như một người hướng dẫn hoặc giám sát.

Trong quá trình training, model được cung cấp cả dữ liệu đầu vào (thông tin cần xử lý) và dữ liệu đầu ra (các câu trả lời chính xác). Thiết lập này giúp model học được mối liên hệ giữa đầu vào và đầu ra. Mục tiêu chính của supervised learning là để model khám phá ra một quy tắc hoặc mẫu liên kết chính xác mỗi đầu vào với đầu ra tương ứng. Với phép ánh xạ này, model có thể đưa ra các dự đoán chính xác khi gặp dữ liệu mới. Ví dụ, nhận diện khuôn mặt trong computer vision dựa vào supervised learning để xác định khuôn mặt dựa trên các mẫu đã học.

Một ứng dụng phổ biến của phương pháp này là mở khóa smartphone bằng nhận diện khuôn mặt. Model được huấn luyện trên các hình ảnh đã gắn nhãn khuôn mặt của bạn, để khi bạn mở khóa điện thoại, nó sẽ so sánh hình ảnh thực tế với những gì đã học. Nếu phát hiện trùng khớp, điện thoại của bạn sẽ mở khóa.

Nhận diện khuôn mặt được sử dụng để mở khóa điện thoại thông minh của bạn

Hình 2. Nhận diện khuôn mặt có thể được sử dụng để mở khóa smartphone của bạn.

Link to this sectionUnsupervised learning hoạt động như thế nào trong AI?#

Unsupervised learning là một loại machine learning sử dụng dữ liệu không được gắn nhãn - model không được cung cấp bất kỳ hướng dẫn hay câu trả lời chính xác nào trong quá trình huấn luyện. Thay vào đó, nó học cách tự khám phá các mẫu và hiểu biết sâu sắc.

Unsupervised learning xác định các mẫu bằng ba phương pháp chính:

  • Clustering: Nhóm các điểm dữ liệu tương tự lại với nhau. Nó hữu ích cho các tác vụ như customer segmentation, nơi các khách hàng tương tự nhau có thể được nhóm lại dựa trên behaviors hoặc thuộc tính của họ.
  • Association: Được sử dụng để xác định mối quan hệ giữa các mục, giúp khám phá các kết nối trong dữ liệu (ví dụ: tìm các sản phẩm thường được mua cùng nhau trong market basket analysis).
  • Dimensionality reduction: Đơn giản hóa các tập dữ liệu bằng cách loại bỏ các tính năng dư thừa, hỗ trợ cho việc trực quan hóa và xử lý.

Một ứng dụng chính của unsupervised learning là image compression, nơi các kỹ thuật như k-means clustering giảm kích thước hình ảnh mà không ảnh hưởng đến chất lượng thị giác. Các điểm ảnh được gom vào các cụm, và mỗi cụm được đại diện bởi một màu sắc trung bình, tạo ra hình ảnh với ít màu hơn và dung lượng tệp nhỏ hơn.

Ví dụ về nén ảnh không giám sát

Hình 3. Ví dụ về nén hình ảnh không giám sát.

However, unsupervised learning does face certain limitations. Without predefined answers, it can struggle with accuracy and performance evaluation. It often requires manual effort to interpret results and label groups, and it is sensitive to issues like missing values and noise, which can impact the quality of the results.

Link to this sectionGiải thích về reinforcement learning#

Không giống như supervised và unsupervised learning, reinforcement learning không dựa vào dữ liệu huấn luyện. Thay vào đó, nó sử dụng các tác nhân neural network để tương tác với môi trường nhằm đạt được mục tiêu cụ thể.

Quá trình này bao gồm ba thành phần chính:

  • Agent: Người học hoặc người đưa ra quyết định.
  • Environment: Mọi thứ mà tác nhân tương tác, có thể là thực hoặc ảo.
  • Reward signal: Một giá trị số được đưa ra sau mỗi hành động, hướng dẫn tác nhân tiến tới mục tiêu.

Khi tác nhân thực hiện các hành động, nó tác động đến môi trường, và môi trường sẽ phản hồi. Phản hồi này giúp tác nhân đánh giá các lựa chọn của mình và điều chỉnh hành vi. Reward signal giúp tác nhân hiểu hành động nào đưa nó đến gần mục tiêu hơn.

Reinforcement learning là chìa khóa cho các trường hợp sử dụng như autonomous drivingrobotics. Trong autonomous driving, các tác vụ như điều khiển phương tiện, phát hiện và tránh vật cản được học dựa trên phản hồi. Các model được huấn luyện bằng cách sử dụng các tác nhân neural network để phát hiện người đi bộ hoặc các vật thể khác và thực hiện hành động thích hợp để avoid collision. Tương tự, trong robotics, reinforcement learning cho phép thực hiện các tác vụ như thao tác với vật thể và kiểm soát chuyển động.

Một ví dụ tuyệt vời về reinforcement learning trong thực tế là dự án của OpenAI, nơi các nhà nghiên cứu đã trained AI agents để chơi video game nhiều người chơi nổi tiếng, Dota 2. Sử dụng neural networks, các tác nhân này đã xử lý một lượng lớn thông tin từ game environment để đưa ra các quyết định chiến lược nhanh chóng. Thông qua phản hồi liên tục, các tác nhân đã học hỏi và cải thiện theo thời gian, cuối cùng đạt được trình độ kỹ năng đủ để đánh bại một số game’s top players.

So sánh sự diễn giải của con người và AI về Dota Matrix

Fig 4. Cách diễn giải ma trận Dota của con người so với AI.

Link to this sectionTìm hiểu những kiến thức cơ bản về transfer learning#

Transfer learning khác với các loại hình học khác. Thay vì training a model từ đầu, nó sử dụng một pre-trained model trên một dataset lớn và tinh chỉnh nó cho một tác vụ mới nhưng có liên quan. Kiến thức thu được trong quá trình huấn luyện ban đầu được sử dụng để cải thiện performance của tác vụ mới. Transfer learning giảm thời gian cần thiết để huấn luyện cho một tác vụ mới, tùy thuộc vào độ phức tạp của nó. Phương pháp này hoạt động bằng cách giữ lại các lớp ban đầu của model - vốn nắm bắt các tính năng chung - và thay thế các lớp cuối cùng bằng các lớp dành cho tác vụ cụ thể mới.

Chuyển đổi phong cách nghệ thuật (Artistic style transfer) là một ứng dụng thú vị của transfer learning trong computer vision. Kỹ thuật này cho phép một model biến đổi hình ảnh sao cho phù hợp với phong cách của các artwork khác nhau. Để đạt được điều này, một neural network trước tiên được huấn luyện trên một tập dữ liệu lớn gồm các hình ảnh được ghép đôi với các phong cách nghệ thuật của chúng. Thông qua quá trình này, model học cách nhận diện các tính năng hình ảnh chung và các mẫu phong cách.

Khi model đã được huấn luyện, nó có thể được tinh chỉnh để áp dụng phong cách của một bức tranh cụ thể lên một hình ảnh mới. Mạng lưới thích nghi với hình ảnh mới trong khi vẫn bảo tồn các tính năng phong cách đã học, cho phép tạo ra một kết quả độc đáo kết hợp nội dung gốc với phong cách nghệ thuật đã chọn. Ví dụ, bạn có thể chụp một bức ảnh dãy núi và áp dụng phong cách bức tranh The Scream của Edvard Munch, tạo ra một hình ảnh ghi lại khung cảnh đó nhưng với phong cách táo bạo, biểu cảm của bức tranh.

Ví dụ về chuyển đổi phong cách nghệ thuật sử dụng học chuyển đổi (transfer learning)

Fig 5. Ví dụ về chuyển đổi phong cách nghệ thuật sử dụng transfer learning.

Link to this sectionXem xét sự khác biệt giữa các loại machine learning#

Bây giờ chúng ta đã đề cập đến các loại machine learning chính, hãy cùng tìm hiểu kỹ hơn về từng loại để giúp bạn hiểu loại nào phù hợp nhất cho các ứng dụng khác nhau.

  • Supervised learning: Loại này có độ chính xác cao khi làm việc với dữ liệu đã gắn nhãn nhưng đòi hỏi lượng dữ liệu lớn và có thể nhạy cảm với nhiễu.
  • Unsupervised learning: Rất hữu ích để khám phá dữ liệu chưa gắn nhãn nhằm tìm ra các mẫu ẩn, mặc dù kết quả có thể ít chính xác hơn và khó diễn giải hơn.
  • Reinforcement learning: Huấn luyện các tác nhân đưa ra quyết định từng bước trong các môi trường phức tạp nhưng thường đòi hỏi sức mạnh tính toán đáng kể.
  • Transfer learning: Phương pháp này sử dụng các model được huấn luyện trước để tăng tốc độ huấn luyện và cải thiện hiệu suất cho các tác vụ mới, đặc biệt là khi dữ liệu bị hạn chế.

So sánh tất cả các loại hình học máy

Hình 6. So sánh tất cả các loại machine learning. Ảnh của tác giả.

Việc lựa chọn loại machine learning phù hợp phụ thuộc vào một số yếu tố. Supervised learning hoạt động tốt nếu bạn có dữ liệu được gắn nhãn phong phú và một tác vụ rõ ràng. Unsupervised learning hữu ích cho việc khám phá dữ liệu hoặc khi các ví dụ được gắn nhãn còn khan hiếm. Reinforcement learning là lựa chọn lý tưởng cho các tác vụ phức tạp đòi hỏi phải ra quyết định từng bước, trong khi transfer learning rất tuyệt vời khi dữ liệu bị hạn chế hoặc tài nguyên eo hẹp. Bằng cách xem xét các yếu tố này, bạn có thể chọn phương pháp phù hợp nhất cho computer vision project của mình.

Link to this sectionTóm tắt#

Các kỹ thuật machine learning có thể giải quyết nhiều thách thức, đặc biệt là trong các lĩnh vực như computer vision. Bằng cách hiểu các loại hình khác nhau, bao gồm supervised, unsupervised, reinforcement và transfer learning, bạn có thể chọn phương pháp tiếp cận tốt nhất cho nhu cầu của mình.

Supervised learning rất tuyệt cho các tác vụ yêu cầu độ chính xác cao và dữ liệu gắn nhãn, trong khi unsupervised learning lý tưởng để tìm kiếm các mẫu trong dữ liệu không gắn nhãn. Reinforcement learning hoạt động tốt trong các cài đặt phức tạp, dựa trên quyết định, và transfer learning hữu ích khi bạn muốn xây dựng trên các pre-trained model với dữ liệu hạn chế.

Mỗi phương pháp đều có thế mạnh và ứng dụng riêng, từ nhận diện khuôn mặt đến robotics và chuyển đổi phong cách nghệ thuật. Chọn đúng loại có thể mở ra những khả năng mới trên khắp các ngành công nghiệp như chăm sóc sức khỏe, ô tô và giải trí.

Để khám phá thêm, hãy truy cập kho lưu trữ GitHub của chúng tôi và tham gia cùng cộng đồng của chúng tôi. Tìm hiểu các ứng dụng AI trong xe tự láinông nghiệp trên các trang giải pháp của chúng tôi. 🚀

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning