One-Shot Learning

Khám phá One-Shot Learning trong AI. Tìm hiểu cách phân loại đối tượng từ một hình ảnh duy nhất bằng cách sử dụng Ultralytics YOLO26 và mạng Siamese để có thị giác máy tính hiệu quả.

One-Shot Learning là một kỹ thuật phân loại chuyên biệt trong machine learning (ML) được thiết kế để học thông tin về các danh mục đối tượng từ một ví dụ đào tạo duy nhất. Không giống như các thuật toán deep learning (DL) truyền thống, vốn yêu cầu các datasets khổng lồ chứa hàng ngàn hình ảnh được chú thích để khái quát hóa hiệu quả, One-Shot Learning mô phỏng khả năng nhận thức của con người để nắm bắt một khái niệm mới ngay lập tức. Ví dụ, một người thường có thể nhận ra một loài chim kỳ lạ cụ thể sau khi nhìn thấy nó chỉ một lần; phương pháp này cố gắng sao chép hiệu quả đó trong các hệ thống artificial intelligence (AI). Nó đặc biệt có giá trị trong các kịch bản mà việc data labeling đắt đỏ, dữ liệu khan hiếm, hoặc các danh mục mới cần được thêm vào một cách linh hoạt mà không cần đào tạo lại toàn bộ model.

Link to this sectionCác cơ chế đằng sau khái niệm này#

Nguyên tắc cốt lõi của One-Shot Learning liên quan đến việc chuyển mục tiêu từ phân loại tiêu chuẩn sang đánh giá độ tương đồng. Thay vì đào tạo một neural network (NN) để xuất ra một nhãn lớp cụ thể (ví dụ: "chó" hoặc "mèo"), model sẽ học một hàm khoảng cách. Một kiến trúc phổ biến được sử dụng cho việc này là Siamese neural network, bao gồm hai mạng con giống hệt nhau chia sẻ cùng model weights.

Trong quá trình vận hành, mạng thực hiện feature extraction để chuyển đổi hình ảnh đầu vào thành các vectơ số nhỏ gọn được gọi là embeddings. Hệ thống sau đó so sánh embedding của hình ảnh truy vấn mới với embedding của "shot" tham chiếu duy nhất. Nếu khoảng cách toán học—thường được tính bằng Euclidean distance hoặc cosine similarity—nằm dưới một ngưỡng nhất định, các hình ảnh đó được xác định là thuộc cùng một lớp. Điều này cho phép model xác minh danh tính hoặc phân loại đối tượng dựa trên sự gần gũi của chúng trong không gian đặc trưng đã học.

Đoạn mã Python sau đây trình diễn cách trích xuất embeddings và tính toán độ tương đồng bằng cách sử dụng một model phân loại YOLO26 từ gói ultralytics.

import numpy as np
from ultralytics import YOLO

# Load a pre-trained YOLO26 classification model for feature extraction
model = YOLO("yolo26n-cls.pt")

# Extract embeddings for a reference 'shot' and a query image
# The embed() method returns the feature vector directly
shot_vec = model.embed("reference_img.jpg")[0]
query_vec = model.embed("query_img.jpg")[0]

# Calculate similarity (higher dot product implies greater similarity)
similarity = np.dot(shot_vec, query_vec) / (np.linalg.norm(shot_vec) * np.linalg.norm(query_vec))

print(f"Similarity Score: {similarity:.4f}")

Link to this sectionPhân biệt các mô hình liên quan#

Điều quan trọng là phải phân biệt One-Shot Learning với các kỹ thuật học tập hiệu quả về dữ liệu khác, vì chúng giải quyết các vấn đề tương tự thông qua các ràng buộc khác nhau:

Few-Shot Learning (FSL): Đây là danh mục rộng hơn bao gồm cả One-Shot Learning. Trong FSL, model được cung cấp một "tập hỗ trợ" nhỏ gồm các ví dụ, thường dao động từ hai đến năm hình ảnh mỗi lớp. One-Shot Learning đơn giản là trường hợp cực đoan khi kích thước tập hỗ trợ chính xác là một.
Zero-Shot Learning (ZSL): ZSL giải quyết việc nhận dạng các danh mục mà model chưa từng thấy về mặt thị giác. Thay vì một hình ảnh tham chiếu, ZSL dựa vào các thuộc tính ngữ nghĩa hoặc mô tả văn bản (ví dụ: xác định một con "ngựa vằn" bằng cách liên kết các đặc điểm thị giác với mô tả văn bản "ngựa có sọc") thông qua natural language processing (NLP).
Transfer Learning: Điều này liên quan đến việc lấy một model đã được đào tạo trước trên một cơ sở dữ liệu lớn như ImageNet và tinh chỉnh nó trên một tác vụ mới. Mặc dù transfer learning cung cấp sức mạnh cho các bộ trích xuất đặc trưng được sử dụng trong One-Shot Learning, transfer learning tiêu chuẩn thường yêu cầu nhiều hơn một ví dụ để cập nhật trọng số hiệu quả mà không bị overfitting.

Link to this sectionCác ứng dụng trong thực tế#

One-Shot Learning đã mở ra các khả năng trong các lĩnh vực mà việc thu thập một lượng lớn training data là không thực tế.

Link to this sectionNhận dạng khuôn mặt và bảo mật#

Ứng dụng phổ biến nhất của One-Shot Learning là trong bảo mật sinh trắc học. Khi thiết lập Face ID trên điện thoại thông minh hoặc đăng ký vào hệ thống truy cập nhân viên, thiết bị sẽ ghi lại một biểu diễn toán học duy nhất về khuôn mặt của người dùng. Trong quá trình sử dụng hàng ngày, hệ thống facial recognition so sánh nguồn cấp dữ liệu camera trực tiếp với "one shot" đã lưu trữ này để xác minh danh tính. Điều này dựa trên các kỹ thuật embedding mạnh mẽ, chẳng hạn như những kỹ thuật được thảo luận trong nghiên cứu FaceNet nền tảng, để đảm bảo rằng những thay đổi về ánh sáng hoặc góc độ không làm hỏng kết quả so sánh tương đồng.

Link to this sectionKiểm soát chất lượng công nghiệp#

Trong AI in manufacturing, việc tạo ra một tập dữ liệu cân bằng các bộ phận "bị lỗi" rất khó khăn vì các lỗi rất hiếm và không nhất quán. One-Shot Learning cho phép các hệ thống computer vision (CV) học biểu diễn của một bộ phận tham chiếu "hoàn hảo" duy nhất. Bất kỳ mục nào trên dây chuyền lắp ráp tạo ra embedding cách xa đáng kể so với tham chiếu này sẽ được gắn cờ để anomaly detection. Điều này cho phép đảm bảo chất lượng ngay lập tức mà không cần hàng ngàn hình ảnh của các bộ phận bị hỏng, vốn có thể được quản lý và triển khai thông qua Ultralytics Platform.

Link to this sectionNhững thách thức và Triển vọng tương lai#

Mặc dù mạnh mẽ, One-Shot Learning vẫn nhạy cảm với nhiễu; nếu hình ảnh tham chiếu duy nhất bị mờ, bị che khuất hoặc không đại diện, khả năng nhận dạng lớp đó của model sẽ giảm đáng kể. Các nhà nghiên cứu thường sử dụng meta-learning, hay "học cách học", để cải thiện sự ổn định và khả năng khái quát hóa của model. Khi các kiến trúc phát triển, các model mới hơn như YOLO26 đang tích hợp các bộ trích xuất đặc trưng mạnh mẽ hơn giúp cho việc suy luận one-shot nhanh hơn và chính xác hơn, mở đường cho các thiết bị edge AI thích ứng và thông minh hơn.

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

One-Shot Learning

Link to this sectionCác cơ chế đằng sau khái niệm này#

Link to this sectionPhân biệt các mô hình liên quan#

Link to this sectionCác ứng dụng trong thực tế#

Link to this sectionNhận dạng khuôn mặt và bảo mật#

Link to this sectionKiểm soát chất lượng công nghiệp#

Link to this sectionNhững thách thức và Triển vọng tương lai#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!