ImageNet
Khám phá ImageNet, bộ dữ liệu nền tảng của học sâu. Tìm hiểu cách nó hỗ trợ Ultralytics YOLO26 thông qua học chuyển đổi (transfer learning) để phân loại hình ảnh với độ chính xác cao.
ImageNet là một cơ sở dữ liệu hình ảnh đồ sộ được thiết kế để sử dụng trong nghiên cứu phần mềm nhận diện vật thể hình ảnh và được coi rộng rãi là chất xúc tác khởi đầu cho cuộc cách mạng deep learning hiện đại. Được tổ chức theo phân cấp WordNet, ImageNet bao gồm hàng triệu hình ảnh được dán nhãn thuộc hàng ngàn danh mục, cung cấp quy mô dữ liệu khổng lồ cần thiết để huấn luyện các mạng thần kinh tinh vi. Đối với các nhà nghiên cứu và nhà phát triển trong lĩnh vực computer vision, ImageNet đóng vai trò là chuẩn mực để đánh giá hiệu suất của các thuật toán, đặc biệt là trong các tác vụ như phân loại hình ảnh và định vị vật thể.
Link to this sectionThử thách ImageNet và sự trỗi dậy của CNN#
Tập dữ liệu này đã đạt được sự nổi tiếng toàn cầu thông qua ImageNet Large Scale Visual Recognition Challenge (ILSVRC), một cuộc thi thường niên được tổ chức từ năm 2010 đến 2017. Cuộc thi này yêu cầu các thuật toán phải phân loại hình ảnh vào một trong 1.000 danh mục với độ chính xác cao. Một bước ngoặt lịch sử đã xảy ra vào năm 2012 khi kiến trúc mạng thần kinh tích chập (CNN) có tên là AlexNet đạt được tỷ lệ lỗi thấp hơn đáng kể so với các đối thủ cạnh tranh. Chiến thắng này đã chứng minh sự vượt trội của mạng thần kinh sâu so với các phương pháp trích xuất đặc trưng truyền thống, chính thức mở ra kỷ nguyên AI hiện tại. Ngày nay, các kiến trúc hiện đại như Ultralytics YOLO26 tiếp tục phát triển dựa trên các nguyên tắc nền tảng được thiết lập từ những cuộc thi này.
Link to this sectionVai trò của Tiền huấn luyện và Học chuyển đổi#
Một trong những đóng góp quan trọng nhất của ImageNet là vai trò của nó trong học chuyển đổi (transfer learning). Việc huấn luyện một mạng thần kinh sâu từ đầu đòi hỏi tài nguyên tính toán khổng lồ và một lượng lớn dữ liệu huấn luyện. Để vượt qua vấn đề này, các nhà phát triển thường sử dụng "mô hình tiền huấn luyện" (pre-trained models)—các mạng đã học cách trích xuất các biểu diễn đặc trưng phong phú từ ImageNet.
Khi một mô hình được tiền huấn luyện trên ImageNet, nó học cách nhận diện các yếu tố hình ảnh cơ bản như cạnh, kết cấu và hình dạng. Các trọng số mô hình đã học này sau đó có thể được tinh chỉnh (fine-tuned) trên một tập dữ liệu nhỏ hơn, cụ thể cho một tác vụ khác. Quá trình này giúp tăng tốc đáng kể chu kỳ phát triển và cải thiện hiệu suất, đặc biệt là khi sử dụng các công cụ như Ultralytics Platform để huấn luyện mô hình tùy chỉnh.
Link to this sectionCác ứng dụng trong thực tế#
Tầm ảnh hưởng của ImageNet mở rộng ra ngoài nghiên cứu học thuật đến các hệ thống AI thực tế và hàng ngày:
- Thanh toán tự động tại cửa hàng: Các hệ thống tự động nhận diện nông sản hoặc sản phẩm tại các kiosk tự thanh toán dựa trên khả năng phân loại được mài giũa trên các tập dữ liệu khổng lồ như ImageNet. Bằng cách phân biệt giữa các mặt hàng trông giống nhau (ví dụ: các loại táo khác nhau), các hệ thống này tối ưu hóa AI trong bán lẻ.
- Kiểm duyệt nội dung: Các nền tảng mạng xã hội sử dụng nhận diện hình ảnh để tự động quét hàng triệu hình ảnh được tải lên nhằm phát hiện nội dung không phù hợp. Khả năng cốt lõi trong việc nhận diện vật thể và cảnh vật thường được rút ra từ các backbone được huấn luyện ban đầu trên các danh mục của ImageNet.
Link to this sectionImageNet so với COCO và CIFAR-10#
Mặc dù ImageNet là tiêu chuẩn vàng cho phân loại, nhưng cần phân biệt nó với các tập dữ liệu phổ biến khác:
- ImageNet so với COCO: Tập dữ liệu COCO (Common Objects in Context) là chuẩn mực chính cho nhận diện vật thể và phân đoạn. Trong khi ImageNet tập trung vào việc "cái gì" có trong hình ảnh (phân loại), COCO tập trung vào việc vật thể nằm "ở đâu" và ranh giới chính xác của chúng.
- ImageNet so với CIFAR-10: CIFAR-10 là một tập dữ liệu nhỏ hơn nhiều bao gồm các hình ảnh kích thước nhỏ 32x32 pixel. Nó thường được sử dụng cho mục đích tạo mẫu nhanh hoặc giáo dục, trong khi ImageNet đại diện cho một thử thách có độ phân giải cao, cấp độ chuyên nghiệp dành cho các mô hình sẵn sàng đưa vào sản xuất.
Link to this sectionSử dụng các mô hình đã tiền huấn luyện từ ImageNet#
Các framework AI hiện đại cho phép người dùng tận dụng việc tiền huấn luyện ImageNet một cách dễ dàng. Ví dụ dưới đây minh họa cách tải một mô hình phân loại YOLO26, mô hình đã được tiền huấn luyện trên ImageNet, để phân loại một hình ảnh.
from ultralytics import YOLO
# Load a YOLO26 classification model pre-trained on ImageNet
model = YOLO("yolo26n-cls.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top prediction class name
print(f"Top Class: {results[0].names[results[0].probs.top1]}")Đoạn mã này sử dụng mô hình yolo26n-cls.pt, mô hình đã học 1.000 danh mục của ImageNet, cho phép nó nhận diện tức thì nội dung của hình ảnh đầu vào mà không cần bất kỳ quá trình huấn luyện bổ sung nào.






