Phát hiện ImageNet , tập dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.
ImageNet là một cơ sở dữ liệu hình ảnh đồ sộ, được trích dẫn rộng rãi, được thiết kế để sử dụng trong nghiên cứu phần mềm nhận dạng đối tượng trực quan. Cơ sở dữ liệu này chứa hơn 14 triệu hình ảnh đã được chú thích bằng tay để chỉ ra những đối tượng nào được chụp và, trong hơn một triệu hình ảnh, vị trí của các đối tượng được hiển thị bằng các hộp giới hạn. Được tổ chức theo hệ thống phân cấp WordNet , ImageNet ánh xạ hình ảnh thành các khái niệm cụ thể hoặc "synset", biến nó thành nguồn tài nguyên nền tảng để đào tạo và đánh giá các mô hình thị giác máy tính (CV) . Quy mô và tính đa dạng to lớn của nó cho phép các nhà nghiên cứu vượt ra ngoài các thí nghiệm quy mô nhỏ, khởi động hiệu quả kỷ nguyên học sâu (DL) hiện đại.
Trước ImageNet , các nhà nghiên cứu đã phải vật lộn với các tập dữ liệu quá nhỏ để huấn luyện mạng nơ-ron sâu (NN) mà không gặp phải hiện tượng quá khớp . Được tạo ra bởi các nhà nghiên cứu tại Phòng thí nghiệm Học tập và Tầm nhìn Stanford , ImageNet đã giải quyết được vấn đề khan hiếm dữ liệu này. Nó đã trở nên nổi tiếng toàn cầu thông qua Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) , một cuộc thi thường niên diễn ra từ năm 2010 đến năm 2017.
Cuộc thi này đã trở thành nơi thử nghiệm cho các kiến trúc nổi tiếng. Năm 2012, kiến trúc AlexNet đã giành chiến thắng áp đảo nhờ sử dụng Mạng Nơ-ron Tích chập (CNN) , chứng minh tính khả thi của học sâu trên Bộ Xử lý Đồ họa (GPU) . Những năm tiếp theo chứng kiến sự trỗi dậy của các mô hình sâu hơn và phức tạp hơn như VGG và ResNet , giúp giảm tỷ lệ lỗi và vượt qua hiệu suất của con người trong các tác vụ phân loại cụ thể.
Trong khi ImageNet là một tập dữ liệu, nhưng ứng dụng thực tế nhất của nó hiện nay nằm ở việc học chuyển giao . Việc huấn luyện một mạng nơ-ron sâu từ đầu đòi hỏi một lượng lớn dữ liệu huấn luyện và sức mạnh tính toán. Thay vào đó, các nhà phát triển thường sử dụng các mô hình đã được "huấn luyện trước" trên ImageNet .
Bởi vì ImageNet Bao gồm hơn 20.000 danh mục—từ giống chó đến đồ gia dụng—một mô hình được đào tạo trên nền tảng này sẽ học được các biểu diễn đặc trưng phong phú, cấp cao. Những đặc trưng đã học này đóng vai trò là nền tảng vững chắc cho các mô hình mới. Bằng cách tinh chỉnh các trọng số được đào tạo trước này, các nhà phát triển có thể đạt được độ chính xác cao trên các tập dữ liệu tùy chỉnh cụ thể của họ với số lượng hình ảnh ít hơn đáng kể.
Ảnh hưởng của ImageNet mở rộng đến hầu hết mọi ngành công nghiệp sử dụng trí tuệ nhân tạo (AI) .
Các nhà phát triển có thể dễ dàng truy cập vào các mô hình được đào tạo trước ImageNet sử dụng Ultralytics thư viện. Ví dụ sau đây minh họa cách tải mô hình phân loại YOLO11 , đi kèm với ImageNet trọng số theo mặc định và sử dụng nó để dự đoán lớp của hình ảnh.
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Điều quan trọng là phải phân biệt ImageNet từ tập dữ liệu COCO (Đối tượng chung trong bối cảnh) .
Trong khi ImageNet được sử dụng để dạy các mô hình "cách nhìn", các tập dữ liệu như COCO được sử dụng để dạy chúng cách định vị và tách biệt các đối tượng trong các cảnh phức tạp. Thông thường, bộ mã hóa của mô hình được đào tạo trước về ImageNet trước khi được đào tạo về COCO cho nhiệm vụ phát hiện.