Khám phá ImageNet, bộ dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.
ImageNet là một tập dữ liệu nền tảng rất lớn được sử dụng rộng rãi trong nghiên cứu và phát triển thị giác máy tính (CV) . Nó chứa hơn 14 triệu hình ảnh đã được chú thích thủ công để chỉ ra các đối tượng được chụp. Những hình ảnh này được sắp xếp theo phân cấp WordNet , một cơ sở dữ liệu từ vựng lớn về English danh từ, động từ, tính từ và trạng từ được nhóm thành các tập hợp từ đồng nghĩa nhận thức (synset). Với hơn 20.000 danh mục, ImageNet cung cấp một nguồn tài nguyên phong phú và đa dạng để đào tạo và đánh giá các mô hình học máy (ML) , đặc biệt là đối với các tác vụ như phân loại hình ảnh và nhận dạng hình ảnh . Quy mô tuyệt đối và các chú thích chi tiết của nó rất quan trọng để thúc đẩy lĩnh vực trí tuệ nhân tạo (AI) . Bạn có thể tìm hiểu thêm về cách sử dụng tập dữ liệu với Ultralytics mô hình trên trang tài liệu Bộ dữ liệu ImageNet .
Sự ra đời của ImageNet đánh dấu một thời điểm quan trọng đối với học sâu (DL) , đặc biệt là trong thị giác máy tính. Trước ImageNet, việc thiếu các tập dữ liệu lớn, đa dạng và được gắn nhãn tốt là một nút thắt lớn cản trở sự tiến bộ. Các tập dữ liệu chất lượng cao như ImageNet cho phép đào tạo các mô hình sâu hơn và phức tạp hơn nhiều, chẳng hạn như Mạng nơ-ron tích chập (CNN) , dẫn đến những đột phá đáng kể trong các nhiệm vụ hiểu thị giác. Thử thách nhận dạng thị giác quy mô lớn ImageNet (ILSVRC) hàng năm, diễn ra từ năm 2010 đến năm 2017, đã sử dụng một tập hợp con của ImageNet và trở thành tập dữ liệu chuẩn để đánh giá các thuật toán phân loại hình ảnh và phát hiện đối tượng . Các mô hình đột phá như AlexNet và ResNet , đạt được kết quả tiên tiến trên ImageNet, đã ảnh hưởng lớn đến các kiến trúc CV hiện đại và chứng minh sức mạnh của học sâu trên dữ liệu quy mô lớn. Bài báo ILSVRC ban đầu cung cấp thêm thông tin chi tiết về thách thức và tác động của nó.
Ứng dụng chính của ImageNet là đóng vai trò là chuẩn mực để đánh giá hiệu suất ( độ chính xác , tốc độ) của các mô hình và thuật toán thị giác máy tính mới, đặc biệt là để phân loại hình ảnh. Việc áp dụng rộng rãi của nó cho phép các nhà nghiên cứu so sánh kết quả một cách công bằng. Ngoài việc đánh giá chuẩn, ImageNet được sử dụng rộng rãi cho các mô hình tiền đào tạo . Tiền đào tạo bao gồm việc đào tạo một mô hình trên tập dữ liệu ImageNet lớn và chung trước tiên, cho phép mô hình học các tính năng trực quan mạnh mẽ. Các mô hình được đào tạo trước này, thường có sẵn thông qua các khuôn khổ như PyTorch và TensorFlow , sau đó có thể được tinh chỉnh trên các tập dữ liệu nhỏ hơn, cụ thể hơn cho nhiều tác vụ hạ nguồn khác nhau bằng cách sử dụng học chuyển giao . Điều này làm giảm đáng kể lượng dữ liệu và tính toán cần thiết cho tác vụ mục tiêu và thường dẫn đến hiệu suất tốt hơn, đặc biệt là khi tập dữ liệu mục tiêu nhỏ. Ví dụ, nhiều mô hình YOLO Ultralytics tận dụng các chiến lược tiền đào tạo. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho quá trình đào tạo các mô hình bằng các kỹ thuật như vậy.
Tác động của ImageNet vượt xa phạm vi nghiên cứu học thuật và ứng dụng thực tế:
Điều quan trọng là phải phân biệt ImageNet với các tác vụ mà nó hỗ trợ và các tập dữ liệu liên quan khác:
Mặc dù có sức ảnh hưởng đáng kinh ngạc, ImageNet cũng có những hạn chế, bao gồm khả năng sai lệch dữ liệu phản ánh thời gian và nguồn thu thập dữ liệu, đây là một cân nhắc quan trọng trong đạo đức AI .