Thuật ngữ

Hình ảnhNet

Khám phá ImageNet, bộ dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

ImageNet là một tập dữ liệu nền tảng rất lớn được sử dụng rộng rãi trong nghiên cứu và phát triển thị giác máy tính (CV) . Nó chứa hơn 14 triệu hình ảnh đã được chú thích thủ công để chỉ ra các đối tượng được chụp. Những hình ảnh này được sắp xếp theo phân cấp WordNet , một cơ sở dữ liệu từ vựng lớn về English danh từ, động từ, tính từ và trạng từ được nhóm thành các tập hợp từ đồng nghĩa nhận thức (synset). Với hơn 20.000 danh mục, ImageNet cung cấp một nguồn tài nguyên phong phú và đa dạng để đào tạo và đánh giá các mô hình học máy (ML) , đặc biệt là đối với các tác vụ như phân loại hình ảnhnhận dạng hình ảnh . Quy mô tuyệt đối và các chú thích chi tiết của nó rất quan trọng để thúc đẩy lĩnh vực trí tuệ nhân tạo (AI) . Bạn có thể tìm hiểu thêm về cách sử dụng tập dữ liệu với Ultralytics mô hình trên trang tài liệu Bộ dữ liệu ImageNet .

Ý nghĩa và sự liên quan

Sự ra đời của ImageNet đánh dấu một thời điểm quan trọng đối với học sâu (DL) , đặc biệt là trong thị giác máy tính. Trước ImageNet, việc thiếu các tập dữ liệu lớn, đa dạng và được gắn nhãn tốt là một nút thắt lớn cản trở sự tiến bộ. Các tập dữ liệu chất lượng cao như ImageNet cho phép đào tạo các mô hình sâu hơn và phức tạp hơn nhiều, chẳng hạn như Mạng nơ-ron tích chập (CNN) , dẫn đến những đột phá đáng kể trong các nhiệm vụ hiểu thị giác. Thử thách nhận dạng thị giác quy mô lớn ImageNet (ILSVRC) hàng năm, diễn ra từ năm 2010 đến năm 2017, đã sử dụng một tập hợp con của ImageNet và trở thành tập dữ liệu chuẩn để đánh giá các thuật toán phân loại hình ảnh và phát hiện đối tượng . Các mô hình đột phá như AlexNetResNet , đạt được kết quả tiên tiến trên ImageNet, đã ảnh hưởng lớn đến các kiến trúc CV hiện đại và chứng minh sức mạnh của học sâu trên dữ liệu quy mô lớn. Bài báo ILSVRC ban đầu cung cấp thêm thông tin chi tiết về thách thức và tác động của nó.

Ứng dụng của ImageNet

Ứng dụng chính của ImageNet là đóng vai trò là chuẩn mực để đánh giá hiệu suất ( độ chính xác , tốc độ) của các mô hình và thuật toán thị giác máy tính mới, đặc biệt là để phân loại hình ảnh. Việc áp dụng rộng rãi của nó cho phép các nhà nghiên cứu so sánh kết quả một cách công bằng. Ngoài việc đánh giá chuẩn, ImageNet được sử dụng rộng rãi cho các mô hình tiền đào tạo . Tiền đào tạo bao gồm việc đào tạo một mô hình trên tập dữ liệu ImageNet lớn và chung trước tiên, cho phép mô hình học các tính năng trực quan mạnh mẽ. Các mô hình được đào tạo trước này, thường có sẵn thông qua các khuôn khổ như PyTorchTensorFlow , sau đó có thể được tinh chỉnh trên các tập dữ liệu nhỏ hơn, cụ thể hơn cho nhiều tác vụ hạ nguồn khác nhau bằng cách sử dụng học chuyển giao . Điều này làm giảm đáng kể lượng dữ liệu và tính toán cần thiết cho tác vụ mục tiêu và thường dẫn đến hiệu suất tốt hơn, đặc biệt là khi tập dữ liệu mục tiêu nhỏ. Ví dụ, nhiều mô hình YOLO Ultralytics tận dụng các chiến lược tiền đào tạo. Các nền tảng như Ultralytics HUB tạo điều kiện thuận lợi cho quá trình đào tạo các mô hình bằng các kỹ thuật như vậy.

Ví dụ thực tế

Tác động của ImageNet vượt xa phạm vi nghiên cứu học thuật và ứng dụng thực tế:

  • Phân tích hình ảnh y tế: Các mô hình được đào tạo trước trên ImageNet thường được tinh chỉnh cho các tác vụ chuyên biệt trong phân tích hình ảnh y tế . Mặc dù hình ảnh y tế khác đáng kể so với ảnh ImageNet, các đặc điểm hình ảnh cơ bản được học (như các cạnh, kết cấu, hình dạng cơ bản) cung cấp một điểm khởi đầu mạnh mẽ. Phương pháp tiếp cận này đẩy nhanh quá trình phát triển các công cụ AI cho các tác vụ như phát hiện khối u trong hình ảnh y tế hoặc xác định các bất thường trong chụp X-quang hoặc chụp CT, góp phần vào những tiến bộ trong AI trong chăm sóc sức khỏe .
  • Hệ thống tự động: Hệ thống nhận thức trong xe tự hànhrô-bốt phụ thuộc rất nhiều vào việc xác định chính xác các đối tượng như người đi bộ, ô tô, biển báo giao thông và chướng ngại vật. Việc đào tạo trước các thành phần nhận dạng đối tượng của các hệ thống này trên ImageNet giúp chúng học các đặc điểm chung của đối tượng, cải thiện độ mạnh mẽ và độ tin cậy của chúng khi được tinh chỉnh trên dữ liệu môi trường lái xe hoặc hoạt động cụ thể. Điều này góp phần vào sự phát triển của các công nghệ như những công nghệ được Waymo sử dụng và tích hợp vào AI trong các giải pháp ô tô .

ImageNet so với các khái niệm liên quan

Điều quan trọng là phải phân biệt ImageNet với các tác vụ mà nó hỗ trợ và các tập dữ liệu liên quan khác:

  • ImageNet so với CV Tasks: Bản thân ImageNet là một tập dữ liệu , một tập hợp các hình ảnh được gắn nhãn. Nó không phải là một nhiệm vụ như Phân loại hình ảnh (gán một nhãn duy nhất cho một hình ảnh), Phát hiện đối tượng (xác định vị trí các đối tượng bằng hộp giới hạn ) hoặc Phân đoạn hình ảnh (gán nhãn cho mỗi pixel, bao gồm phân đoạn thể hiệnphân đoạn ngữ nghĩa ). Thay vào đó, ImageNet chủ yếu được sử dụng để đào tạođánh giá chuẩn các mô hình thực hiện các nhiệm vụ này, đặc biệt là phân loại.
  • ImageNet so với COCO: Trong khi ImageNet là tiêu chuẩn để phân loại, các tập dữ liệu như COCO (Đối tượng chung trong ngữ cảnh) thường được sử dụng nhiều hơn để đánh giá chuẩn phát hiện và phân đoạn đối tượng. Điều này là do COCO bao gồm các chú thích chi tiết hơn cần thiết cho các tác vụ này, chẳng hạn như các hộp giới hạn chính xác và mặt nạ phân đoạn theo pixel cho nhiều đối tượng trên mỗi hình ảnh, trong khi ImageNet chủ yếu cung cấp nhãn cấp độ hình ảnh (mặc dù có một số dữ liệu định vị đối tượng). Ultralytics hỗ trợ nhiều bộ dữ liệu thị giác máy tính cho nhiều tác vụ khác nhau.

Mặc dù có sức ảnh hưởng đáng kinh ngạc, ImageNet cũng có những hạn chế, bao gồm khả năng sai lệch dữ liệu phản ánh thời gian và nguồn thu thập dữ liệu, đây là một cân nhắc quan trọng trong đạo đức AI .

Đọc tất cả