Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

ImageNet

Phát hiện ImageNet , tập dữ liệu đột phá thúc đẩy sự tiến bộ của công nghệ thị giác máy tính với hơn 14 triệu hình ảnh, hỗ trợ nghiên cứu, mô hình và ứng dụng AI.

ImageNet là một cơ sở dữ liệu hình ảnh đồ sộ, được trích dẫn rộng rãi, được thiết kế để sử dụng trong nghiên cứu phần mềm nhận dạng đối tượng trực quan. Cơ sở dữ liệu này chứa hơn 14 triệu hình ảnh đã được chú thích bằng tay để chỉ ra những đối tượng nào được chụp và, trong hơn một triệu hình ảnh, vị trí của các đối tượng được hiển thị bằng các hộp giới hạn. Được tổ chức theo hệ thống phân cấp WordNet , ImageNet ánh xạ hình ảnh thành các khái niệm cụ thể hoặc "synset", biến nó thành nguồn tài nguyên nền tảng để đào tạo và đánh giá các mô hình thị giác máy tính (CV) . Quy mô và tính đa dạng to lớn của nó cho phép các nhà nghiên cứu vượt ra ngoài các thí nghiệm quy mô nhỏ, khởi động hiệu quả kỷ nguyên học sâu (DL) hiện đại.

Sự phát triển của nhận dạng hình ảnh

Trước ImageNet , các nhà nghiên cứu đã phải vật lộn với các tập dữ liệu quá nhỏ để huấn luyện mạng nơ-ron sâu (NN) mà không gặp phải hiện tượng quá khớp . Được tạo ra bởi các nhà nghiên cứu tại Phòng thí nghiệm Học tập và Tầm nhìn Stanford , ImageNet đã giải quyết được vấn đề khan hiếm dữ liệu này. Nó đã trở nên nổi tiếng toàn cầu thông qua Thử thách Nhận dạng Hình ảnh Quy mô Lớn ImageNet (ILSVRC) , một cuộc thi thường niên diễn ra từ năm 2010 đến năm 2017.

Cuộc thi này đã trở thành nơi thử nghiệm cho các kiến trúc nổi tiếng. Năm 2012, kiến trúc AlexNet đã giành chiến thắng áp đảo nhờ sử dụng Mạng Nơ-ron Tích chập (CNN) , chứng minh tính khả thi của học sâu trên Bộ Xử lý Đồ họa (GPU) . Những năm tiếp theo chứng kiến sự trỗi dậy của các mô hình sâu hơn và phức tạp hơn như VGGResNet , giúp giảm tỷ lệ lỗi và vượt qua hiệu suất của con người trong các tác vụ phân loại cụ thể.

Chuyển giao học tập và đào tạo trước

Trong khi ImageNet là một tập dữ liệu, nhưng ứng dụng thực tế nhất của nó hiện nay nằm ở việc học chuyển giao . Việc huấn luyện một mạng nơ-ron sâu từ đầu đòi hỏi một lượng lớn dữ liệu huấn luyện và sức mạnh tính toán. Thay vào đó, các nhà phát triển thường sử dụng các mô hình đã được "huấn luyện trước" trên ImageNet .

Bởi vì ImageNet Bao gồm hơn 20.000 danh mục—từ giống chó đến đồ gia dụng—một mô hình được đào tạo trên nền tảng này sẽ học được các biểu diễn đặc trưng phong phú, cấp cao. Những đặc trưng đã học này đóng vai trò là nền tảng vững chắc cho các mô hình mới. Bằng cách tinh chỉnh các trọng số được đào tạo trước này, các nhà phát triển có thể đạt được độ chính xác cao trên các tập dữ liệu tùy chỉnh cụ thể của họ với số lượng hình ảnh ít hơn đáng kể.

Các Ứng dụng Thực tế

Ảnh hưởng của ImageNet mở rộng đến hầu hết mọi ngành công nghiệp sử dụng trí tuệ nhân tạo (AI) .

  1. Chẩn đoán y khoa : Trong phân tích hình ảnh y khoa , dữ liệu được gắn nhãn thường khan hiếm và tốn kém. Các nhà nghiên cứu sử dụng các mô hình được đào tạo trước về ImageNet để xác định hình dạng và kết cấu chung, sau đó tinh chỉnh chúng để detect khối u hoặc gãy xương trên phim chụp X-quang. Cách tiếp cận này thúc đẩy sự phát triển của AI cứu sống trong các công cụ chăm sóc sức khỏe .
  2. Hệ thống bán lẻ thông minh : Hệ thống thanh toán tự động dựa vào việc nhận dạng hàng ngàn sản phẩm. Thay vì thu thập hàng triệu hình ảnh hộp ngũ cốc, các kỹ sư tận dụng ImageNet - Các bộ phân loại được đào tạo để nhận dạng hình dạng sản phẩm cơ bản và thương hiệu. Điều này cho phép triển khai mô hình nhanh chóng để AI hiệu quả trong quản lý hàng tồn kho bán lẻ .

Sử dụng ImageNet Các mô hình được đào tạo trước

Các nhà phát triển có thể dễ dàng truy cập vào các mô hình được đào tạo trước ImageNet sử dụng Ultralytics thư viện. Ví dụ sau đây minh họa cách tải mô hình phân loại YOLO11 , đi kèm với ImageNet trọng số theo mặc định và sử dụng nó để dự đoán lớp của hình ảnh.

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet so với COCO

Điều quan trọng là phải phân biệt ImageNet từ tập dữ liệu COCO (Đối tượng chung trong bối cảnh) .

  • ImageNet chủ yếu là một chuẩn mực phân loại hình ảnh , trong đó mục tiêu là gán một nhãn duy nhất (ví dụ: "mèo vằn") cho toàn bộ hình ảnh. Các chú thích tập trung vào nội dung có trong hình ảnh.
  • COCO là chuẩn mực chuẩn cho việc phát hiện đối tượngphân đoạn thực thể . Nó chứa ít hình ảnh hơn nhưng cung cấp các chú thích phức tạp với các hộp giới hạn và mặt nạ từng pixel cho nhiều đối tượng trên mỗi hình ảnh, tập trung vào vị trí của đối tượng.

Trong khi ImageNet được sử dụng để dạy các mô hình "cách nhìn", các tập dữ liệu như COCO được sử dụng để dạy chúng cách định vị và tách biệt các đối tượng trong các cảnh phức tạp. Thông thường, bộ mã hóa của mô hình được đào tạo trước về ImageNet trước khi được đào tạo về COCO cho nhiệm vụ phát hiện.

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay