Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

ImageNet

Откройте для себя ImageNet- революционный набор данных, способствующий развитию компьютерного зрения, содержащий более 14 миллионов изображений и обеспечивающий исследования, модели и приложения в области искусственного интеллекта.

ImageNet - это массивная, широко цитируемая база визуальных данных, предназначенная для использования в исследованиях программного обеспечения для визуального распознавания объектов. Она содержит более 14 миллионов изображений, которые были вручную проаннотированы, чтобы указать, какие объекты изображены, а в более чем миллион изображений, где эти объекты расположены с помощью ограничительных рамок. Организованные в соответствии с иерархии WordNet, ImageNet сопоставляет изображения с определенными понятиями или "синсетов", что делает его основополагающим ресурсом для обучения и оценки моделей компьютерного зрения (КВ). Его огромный масштаб и разнообразие позволили исследователям выйти за рамки небольших экспериментов, фактически положив начало современной эре глубокого обучения (ГОО).

Эволюция визуального распознавания

До появления ImageNet исследователи боролись с наборами данных, которые были слишком малы для обучения глубоких нейронных сетей (НС), не сталкиваясь с чрезмерной подгонки. Созданная исследователями из Стэнфордской лаборатории зрения и обучения, ImageNet решила эту проблему нехватки данных. Она получила всемирную известность благодаря ImageNet Large Scale Visual Recognition Challenge (ILSVRC), ежегодного конкурса, который проводился с 2010 по 2017 год. ежегодного конкурса, который проводился с 2010 по 2017 год.

Этот конкурс стал полигоном для знаменитых архитектурных проектов. В 2012 году архитектура AlexNet выиграла конкурс со значительным отрывом используя Конволюционной нейронной сети (CNN), доказав жизнеспособность глубокого обучения на графических процессорах (GPU). В последующие годы появились более глубокие и сложные модели, такие как VGG и ResNet, которые позволили еще больше снизить количество ошибок и превзойти человеческий уровень производительности в конкретных задачах классификации.

Трансферное обучение и предварительная подготовка

Несмотря на то, что ImageNet - это набор данных, его практическая польза сегодня заключается в трансферном обучении. Обучение глубокой нейронной сети с нуля требует огромного количества обучающих данных и вычислительных мощностей. Вместо этого разработчики часто используют модели, которые уже были "предварительно обучены" на ImageNet.

Поскольку ImageNet охватывает огромное количество 20 000+ категорий - от пород собак до предметов домашнего обихода, - модель, обученная на нем. обучается богатым высокоуровневым представлениям признаков. Эти изученные характеристики служат мощным основой для новых моделей. Посредством точной настройки этих предварительно обученных весов, разработчики могут достигать высокой точности на специальных пользовательских наборах данных используя значительно меньшее количество изображений.

Применение в реальном мире

Влияние ImageNet распространяется практически на все отрасли, в которых используется искусственный интеллект (ИИ).

  1. Медицинская диагностика: На сайте При анализе медицинских изображений меченые данные часто не хватает и дорого получить. Исследователи используют модели, предварительно обученные на ImageNet , для определения общих форм и текстур, а затем настраивают их для detect опухолей или переломов на рентгеновских снимках. Такой подход ускоряет разработку ИИ в медицинских инструментах для спасения жизни.
  2. Интеллектуальные системы розничной торговли: Автоматизированные системы кассового обслуживания основаны на идентификации тысяч товаров. Вместо того чтобы Вместо того чтобы собирать миллионы изображений коробок с хлопьями, инженеры используют классификаторы ImageNet распознавать основные формы и брендинг товаров. Это позволяет быстро развертывание моделей для эффективного ИИ в управлении запасами в розничной торговле.

Использование предварительно обученных моделей ImageNet

Разработчики могут легко получить доступ к моделям, предварительно обученным на ImageNet , используя библиотеку Ultralytics . Следующий пример демонстрирует, как загрузить модель YOLO11 модель классификации, которая по умолчанию поставляется с весами ImageNet , и использовать ее для предсказания класса изображения.

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet против COCO

Важно отличать ImageNet от COCO (Common Objects in Context) датасета.

  • ImageNet в первую очередь является эталоном для классификации изображений, где целью является присвоение одной метки (например, "кошка табби") всему изображению. Аннотации сосредоточены на том. что находится на изображении.
  • COCO является стандартным эталоном для обнаружение объектов и сегментации объектов. Он содержит меньше изображений, но предлагает сложные аннотации с ограничительными рамками и пиксельными масками для множества объектов на одном изображении, уделяя особое внимание тому , где расположены объекты.

В то время как ImageNet используется для обучения моделей "как видеть", такие наборы данных, как COCO , используются для того, чтобы научить их находить и разделять объекты в сложных сценах. Часто кодировщик модели предварительно обучается на ImageNet , а затем на COCO для задач обнаружения. COCO для задач обнаружения.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас