Глоссарий

ImageNet

Откройте для себя ImageNet - революционный набор данных, способствующий развитию компьютерного зрения, содержащий более 14 миллионов изображений и обеспечивающий исследования, модели и приложения в области искусственного интеллекта.

ImageNet - это массивная общедоступная база данных, включающая более 14 миллионов изображений, которые были вручную проаннотированы, чтобы указать, какие объекты на них изображены. Организованная в соответствии с иерархией WordNet, она содержит более 20 000 категорий, причем типичная категория, такая как "воздушный шар" или "клубника", состоит из нескольких сотен изображений. Эта обширная и разнообразная коллекция сыграла важную роль в развитии областей компьютерного зрения (КЗ) и глубокого обучения (ГОО), послужив стандартом для обучения и тестирования моделей.

Создание ImageNet исследователями из Стэнфордского университета стало поворотным моментом для искусственного интеллекта (ИИ). До появления ImageNet наборы данных часто были слишком малы для эффективного обучения сложных нейронных сетей (НС), что приводило к таким проблемам, как чрезмерная подгонка. ImageNet обеспечил масштаб, необходимый для обучения глубоких моделей, проложив путь к современной революции в области ИИ. Вы можете узнать больше, прочитав оригинальный исследовательский документ ImageNet.

Крупномасштабный конкурс визуального распознавания Imagenet (ILSVRC)

Влияние ImageNet усилилось после проведения ежегодного конкурса ImageNet Large Scale Visual Recognition Challenge (ILSVRC), который проводился с 2010 по 2017 год. Этот конкурс стал важнейшим эталоном для оценки эффективности алгоритмов компьютерного зрения. В 2012 году конволюционная нейронная сеть (CNN) под названием AlexNet одержала революционную победу, значительно превзойдя все предыдущие модели. Этот успех продемонстрировал возможности глубокого обучения и вычислений на GPU, вызвав волну инноваций в этой области. ILSVRC стал ключевым фактором в развитии многих современных архитектур, и вы можете увидеть, как современные модели работают в различных бенчмарках на таких сайтах, как Papers with Code.

Применение Imagenet в реальном мире

ImageNet в первую очередь используется как ресурс для предварительного обучения моделей. Обучая модель на этом обширном наборе данных, она учится распознавать богатый набор визуальных признаков. Затем эти знания могут быть перенесены на новые, более специфические задачи. Эта техника известна как трансферное обучение.

  1. Анализ медицинских изображений: Модель, предварительно обученная на ImageNet, например модель Ultralytics YOLO, может быть доработана на гораздо меньшем специализированном наборе данных медицинских снимков для выявления конкретных заболеваний, например опухолей. Первоначальное обучение на ImageNet закладывает прочный фундамент общего визуального понимания, что крайне важно для достижения высокой точности в задачах анализа медицинских изображений, где не хватает маркированных данных. Это ключевое применение ИИ в здравоохранении.
  2. Распознавание товаров в розничной торговле: В розничной торговле модели могут быть адаптированы для идентификации тысяч различных товаров на полке для автоматизированного управления запасами. Вместо обучения с нуля можно быстро адаптировать модель, предварительно обученную на ImageNet, к конкретным товарам магазина. Это снижает потребность в огромных объемах пользовательских данных для обучения и ускоряет развертывание модели. Многие мощные решения в области ИИ в розничной торговле используют этот подход.

Imagenet в сравнении со смежными понятиями

Важно отличать ImageNet от других родственных терминов и наборов данных:

  • ImageNet в сравнении с задачами CV: ImageNet сам по себе является набором данных -коллекцией помеченных изображений. Он не является задачей. Вместо этого он используется для обучения и тестирования моделей, выполняющих такие задачи, как классификация изображений, когда изображению присваивается одна метка. Это отличается от обнаружения объектов, которое включает в себя определение местоположения объектов с помощью ограничительных рамок, или сегментации изображений, при которой классифицируется каждый пиксель на изображении.
  • ImageNet против COCO: Хотя ImageNet является золотым стандартом классификации, другие наборы данных компьютерного зрения лучше подходят для других задач. Например, набор данных COCO (Common Objects in Context) является предпочтительным эталоном для обнаружения объектов и сегментации экземпляров. Это связано с тем, что COCO предоставляет более подробные аннотации, такие как ограничительные рамки и маски сегментации на пиксель для нескольких объектов на каждом изображении. В отличие от этого, большинство изображений ImageNet имеют только одну метку на уровне изображения.

Такие модели, как YOLO11, часто предварительно обучаются на ImageNet для классификации, а затем тренируются на COCO для задач обнаружения. Такой многоступенчатый процесс обучения позволяет использовать сильные стороны обоих наборов данных. Вы можете увидеть, как различные модели сравниваются с этими эталонами на наших страницах сравнения моделей. Несмотря на большое влияние, стоит отметить, что у ImageNet есть ограничения, в том числе известная предвзятость наборов данных, которую важно учитывать с точки зрения этики ИИ.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена