Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

ImageNet

Откройте для себя ImageNet, новаторский набор данных, стимулирующий развитие компьютерного зрения благодаря более чем 14 миллионам изображений, поддерживающим исследования, модели и приложения в области ИИ.

ImageNet — это огромный общедоступный набор данных, содержащий более 14 миллионов изображений, которые были вручную аннотированы для указания того, что на них изображено. Организованный в соответствии с иерархией WordNet, он содержит более 20 000 категорий, при этом типичная категория, такая как «воздушный шар» или «клубника», состоит из нескольких сотен изображений. Эта обширная и разнообразная коллекция сыграла важную роль в развитии областей компьютерного зрения (CV) и глубокого обучения (DL), служа стандартом для обучения и оценки моделей.

Создание ImageNet исследователями из Стэнфордского университета стало поворотным моментом для искусственного интеллекта (ИИ). До ImageNet наборы данных часто были слишком малы для эффективного обучения сложных нейронных сетей (NN), что приводило к таким проблемам, как переобучение. ImageNet обеспечил масштаб, необходимый для обучения глубоких моделей, проложив путь к современной революции в области ИИ. Вы можете узнать больше, прочитав оригинальную научную статью об ImageNet.

Imagenet Large Scale Visual Recognition Challenge (ILSVRC)

Влияние ImageNet усилилось благодаря ImageNet Large Scale Visual Recognition Challenge (ILSVRC) — ежегодному соревнованию, проводившемуся с 2010 по 2017 год. Этот конкурс стал важным эталоном для оценки производительности алгоритмов компьютерного зрения. В 2012 году сверточная нейронная сеть (CNN) под названием AlexNet одержала революционную победу, значительно превзойдя все предыдущие модели. Этот успех продемонстрировал мощь глубокого обучения и вычислений на GPU, вызвав волну инноваций в этой области. ILSVRC сыграл ключевую роль в развитии многих современных архитектур, и вы можете увидеть, как сегодняшние модели работают на различных бенчмарках на таких сайтах, как Papers with Code.

Реальные приложения Imagenet

Основное применение ImageNet — в качестве ресурса для предварительного обучения моделей. Обучая модель на этом огромном наборе данных, она учится распознавать богатый набор визуальных признаков. Затем эти знания можно перенести на новые, более конкретные задачи. Этот метод известен как трансферное обучение.

  1. Анализ медицинских изображений: Модель, предварительно обученная на ImageNet, такая как модель Ultralytics YOLO, может быть донастроена на гораздо меньшем, специализированном наборе данных медицинских снимков для обнаружения конкретных состояний, таких как опухоли. Первоначальное обучение на ImageNet обеспечивает прочную основу общего визуального понимания, что имеет решающее значение для достижения высокой точности в задачах анализа медицинских изображений, где маркированных данных мало. Это ключевое применение для ИИ в здравоохранении.
  2. Распознавание розничных продуктов: В розничной торговле модели могут быть адаптированы для идентификации тысяч различных продуктов на полке для автоматизированного управления запасами. Вместо обучения с нуля модель, предварительно обученная на ImageNet, может быть быстро адаптирована к конкретным продуктам магазина. Это снижает потребность в огромном количестве пользовательских данных для обучения и ускоряет развертывание модели. Многие мощные решения на основе ИИ в розничной торговле используют этот подход.

Imagenet в сравнении со смежными понятиями

Важно отличать ImageNet от других связанных терминов и наборов данных:

  • ImageNet и задачи CV: ImageNet сам по себе является набором данных — коллекцией помеченных изображений. Это не задача. Вместо этого он используется для обучения и оценки моделей, которые выполняют такие задачи, как классификация изображений, где одному изображению присваивается одна метка. Это отличается от обнаружения объектов, которое включает в себя обнаружение объектов с помощью ограничивающих рамок, или сегментации изображений, которая классифицирует каждый пиксель на изображении.
  • ImageNet и COCO: В то время как ImageNet является золотым стандартом для классификации, другие наборы данных компьютерного зрения больше подходят для других задач. Например, набор данных COCO (Common Objects in Context) является предпочтительным эталоном для обнаружения объектов и сегментации экземпляров. Это связано с тем, что COCO предоставляет более подробные аннотации, такие как ограничивающие рамки и маски сегментации для каждого пикселя для нескольких объектов на каждом изображении. В отличие от этого, большинство изображений ImageNet имеют только одну метку уровня изображения.

Такие модели, как YOLO11, часто предварительно обучаются на ImageNet для своей классификационной основы, прежде чем обучаться на COCO для задач обнаружения. Этот многоэтапный процесс обучения использует сильные стороны обоих наборов данных. Вы можете увидеть, как сравниваются различные модели по этим бенчмаркам, на наших страницах сравнения моделей. Хотя ImageNet оказывает большое влияние, стоит отметить, что у него есть ограничения, включая известные смещения набора данных, которые важно учитывать с точки зрения этики ИИ.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена