Глоссарий

ImageNet

Открой для себя ImageNet - революционный набор данных, способствующий прогрессу в области компьютерного зрения и содержащий более 14 миллионов изображений, что позволяет проводить исследования, модели и приложения в области искусственного интеллекта.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

ImageNet - это очень большой, основополагающий набор данных, широко используемый в исследованиях и разработках в области компьютерного зрения (КВ). Она содержит более 14 миллионов изображений, которые были вручную аннотированы для обозначения объектов, изображенных на них. Эти изображения организованы в соответствии с иерархией WordNet - большой лексической базы данных English существительных, глаголов, прилагательных и наречий, сгруппированных в наборы когнитивных синонимов (синсеты). Имея более 20 000 категорий, ImageNet представляет собой богатый и разнообразный ресурс для обучения и оценки моделей машинного обучения (ML), особенно для таких задач, как классификация изображений и распознавание образов. Его масштабы и подробные аннотации сыграли решающую роль в развитии области искусственного интеллекта (ИИ). Подробнее об использовании набора данных с моделями Ultralytics ты можешь узнать на странице документации по ImageNet Dataset.

Значимость и актуальность

Появление ImageNet стало поворотным моментом для глубокого обучения (ГОО), особенно в компьютерном зрении. До появления ImageNet отсутствие больших, разнообразных и хорошо маркированных наборов данных было основным узким местом, тормозящим прогресс. Высококачественные наборы данных, такие как ImageNet, позволили обучать гораздо более глубокие и сложные модели, такие как конволюционные нейронные сети (CNN), что привело к значительному прорыву в задачах визуального понимания. Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC), который проводился с 2010 по 2017 год, использовал подмножество ImageNet и стал стандартным эталонным набором данных для оценки алгоритмов классификации изображений и обнаружения объектов. Такие революционные модели, как AlexNet и ResNet, которые достигли передовых результатов на ImageNet, сильно повлияли на современные архитектуры CV и продемонстрировали мощь глубокого обучения на крупномасштабных данных. В оригинальной статье ILSVRC приводится более подробная информация об этой задаче и ее влиянии.

Применение ImageNet

Основное применение ImageNet - служить стандартным эталоном для оценки производительности(точности, скорости) новых моделей и алгоритмов компьютерного зрения, в частности для классификации изображений. Его широкое распространение позволяет исследователям справедливо сравнивать результаты. Помимо бенчмарков, ImageNet широко используется для предварительного обучения моделей. Предварительное обучение включает в себя обучение модели сначала на большом и общем наборе данных ImageNet, что позволяет ей научиться надежным визуальным признакам. Эти предварительно обученные модели, часто доступные через такие фреймворки, как PyTorch и TensorFlowЗатем их можно доработать на небольших, более специфических наборах данных для различных последующих задач с помощью трансферного обучения. Это значительно сокращает объем данных и вычислений, необходимых для решения целевой задачи, и часто приводит к лучшей производительности, особенно когда целевой набор данных невелик. Многие Ultralytics YOLO например, используют стратегии предварительного обучения. Платформы вроде Ultralytics HUB облегчают процесс обучения моделей с помощью таких техник.

Примеры из реальной жизни

Влияние ImageNet выходит далеко за рамки академических исследований и находит практическое применение:

  • Анализ медицинских изображений: Модели, предварительно обученные на ImageNet, часто настраивают для решения специализированных задач по анализу медицинских изображений. Хотя медицинские изображения значительно отличаются от фотографий ImageNet, изученные основополагающие визуальные признаки (такие как края, текстуры, базовые формы) обеспечивают сильную отправную точку. Такой подход ускоряет разработку инструментов ИИ для таких задач, как обнаружение опухолей в медицинской визуализации или выявление аномалий на рентгеновских снимках или компьютерных томограммах, способствуя развитию ИИ в здравоохранении.
  • Автономные системы: Системы восприятия в автономных транспортных средствах и робототехнике в значительной степени зависят от точной идентификации таких объектов, как пешеходы, автомобили, дорожные знаки и препятствия. Предварительное обучение компонентов распознавания объектов в этих системах на ImageNet помогает им изучать общие характеристики объектов, повышая их устойчивость и надежность при тонкой настройке на конкретных данных о вождении или оперативной обстановке. Это способствует развитию технологий, подобных тем, что используются Waymo и интегрируются в решения AI в автомобилях.

ImageNet против родственных понятий

Важно отличать ImageNet от задач, которые он поддерживает, и других родственных наборов данных:

  • ImageNet в сравнении с CV-задачами: ImageNet сам по себе является набором данных, коллекцией помеченных изображений. Это не такая задача, как классификация изображений (присвоение изображению одной метки), обнаружение объектов (определение местоположения объектов с помощью ограничительных рамок) или сегментация изображений (присвоение метки каждому пикселю, включая сегментацию экземпляров и семантическую сегментацию). Вместо этого ImageNet используется в основном для обучения и тестирования моделей, которые выполняют эти задачи, особенно классификацию.
  • ImageNet против COCO: Хотя ImageNet является стандартом для классификации, такие наборы данных, как COCO (Common Objects in Context), чаще всего используются для сравнения обнаружения и сегментации объектов. Это связано с тем, что COCO включает в себя более подробные аннотации, необходимые для решения этих задач, такие как точные ограничительные рамки и маски сегментации на пиксель для нескольких объектов на одном изображении, в то время как ImageNet предоставляет в основном метки на уровне изображения (хотя некоторые данные о локализации объектов существуют). Ultralytics поддерживает множество наборов данных компьютерного зрения для разных задач.

Несмотря на невероятное влияние, ImageNet имеет и свои ограничения, включая потенциальную предвзятость набора данных, отражающую период сбора данных и источники, что является важным моментом в этике ИИ.

Читать полностью