Открой для себя ImageNet - революционный набор данных, способствующий прогрессу в области компьютерного зрения и содержащий более 14 миллионов изображений, что позволяет проводить исследования, модели и приложения в области искусственного интеллекта.
ImageNet - это очень большой, основополагающий набор данных, широко используемый в исследованиях и разработках в области компьютерного зрения (КВ). Она содержит более 14 миллионов изображений, которые были вручную аннотированы для обозначения объектов, изображенных на них. Эти изображения организованы в соответствии с иерархией WordNet - большой лексической базы данных English существительных, глаголов, прилагательных и наречий, сгруппированных в наборы когнитивных синонимов (синсеты). Имея более 20 000 категорий, ImageNet представляет собой богатый и разнообразный ресурс для обучения и оценки моделей машинного обучения (ML), особенно для таких задач, как классификация изображений и распознавание образов. Его масштабы и подробные аннотации сыграли решающую роль в развитии области искусственного интеллекта (ИИ). Подробнее об использовании набора данных с моделями Ultralytics ты можешь узнать на странице документации по ImageNet Dataset.
Появление ImageNet стало поворотным моментом для глубокого обучения (ГОО), особенно в компьютерном зрении. До появления ImageNet отсутствие больших, разнообразных и хорошо маркированных наборов данных было основным узким местом, тормозящим прогресс. Высококачественные наборы данных, такие как ImageNet, позволили обучать гораздо более глубокие и сложные модели, такие как конволюционные нейронные сети (CNN), что привело к значительному прорыву в задачах визуального понимания. Ежегодный конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC), который проводился с 2010 по 2017 год, использовал подмножество ImageNet и стал стандартным эталонным набором данных для оценки алгоритмов классификации изображений и обнаружения объектов. Такие революционные модели, как AlexNet и ResNet, которые достигли передовых результатов на ImageNet, сильно повлияли на современные архитектуры CV и продемонстрировали мощь глубокого обучения на крупномасштабных данных. В оригинальной статье ILSVRC приводится более подробная информация об этой задаче и ее влиянии.
Основное применение ImageNet - служить стандартным эталоном для оценки производительности(точности, скорости) новых моделей и алгоритмов компьютерного зрения, в частности для классификации изображений. Его широкое распространение позволяет исследователям справедливо сравнивать результаты. Помимо бенчмарков, ImageNet широко используется для предварительного обучения моделей. Предварительное обучение включает в себя обучение модели сначала на большом и общем наборе данных ImageNet, что позволяет ей научиться надежным визуальным признакам. Эти предварительно обученные модели, часто доступные через такие фреймворки, как PyTorch и TensorFlowЗатем их можно доработать на небольших, более специфических наборах данных для различных последующих задач с помощью трансферного обучения. Это значительно сокращает объем данных и вычислений, необходимых для решения целевой задачи, и часто приводит к лучшей производительности, особенно когда целевой набор данных невелик. Многие Ultralytics YOLO например, используют стратегии предварительного обучения. Платформы вроде Ultralytics HUB облегчают процесс обучения моделей с помощью таких техник.
Влияние ImageNet выходит далеко за рамки академических исследований и находит практическое применение:
Важно отличать ImageNet от задач, которые он поддерживает, и других родственных наборов данных:
Несмотря на невероятное влияние, ImageNet имеет и свои ограничения, включая потенциальную предвзятость набора данных, отражающую период сбора данных и источники, что является важным моментом в этике ИИ.