Откройте для себя ImageNet - революционный набор данных, способствующий развитию компьютерного зрения, содержащий более 14 миллионов изображений и обеспечивающий исследования, модели и приложения в области искусственного интеллекта.
ImageNet - это массивная общедоступная база данных, включающая более 14 миллионов изображений, которые были вручную проаннотированы, чтобы указать, какие объекты на них изображены. Организованная в соответствии с иерархией WordNet, она содержит более 20 000 категорий, причем типичная категория, такая как "воздушный шар" или "клубника", состоит из нескольких сотен изображений. Эта обширная и разнообразная коллекция сыграла важную роль в развитии областей компьютерного зрения (КЗ) и глубокого обучения (ГОО), послужив стандартом для обучения и тестирования моделей.
Создание ImageNet исследователями из Стэнфордского университета стало поворотным моментом для искусственного интеллекта (ИИ). До появления ImageNet наборы данных часто были слишком малы для эффективного обучения сложных нейронных сетей (НС), что приводило к таким проблемам, как чрезмерная подгонка. ImageNet обеспечил масштаб, необходимый для обучения глубоких моделей, проложив путь к современной революции в области ИИ. Вы можете узнать больше, прочитав оригинальный исследовательский документ ImageNet.
Влияние ImageNet усилилось после проведения ежегодного конкурса ImageNet Large Scale Visual Recognition Challenge (ILSVRC), который проводился с 2010 по 2017 год. Этот конкурс стал важнейшим эталоном для оценки эффективности алгоритмов компьютерного зрения. В 2012 году конволюционная нейронная сеть (CNN) под названием AlexNet одержала революционную победу, значительно превзойдя все предыдущие модели. Этот успех продемонстрировал возможности глубокого обучения и вычислений на GPU, вызвав волну инноваций в этой области. ILSVRC стал ключевым фактором в развитии многих современных архитектур, и вы можете увидеть, как современные модели работают в различных бенчмарках на таких сайтах, как Papers with Code.
ImageNet в первую очередь используется как ресурс для предварительного обучения моделей. Обучая модель на этом обширном наборе данных, она учится распознавать богатый набор визуальных признаков. Затем эти знания могут быть перенесены на новые, более специфические задачи. Эта техника известна как трансферное обучение.
Важно отличать ImageNet от других родственных терминов и наборов данных:
Такие модели, как YOLO11, часто предварительно обучаются на ImageNet для классификации, а затем тренируются на COCO для задач обнаружения. Такой многоступенчатый процесс обучения позволяет использовать сильные стороны обоих наборов данных. Вы можете увидеть, как различные модели сравниваются с этими эталонами на наших страницах сравнения моделей. Несмотря на большое влияние, стоит отметить, что у ImageNet есть ограничения, в том числе известная предвзятость наборов данных, которую важно учитывать с точки зрения этики ИИ.