Откройте для себя ImageNet, новаторский набор данных, стимулирующий развитие компьютерного зрения благодаря более чем 14 миллионам изображений, поддерживающим исследования, модели и приложения в области ИИ.
ImageNet — это огромный общедоступный набор данных, содержащий более 14 миллионов изображений, которые были вручную аннотированы для указания того, что на них изображено. Организованный в соответствии с иерархией WordNet, он содержит более 20 000 категорий, при этом типичная категория, такая как «воздушный шар» или «клубника», состоит из нескольких сотен изображений. Эта обширная и разнообразная коллекция сыграла важную роль в развитии областей компьютерного зрения (CV) и глубокого обучения (DL), служа стандартом для обучения и оценки моделей.
Создание ImageNet исследователями из Стэнфордского университета стало поворотным моментом для искусственного интеллекта (ИИ). До ImageNet наборы данных часто были слишком малы для эффективного обучения сложных нейронных сетей (NN), что приводило к таким проблемам, как переобучение. ImageNet обеспечил масштаб, необходимый для обучения глубоких моделей, проложив путь к современной революции в области ИИ. Вы можете узнать больше, прочитав оригинальную научную статью об ImageNet.
Влияние ImageNet усилилось благодаря ImageNet Large Scale Visual Recognition Challenge (ILSVRC) — ежегодному соревнованию, проводившемуся с 2010 по 2017 год. Этот конкурс стал важным эталоном для оценки производительности алгоритмов компьютерного зрения. В 2012 году сверточная нейронная сеть (CNN) под названием AlexNet одержала революционную победу, значительно превзойдя все предыдущие модели. Этот успех продемонстрировал мощь глубокого обучения и вычислений на GPU, вызвав волну инноваций в этой области. ILSVRC сыграл ключевую роль в развитии многих современных архитектур, и вы можете увидеть, как сегодняшние модели работают на различных бенчмарках на таких сайтах, как Papers with Code.
Основное применение ImageNet — в качестве ресурса для предварительного обучения моделей. Обучая модель на этом огромном наборе данных, она учится распознавать богатый набор визуальных признаков. Затем эти знания можно перенести на новые, более конкретные задачи. Этот метод известен как трансферное обучение.
Важно отличать ImageNet от других связанных терминов и наборов данных:
Такие модели, как YOLO11, часто предварительно обучаются на ImageNet для своей классификационной основы, прежде чем обучаться на COCO для задач обнаружения. Этот многоэтапный процесс обучения использует сильные стороны обоих наборов данных. Вы можете увидеть, как сравниваются различные модели по этим бенчмаркам, на наших страницах сравнения моделей. Хотя ImageNet оказывает большое влияние, стоит отметить, что у него есть ограничения, включая известные смещения набора данных, которые важно учитывать с точки зрения этики ИИ.