Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Присоединяйтесь к нам, и мы внимательно рассмотрим лучшие наборы данных для компьютерного зрения 2025 года. Узнайте, как разнообразные и качественные наборы данных способствуют созданию более эффективных решений Vision AI.
Знаете ли вы, что данные играют роль почти во всем, что вы делаете ежедневно? Просмотр видео, фотографирование или проверка Google Maps способствуют постоянному потоку информации, собираемой более чем 75 миллиардами подключенных устройств. Эти данные формируют основу искусственного интеллекта (AI). Фактически, передовые модели компьютерного зрения, такие как Ultralytics YOLO11, полагаются на визуальные данные для выявления закономерностей, интерпретации изображений и понимания окружающего мира.
Интересно, что ценность данных заключается не только в количестве. Гораздо важнее, насколько хорошо они организованы и подготовлены. Если набор данных неряшливый или неполный, это может привести к ошибкам. Однако, когда наборы данных чистые и разнообразные, они помогают моделям компьютерного зрения работать лучше, будь то распознавание объектов в толпе или анализ сложных визуальных элементов. Высококачественные наборы данных имеют решающее значение.
В этой статье мы рассмотрим лучшие наборы данных для компьютерного зрения 2025 года и посмотрим, как они способствуют созданию более точных и эффективных моделей компьютерного зрения. Давайте начнем!
Что такое наборы данных для компьютерного зрения?
Набор данных для компьютерного зрения — это коллекция изображений или видео, которые помогают системам компьютерного зрения научиться понимать и распознавать визуальную информацию. Эти наборы данных поставляются с метками или аннотациями, которые помогают моделям распознавать объекты, людей, сцены и закономерности в данных.
Они могут использоваться для обучения моделей компьютерного зрения, помогая им улучшать такие задачи, как идентификация лиц, обнаружение объектов или анализ сцен. Чем лучше набор данных — хорошо организованный, разнообразный и точный, — тем лучше работает модель Vision AI, что приводит к созданию более интеллектуальных и полезных технологий в повседневной жизни.
Как создать набор данных для компьютерного зрения
Создание набора данных для компьютерного зрения похоже на подготовку учебных заметок, чтобы научить кого-то видеть и понимать мир. Все начинается со сбора изображений и видео, соответствующих конкретному разрабатываемому вами приложению.
Идеальный набор данных включает разнообразные примеры интересующих объектов, снятые с разных углов, в различных условиях освещения и на разных фонах и в разных средах. Такое разнообразие гарантирует, что модель компьютерного зрения научится точно распознавать закономерности и надежно работать в реальных сценариях.
Рис. 1. Создание идеального набора данных для компьютерного зрения. Изображение автора.
После сбора соответствующих изображений и видео следующим шагом является разметка данных. Этот процесс включает добавление тегов, аннотаций или описаний к данным, чтобы ИИ мог понять, что содержит каждое изображение или видео.
Метки могут включать названия объектов, местоположения, границы или другие соответствующие детали, которые помогают обучить модель точно распознавать и интерпретировать визуальную информацию. Разметка данных преобразует простую коллекцию изображений в структурированный набор данных, который можно использовать для обучения модели компьютерного зрения.
Для обучения модели требуются высококачественные данные
Вы можете задаться вопросом, что делает набор данных высококачественным. Существует много факторов, таких как точная разметка, разнообразие и последовательность. Например, если несколько аннотаторов размечают набор данных для обнаружения объектов, чтобы идентифицировать кошачьи уши, один может пометить их как часть головы, а другой - отдельно как уши. Эта непоследовательность может запутать модель и повлиять на ее способность правильно обучаться.
Вот краткий обзор качеств идеального набора данных для компьютерного зрения:
Четкие метки: Каждое изображение точно аннотировано последовательными и точными метками.
Разнообразные данные: Набор данных включает различные объекты, фоны, условия освещения и углы, чтобы помочь модели хорошо работать в различных ситуациях.
Изображения с высоким разрешением: Четкие, детализированные изображения облегчают модели обучение и распознавание признаков.
Ultralytics поддерживает различные наборы данных.
Модели Ultralytics YOLO, такие как YOLOv8, созданы для работы с наборами данных в определенном формате файлов YOLO. Хотя преобразовать собственные данные в этот формат довольно просто, мы также предоставляем удобный вариант для тех, кто хочет сразу приступить к экспериментам.
Python-пакет Ultralytics поддерживает широкий спектр наборов данных компьютерного зрения, что позволяет вам сразу же погрузиться в проекты, использующие такие задачи, как обнаружение объектов, сегментация экземпляров или оценка позы, без какой-либо дополнительной настройки.
Пользователи могут легко получить доступ к готовым к использованию наборам данных, таким как COCO, DOTA-v2.0, Open Images V7 и ImageNet, указав имя набора данных в качестве одного из параметров в функции обучения. При этом набор данных автоматически загружается и предварительно настраивается, поэтому вы можете сосредоточиться на создании и улучшении своих моделей.
Топ-5 наборов данных компьютерного зрения в 2025 году
Развитие Vision AI опирается на разнообразные крупномасштабные наборы данных, которые стимулируют инновации и обеспечивают прорывы. Давайте рассмотрим некоторые из наиболее важных наборов данных, поддерживаемых Ultralytics, которые влияют на модели компьютерного зрения.
Набор данных ImageNet
ImageNet, созданный Фей-Фей Ли и ее командой в Принстонском университете в 2007 году и представленный в 2009 году, представляет собой большой набор данных, содержащий более 14 миллионов размеченных изображений. Он широко используется для обучения систем распознаванию и классификации различных объектов. Его структурированный дизайн делает его особенно полезным для обучения моделей точной классификации изображений. Будучи хорошо документированным, он в основном фокусируется на классификации изображений и не имеет подробных аннотаций для таких задач, как обнаружение объектов.
Вот взгляд на некоторые из ключевых сильных сторон ImageNet:
Разнообразие: Благодаря изображениям, охватывающим более 20 000 категорий, ImageNet предлагает обширный и разнообразный набор данных, который улучшает обучение и обобщение моделей.
Структурированная организация: Изображения тщательно классифицируются с использованием иерархии WordNet, что облегчает эффективный поиск данных и систематическое обучение моделей.
Подробная документация: Обширные исследования и годы изучения делают ImageNet доступным как для начинающих, так и для экспертов, предоставляя ценную информацию и рекомендации для проектов компьютерного зрения.
Однако, как и у любого набора данных, у него есть свои ограничения. Вот некоторые проблемы, которые следует учитывать:
Вычислительные требования: Огромный размер может создать проблемы для небольших команд с ограниченными вычислительными ресурсами.
Отсутствие временных данных: Поскольку он содержит только статические изображения, он может не соответствовать потребностям приложений, требующих видео или данных, основанных на времени.
Устаревшие изображения: Некоторые изображения в наборе данных устарели и могут не отражать текущие объекты, стили или окружение, что потенциально снижает релевантность для современных приложений.
Набор данных DOTA-v2.0
Набор данных DOTA-v2.0, где DOTA расшифровывается как Dataset for Object Detection in Aerial Images (набор данных для обнаружения объектов на аэрофотоснимках), представляет собой обширную коллекцию аэрофотоснимков, созданную специально для обнаружения объектов с ориентированными ограничивающими рамками (OBB). При обнаружении OBB используются повернутые ограничивающие рамки для более точного выравнивания с фактической ориентацией объектов на изображении. Этот метод особенно хорошо подходит для аэрофотосъемки, где объекты часто отображаются под разными углами, что приводит к более точной локализации и улучшенному обнаружению в целом.
Этот набор данных состоит из более чем 11 000 изображений и более 1,7 миллиона ориентированных ограничивающих рамок по 18 категориям объектов. Изображения варьируются от 800×800 до 20 000×20 000 пикселей и включают такие объекты, как самолеты, корабли и здания.
Рис. 2. Примеры изображений и аннотаций из набора данных DOTA-v2.0. Изображение автора.
Благодаря своим подробным аннотациям DOTA-v2.0 стал популярным выбором для проектов дистанционного зондирования и воздушного наблюдения. Вот некоторые из ключевых особенностей DOTA-v2.0:
Разнообразные категории объектов: Он охватывает множество различных типов объектов, таких как транспортные средства, гавани и резервуары для хранения, предоставляя моделям возможность познакомиться с различными реальными объектами.
Высококачественные аннотации: Эксперты-аннотаторы предоставили точно ориентированные ограничивающие рамки, которые четко показывают формы и направления объектов.
Мультимасштабные изображения: Набор данных включает изображения разных размеров, что помогает моделям научиться обнаруживать объекты как в малом, так и в большом масштабе.
Хотя у DOTA-v2 много сильных сторон, вот некоторые ограничения, которые следует учитывать пользователям:
Дополнительные шаги загрузки: Из-за способа обслуживания набора данных DOTA, DOTA-v2.0 требует дополнительного шага настройки. Сначала необходимо загрузить изображения DOTA-v1.0, а затем добавить дополнительные изображения и обновленные аннотации для DOTA-v2.0, чтобы завершить набор данных.
Сложные аннотации: Ориентированные ограничивающие рамки могут потребовать дополнительных усилий для обработки во время обучения модели.
Ограниченная область применения: DOTA-v2 разработана для аэрофотоснимков, что делает ее менее полезной для задач общего обнаружения объектов вне этой области.
Набор данных Roboflow 100
Набор данных Roboflow 100 (RF100) был создан компанией Roboflow при поддержке Intel. Его можно использовать для тестирования и оценки эффективности моделей обнаружения объектов. Этот эталонный набор данных включает 100 различных наборов данных, выбранных из более чем 90 000 общедоступных наборов. Он содержит более 224 000 изображений и 800 классов объектов из таких областей, как здравоохранение, аэрофотосъемка и игры.
Вот некоторые из ключевых преимуществ использования RF100:
Широкий охват областей: Он включает в себя наборы данных из семи областей, таких как медицинская визуализация, аэрофотосъемка и подводные исследования.
Стимулирует улучшение моделей: Изменчивость и специфические для предметной области задачи в RF100 выявляют пробелы в текущих моделях, стимулируя исследования в направлении более адаптивных и надежных решений для обнаружения объектов.
Согласованный формат изображений: Все изображения изменяются до размера 640x640 пикселей. Это помогает пользователям обучать модели без необходимости корректировать размеры изображений.
Несмотря на свои сильные стороны, RF100 также имеет определенные недостатки, о которых следует помнить:
Ограниченность с точки зрения задач: RF100 предназначен для обнаружения объектов, поэтому он не может выполнять такие задачи, как сегментация или классификация.
Ориентированность на эталонное тестирование: RF100 в первую очередь разработан как инструмент для эталонного тестирования, а не для обучения моделей для реальных приложений, поэтому его результаты могут не полностью соответствовать практическим сценариям развертывания.
Изменчивость аннотаций: Поскольку RF100 объединяет наборы данных, полученные от краудсорсинга, могут быть несоответствия в качестве аннотаций и практике маркировки, что может повлиять на оценку и тонкую настройку модели.
Набор данных COCO (Common objects in context)
Набор данных COCO является одним из наиболее широко используемых наборов данных компьютерного зрения, предлагающим более 330 000 изображений с подробными аннотациями. Он предназначен для обнаружения объектов, сегментации и создания подписей к изображениям, что делает его ценным ресурсом для многих проектов. Его подробные метки, включая ограничивающие рамки и маски сегментации, помогают системам научиться точно анализировать изображения.
Этот набор данных известен своей гибкостью и полезен для различных задач, от простых до сложных проектов. Он стал стандартом в области Vision AI, часто используемым в задачах и соревнованиях для оценки производительности моделей.
Некоторые из его сильных сторон включают:
Разнообразные и реалистичные данные: Набор данных включает изображения из реальных сценариев со множеством объектов, окклюзиями и различными условиями освещения.
Сильное сообщество и внедрение в исследования: Набор данных COCO, используемый в крупных соревнованиях по машинному обучению и исследованиях, имеет обширную документацию, предварительно обученные модели и активную поддержку сообщества.
Богатые и подробные аннотации: Набор данных COCO предоставляет очень подробные аннотации, включая сегментацию объектов, ключевые точки и подписи, что делает его идеальным для проектов, требующих точного визуального понимания.
Вот несколько ограничивающих факторов, о которых следует знать:
Высокие вычислительные требования: Из-за своего размера и сложности обучение моделей на COCO может потребовать значительных вычислительных ресурсов, что затрудняет задачу для команд с ограниченным оборудованием.
Дисбаланс данных: Некоторые категории объектов имеют значительно больше изображений, чем другие, что может привести к предвзятости при обучении модели.
Сложная структура аннотаций: Подробные аннотации набора данных, хотя и ценны, могут быть непосильными для начинающих или небольших команд, которым не хватает опыта работы со структурированными наборами данных Vision AI.
Набор данных Open images V7
Open Images V7 — это огромный набор данных с открытым исходным кодом, курируемый Google, содержащий более 9 миллионов изображений с аннотациями для 600 категорий объектов. Он включает в себя различные типы аннотаций и идеально подходит для решения сложных задач компьютерного зрения. Его масштаб и глубина обеспечивают всесторонний ресурс для обучения и тестирования моделей компьютерного зрения.
Рис. 3. Взгляд на набор данных Open Images V7. Изображение автора.
Кроме того, популярность набора данных Open Images V7 в исследованиях предоставляет пользователям множество ресурсов и примеров для обучения. Однако его огромный размер может сделать загрузку и обработку трудоемкими, особенно для небольших команд. Другая проблема заключается в том, что некоторые аннотации могут быть непоследовательными, что требует дополнительных усилий для очистки данных, а интеграция не всегда проходит гладко, что означает, что может потребоваться дополнительная подготовка.
Выбор подходящего набора данных
Выбор правильного набора данных — важная часть подготовки вашего проекта компьютерного зрения к успеху. Лучший выбор зависит от вашей конкретной задачи — хороший подбор помогает вашей модели освоить нужные навыки. Он также должен легко интегрироваться с вашими инструментами, чтобы вы могли больше сосредоточиться на создании своей модели и меньше на устранении неполадок.
Рис. 4. Факторы выбора подходящего набора данных. Изображение автора.
Основные выводы
Высококачественные наборы данных являются основой любой модели компьютерного зрения, помогая системам научиться точно интерпретировать изображения. Разнообразные и хорошо аннотированные наборы данных особенно важны, поскольку они позволяют моделям надежно работать в реальных сценариях и уменьшают ошибки, вызванные ограниченными или некачественными данными.
Ultralytics упрощает процесс доступа и работы с наборами данных компьютерного зрения, облегчая поиск подходящих данных для вашего проекта. Выбор правильного набора данных — важный шаг в создании высокопроизводительной модели, приводящий к более точным и эффективным результатам.