Лучшие наборы данных для компьютерного зрения 2025

Знаете ли вы, что данные играют роль практически во всем, что вы делаете ежедневно? Просмотр видео, фотосъемка или проверка Google Maps - все это постоянный поток информации, собираемый более чем 75 миллиардами подключенных устройств. Эти данные составляют основу искусственного интеллекта (ИИ). Более того, передовые модели компьютерного зрения, такие как Ultralytics YOLO11 опираются на визуальные данные для выявления закономерностей, интерпретации изображений и осмысления окружающего нас мира.

Интересно, что ценность данных заключается не только в количестве. Гораздо важнее, насколько хорошо они организованы и подготовлены. Если набор данных неряшливый или неполный, это может привести к ошибкам. Однако, когда наборы данных чистые и разнообразные, они помогают моделям компьютерного зрения работать лучше, будь то распознавание объектов в толпе или анализ сложных визуальных элементов. Высококачественные наборы данных имеют решающее значение.

В этой статье мы рассмотрим лучшие наборы данных для компьютерного зрения 2025 года и посмотрим, как они способствуют созданию более точных и эффективных моделей компьютерного зрения. Давайте начнем!

Что такое наборы данных для компьютерного зрения?

Набор данных для компьютерного зрения — это коллекция изображений или видео, которые помогают системам компьютерного зрения научиться понимать и распознавать визуальную информацию. Эти наборы данных поставляются с метками или аннотациями, которые помогают моделям распознавать объекты, людей, сцены и закономерности в данных.

Они могут использоваться для обучения моделей компьютерного зрения, помогая им улучшать такие задачи, как идентификация лиц, обнаружение объектов или анализ сцен. Чем лучше набор данных — хорошо организованный, разнообразный и точный, — тем лучше работает модель Vision AI, что приводит к созданию более интеллектуальных и полезных технологий в повседневной жизни.

Как создать набор данных для компьютерного зрения

Создание набора данных для компьютерного зрения похоже на подготовку учебных заметок, чтобы научить кого-то видеть и понимать мир. Все начинается со сбора изображений и видео, соответствующих конкретному разрабатываемому вами приложению.

Идеальный набор данных включает разнообразные примеры интересующих объектов, снятые с разных углов, в различных условиях освещения и на разных фонах и в разных средах. Такое разнообразие гарантирует, что модель компьютерного зрения научится точно распознавать закономерности и надежно работать в реальных сценариях.

__wf_reserved_inherit — Рис. 1. Создание идеального набора данных для компьютерного зрения. Изображение автора.

‍

После сбора соответствующих изображений и видео следующим шагом является разметка данных. Этот процесс включает добавление тегов, аннотаций или описаний к данным, чтобы ИИ мог понять, что содержит каждое изображение или видео.

Метки могут включать названия объектов, местоположения, границы или другие соответствующие детали, которые помогают обучить модель точно распознавать и интерпретировать визуальную информацию. Разметка данных преобразует простую коллекцию изображений в структурированный набор данных, который можно использовать для обучения модели компьютерного зрения.

Для обучения модели требуются высококачественные данные

Вы можете задаться вопросом, что делает набор данных высококачественным. Существует много факторов, таких как точная разметка, разнообразие и последовательность. Например, если несколько аннотаторов размечают набор данных для обнаружения объектов, чтобы идентифицировать кошачьи уши, один может пометить их как часть головы, а другой - отдельно как уши. Эта непоследовательность может запутать модель и повлиять на ее способность правильно обучаться.

Вот краткий обзор качеств идеального набора данных для компьютерного зрения:

Четкие метки: Каждое изображение точно аннотировано последовательными и точными метками.
‍
Разнообразные данные: Набор данных включает различные объекты, фоны, условия освещения и углы, чтобы помочь модели хорошо работать в различных ситуациях.
‍
Изображения с высоким разрешением: Четкие, детализированные изображения облегчают модели обучение и распознавание признаков.

Ultralytics поддерживает различные наборы данных

Модели Ultralytics YOLO , такие как YOLO11, созданы для работы с наборами данных в определенном формате файлов YOLO . Хотя преобразовать собственные данные в этот формат несложно, мы также предлагаем вариант, не требующий особых усилий, для тех, кто хочет начать экспериментировать прямо сейчас.

ПакетUltralytics Python поддерживает широкий спектр наборов данных компьютерного зрения, позволяя вам погрузиться в проекты, использующие такие задачи, как обнаружение объектов, сегментация экземпляров или оценка позы, без дополнительной настройки.

Пользователи могут легко получить доступ к готовым наборам данных, таким как COCO, DOTA-v2.0, Open Images V7 и ImageNet , указав название набора данных в качестве одного из параметров в функции обучения. При этом набор данных автоматически загружается и предварительно настраивается, и вы можете сосредоточиться на построении и совершенствовании своих моделей.

Топ-5 наборов данных компьютерного зрения в 2025 году

Достижения в области искусственного зрения зависят от разнообразных и масштабных наборов данных, которые стимулируют инновации и позволяют совершать прорывы. Давайте рассмотрим некоторые из наиболее важных наборов данных, поддерживаемых Ultralytics, которые влияют на модели компьютерного зрения.

Набор данных ImageNet

ImageNetсозданная Фей-Фей Ли и ее командой в Принстонском университете в 2007 году и представленная в 2009 году, представляет собой большой набор данных, содержащий более 14 миллионов помеченных изображений. Она широко используется для обучения систем распознавания и категоризации различных объектов. Структурированный дизайн делает ее особенно полезной для обучения моделей точной classify изображений. Несмотря на то, что база данных хорошо документирована, она в основном посвящена классификации изображений и не содержит подробных аннотаций для таких задач, как обнаружение объектов.

Вот некоторые из ключевых достоинств ImageNet:

Разнообразие: Благодаря изображениям, охватывающим более 20 000 категорий, ImageNet предлагает обширный и разнообразный набор данных, который улучшает обучение и обобщение моделей.
‍
Структурированная организация: Изображения тщательно классифицируются с использованием иерархии WordNet, что облегчает эффективный поиск данных и систематическое обучение моделей.
‍
Исчерпывающая документация: Обширные исследования и многолетняя работа делают ImageNet доступным как для новичков, так и для экспертов, предоставляя ценные сведения и рекомендации для проектов по компьютерному зрению.

Однако, как и у любого набора данных, у него есть свои ограничения. Вот некоторые проблемы, которые следует учитывать:

Вычислительные требования: Огромный размер может создать проблемы для небольших команд с ограниченными вычислительными ресурсами.
‍
Отсутствие временных данных: Поскольку он содержит только статические изображения, он может не соответствовать потребностям приложений, требующих видео или данных, основанных на времени.
‍
Устаревшие изображения: Некоторые изображения в наборе данных устарели и могут не отражать текущие объекты, стили или окружение, что потенциально снижает релевантность для современных приложений.

Набор данных DOTA-v2.0

Набор данных DOTA-v2.0, где DOTA расшифровывается как Dataset for Object Detection in Aerial Images (набор данных для обнаружения объектов на аэрофотоснимках), представляет собой обширную коллекцию аэрофотоснимков, созданную специально для обнаружения объектов с ориентированными ограничивающими рамками (OBB). При обнаружении OBB используются повернутые ограничивающие рамки для более точного выравнивания с фактической ориентацией объектов на изображении. Этот метод особенно хорошо подходит для аэрофотосъемки, где объекты часто отображаются под разными углами, что приводит к более точной локализации и улучшенному обнаружению в целом.

Этот набор данных состоит из более чем 11 000 изображений и более 1,7 миллиона ориентированных ограничивающих рамок по 18 категориям объектов. Изображения варьируются от 800×800 до 20 000×20 000 пикселей и включают такие объекты, как самолеты, корабли и здания.

‍

Благодаря своим подробным аннотациям DOTA-v2.0 стал популярным выбором для проектов дистанционного зондирования и воздушного наблюдения. Вот некоторые из ключевых особенностей DOTA-v2.0:

Разнообразные категории объектов: Он охватывает множество различных типов объектов, таких как транспортные средства, гавани и резервуары для хранения, предоставляя моделям возможность познакомиться с различными реальными объектами.
‍
Высококачественные аннотации: Эксперты-аннотаторы предоставили точно ориентированные ограничивающие рамки, которые четко показывают формы и направления объектов.
‍
Многомасштабные изображения: Набор данных включает изображения разных размеров, что помогает моделям научиться detect объекты как в малых, так и в больших масштабах.

Хотя у DOTA-v2 много сильных сторон, вот некоторые ограничения, которые следует учитывать пользователям:

Дополнительные шаги загрузки: Из-за способа обслуживания набора данных DOTA, DOTA-v2.0 требует дополнительного шага настройки. Сначала необходимо загрузить изображения DOTA-v1.0, а затем добавить дополнительные изображения и обновленные аннотации для DOTA-v2.0, чтобы завершить набор данных.
‍
Сложные аннотации: Ориентированные ограничивающие рамки могут потребовать дополнительных усилий для обработки во время обучения модели.
‍
Ограниченная область применения: DOTA-v2 разработана для аэрофотоснимков, что делает ее менее полезной для задач общего обнаружения объектов вне этой области.

Набор данных Roboflow 100

Набор данных Roboflow 100 (RF100) был создан компанией Roboflow при поддержке Intel. Его можно использовать для тестирования и оценки того, насколько хорошо работают модели обнаружения объектов. Этот эталонный набор данных включает 100 различных наборов данных, выбранных из более чем 90 000 публичных наборов данных. В них содержится более 224 000 изображений и 800 классов объектов из таких областей, как здравоохранение, аэрофотосъемка и игры.

Вот некоторые из ключевых преимуществ использования RF100:

Широкий охват областей: Он включает в себя наборы данных из семи областей, таких как медицинская визуализация, аэрофотосъемка и подводные исследования.
‍
Стимулирует улучшение моделей: Изменчивость и специфические для предметной области задачи в RF100 выявляют пробелы в текущих моделях, стимулируя исследования в направлении более адаптивных и надежных решений для обнаружения объектов.
‍
Согласованный формат изображений: Все изображения изменяются до размера 640x640 пикселей. Это помогает пользователям обучать модели без необходимости корректировать размеры изображений.

Несмотря на свои сильные стороны, RF100 также имеет определенные недостатки, о которых следует помнить:

Ограниченность с точки зрения задач: RF100 предназначен для обнаружения объектов, поэтому он не может выполнять такие задачи, как сегментация или классификация.
‍
Ориентированность на эталонное тестирование: RF100 в первую очередь разработан как инструмент для эталонного тестирования, а не для обучения моделей для реальных приложений, поэтому его результаты могут не полностью соответствовать практическим сценариям развертывания.
‍
Изменчивость аннотаций: Поскольку RF100 объединяет наборы данных, полученные от краудсорсинга, могут быть несоответствия в качестве аннотаций и практике маркировки, что может повлиять на оценку и тонкую настройку модели.

Набор данных COCO (Common objects in context)

Набор данныхCOCO - один из самых распространенных наборов данных компьютерного зрения, содержащий более 330 000 изображений с подробными аннотациями к ним. Он предназначен для обнаружения объектов, сегментации и создания подписей к изображениям, что делает его ценным ресурсом для многих проектов. Его подробные метки, включая ограничительные рамки и маски сегментации, помогают системам научиться точно анализировать изображения.

Этот набор данных известен своей гибкостью и полезен для различных задач, от простых до сложных проектов. Он стал стандартом в области Vision AI, часто используемым в задачах и соревнованиях для оценки производительности моделей.

Некоторые из его сильных сторон включают:

Разнообразные и реалистичные данные: Набор данных включает изображения из реальных сценариев со множеством объектов, окклюзиями и различными условиями освещения.
‍
Сильная поддержка сообщества и исследований: Набор данных COCO используется в крупных соревнованиях по машинному обучению и исследованиях, имеет обширную документацию, предварительно обученные модели и активную поддержку сообщества.
‍
Богатые и подробные аннотации: Набор данных COCO содержит очень подробные аннотации, включая сегментацию объектов, ключевые точки и подписи, что делает его идеальным для проектов, требующих точного визуального понимания.

Вот несколько ограничивающих факторов, о которых следует знать:

Высокие требования к вычислительным ресурсам: Из-за своего размера и сложности обучение моделей на COCO может потребовать значительных вычислительных ресурсов, что делает его сложным для команд с ограниченным оборудованием.
‍
Дисбаланс данных: Некоторые категории объектов имеют значительно больше изображений, чем другие, что может привести к предвзятости при обучении модели.
‍
Сложная структура аннотаций: Подробные аннотации набора данных, хотя и ценны, могут быть непосильными для начинающих или небольших команд, которым не хватает опыта работы со структурированными наборами данных Vision AI.

Набор данных Open images V7

Open Images V7 - это массивный набор данных с открытым исходным кодом, курируемый компанией Google и содержащий более 9 миллионов изображений с аннотациями для 600 категорий объектов. Она включает в себя различные типы аннотаций и идеально подходит для решения сложных задач компьютерного зрения. Его масштаб и глубина обеспечивают всеобъемлющий ресурс для обучения и тестирования моделей компьютерного зрения.

‍

Кроме того, популярность набора данных Open Images V7 в исследованиях предоставляет пользователям множество ресурсов и примеров для обучения. Однако его огромный размер может сделать загрузку и обработку трудоемкими, особенно для небольших команд. Другая проблема заключается в том, что некоторые аннотации могут быть непоследовательными, что требует дополнительных усилий для очистки данных, а интеграция не всегда проходит гладко, что означает, что может потребоваться дополнительная подготовка.

Выбор подходящего набора данных

Выбор правильного набора данных — важная часть подготовки вашего проекта компьютерного зрения к успеху. Лучший выбор зависит от вашей конкретной задачи — хороший подбор помогает вашей модели освоить нужные навыки. Он также должен легко интегрироваться с вашими инструментами, чтобы вы могли больше сосредоточиться на создании своей модели и меньше на устранении неполадок.

‍

Основные выводы

Высококачественные наборы данных являются основой любой модели компьютерного зрения, помогая системам научиться точно интерпретировать изображения. Разнообразные и хорошо аннотированные наборы данных особенно важны, поскольку они позволяют моделям надежно работать в реальных сценариях и уменьшают ошибки, вызванные ограниченными или некачественными данными.

Ultralytics упрощает процесс доступа к наборам данных компьютерного зрения и работы с ними, облегчая поиск нужных данных для вашего проекта. Выбор правильного набора данных - важнейший шаг в создании высокопроизводительной модели, позволяющий получить более точные и эффективные результаты.

Присоединяйтесь к нашему сообществу и изучите наш репозиторий GitHub, чтобы узнать больше об ИИ. Откройте для себя достижения, такие как компьютерное зрение для здравоохранения и ИИ в самоуправляемых автомобилях, на страницах наших решений. Ознакомьтесь с нашими вариантами лицензирования и сделайте первый шаг к началу работы с компьютерным зрением уже сегодня!

Изучение лучших наборов данных для компьютерного зрения в 2025 году

Что такое наборы данных для компьютерного зрения?

Как создать набор данных для компьютерного зрения

Для обучения модели требуются высококачественные данные

Ultralytics поддерживает различные наборы данных