Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Настройки файлов cookie
Нажав кнопку "Принять все файлы cookie", вы соглашаетесь с сохранением файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа его использования и помощи в наших маркетинговых усилиях. Дополнительная информация
Присоединяйтесь к нам, чтобы поближе познакомиться с лучшими наборами данных компьютерного зрения 2025 года. Узнайте, как разнообразные и высококачественные наборы данных способствуют созданию более интеллектуальных решений в области компьютерного зрения.
Знаете ли вы, что данные играют роль практически во всем, что вы делаете ежедневно? Просмотр видео, фотосъемка или проверка Google Maps - все это постоянный поток информации, собираемый более чем 75 миллиардами подключенных устройств. Эти данные составляют основу искусственного интеллекта (ИИ). Передовые модели компьютерного зрения, такие как Ultralytics YOLO11, опираются на визуальные данные для выявления закономерностей, интерпретации изображений и осмысления окружающего нас мира.
Интересно, что ценность данных заключается не только в их количестве. Гораздо важнее, насколько хорошо они организованы и подготовлены. Если набор данных беспорядочный или неполный, это может привести к ошибкам. Однако когда наборы данных чистые и разнообразные, они помогают моделям компьютерного зрения работать лучше, будь то распознавание объектов в толпе или анализ сложных визуальных образов. Качественные наборы данных имеют решающее значение.
В этой статье мы рассмотрим лучшие наборы данных для компьютерного зрения 2025 года и узнаем, как они способствуют построению более точных и эффективных моделей компьютерного зрения. Давайте начнем!
Что такое наборы данных компьютерного зрения?
Набор данных компьютерного зрения - это коллекция изображений или видео, которые помогают системам компьютерного зрения научиться понимать и распознавать визуальную информацию. Эти наборы данных содержат метки или аннотации, которые помогают моделям распознавать объекты, людей, сцены и паттерны в данных.
Они могут использоваться для обучения моделей компьютерного зрения, помогая им улучшать такие задачи, как распознавание лиц, обнаружение объектов или анализ сцен. Чем лучше набор данных - хорошо организованный, разнообразный и точный - тем лучше работает модель искусственного зрения, что приводит к появлению более умных и полезных технологий в повседневной жизни.
Как создать набор данных компьютерного зрения
Создание набора данных компьютерного зрения похоже на подготовку конспектов для обучения человека тому, как видеть и понимать мир. Все начинается со сбора изображений и видео, соответствующих конкретному разрабатываемому приложению.
Идеальный набор данных включает в себя различные примеры интересующих объектов, снятых с разных ракурсов, при различных условиях освещения, на разных фонах и в разных условиях. Такое разнообразие гарантирует, что модель компьютерного зрения научится точно распознавать паттерны и будет надежно работать в реальных условиях.
Рис. 1. Создание набора данных идеального зрения. Изображение автора.
После сбора соответствующих изображений и видео следующий шаг - маркировка данных. Этот процесс включает в себя добавление тегов, аннотаций или описаний к данным, чтобы ИИ мог понять, что содержит каждое изображение или видео.
Метки могут включать названия объектов, их местоположение, границы или другие важные детали, которые помогают обучить модель точно распознавать и интерпретировать визуальную информацию. Маркировка данных превращает простую коллекцию изображений в структурированный набор данных, который можно использовать для обучения модели компьютерного зрения.
Для обучения модели требуются высококачественные данные
Возможно, вы задаетесь вопросом, что делает набор данных высококачественным. Существует множество факторов, таких как точность маркировки, разнообразие и согласованность. Например, если несколько аннотаторов маркируют набор данных для обнаружения объектов, чтобы определить кошачьи уши, один может пометить их как часть головы, в то время как другой пометит их отдельно как уши. Такое несоответствие может запутать модель и повлиять на ее способность к правильному обучению.
Вот краткий обзор качеств идеального набора данных для компьютерного зрения:
Четкие метки: Каждое изображение точно аннотировано с последовательными и точными метками.
Разнообразные данные: Набор данных включает в себя различные объекты, фоны, условия освещения и ракурсы, чтобы помочь модели хорошо работать в различных ситуациях.
Изображения высокого разрешения: Четкие, детальные изображения облегчают модели обучение и распознавание особенностей.
Ultralytics поддерживает различные наборы данных
Модели Ultralytics YOLO, такие как YOLO11, созданы для работы с наборами данных в определенном формате файлов YOLO. Хотя преобразовать собственные данные в этот формат несложно, мы также предлагаем вариант, не требующий особых усилий, для тех, кто хочет начать экспериментировать прямо сейчас.
Пакет Ultralytics Python поддерживает широкий спектр наборов данных компьютерного зрения, позволяя вам погрузиться в проекты, использующие такие задачи, как обнаружение объектов, сегментация экземпляров или оценка позы, без дополнительной настройки.
Пользователи могут легко получить доступ к готовым наборам данных, таким как COCO, DOTA-v2.0, Open Images V7 и ImageNet, указав название набора данных в качестве одного из параметров в функции обучения. При этом набор данных автоматически загружается и предварительно настраивается, и вы можете сосредоточиться на построении и совершенствовании своих моделей.
Топ-5 наборов данных компьютерного зрения в 2025 году
Достижения в области искусственного зрения зависят от разнообразных и масштабных наборов данных, которые стимулируют инновации и позволяют совершать прорывы. Давайте рассмотрим некоторые из наиболее важных наборов данных, поддерживаемых Ultralytics, которые влияют на модели компьютерного зрения.
Набор данных ImageNet
ImageNet, созданный Фей-Фей Ли и ее командой в Принстонском университете в 2007 году и представленный в 2009 году, представляет собой большой набор данных, содержащий более 14 миллионов помеченных изображений. Она широко используется для обучения систем распознавания и категоризации различных объектов. Структурированный дизайн делает его особенно полезным для обучения моделей точной классификации изображений. Несмотря на то, что база данных хорошо документирована, она в основном посвящена классификации изображений и не содержит подробных аннотаций для таких задач, как обнаружение объектов.
Вот некоторые из ключевых достоинств ImageNet:
Разнообразие: Благодаря изображениям, охватывающим более 20 000 категорий, ImageNet предлагает обширный и разнообразный набор данных, который улучшает обучение и обобщение моделей.
Структурированная организация: Изображения тщательно классифицируются с помощью иерархии WordNet, что способствует эффективному поиску данных и систематическому обучению моделей.
Исчерпывающая документация: Обширные исследования и многолетняя работа делают ImageNet доступным как для новичков, так и для экспертов, предоставляя ценные сведения и рекомендации для проектов по компьютерному зрению.
Однако, как и любой набор данных, он имеет свои ограничения. Вот некоторые из них, которые необходимо учитывать:
Вычислительные требования: Огромные размеры могут создавать проблемы для небольших команд с ограниченными вычислительными ресурсами.
Отсутствие временных данных: Поскольку он содержит только статичные изображения, он может не удовлетворять требованиям приложений, требующих видео или временных данных.
Устаревшие изображения: Некоторые изображения в наборе данных устарели и могут не отражать современные объекты, стили или обстановку, что потенциально снижает их актуальность для современных приложений.
Набор данных DOTA-v2.0
Набор данных DOTA-v2.0, где DOTA расшифровывается как Dataset for Object Detection in Aerial Images, представляет собой обширную коллекцию аэрофотоснимков, созданную специально для обнаружения объектов по ориентированным ограничительным рамкам (OBB). При обнаружении OBB используются повернутые ограничительные рамки для более точного совмещения с реальной ориентацией объектов на изображении. Этот метод особенно хорошо подходит для аэрофотоснимков, на которых объекты часто располагаются под разными углами, что обеспечивает более точную локализацию и лучшее обнаружение в целом.
Этот набор данных состоит из более чем 11 000 изображений и более 1,7 миллиона ориентированных ограничительных рамок для 18 категорий объектов. Изображения имеют размеры от 800×800 до 20 000×20 000 пикселей и включают такие объекты, как самолеты, корабли и здания.
Рис. 2. Примеры изображений и аннотаций из набора данных DOTA-v2.0. Изображение автора.
Благодаря подробным аннотациям DOTA-v2.0 стала популярным выбором для проектов дистанционного зондирования и воздушного наблюдения. Вот некоторые ключевые особенности DOTA-v2.0:
Разнообразные категории объектов: Он охватывает множество различных типов объектов, таких как транспортные средства, гавани и резервуары для хранения, что позволяет моделям познакомиться с различными объектами реального мира.
Высококачественные аннотации: Эксперты-аннотаторы создали точно ориентированные ограничительные рамки, которые четко показывают формы и направления движения объектов.
Многомасштабные изображения: Набор данных включает изображения разных размеров, что помогает моделям научиться обнаруживать объекты как в малых, так и в больших масштабах.
Хотя у DOTA-v2 много достоинств, пользователям следует помнить о некоторых ограничениях:
Дополнительные шаги загрузки: Из-за особенностей ведения набора данных DOTA, DOTA-v2.0 требует дополнительных шагов по настройке. Вам необходимо сначала загрузить изображения DOTA-v1.0, а затем добавить дополнительные изображения и обновленные аннотации для DOTA-v2.0, чтобы завершить набор данных.
Сложные аннотации: Ориентированные ограничительные рамки могут потребовать дополнительных усилий для обработки во время обучения модели.
Ограниченная область применения: DOTA-v2 разработана для аэрофотоснимков, что делает ее менее полезной для общих задач обнаружения объектов за пределами этой области.
Набор данных Roboflow 100
Набор данных Roboflow 100 (RF100) был создан компанией Roboflow при поддержке Intel. Его можно использовать для тестирования и оценки того, насколько хорошо работают модели обнаружения объектов. Этот эталонный набор данных включает 100 различных наборов данных, выбранных из более чем 90 000 публичных наборов данных. В них содержится более 224 000 изображений и 800 классов объектов из таких областей, как здравоохранение, аэрофотосъемка и игры.
Вот некоторые из ключевых преимуществ использования RF100:
Широкий охват областей: Он включает наборы данных из семи областей, таких как медицинская визуализация, аэрофотосъемка и подводная разведка.
Стимулирует совершенствование моделей: Изменчивость и специфические задачи RF100 выявляют пробелы в существующих моделях, стимулируя исследования в направлении более адаптируемых и надежных решений для обнаружения объектов.
Единый формат изображений: Все изображения имеют размер 640x640 пикселей. Это помогает пользователям тренировать модели без необходимости подгонять размеры изображений.
Несмотря на свои достоинства, RF100 имеет и некоторые недостатки, о которых следует помнить:
Ограниченность задач: RF100 предназначен для обнаружения объектов, поэтому он не может решать такие задачи, как сегментация или классификация.
Ориентированность на бенчмарки: RF100 в первую очередь предназначен для бенчмаркинга, а не для обучения моделей для реальных приложений, поэтому его результаты могут быть не полностью применимы к практическим сценариям развертывания.
Вариативность аннотаций: Поскольку RF100 объединяет наборы данных, собранные толпой, возможны несоответствия в качестве аннотаций и практике маркировки, что может повлиять на оценку и тонкую настройку модели.
Набор данных COCO (Common objects in context)
Набор данных COCO - один из самых распространенных наборов данных компьютерного зрения, содержащий более 330 000 изображений с подробными аннотациями к ним. Он предназначен для обнаружения объектов, сегментации и создания подписей к изображениям, что делает его ценным ресурсом для многих проектов. Его подробные метки, включая ограничительные рамки и маски сегментации, помогают системам научиться точно анализировать изображения.
Этот набор данных известен своей гибкостью и может использоваться для решения различных задач, от простых до сложных проектов. Он стал стандартом в области Vision AI и часто используется в задачах и соревнованиях для оценки эффективности моделей.
К числу его достоинств относятся:
Разнообразные и реалистичные данные: Набор данных включает в себя изображения из реальных сценариев с множеством объектов, окклюзий и различных условий освещения.
Сильная поддержка сообщества и исследований: Набор данных COCO используется в крупных соревнованиях по машинному обучению и исследованиях, имеет обширную документацию, предварительно обученные модели и активную поддержку сообщества.
Богатые и подробные аннотации: Набор данных COCO содержит очень подробные аннотации, включая сегментацию объектов, ключевые точки и подписи, что делает его идеальным для проектов, требующих точного визуального понимания.
Вот несколько ограничивающих факторов, о которых также следует знать:
Высокие требования к вычислительным ресурсам: Из-за своего размера и сложности обучение моделей на COCO может потребовать значительных вычислительных ресурсов, что делает его сложным для команд с ограниченным оборудованием.
Дисбаланс данных: Некоторые категории объектов содержат значительно больше изображений, чем другие, что может привести к смещению при обучении модели.
Сложная структура аннотаций: Подробные аннотации набора данных, несмотря на их ценность, могут оказаться непосильными для новичков или небольших команд, не имеющих опыта работы со структурированными наборами данных Vision AI.
Набор данных Open images V7
Open Images V7 - это массивный набор данных с открытым исходным кодом, курируемый компанией Google и содержащий более 9 миллионов изображений с аннотациями для 600 категорий объектов. Она включает в себя различные типы аннотаций и идеально подходит для решения сложных задач компьютерного зрения. Его масштаб и глубина обеспечивают всеобъемлющий ресурс для обучения и тестирования моделей компьютерного зрения.
Рис. 3. Взгляд на набор данных Open Images V7. Изображение автора.
Кроме того, популярность набора данных Open Images V7 в научных исследованиях обеспечивает множество ресурсов и примеров, на которых пользователи могут учиться. Однако ее огромный размер может сделать загрузку и обработку трудоемкой, особенно для небольших команд. Кроме того, некоторые аннотации могут быть непоследовательными, что требует дополнительных усилий по очистке данных, а интеграция не всегда проходит гладко, поэтому может потребоваться дополнительная подготовка.
Выбор правильного набора данных
Выбор правильного набора данных - важная составляющая успеха вашего проекта по компьютерному зрению. Лучший выбор зависит от конкретной задачи - поиск подходящего набора поможет вашей модели приобрести нужные навыки. Кроме того, он должен легко интегрироваться с вашими инструментами, чтобы вы могли больше сосредоточиться на создании модели и меньше - на устранении неполадок.
Рис. 4. Факторы для выбора правильного набора данных. Изображение автора.
Основные выводы
Высококачественные наборы данных являются основой любой модели компьютерного зрения, помогая системам научиться точно интерпретировать изображения. Разнообразные и хорошо проинвентаризированные наборы данных особенно важны, поскольку они позволяют моделям надежно работать в реальных сценариях и уменьшают количество ошибок, вызванных ограниченными или некачественными данными.
Ultralytics упрощает процесс доступа к наборам данных компьютерного зрения и работы с ними, облегчая поиск нужных данных для вашего проекта. Выбор правильного набора данных - важнейший шаг в создании высокопроизводительной модели, позволяющий получить более точные и эффективные результаты.