Узнайте, как данные, аннотированные людьми, повышают точность моделей компьютерного зрения и почему человеческий опыт по-прежнему необходим для надежных систем искусственного интеллекта в области зрения.

Узнайте, как данные, аннотированные людьми, повышают точность моделей компьютерного зрения и почему человеческий опыт по-прежнему необходим для надежных систем искусственного интеллекта в области зрения.

Двадцать лет назад, если бы кто-то сказал, что думает о приобретении робота для помощи по дому, это прозвучало бы совершенно неправдоподобно. Однако сейчас мы находимся в разгаре бума искусственного интеллекта, и роботы проходят испытания в подобных сценариях.
Ключевой областью ИИ, способствующей этому прогрессу, является компьютерное зрение, которое дает машинам возможность понимать изображения и видео. Другими словами, модели компьютерного зрения, такие как Ultralytics YOLO11 и готовящаяся к выпуску Ultralytics , могут быть обучены на наборах данных, состоящих из визуальных данных и аннотаций.
Эти аннотации помогают модели понимать визуальные данные. Например, в наборах данных для обнаружения объектов используются ограничительные рамки, чтобы обвести прямоугольниками интересующие объекты. Это позволяет модели detect локализовать эти объекты на новых изображениях, даже если сцена загромождена или объект частично скрыт.
Другие задачи компьютерного зрения зависят от различных видов аннотаций. Наборы данных сегментации маркируют точные контуры объекта на уровне пикселей, а наборы данных ключевых точек отмечают определенные ориентиры, такие как суставы человека.
Однако для всех этих форматов одним из ключевых факторов является качество и согласованность меток. Модели обучаются непосредственно на данных, на которых они тренируются, поэтому если метки несогласованны или неверны, модель часто переносит эти ошибки в свои прогнозы.
Даже при наличии автоматизации наборы данных с аннотациями, сделанными людьми, по-прежнему имеют решающее значение, особенно в таких важных областях, как медицинская визуализация. Небольшие ошибки в маркировке, такие как неточные границы опухоли или пропущенные аномалии, могут научить модель неправильному шаблону и привести к небезопасным прогнозам в будущем. Человеческие эксперты предоставляют точные исходные данные и суждения, которые необходимы для этих приложений.
.webp)
В этой статье мы подробнее рассмотрим, почему данные, аннотированные людьми, остаются незаменимыми даже в условиях постоянного развития искусственного интеллекта.
Модели компьютерного зрения учатся так же, как и мы, рассматривая множество примеров. Разница заключается в том, что они учатся на основе обучения на больших наборах данных изображений и видео, которые заранее маркируются людьми. Эти метки служат в качестве эталонных данных, обучая модель таким вещам, как «это пешеход», «здесь находится граница опухоли» или «этот объект — автомобиль».
Реальные изображения редко бывают четкими и однородными. Освещение может меняться, из-за чего один и тот же объект выглядит по-разному. Люди и транспортные средства могут перекрывать друг друга или быть частично скрыты. Фон может быть перегруженным и отвлекать внимание. Когда наборы данных содержат тщательные и последовательные метки для всех этих ситуаций, модели гораздо лучше подготовлены к тому, с чем им придется столкнуться за пределами контролируемой среды.
Аннотирование данных — это не просто рисование прямоугольников или обведение контуров. Это также применение руководящих принципов и принятие практических решений о том, что считать объектом, где должны проходить его границы и что делать, когда что-то неясно. Такое человеческое суждение обеспечивает точность и пригодность данных.
В конечном итоге, система компьютерного зрения работает настолько хорошо, насколько хороши данные с метками, на которых она обучается. В таких важных приложениях, как обнаружение рака на сканах или обнаружение опасностей на дороге для самоуправляемых автомобилей, точные метки, нанесенные квалифицированными специалистами, имеют решающее значение для точности и безопасности.
По мере роста масштабов компьютерного зрения и увеличения объемов наборов данных автоматизация становится распространенным способом ускорения аннотирования. Вместо того чтобы маркировать все вручную, команды используют модели искусственного интеллекта для создания первоначального набора меток.
Затем люди проверяют результаты, исправляют ошибки и обрабатывают случаи, которые модель не может с уверенностью классифицировать. Такой подход ускоряет аннотирование, сохраняя при этом высокое качество.
Вот несколько способов, которыми автоматизация обычно помогает в аннотировании данных:
Хотя автоматизация может ускорить маркировку, модели искусственного интеллекта по-прежнему нуждаются в человеческом суждении, чтобы оставаться точными и надежными.
Вот несколько ключевых областей, в которых человеческий опыт оказывает влияние на аннотирование данных:
Инструменты и платформы для аннотирования, такие как Roboflow автоматизацию для ускорения маркировки, часто используя базовые модели, такие как Segment Anything Model 3 или SAM3. SAM3 — это базовая модель сегментации Meta AI с возможностью подсказки.
Он может detect, segment и track на изображениях и в видео по простым подсказкам, таким как щелчки, ограничительные рамки или короткие текстовые фразы, создавая маски сегментации для сопоставления объектов без необходимости специального обучения для каждой новой категории.
Даже при использовании этих передовых подходов по-прежнему требуются эксперты-люди для проверки и доработки аннотаций. Когда автоматизированные инструменты создают первый черновой вариант, а люди проверяют, исправляют и дорабатывают его, такой рабочий процесс называется аннотацией с участием человека. Это позволяет сохранить высокую скорость аннотирования и одновременно гарантировать, что окончательные метки будут достаточно точными и последовательными для обучения надежных моделей.
.webp)
Автоматическая аннотация лучше всего подходит для данных, полученных из контролируемых мест. Изображения, снятые на фабриках, складах или в торговых залах, обычно имеют стабильное освещение и четкий обзор объектов, поэтому автоматизированные инструменты могут точно маркировать их и помогать командам быстрее масштабироваться с меньшим объемом ручной работы.
Данные из менее контролируемых мест являются более сложными. Видеозаписи с улицы меняются в зависимости от времени суток и погоды, а сцены с улиц или из домов часто включают в себя беспорядок, смазывание движения, перекрывающие друг друга объекты и многочисленные наложения. Мелкие объекты, тонкие границы или редкие ситуации добавляют еще больше возможностей для ошибок. Модель, которая хорошо работает с чистыми данными из помещений, может по-прежнему испытывать трудности с беспорядочными изображениями из реального мира.
Именно поэтому человеческий вклад по-прежнему имеет значение. Люди могут вмешаться, когда модель дает неопределенные результаты, интерпретировать сложный контекст и исправлять ошибки, прежде чем они попадут в окончательный набор данных. Аннотация с участием человека помогает автоматизации оставаться привязанной к реальным условиям и сохранять надежность моделей после внедрения.
Теперь, когда мы увидели, где автоматизация работает хорошо, а где не справляется, давайте рассмотрим несколько приложений, в которых аннотация с участием человека играет важную роль.
Рассмотрим заводскую конвейерную ленту, по которой каждую минуту проходят сотни деталей. Большинство дефектов очевидны, но иногда появляется тончайшая трещина под необычным углом или под ярким светом. Автоматизированная система может ее пропустить или классифицировать как безвредную текстуру поверхности, но человек-рецензент может обнаружить дефект, исправить аннотацию и убедиться, что модель научилась различать дефекты.
Это роль аннотации с участием человека в промышленном контроле. Автоматизация может предварительно маркировать распространенные типы дефектов и быстро обрабатывать большие объемы изображений, но людям по-прежнему необходимо проверять результаты, уточнять границы и обрабатывать редкие неисправности, которые не часто встречаются в процессе обучения.
Аналогичным образом, автономные транспортные средства используют компьютерное зрение для обнаружения пешеходов, считывания знаков и навигации в дорожном движении, но реальные дороги непредсказуемы. Например, пешеход, выходящий ночью из-за припаркованного автомобиля, может быть частично скрыт и трудно различим в ярком свете фар.
.webp)
Человеческие аннотаторы могут маркировать эти редкие, критически важные для безопасности крайние случаи во время обучения, чтобы модели научились правильно реагировать не только в нормальных условиях, но и в самые важные моменты. Этот этап с участием человека является ключевым для обучения систем обрабатывать редкие события, которые трудно уловить с помощью одной только автоматизации.
С развитием технологий аннотирование с участием человека становится все более совместным процессом. Интересно, что модели визуального языка (VLM), которые обучаются как на изображениях, так и на тексте, теперь используются для создания первоначальных меток и предложения исправлений на основе простых подсказок.
Таким образом, вместо того, чтобы вручную сканировать каждое изображение, чтобы решить, что маркировать, аннотатор может дать VLM команду, например, «маркировать всех пешеходов, автомобили и светофоры» илиsegment дефекты на этой детали», и получить черновой набор аннотаций для проверки.
.webp)
Это сокращает время аннотирования, поскольку модель может заранее обрабатывать многие простые случаи, а люди могут сосредоточиться на проверке результатов, исправлении сложных примеров и обеспечении согласованности набора данных. Крупные мультимодальные модели также начинают направлять аннотаторов к наиболее неопределенным образцам, что делает работу людей более целенаправленной и улучшает общее качество набора данных.
Компьютерное зрение помогает машинам интерпретировать то, что они видят, и реагировать на это, но оно работает лучше всего в сочетании с человеческим опытом. Данные, аннотированные людьми, позволяют моделям оставаться привязанными к реальным условиям и повышают их надежность. Благодаря совместной работе автоматизации и человеческого суждения команды могут создавать эффективные системы компьютерного зрения.
Присоединяйтесь к нашему активному сообществу и изучайте инновации, такие как ИИ в логистике и Vision AI в робототехнике. Посетите наш репозиторий GitHub, чтобы узнать больше. Чтобы начать работу с компьютерным зрением уже сегодня, ознакомьтесь с нашими вариантами лицензирования.