Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Понимание важности аннотации с участием человека

Абирами Вина

4 мин чтения

12 декабря 2025 года

Узнайте, как данные, аннотированные людьми, повышают точность моделей компьютерного зрения и почему человеческий опыт по-прежнему необходим для надежных систем искусственного интеллекта в области зрения.

Двадцать лет назад, если бы кто-то сказал, что думает о приобретении робота для помощи по дому, это прозвучало бы совершенно неправдоподобно. Однако сейчас мы находимся в разгаре бума искусственного интеллекта, и роботы проходят испытания в подобных сценариях.

Ключевой областью ИИ, способствующей этому прогрессу, является компьютерное зрение, которое дает машинам возможность понимать изображения и видео. Другими словами, модели компьютерного зрения, такие как Ultralytics YOLO11 и готовящаяся к выпуску Ultralytics , могут быть обучены на наборах данных, состоящих из визуальных данных и аннотаций. 

Эти аннотации помогают модели понимать визуальные данные. Например, в наборах данных для обнаружения объектов используются ограничительные рамки, чтобы обвести прямоугольниками интересующие объекты. Это позволяет модели detect локализовать эти объекты на новых изображениях, даже если сцена загромождена или объект частично скрыт.

Другие задачи компьютерного зрения зависят от различных видов аннотаций. Наборы данных сегментации маркируют точные контуры объекта на уровне пикселей, а наборы данных ключевых точек отмечают определенные ориентиры, такие как суставы человека. 

Однако для всех этих форматов одним из ключевых факторов является качество и согласованность меток. Модели обучаются непосредственно на данных, на которых они тренируются, поэтому если метки несогласованны или неверны, модель часто переносит эти ошибки в свои прогнозы. 

Даже при наличии автоматизации наборы данных с аннотациями, сделанными людьми, по-прежнему имеют решающее значение, особенно в таких важных областях, как медицинская визуализация. Небольшие ошибки в маркировке, такие как неточные границы опухоли или пропущенные аномалии, могут научить модель неправильному шаблону и привести к небезопасным прогнозам в будущем. Человеческие эксперты предоставляют точные исходные данные и суждения, которые необходимы для этих приложений.

Рис. 1. Существует потребность в наборах данных с аннотациями, сделанными людьми. Изображение автора.

В этой статье мы подробнее рассмотрим, почему данные, аннотированные людьми, остаются незаменимыми даже в условиях постоянного развития искусственного интеллекта.

Необходимость аннотирования изображений и видео

Модели компьютерного зрения учатся так же, как и мы, рассматривая множество примеров. Разница заключается в том, что они учатся на основе обучения на больших наборах данных изображений и видео, которые заранее маркируются людьми. Эти метки служат в качестве эталонных данных, обучая модель таким вещам, как «это пешеход», «здесь находится граница опухоли» или «этот объект — автомобиль».

Реальные изображения редко бывают четкими и однородными. Освещение может меняться, из-за чего один и тот же объект выглядит по-разному. Люди и транспортные средства могут перекрывать друг друга или быть частично скрыты. Фон может быть перегруженным и отвлекать внимание. Когда наборы данных содержат тщательные и последовательные метки для всех этих ситуаций, модели гораздо лучше подготовлены к тому, с чем им придется столкнуться за пределами контролируемой среды.

Аннотирование данных — это не просто рисование прямоугольников или обведение контуров. Это также применение руководящих принципов и принятие практических решений о том, что считать объектом, где должны проходить его границы и что делать, когда что-то неясно. Такое человеческое суждение обеспечивает точность и пригодность данных.

В конечном итоге, система компьютерного зрения работает настолько хорошо, насколько хороши данные с метками, на которых она обучается. В таких важных приложениях, как обнаружение рака на сканах или обнаружение опасностей на дороге для самоуправляемых автомобилей, точные метки, нанесенные квалифицированными специалистами, имеют решающее значение для точности и безопасности.

Рост автоматизации в аннотировании данных

По мере роста масштабов компьютерного зрения и увеличения объемов наборов данных автоматизация становится распространенным способом ускорения аннотирования. Вместо того чтобы маркировать все вручную, команды используют модели искусственного интеллекта для создания первоначального набора меток. 

Затем люди проверяют результаты, исправляют ошибки и обрабатывают случаи, которые модель не может с уверенностью классифицировать. Такой подход ускоряет аннотирование, сохраняя при этом высокое качество.

Вот несколько способов, которыми автоматизация обычно помогает в аннотировании данных:

  • Автоматическая сегментация: модели могут автоматически предлагать контуры объектов или маски на уровне пикселей, что сокращает объем ручной трассировки, которую необходимо выполнять аннотаторам.
  • Отслеживание оптического потока: в случае с видео методы отслеживания могут следовать за движущимся объектом по кадрам и переносить его метку вперед, помогая сохранять согласованность аннотаций во времени.
  • Интерполяция кадров: инструменты могут заполнять метки для кадров между двумя помеченными кадрами, используя сигналы движения и отслеживания, поэтому аннотаторам не нужно помечать каждый отдельный кадр.
  • Активное обучение: обучающие конвейеры могут выявлять примеры, которые модель считает неопределенными или необычными, и сначала отправлять их людям, чтобы ручная работа была направлена на данные, которые наиболее улучшают производительность.

Почему аннотирование данных людьми по-прежнему так важно

Хотя автоматизация может ускорить маркировку, модели искусственного интеллекта по-прежнему нуждаются в человеческом суждении, чтобы оставаться точными и надежными.

Вот несколько ключевых областей, в которых человеческий опыт оказывает влияние на аннотирование данных:

  • Понимание контекста: реальные изображения и видео часто бывают нечеткими. Тени, отражения, смазывание движения и перекрывающиеся объекты могут сбить с толку автоматизированные инструменты. Человеческие аннотаторы могут интерпретировать то, что на самом деле происходит, поэтому метки становятся более точными.
  • Обеспечение согласованности меток: по мере роста наборов данных автоматические метки могут смещаться или варьироваться между партиями. Люди могут проверять, исправлять и согласовывать метки, чтобы набор данных оставался согласованным от начала до конца.
  • Снижение предвзятости и вреда: люди лучше распознают контент, требующий осторожного обращения, культурные нюансы и закономерности, которые могут привести к предвзятости. Их контроль помогает сделать наборы данных более справедливыми и избежать непреднамеренного вреда.
  • Применение предметных знаний: для выполнения некоторых задач требуются знания в конкретной области, например для выявления медицинских аномалий или производственных дефектов. Эксперты могут предоставить точные метки и разрешить неоднозначные случаи, чтобы модель усвоила правильные детали.

Обзор аннотации с участием человека

Инструменты и платформы для аннотирования, такие как Roboflow автоматизацию для ускорения маркировки, часто используя базовые модели, такие как Segment Anything Model 3 или SAM3. SAM3 — это базовая модель сегментации Meta AI с возможностью подсказки. 

Он может detect, segment и track на изображениях и в видео по простым подсказкам, таким как щелчки, ограничительные рамки или короткие текстовые фразы, создавая маски сегментации для сопоставления объектов без необходимости специального обучения для каждой новой категории.

Даже при использовании этих передовых подходов по-прежнему требуются эксперты-люди для проверки и доработки аннотаций. Когда автоматизированные инструменты создают первый черновой вариант, а люди проверяют, исправляют и дорабатывают его, такой рабочий процесс называется аннотацией с участием человека. Это позволяет сохранить высокую скорость аннотирования и одновременно гарантировать, что окончательные метки будут достаточно точными и последовательными для обучения надежных моделей.

Рис. 2. Взгляд на аннотацию с участием человека. (Источник)

Когда автоматизация аннотирования работает, а когда нет

Автоматическая аннотация лучше всего подходит для данных, полученных из контролируемых мест. Изображения, снятые на фабриках, складах или в торговых залах, обычно имеют стабильное освещение и четкий обзор объектов, поэтому автоматизированные инструменты могут точно маркировать их и помогать командам быстрее масштабироваться с меньшим объемом ручной работы.

Данные из менее контролируемых мест являются более сложными. Видеозаписи с улицы меняются в зависимости от времени суток и погоды, а сцены с улиц или из домов часто включают в себя беспорядок, смазывание движения, перекрывающие друг друга объекты и многочисленные наложения. Мелкие объекты, тонкие границы или редкие ситуации добавляют еще больше возможностей для ошибок. Модель, которая хорошо работает с чистыми данными из помещений, может по-прежнему испытывать трудности с беспорядочными изображениями из реального мира.

Именно поэтому человеческий вклад по-прежнему имеет значение. Люди могут вмешаться, когда модель дает неопределенные результаты, интерпретировать сложный контекст и исправлять ошибки, прежде чем они попадут в окончательный набор данных. Аннотация с участием человека помогает автоматизации оставаться привязанной к реальным условиям и сохранять надежность моделей после внедрения.

Где аннотация с участием человека может иметь значение?

Теперь, когда мы увидели, где автоматизация работает хорошо, а где не справляется, давайте рассмотрим несколько приложений, в которых аннотация с участием человека играет важную роль.

Обнаружение дефектов в производстве

Рассмотрим заводскую конвейерную ленту, по которой каждую минуту проходят сотни деталей. Большинство дефектов очевидны, но иногда появляется тончайшая трещина под необычным углом или под ярким светом. Автоматизированная система может ее пропустить или классифицировать как безвредную текстуру поверхности, но человек-рецензент может обнаружить дефект, исправить аннотацию и убедиться, что модель научилась различать дефекты.

Это роль аннотации с участием человека в промышленном контроле. Автоматизация может предварительно маркировать распространенные типы дефектов и быстро обрабатывать большие объемы изображений, но людям по-прежнему необходимо проверять результаты, уточнять границы и обрабатывать редкие неисправности, которые не часто встречаются в процессе обучения. 

Автономные транспортные средства и интеллектуальный транспорт

Аналогичным образом, автономные транспортные средства используют компьютерное зрение для обнаружения пешеходов, считывания знаков и навигации в дорожном движении, но реальные дороги непредсказуемы. Например, пешеход, выходящий ночью из-за припаркованного автомобиля, может быть частично скрыт и трудно различим в ярком свете фар.

Рис. 3. Пример использования компьютерного зрения для анализа дорожного движения. (Источник)

Человеческие аннотаторы могут маркировать эти редкие, критически важные для безопасности крайние случаи во время обучения, чтобы модели научились правильно реагировать не только в нормальных условиях, но и в самые важные моменты. Этот этап с участием человека является ключевым для обучения систем обрабатывать редкие события, которые трудно уловить с помощью одной только автоматизации.

Будущее наборов данных с аннотациями, созданных людьми

С развитием технологий аннотирование с участием человека становится все более совместным процессом. Интересно, что модели визуального языка (VLM), которые обучаются как на изображениях, так и на тексте, теперь используются для создания первоначальных меток и предложения исправлений на основе простых подсказок. 

Таким образом, вместо того, чтобы вручную сканировать каждое изображение, чтобы решить, что маркировать, аннотатор может дать VLM команду, например, «маркировать всех пешеходов, автомобили и светофоры» илиsegment дефекты на этой детали», и получить черновой набор аннотаций для проверки.

Рис. 4. Крупные мультимодальные модели могут работать с человеческими аннотаторами (Источник)

Это сокращает время аннотирования, поскольку модель может заранее обрабатывать многие простые случаи, а люди могут сосредоточиться на проверке результатов, исправлении сложных примеров и обеспечении согласованности набора данных. Крупные мультимодальные модели также начинают направлять аннотаторов к наиболее неопределенным образцам, что делает работу людей более целенаправленной и улучшает общее качество набора данных.

Основные выводы

Компьютерное зрение помогает машинам интерпретировать то, что они видят, и реагировать на это, но оно работает лучше всего в сочетании с человеческим опытом. Данные, аннотированные людьми, позволяют моделям оставаться привязанными к реальным условиям и повышают их надежность. Благодаря совместной работе автоматизации и человеческого суждения команды могут создавать эффективные системы компьютерного зрения.

Присоединяйтесь к нашему активному сообществу и изучайте инновации, такие как ИИ в логистике и Vision AI в робототехнике. Посетите наш репозиторий GitHub, чтобы узнать больше. Чтобы начать работу с компьютерным зрением уже сегодня, ознакомьтесь с нашими вариантами лицензирования.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно