Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Компьютерное зрение (CV)

Изучите основы компьютерного зрения (CV). Узнайте, как Ultralytics и Ultralytics позволяют осуществлять обнаружение объектов, сегментацию и многое другое.

Компьютерное зрение (CV) — это сложная область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных. В то время как человеческое зрение обладает врожденной способностью мгновенно воспринимать и понимать окружающую обстановку, компьютеры необходимо обучать распознавать шаблоны и интерпретировать пиксели. Используя алгоритмы машинного обучения (ML) и, в частности, глубокого обучения (DL), системы CV могут принимать визуальные данные, обрабатывать их и давать рекомендации или предпринимать действия на основе этой информации.

Как работает компьютерное зрение

По сути, компьютер воспринимает изображение как массив числовых значений, представляющих пиксели. Современное компьютерное зрение в значительной степени опирается на сверточные нейронные сети (CNN), которые разработаны для имитации схемы связей между нейронами в человеческом мозге. Эти сети учатся идентифицировать иерархию признаков — от простых краев и текстур до сложных форм и объектов — посредством процесса, называемого извлечением признаков.

Для эффективной работы этим моделям требуется огромное количество обучающих данных. Например, чтобы распознать автомобиль, модель должна обработать тысячи помеченных изображений автомобилей в различных условиях. Такие инструменты, как Ultralytics , оптимизируют этот рабочий процесс, позволяя пользователям аннотировать наборы данных, обучать модели в облаке и эффективно их развертывать.

Основные задачи в области компьютерного зрения

Компьютерное зрение — это не одна функция, а совокупность отдельных задач, каждая из которых решает конкретную проблему:

  • Классификация изображений: эта задача присваивает классификационную метку всему изображению, отвечая на вопрос «Что изображено на этой картинке?» (например, различая кошку и собаку).
  • Обнаружение объектов: Идя еще дальше, обнаружение идентифицирует отдельные объекты в изображении и рисует ограничивающую рамку вокруг них. Это очень важно для подсчета элементов или поиска определенных особенностей.
  • Сегментация экземпляров: обеспечивает точную маску на уровне пикселей для каждого обнаруженного объекта, разделяя отдельные экземпляры одного и того же класса. Это жизненно важно для приложений, требующих высокой точности, таких как анализ медицинских изображений.
  • Оценка позы: это включает в себя обнаружение определенных ключевых точек на объекте, таких как суставы человеческого тела, для track и позы.

Применение в реальном мире

Компьютерное зрение находит применение практически во всех отраслях промышленности, автоматизируя задачи, которые ранее требовали участия человека .

  • Производство и контроль качества: В промышленности CV часто называют машинным зрением. Оно используется для автоматизации контроля качества, обнаружения мельчайших дефектов в продуктах на конвейере быстрее и точнее, чем это могут сделать инспекторы-люди. Например , ИИ в производстве позволяет в режиме реального времени контролировать оборудование для предотвращения сбоев.
  • Автономный транспорт: самоуправляемые автомобили полностью полагаются на компьютерное зрение для безопасного передвижения. Обрабатывая данные с камер и датчиков LiDAR, эти автомобили выполняют 3D-обнаружение объектов для идентификации пешеходов, других транспортных средств и дорожных знаков в режиме реального времени. Это критически важный компонент для достижения высокого уровня автоматизации транспортных средств.
  • Здравоохранение и диагностика: радиологи используют CV для выявления аномалий на рентгеновских снимках, МРТ и КТ. ИИ в здравоохранении помогает в ранней диагностике заболеваний, например в выявлении опухолей, путем выделения интересующих областей, которые могут быть незаметны невооруженным глазом.

Компьютерное зрение и обработка изображений

Важно отличать CV от обработки изображений, хотя они часто работают вместе.

  • Обработка изображений включает в себя манипулирование изображением с целью его улучшения или извлечения информации (например, регулировка яркости, контрастности или применение фильтров, таких как в Adobe Photoshop). Результатом обычно является другое изображение.
  • Компьютерное зрение принимает изображение в качестве входных данных и выдает информацию или интерпретацию (например, «В этой комнате три человека»). CV использует методы обработки изображений для подготовки изображений к анализу нейронными сетями.

Реализация компьютерного зрения с помощью Python

Современные библиотеки сделали доступным внедрение мощных моделей CV. Пример ниже демонстрирует, как загрузить самые современные YOLO26 модель для detect на изображении с использованием ultralytics пакет.

from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
results[0].show()

Этот простой скрипт использует предварительно обученную модель для выполнения сложных задач вывода, демонстрируя доступность современных инструментов искусственного интеллекта. Для разработчиков, которые хотят выйти за рамки статических изображений, CV также обеспечивает понимание видео и системы отслеживания в реальном времени, используемые в безопасности и спортивной аналитике. Благодаря интеграции с такими библиотеками, как OpenCVразработчики могут создавать комплексные приложения, которые захватывают, обрабатывают и анализируют визуальный мир.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас