Computer Vision (CV)
Исследуй основы компьютерного зрения (CV). Узнай, как Ultralytics YOLO26 и платформа Ultralytics позволяют выполнять детекцию объектов, сегментацию и многое другое.
Компьютерное зрение (CV) — это сложная область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных. В то время как человеческое зрение обладает врожденной способностью мгновенно воспринимать и понимать окружающую обстановку, компьютеры нужно обучать распознаванию образов и интерпретации пикселей. Используя алгоритмы машинного обучения (ML) и, в частности, глубокого обучения (DL), системы CV могут принимать визуальные данные, обрабатывать их и давать рекомендации или выполнять действия на основе этой информации.
Link to this sectionКак работает компьютерное зрение#
По сути, компьютер видит изображение как массив числовых значений, представляющих пиксели. Современное CV в значительной степени опирается на сверточные нейронные сети (CNNs), которые спроектированы для имитации принципов связности нейронов в человеческом мозге. Эти сети учатся идентифицировать иерархию признаков — от простых краев и текстур до сложных форм и объектов — с помощью процесса, называемого извлечением признаков.
Для эффективной работы этим моделям требуется огромное количество обучающих данных. Например, чтобы распознать автомобиль, модели нужно обработать тысячи размеченных изображений автомобилей в различных условиях. Такие инструменты, как Ultralytics Platform, упрощают этот рабочий процесс, позволяя аннотировать наборы данных, обучать модели в облаке и эффективно развертывать их.
Link to this sectionОсновные задачи компьютерного зрения#
Компьютерное зрение — это не одна функция, а совокупность отдельных задач, каждая из которых решает конкретную проблему:
- Классификация изображений: Эта задача присваивает метку класса всему изображению, отвечая на вопрос: «Что на этой картинке?» (например, различие между кошкой и собакой).
- Обнаружение объектов: Делая шаг вперед, обнаружение идентифицирует отдельные объекты внутри изображения и рисует вокруг них рамку ограничивающего прямоугольника. Это критически важно для подсчета предметов или локализации определенных признаков.
- Сегментация экземпляров: Это обеспечивает точную маску на уровне пикселей для каждого обнаруженного объекта, разделяя отдельные экземпляры одного и того же класса. Это жизненно важно для приложений, требующих высокой точности, таких как анализ медицинских изображений.
- Оценка позы: Это включает обнаружение специфических ключевых точек на объекте, таких как суставы человеческого тела, для отслеживания движения и позы.
Link to this sectionРеальные приложения#
Польза компьютерного зрения охватывает практически каждую отрасль, автоматизируя задачи, которые раньше требовали участия человека.
- Производство и контроль качества: В промышленных условиях CV часто называют машинным зрением. Оно используется для автоматизации инспекции качества, обнаруживая мельчайшие дефекты продукции на сборочной линии быстрее и точнее, чем инспекторы-люди. Например, ИИ в производстве позволяет осуществлять мониторинг оборудования в режиме реального времени для предотвращения сбоев.
- Автономный транспорт: Самоуправляемые автомобили полностью полагаются на CV для безопасного передвижения. Обрабатывая входные данные с камер и LiDAR-сенсоров, эти транспортные средства выполняют 3D-обнаружение объектов, чтобы идентифицировать пешеходов, другие автомобили и дорожные знаки в режиме реального времени. Это важнейший компонент достижения высоких уровней автоматизации транспортных средств.
- Здравоохранение и диагностика: Радиологи используют CV для помощи в выявлении аномалий на рентгеновских снимках, МРТ и КТ-сканах. ИИ в здравоохранении помогает в раннем обнаружении заболеваний, например, при выявлении опухолей, подсвечивая области интереса, которые могут быть пропущены невооруженным глазом.
Link to this sectionКомпьютерное зрение против обработки изображений#
Важно различать CV и обработку изображений, хотя они часто работают вместе.
- Обработка изображений предполагает манипуляцию изображением для его улучшения или извлечения информации (например, настройка яркости, контрастности или применение фильтров, подобных тем, что есть в Adobe Photoshop). Результатом обычно является другое изображение.
- Компьютерное зрение берет изображение на вход и выдает информацию или интерпретацию (например, «В этой комнате три человека»). CV использует методы обработки изображений для подготовки снимков к анализу нейронными сетями.
Link to this sectionРеализация компьютерного зрения с помощью Python#
Современные библиотеки сделали реализацию мощных моделей CV доступной. Пример ниже демонстрирует, как загрузить передовую модель YOLO26 для обнаружения объектов на изображении с использованием пакета ultralytics.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()Этот простой скрипт использует предобученную модель для выполнения сложных задач вывода, демонстрируя доступность современных инструментов ИИ. Для разработчиков, желающих выйти за рамки статических изображений, CV также обеспечивает работу технологий понимания видео и систем отслеживания в реальном времени, используемых в безопасности и спортивной аналитике. Интегрируясь с такими библиотеками, как OpenCV, разработчики могут создавать комплексные приложения, которые фиксируют, обрабатывают и анализируют визуальный мир.






