Изучите основы компьютерного зрения (CV). Узнайте, как Ultralytics и Ultralytics позволяют осуществлять обнаружение объектов, сегментацию и многое другое.
Компьютерное зрение (CV) — это сложная область искусственного интеллекта (ИИ), которая позволяет компьютерам и системам извлекать значимую информацию из цифровых изображений, видео и других визуальных данных. В то время как человеческое зрение обладает врожденной способностью мгновенно воспринимать и понимать окружающую обстановку, компьютеры необходимо обучать распознавать шаблоны и интерпретировать пиксели. Используя алгоритмы машинного обучения (ML) и, в частности, глубокого обучения (DL), системы CV могут принимать визуальные данные, обрабатывать их и давать рекомендации или предпринимать действия на основе этой информации.
По сути, компьютер воспринимает изображение как массив числовых значений, представляющих пиксели. Современное компьютерное зрение в значительной степени опирается на сверточные нейронные сети (CNN), которые разработаны для имитации схемы связей между нейронами в человеческом мозге. Эти сети учатся идентифицировать иерархию признаков — от простых краев и текстур до сложных форм и объектов — посредством процесса, называемого извлечением признаков.
Для эффективной работы этим моделям требуется огромное количество обучающих данных. Например, чтобы распознать автомобиль, модель должна обработать тысячи помеченных изображений автомобилей в различных условиях. Такие инструменты, как Ultralytics , оптимизируют этот рабочий процесс, позволяя пользователям аннотировать наборы данных, обучать модели в облаке и эффективно их развертывать.
Компьютерное зрение — это не одна функция, а совокупность отдельных задач, каждая из которых решает конкретную проблему:
Компьютерное зрение находит применение практически во всех отраслях промышленности, автоматизируя задачи, которые ранее требовали участия человека .
Важно отличать CV от обработки изображений, хотя они часто работают вместе.
Современные библиотеки сделали доступным внедрение мощных моделей CV. Пример ниже демонстрирует, как загрузить
самые современные YOLO26 модель для detect на изображении
с использованием ultralytics пакет.
from ultralytics import YOLO
# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")
# Run inference on a standard example image
# The model identifies objects and their locations
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
results[0].show()
Этот простой скрипт использует предварительно обученную модель для выполнения сложных задач вывода, демонстрируя доступность современных инструментов искусственного интеллекта. Для разработчиков, которые хотят выйти за рамки статических изображений, CV также обеспечивает понимание видео и системы отслеживания в реальном времени, используемые в безопасности и спортивной аналитике. Благодаря интеграции с такими библиотеками, как OpenCVразработчики могут создавать комплексные приложения, которые захватывают, обрабатывают и анализируют визуальный мир.