Глоссарий

Модельная сервировка

Изучи основы обслуживания моделей - развертывания моделей ИИ для предсказаний в реальном времени, масштабируемости и бесшовной интеграции в приложения.

Обучай модели YOLO просто
с помощью Ultralytics HUB.

Узнай больше

После того как модель машинного обучения (ML) обучена и проверена, следующий важный шаг - сделать ее доступной для генерирования прогнозов на новых данных. Этот процесс известен как Model Serving. Он включает в себя развертывание обученной модели в производственной среде, обычно за конечной точкой API (Application Programming Interface), что позволяет приложениям или другим системам запрашивать прогнозы в режиме реального времени. Обслуживание модели выступает в роли моста между разработанной моделью и ее практическим применением, превращая ее из статичного файла в активный, генерирующий ценность сервис в рамках более широкого жизненного цикла машинного обучения.

Важность обслуживания моделей

Обслуживание модели является основополагающим для операционализации ML-моделей. Без него даже самые точные модели, такие как современные Ultralytics YOLO детекторы объектов, остаются изолированными в среде разработки и не могут повлиять на реальные процессы. Эффективное обслуживание моделей гарантирует, что понимание и возможности автоматизации, разработанные в процессе обучения, будут доступны и пригодны для использования. Оно позволяет делать выводы в реальном времени, позволяя приложениям динамично реагировать на новые данные, что крайне важно для самых разных задач - от обнаружения объектов в видео до обработки естественного языка (NLP) в чат-ботах. В конечном счете, обслуживание моделей необходимо для получения отдачи от инвестиций (ROI) в инициативы в области ИИ.

Обслуживание модели против развертывания модели

Хотя это слово часто используется как взаимозаменяемое, технически Model Serving - это отдельный компонент в более широком процессе Model Deployment. Развертывание модели включает в себя все шаги, необходимые для того, чтобы взять обученную модель и сделать ее работоспособной в живой производственной среде, включая упаковку, настройку инфраструктуры, интеграцию и мониторинг. Обслуживание модели фокусируется на инфраструктурном и программном слое, который размещает модель и обрабатывает входящие запросы на прогнозирование, делая функциональность модели доступной в виде сервиса, часто через сетевые протоколы вроде REST или gRPC. Для получения более подробной информации ознакомься с нашим руководством по вариантам развертывания моделей.

Применение в реальном мире

Обслуживание моделей позволяет реализовать бесчисленное множество функций, управляемых искусственным интеллектом, с которыми мы взаимодействуем ежедневно. Вот два примера:

Основные составляющие модельного обслуживания

Реализация надежной системы обслуживания моделей включает в себя несколько компонентов, работающих вместе:

  • Формат модели: Модели должны быть упакованы в формат, подходящий для подачи, например ONNXили оптимизировать с помощью таких инструментов, как TensorRT для повышения производительности на специфическом оборудовании, например на графических процессорахNVIDIA .
  • Обслуживающий фреймворк: Специализированное программное обеспечение занимается загрузкой модели, управлением ресурсами и эффективной обработкой запросов на вывод. В качестве примеров можно привести TensorFlow Serving, TorchServe и NVIDIA Triton Inference Server, с которым интегрируются модели Ultralytics Triton Integration Guide).
  • Конечная точка API: Интерфейс (например, REST, gRPC) позволяет клиентским приложениям отправлять данные и получать предсказания. Часто он управляется API-шлюзом для обеспечения безопасности, ограничения скорости и маршрутизации.
  • Инфраструктура: Базовое оборудование и среда, в которой обслуживается модель, - это могут быть облачные вычислительные платформы вроде Amazon SageMaker или Google Cloud AI Platform (Vertex AI), локальные серверы или пограничные вычислительные устройства(Deploying on Edge AI Devices). Для упаковки часто используются инструменты контейнеризации вроде Docker(Docker Quickstart).
  • Мониторинг и ведение логов: Инструменты для отслеживания показателей производительности (задержки, пропускная способность, количество ошибок), использования ресурсов и потенциальных проблем вроде дрейфа данных(Model Monitoring Guide).

Платформы вроде Ultralytics HUB призваны упростить весь этот рабочий процесс, предлагая интегрированные решения для обучения, версионирования, развертывания и обслуживания моделей компьютерного зрения в соответствии с лучшими практиками MLOps (Machine Learning Operations). Ключевыми моментами являются масштабируемость, позволяющая справляться с изменениями нагрузки, безопасность(Data Security) и ремонтопригодность.

Читать полностью