Модель, обслуживающая
Узнайте об основных принципах обслуживания моделей - развертывании моделей искусственного интеллекта для прогнозирования в реальном времени, масштабирования и беспрепятственной интеграции в приложения.
Обслуживание модели - это процесс, в ходе которого обученная модель машинного обучения (ML) становится доступной для получения входных данных и получения прогнозов в производственной среде. После того как модель обучена и проверена, обслуживание - это критический этап, который превращает ее из статического файла в активный, рабочий инструмент, способный работать с реальными приложениями. Он включает в себя развертывание модели на сервере и создание интерфейса, обычно API, который позволяет другим программным системам взаимодействовать с ней для получения выводов в режиме реального времени.
Несмотря на тесную взаимосвязь, обслуживание модели - это отдельный компонент более широкого процесса развертывания модели. Развертывание охватывает весь рабочий процесс интеграции модели в производство, включая настройку и мониторинг инфраструктуры. Обслуживание модели относится именно к той части инфраструктуры, которая отвечает за запуск модели и эффективную обработку запросов на вывод.
Ключевые компоненты модельного обслуживания
Надежная система обслуживания моделей состоит из нескольких интегрированных компонентов, которые работают вместе для получения быстрых и надежных прогнозов.
- Формат модели: Перед предоставлением модель должна быть упакована в стандартизированный формат. Такие форматы, как ONNX, обеспечивают совместимость различных фреймворков. Для достижения максимальной производительности модели можно оптимизировать с помощью таких инструментов, как TensorRT для графических процессоров NVIDIA.
- Serving Framework: Специализированное программное обеспечение, которое загружает модель, управляет аппаратными ресурсами, например графическими процессорами, и обрабатывает запросы на вывод. К популярным фреймворкам относятся TensorFlow Serving, PyTorch Serve и высокопроизводительный NVIDIA Triton Inference Server, который можно использовать с моделями Ultralytics с помощью нашего руководства по интеграции Triton.
- Конечная точка API: Это коммуникационный шлюз, который позволяет клиентским приложениям отправлять данные (например, изображение или текст) и получать предсказания модели. REST и gRPC - распространенные протоколы API, используемые для этой цели.
- Инфраструктура: Физическое или виртуальное оборудование, на котором работает модель. Она может варьироваться от локальных серверов до облачных вычислительных платформ, таких как Amazon SageMaker и Google Cloud AI Platform. Для приложений, требующих низкой задержки, модели часто обслуживаются на пограничных AI-устройствах. Контейнеризация с помощью таких инструментов, как Docker, необходима для создания переносимых и масштабируемых сред обслуживания.
- Мониторинг и ведение журналов: Постоянное отслеживание производительности модели и состояния системы. Это включает в себя мониторинг таких показателей, как задержка вывода и пропускная способность, а также отслеживание таких проблем, как дрейф данных, который со временем может снизить точность модели. Более подробную информацию вы можете найти в нашем руководстве по мониторингу моделей.
Применение в реальном мире
Обслуживание моделей - это движущая сила бесчисленных функций, основанных на искусственном интеллекте.
- Управление запасами с помощью искусственного интеллекта: Компания розничной торговли использует модель Ultralytics YOLO11 для управления запасами в режиме реального времени. Модель упаковывается в формат ONNX и обслуживается на небольшом пограничном компьютере внутри магазина. Камера передает видеоизображение на обслуживающую конечную точку, которая выполняет обнаружение объектов для подсчета товаров на полках и отправляет предупреждения о низком уровне запасов.
- Анализ медицинских изображений в облаке: Больничная система использует сложную модель компьютерного зрения для анализа медицинских изображений. Из-за большого размера модели и необходимости вычислений она обслуживается на мощном облачном сервере с несколькими графическими процессорами. Врачи-рентгенологи загружают снимки высокого разрешения через защищенный портал, который обращается к API-серверу. Модель выдает прогнозы, которые помогают выявить потенциальные аномалии, повышая скорость и точность диагностики.
Роль специалистов по работе с клиентами
Обслуживание моделей является краеугольным камнем операций машинного обучения (MLOps). Хорошая стратегия MLOps гарантирует, что весь жизненный цикл - от предварительной обработки данных и обучения моделей до их обслуживания и мониторинга - будетавтоматизированным, надежным и масштабируемым. Платформы, подобные Ultralytics HUB, призваны упростить весь этот рабочий процесс, предоставляя интегрированное решение для эффективного обучения, версионирования и обслуживания моделей компьютерного зрения.