Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте, в каких случаях на Ultralytics следует выбирать выделенные конечные точки инференции для масштабируемого развертывания систем искусственного интеллекта в области компьютерного зрения с низкой задержкой вместо использования общих ресурсов инференции.
Масштабируйте свои проекты в области компьютерного зрения с Ultralytics
Недавно мы представили Ultralytics — комплексное решение, которое объединяет весь рабочий процесс компьютерного зрения в одном месте: от подготовки наборов данных и обучения моделей до инференции, развертывания и мониторинга.
Эта платформа, созданная с учетом отзывов сообщества специалистов в области компьютерного зрения, призвана упростить каждый этап разработки за счет предоставления интегрированных функций, обеспечивающих поддержку полного жизненного цикла приложений искусственного интеллекта в области компьютерного зрения.
Например, после обучения модели следующим шагом является её развёртывание, чтобы её можно было использовать для выполнения инференции и прогнозирования в реальных приложениях. Платформа упрощает этот процесс, предлагая несколько вариантов развёртывания.
Вы можете экспортировать модели для запуска в своей собственной среде, использовать общий механизм инференса для быстрого тестирования или развернуть выделенные конечные точки для масштабируемых приложений, готовых к производственному использованию. Каждый из этих вариантов развертывания позволяет выполнять инференс ИИ, однако они предназначены для разных этапов и сценариев использования.
Рис. 1. Ultralytics обеспечивает масштабируемое развертывание моделей искусственного интеллекта для обработки изображений по всему миру (Источник)
Экспорт моделей предоставляет вам полный контроль над запуском моделей в вашей собственной инфраструктуре, а общий доступ к инференсу упрощает тестирование и эксперименты без необходимости настройки; кроме того, выделенные конечные точки созданы для надежного выполнения крупномасштабных производственных рабочих нагрузок.
На первый взгляд общий механизм вывода и выделенные конечные точки могут показаться довольно похожими. Оба варианта позволяют отправлять API-запросы к вашей модели и получать структурированные прогнозы, что упрощает интеграцию ИИ для обработки изображений в приложения.
Однако по мере роста рабочей нагрузки и перехода приложений компьютерного зрения к обработке запросов на вычисления в режиме реального времени различия между этими вариантами становятся все более значимыми. В этой статье мы подробнее рассмотрим общие и выделенные конечные точки, сравним их, определим, когда использовать тот или иной вариант, а также объясним, почему выделенные конечные точки становятся более предпочтительным выбором по мере масштабирования ваших приложений.
Обзор развертывания с использованием общих выводов
Shared Inference — это простой способ выполнять инференцию ИИ на ваших моделях без необходимости настраивать инфраструктуру и не беспокоясь о GPU , интеграции фреймворков или конфигурации среды выполнения. Как только ваша модель будет обучена или отлажена, вы сможете использовать её для прогнозирования непосредственно через платформу.
В этой конфигурации ваша модель работает на общих вычислительных ресурсах с поддержкой нескольких клиентов, расположенных в нескольких основных регионах, таких как США, Европа и Азиатско-Тихоокеанский регион. Запросы автоматически направляются на доступные сервисы, поэтому вам не нужно настраивать GPU или среды выполнения. Все налажено за вас, что упрощает начало работы.
При использовании совместного вывода вы отправляете запросы в модель через REST API таких инструментов, как Python CLI, и получаете структурированные результаты в формате JSON, например, обнаруженные объекты, оценки достоверности и другие сведения о прогнозах. Это позволяет без проблем тестировать модели и интегрировать их в приложения.
Поскольку система является общей, она предназначена для разработки, тестирования и неинтенсивного использования. Она хорошо подходит для проверки прогнозов и создания ранних интеграций. В то же время производительность может варьироваться в зависимости от нагрузки на систему, а использование ограничено скоростью в 20 запросов в минуту на один ключ API, что делает ее менее подходящей для производственных рабочих нагрузок с высокой пропускной способностью.
В целом, совместное выведение наиболее подходит для ранних этапов разработки, когда основное внимание уделяется пониманию и совершенствованию модели перед переходом к более масштабным приложениям.
Развертывайте модели по всему миру с помощью выделенных конечных точек
Выделенные конечные точки — это сервисы инференции с одним пользователем, в которых ваши модели искусственного интеллекта для обработки изображений работают на изолированных вычислительных ресурсах. Вместо совместного использования инфраструктуры каждая конечная точка имеет собственную среду выполнения с настраиваемыми ресурсами, такими как CPU память, что обеспечивает вам больший контроль над производительностью.
При развертывании модели в качестве выделенного конечного пункта ей назначается уникальный URL-адрес API, а для аутентификации используется ваш ключ API, что упрощает интеграцию в приложения. Эти конечные пункты можно развернуть в 43 регионах по всему миру, что позволяет выполнять вычисления ближе к пользователям и сократить задержку.
Рис. 2. Вы можете развернуть выделенные конечные точки в 43 регионах по всему миру (Источник)
Одним из ключевых преимуществ является автоматическое масштабирование. Количество конечных точек автоматически регулируется в зависимости от поступающих запросов: оно увеличивается для обработки более интенсивного трафика и уменьшается при снижении нагрузки. Благодаря включенной по умолчанию функции «масштабирования до нуля» конечные точки могут отключаться в режиме простоя и запускаться при необходимости, что способствует оптимизации использования ресурсов.
Другими словами, выделенные конечные точки предназначены для рабочих нагрузок в производственной среде. По сравнению с общим ресурсом для инференса они обеспечивают стабильно низкую задержку, более высокую пропускную способность и большую надёжность.
Кроме того, для выделенных конечных точек не установлены ограничения по скорости. Запросы поступают непосредственно на вашу конечную точку, поэтому объем трафика, который вы можете обработать, зависит от вашей конфигурации и масштабирования, а не от фиксированных ограничений.
Кроме того, встроенные средства мониторинга, журналы, проверки работоспособности, а также предсказуемое поведение системы во время работы и при запуске позволяют легко track и обеспечивать стабильность развертываний во всех тарифных планах. В рамках бесплатного тарифного плана «Cold Start» обычно занимает от 5 до 45 секунд, тогда как конечные точки тарифного плана «Pro» остаются «теплыми», что обеспечивает более быструю и предсказуемую производительность при выполнении инференции.
Проще говоря, специализированные конечные устройства идеально подходят для приложений искусственного интеллекта в области компьютерного зрения, работающих в режиме реального времени, которым требуется надёжная, масштабируемая и высокопроизводительная система инференции.
Общие вычислительные ресурсы против выделенных конечных точек: основные различия
Ниже приведено подробное сравнение общей системы вывода и выделенных конечных точек:
Задержка: в средах с общим доступом к ресурсам задержка может варьироваться из-за совместного использования ресурсов, тогда как выделенные конечные точки обеспечивают более стабильные ответы с низкой задержкой.
Регионы: функция совместного вывода доступна в нескольких регионах (США, ЕС, AP), тогда как выделенные конечные точки поддерживают развертывание в 43 регионах по всему миру.
Масштабируемость: в режиме совместного вывода решений масштабирование не настраивается, тогда как выделенные конечные точки автоматически масштабируются в зависимости от входящего трафика.
Ограничения по скорости: для общего доступа к функциям вывода данных действуют ограничения по скорости (20 запросов или вызовов API в минуту на один ключ API), тогда как для выделенных конечных точек ограничения по скорости на платформе отсутствуют.
Стоимость: для тестирования и разработки услуга «Общее использование инференса» предоставляется без дополнительной платы, тогда как выделенные конечные точки обеспечивают больший контроль и масштабируемость, при этом стоимость зависит от конфигурации ресурсов и требований к развертыванию.
Почему выделенные конечные точки лучше подходят для рабочих нагрузок в производственной среде
По мере того как приложения на базе искусственного интеллекта и машинного обучения переходят от этапа тестирования к практическому применению, их производительность, масштабируемость и надежность приобретают решающее значение. Именно поэтому выделенные конечные устройства имеют явные преимущества перед общим вычислительным ресурсом.
Благодаря выделенным конечным точкам ваша предварительно обученная или настраиваемая модель работает на собственных вычислительных ресурсах, поэтому на ее производительность не влияют другие пользователи. Это позволяет поддерживать низкую и стабильную задержку, что важно для приложений, работающих в режиме реального времени, таких как системы видеоаналитики и мониторинга.
Рис. 3. Обзор развертывания с использованием выделенного конечного пункта инференции (Источник)
Например, представьте себе систему аналитики для розничной торговли, обрабатывающую потоки данных с камер в режиме реального времени из нескольких магазинов. Благодаря развертыванию конечных точек в 43 регионах по всему миру вычисления могут выполняться ближе к каждому магазину, что сокращает задержку и сокращает время отклика.
При совместном выполнении вычислений, когда ресурсы используются совместно, а объем доступных ресурсов ограничен, производительность может колебаться в часы пиковой нагрузки.
Выделенные конечные точки также способны обрабатывать более высокий трафик и автоматически масштабироваться в зависимости от спроса. Благодаря встроенным средствам мониторинга, ведению журналов и проверкам работоспособности они обеспечивают более предсказуемую производительность, что делает их оптимальным решением для крупномасштабных и непрерывных ИИ-рабочих нагрузок.
Место совместного вывода в рабочем процессе визуального искусственного интеллекта
Изучая различия между общим вычислением и выделенными конечными точками, вы, возможно, задаетесь вопросом, какое место занимает общее вычисление в общем рабочем процессе компьютерного зрения.
Давайте еще раз рассмотрим пример аналитики в розничной торговле. Перед внедрением решения для визуального мониторинга в нескольких магазинах специалистам, как правило, необходимо протестировать его работу на реальных данных и доработать его с учетом полученных результатов.
Функция «Shared Inference» упрощает этот процесс, позволяя отправлять образцы изображений или кадры видео с камер в магазинах и быстро просматривать прогнозы без необходимости настройки инфраструктуры. Это особенно полезно для тестирования поведения модели, устранения ошибок в прогнозах и проверки результатов в различных условиях, таких как изменение освещения или планировки магазина.
Благодаря такой итеративной работе команды могут повысить точность и надежность модели перед переходом к производственному использованию. Как только модель продемонстрирует хорошие результаты в этих тестовых сценариях, её можно развернуть на выделенных конечных устройствах для использования в режиме реального времени в различных локациях.
Совместная инференция также может хорошо подходить для приложений с низкой или нечастой загрузкой. Например, небольшой розничный магазин может использовать её для периодического анализа посещаемости или просмотра активности покупателей в определённые часы, не прибегая к полномасштабному развёртыванию. В таких случаях это обеспечивает простой и экономичный способ выполнения инференции по требованию.
Реальные примеры использования выделенных конечных точек
По мере того как приложения искусственного интеллекта выходят за рамки тестирования, выбор способа развертывания начинает напрямую влиять на производительность, масштабируемость и пользовательский опыт. Выделенные конечные точки могут широко использоваться в различных отраслях, поскольку обеспечивают стабильную производительность, низкую задержку и способность обрабатывать крупномасштабные рабочие нагрузки.
Ниже приведены несколько типичных сценариев использования, демонстрирующих, как выделенные конечные точки могут применяться в реальных приложениях:
Розничная торговля и видеоаналитика: розничная сеть может использовать компьютерное зрение для track передвижений track , выявления популярных товаров и мониторинга активности в магазине в режиме реального времени. Специализированные конечные устройства обеспечивают быструю и стабильную работу системы инференции во всех магазинах сети, даже в часы пик.
Производство и контроль качества: на производственной линии модели могут detect или аномалии по мере прохождения продукции через систему. Специализированные конечные устройства поддерживают непрерывную инференцию в режиме реального времени, помогая командам выявлять проблемы на ранней стадии и поддерживать качество продукции без замедления производственного процесса.
Здравоохранение и медицинская визуализация: медицинские учреждения и диагностические лаборатории могут полагаться на модели машинного зрения для анализа медицинских изображений, таких как рентгеновские снимки или сканы. Специализированные конечные устройства обеспечивают надежную и стабильную производительность, что имеет решающее значение при работе с конфиденциальными данными и при постановке диагнозов, требующих оперативного реагирования.
Автоматизация складов и логистики: на крупных складах часто используется несколько одинаковых систем, таких как конвейерные ленты и сортировочные линии, которые фактически представляют собой копии одной и той же конфигурации. Модели компьютерного зрения могут отслеживать работу каждой такой копии для detect , как заторы или неправильная маршрутизация посылок. Специализированные конечные устройства обеспечивают согласованное выполнение вычислений на всех копиях в режиме реального времени.
Переход от совместного вывода к выделенным конечным точкам
Одно из ключевых преимуществ Ultralytics заключается в том, насколько просто перейти от совместного вычисления к выделенным конечным точкам по мере расширения вашего приложения. Вместо смены инструментов или перенастройки конфигурации вы можете перейти к развертыванию, готовому к производственному использованию, в рамках той же самой среды.
После тестирования модели с использованием общего ресурса для инференса следующим логичным шагом станет переход на выделенный конечный пункт. Вы можете развернуть ту же модель на конечном пункте, выбрать предпочтительный регион и вычислительные ресурсы, а также обновить URL-адрес конечного пункта в своем приложении. Общая схема интеграции остается прежней, поэтому в способе отправки запросов или обработки ответов практически ничего не изменится.
Рис. 4. Просмотр URL-адреса выделенного конечного пункта на Ultralytics (Источник)
Это означает, что вы можете перейти от тестовой среды к производственной всего за несколько кликов. По мере увеличения рабочей нагрузки или появления необходимости в более стабильной производительности приложения вы можете перейти на выделенные конечные точки без нарушения существующего рабочего процесса.
Чтобы узнать больше о развертывании моделей с использованием выделенных конечных точек на Ultralytics , ознакомьтесь с официальной документациейUltralytics .
Основные выводы
Общее использование инференса — отличная отправная точка для тестирования и экспериментов, однако производственные рабочие нагрузки требуют большей стабильности и масштабируемости. По мере роста приложений выделенные конечные точки обеспечивают производительность и надёжность, необходимые для поддержки реальных рабочих условий. Это делает их оптимальным выбором для большинства производственных развёрток.