Узнайте, как процессо Tensor Units (TPU) ускоряют машинное обучение. Научитесь оптимизировать Ultralytics для Edge TPU и облачного обучения для достижения максимальной скорости.
Tensor Unit (TPU) — это специализированная интегральная схема (ASIC), разработанная Google специально для ускорения вычислений в области машинного обучения (ML). В отличие от процессоров общего назначения, которые обрабатывают широкий спектр вычислительных задач, TPU с самого начала разрабатывались для оптимизации массивных матричных операций, которые являются основой нейронных сетей. Эта специфическая направленность позволяет им достигать исключительно высокой пропускной способности и энергоэффективности, что делает их краеугольным камнем современной инфраструктуры искусственного интеллекта (ИИ), особенно в экосистемеGoogle . Они играют важную роль в сокращении времени, необходимого как для обучения сложных моделей, так и для выполнения масштабных вычислений в реальном времени.
Архитектура TPU значительно TPU от традиционных процессоров. В то время как стандартный CPU центральный процессор) превосходно справляется с последовательными задачами и сложной логикой, а GPU графический процессор) использует параллельные ядра для графики и общих вычислений, TPU систолическую матричную архитектуру. Такая конструкция позволяет данным проходить через тысячи умножителей одновременно, без доступа к памяти для каждой операции. Благодаря максимальной вычислительной плотности и минимальной задержке TPU идеально подходят для сложных задач линейной алгебры, которые встречаются в приложениях глубокого обучения (DL).
Это специализированное оборудование в значительной степени оптимизировано для таких фреймворков, как TensorFlow и все чаще поддерживается PyTorch, что позволяет разработчикам обучать массивные базовые модели или развертывать эффективные периферийные решения без полной переработки кодовой базы.
Понимание аппаратной среды имеет решающее значение для оптимизации операций машинного обучения (MLOps).
TPU развертываются в различных средах, от огромных облачных кластеров до крошечных периферийных устройств.
Разработчики могут использовать TPU для Ultralytics , особенно при использовании Ultralytics для обучения в облаке или экспорта моделей для развертывания на периферии. Например, Edge TPU требует, чтобы модели были квантованы и скомпилированы специально для его архитектуры.
Следующий пример демонстрирует, как экспортировать модель YOLO26 в TFLite , что является обязательным шагом перед компиляцией для Edge TPU:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
После экспорта модель можно дополнительно скомпилировать для Edge TPU Edge TPU , что позволит ей эффективно работать на таких устройствах, как Raspberry Pi с ускорителем Coral USB. Для получения более подробной информации о развертывании может быть очень полезно ознакомиться с документацией TFLite .