Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

TPU Tensor блокTensor обработки)

Узнайте, как блоки Tensor обработки (TPU) ускоряют задачи машинного обучения, такие как обучение, вывод и обнаружение объектов, с непревзойденной эффективностью.

Блок Tensor обработкиTPU) - это разработанная на заказ интегральная схема, специфичная для конкретного приложения (ASIC) разработанная компанией Google специально для ускорения машинного обучения (ML). В отличие от процессоров общего назначения, TPU разработаны с нуля, чтобы справляться с огромными вычислительными требованиями нейронных сетей, в частности сложных матричных сложных матричных операций, необходимых в процессе обучения и вывода. Оптимизируя аппаратное обеспечение для выполнения этих специфических задач, TPU обеспечивают значительно более высокую пропускную способность и энергоэффективность, что делает их краеугольным камнем современного искусственного интеллекта (ИИ) в облачных и пограничных средах.

Архитектура и функциональность

Основная сила TPU заключается в его способности выполнять матричное умножение - фундаментальную математическую операцию в глубоком обучении. операцию в глубоком обучении (DL) с невероятной скорости. В то время как стандартные процессоры выполняют инструкции последовательно или с ограниченным параллелизмом, TPU используют архитектура систолического массива, которая позволяет данным проходить через тысячи умножителей одновременно. Такая конструкция минимизирует задержки при обращении к памяти и максимизирует плотность вычислений.

TPU тесно интегрированы в экосистемуGoogle Cloud, предоставляя масштабируемые ресурсы для обучения массивных базовых моделей. Кроме того, они оптимизированы для таких фреймворков, как TensorFlow и всё чаще поддерживаемый PyTorchчто позволяет разработчикам использовать высокопроизводительное оборудование, не меняя предпочитаемую среду кодирования.

Сравнение вычислительных блоков: CPU, GPU и TPU

Понимание различий между разными вычислительными устройствами крайне важно для оптимизации процессов обучения и развертывания моделей.

  • ЦентральныйCPU (CPU ): "мозг" компьютера, "Мозг" компьютера, созданный для универсальности. Процессоры отлично справляются с последовательной обработкой данных и сложной логикой. но обычно медленнее для массивных параллельных вычислений, необходимых в ИИ.
  • GPU (Graphics Processing Unit): Изначально созданные для рендеринга изображений, графические процессоры оснащены тысячами ядер, что делает их очень эффективными для выполнения параллельных задач. задач. Они являются отраслевым стандартом для обучения универсальных моделей, таких как Ultralytics YOLO11 благодаря своей гибкости и надежной поддержка программного обеспечения, такого как NVIDIA CUDA.
  • TPU: Специализированный ускоритель, который обменивает гибкость на производительность в матричной математике. В то время как GPU отлично подходит для широкого спектра задач, TPU специально создан для максимизации флопсов (операций с плавающей запятой в секунду) специально для tensor вычислений, часто обеспечивая лучшую производительность на ватт для крупномасштабного ИИ.

Применение в реальном мире

TPU играют важную роль как в массовом облачном обучении, так и в эффективном развертывании на границе.

  1. Большие языковые модели (LLM): Google использует огромные кластеры TPU, известные как TPU Pods, для обучения огромных больших языковых моделей (LLM), таких как PaLM и Gemini. Способность соединять тысячи чипов позволяет этим системам обрабатывать петабайты обучающих данных за долю времени, которое требуется традиционным кластерам. традиционных кластеров.
  2. Edge AI и IoT: В меньшем масштабе Edge TPU - это аппаратный ускоритель, предназначенный для устройств с низким энергопотреблением. Он позволяет вычисления в реальном времени на таком оборудовании, как Coral Dev Board, обеспечивая быстрое обнаружение объектов и сегментацию изображений Сегментация изображений на границе, не зависящая от постоянного подключения к Интернету.

Развертывание моделей Ultralytics в Edge TPU

Для разработчиков, работающих с компьютерным зрением (CV), развертывание моделей на маломощных устройствах часто требуется преобразование стандартных весов в формат, совместимый с Edge TPU. Библиотека Ultralytics библиотека Ultralytics упрощает процесс развертывания моделей позволяя пользователям экспортировать модели непосредственно в формат TensorFlow Lite Edge TPU .

Этот процесс обычно включает квантование модели, которое снижает точность чисел (например, с 32-битных плавающих до 8-битных целых), чтобы соответствовать специализированным аппаратным ограничениям, сохраняя при этом точность. сохраняя при этом точность.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

После экспорта эти модели могут быть развернуты для решения таких задач, как обнаружение объектов на встраиваемых системах, обеспечивая быстрые выводы при минимальном энергопотреблении. Более подробную информацию об этом рабочем процессе см. в руководстве по Интеграция Edge TPU .

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас