Yolo 深圳
深セン
今すぐ参加
用語集

TPU Tensor 処理ユニット)

Tensor プロセッシング・ユニット(Tensor )が、トレーニング、推論、物体検出などの機械学習タスクを比類のない効率で加速する方法をご覧ください。

Tensor プロセッシング・ユニットTPU)は、カスタム開発された 特定用途向け集積回路(ASIC) 機械学習(ML)ワークロードを高速化するために 機械学習(ML)ワークロードを高速化するために特別に設計された。汎用プロセッサーとは異なり 汎用プロセッサーとは異なり、TPUはニューラルネットワークの膨大な計算要求を処理するためにゼロから設計されている。 特に複雑な行列演算 TPUは、汎用のプロセッサーとは異なり、ニューラルネットワークの膨大な計算需要、特に学習と推論に必要な複雑な行列演算を処理するために一から設計されている。これらの特定のタスクのためにハードウェアを最適化することで、TPUは以下を提供します。 スループットとエネルギー効率が大幅に向上し、現代の人工知能(AI)の要となっている。 人工知能(AI) クラウドやエッジ環境における現代の人工知能(AI)インフラストラクチャの要となっている。

アーキテクチャと機能性

TPU 核となる強みは、ディープラーニング(DL)の基本的な数学演算である行列の乗算を、驚異的な速度で実行できる点にある。 ディープラーニング(DL)の基本的な数学演算である行列の乗算を、驚異的なスピードで実行できることにある。 を驚異的なスピードで実行できることにある。標準的なプロセッサーが命令を逐次的に、あるいは限られた並列性で実行するのに対し、TPUは次のようなシストリック・アレイ・アーキテクチャーを利用している。 シストリック・アレイ・アーキテクチャーを採用している。 TPUはシストリック・アレイ・アーキテクチャを採用している。この設計により、メモリへのアクセスレイテンシが最小化され、計算密度が最大化されます。 計算密度を最大化します。

TPUはGoogle Cloudのエコシステムに深く統合されており、大規模なトレーニングのためのスケーラブルなリソースを提供します。 スケーラブルなリソースを提供する 基盤モデルをトレーニングするためのスケーラブルなリソースを提供する。さらに のようなフレームワークに最適化されている。 TensorFlowに最適化されており サポートされつつある PyTorch開発者が好みのコーディング環境を変更することなく 開発者は、好みのコーディング環境を変更することなく、高性能ハードウェアを活用することができます。

プロセッシング・ユニットの比較:CPU、GPU、TPU

異なる処理ユニットの違いを理解することは、モデルのトレーニングと展開のワークフローを最適化するために不可欠である。 モデルのトレーニングと展開のワークフローを最適化するために不可欠です。

  • CPU (中央処理装置)コンピュータの「頭脳」。 コンピュータの「頭脳」であり、多用途に使えるように設計されている。CPUは逐次処理や複雑なロジックを得意とする。 が、AIで必要とされる大規模な並列計算には一般的に遅い。
  • GPU (グラフィックス・プロセッシング・ユニット) もともと画像レンダリング用に作られたGPUは、何千ものコアを備えており、並列タスクに非常に効果的です。 並列タスクに非常に有効です。GPUは、以下のような汎用性の高いモデルをトレーニングするための業界標準です。 Ultralytics YOLO11のような多用途モデルをトレーニングするための業界標準です。 ソフトウェアサポート NVIDIA CUDA.
  • TPU:行列計算における柔軟性と生パフォーマンスを交換する特殊なアクセラレーター。GPUは GPU さまざまなタスクに最適だが、TPU 特に以下の性能を最大化するよう設計されている フロップス(1秒あたりの浮動小数点演算)を最大化するよう設計されています。 tensor 計算のために特別に設計されており、多くの場合、大規模AIのワットあたりのパフォーマンスを向上させる。

実際のアプリケーション

TPUは、大規模なクラウドベースのトレーニングと効率的なエッジ展開の両方で重要な役割を果たす。

  1. 大規模言語モデル(LLM): Google TPU Podsと呼ばれるTPUの巨大なクラスタを使って、膨大な言語モデルを学習する。 巨大な 大規模言語モデル(LLM) PaLMやGeminiなどだ。何千ものチップを相互接続できるため、これらのシステムはペタバイト級の学習データを短時間で処理できる。 ペタバイトの学習データを、従来のクラスターが必要とする時間の数分の一で処理することができる。 処理することができる。
  2. エッジAIとIoT:エッジTPU 、低消費電力デバイス向けに設計されたハードウェア・アクセラレータです。 低消費電力デバイス向けに設計されたハードウェア・アクセラレーターです。これにより のようなハードウェア上でリアルタイムの推論を可能にする。 Coral Dev Boardのようなハードウェア上でリアルタイムの推論を可能にし、常時動作に依存することなく、エッジでの高速物体検出と画像セグメンテーションを可能にする。 常時インターネット接続に依存することなく、エッジでの高速物体検出と画像セグメンテーションを可能にする。

エッジTPU Ultralytics モデルの導入

コンピュータビジョン コンピュータビジョン(CV)を扱う開発者にとって、低消費電力デバイスにモデルを展開するには、標準的な重みをEdge TPUと互換性のある形式に変換する必要があります。 標準的な重みをEdge TPUと互換性のあるフォーマットに変換する必要がある。Ultralytics ライブラリは、このモデル展開プロセスを合理化します。 モデルをTensorFlow Lite EdgeTPU フォーマットに直接エクスポートすることができます。

このプロセスには通常 モデル量子化が含まれる。 これは、精度を維持しながら、特殊なハードウェアの制約に合うように数値の精度を下げる(例えば、32ビットの浮動小数点数から8ビットの整数へ)。 精度を維持します。

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

一度エクスポートされたモデルは、次のようなタスクに展開することができます。 オブジェクト検出などのタスクに展開することができます。 最小限の消費電力で迅速な推論速度を提供します。このワークフローの詳細については、以下のガイドを参照してください。 エッジTPU 統合

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加