Tensor Processing Units (TPU) が機械学習をどのように加速するかを探ります。最大速度のために、Edge TPUとクラウドトレーニング向けにUltralytics YOLO26を最適化する方法を学びましょう。
Tensor Processing Unit (TPU)は、Googleが機械学習(ML)ワークロードを加速するために特別に設計した、特殊な特定用途向け集積回路(ASIC)です。幅広いコンピューティングタスクを処理する汎用プロセッサとは異なり、TPUはニューラルネットワークの基礎となる大規模な行列演算を最適化するためにゼロから設計されています。この特定の焦点により、TPUは非常に高いスループットとエネルギー効率を達成でき、特にGoogle Cloudエコシステム内で、現代の人工知能(AI)インフラストラクチャの礎石となっています。これらは、複雑なモデルのトレーニングと、大規模なリアルタイム推論の実行に必要な時間を短縮する上で重要な役割を果たします。
TPUのアーキテクチャは、従来のプロセッサとは大きく異なります。標準的なCPU (Central Processing Unit)がシーケンシャルタスクと複雑なロジックに優れ、GPU (Graphics Processing Unit)がグラフィックスと汎用コンピューティングに並列コアを使用するのに対し、TPUはシストリックアレイアーキテクチャを利用します。この設計により、データはすべての操作でメモリにアクセスすることなく、何千もの乗算器を同時に流れることができます。計算密度を最大化し、レイテンシを最小化することで、TPUはディープラーニング (DL)アプリケーションに見られる重い線形代数演算に特に適しています。
この特殊なハードウェアは、TensorFlowのようなフレームワークに高度に最適化されており、PyTorchによるサポートも拡大しています。これにより、開発者はコードベースを完全に書き直すことなく、大規模なファウンデーションモデルをトレーニングしたり、効率的なエッジソリューションをデプロイしたりできます。
ハードウェアの状況を理解することは、機械学習運用 (MLOps)を最適化するために不可欠です。
TPUsは、大規模なクラウドクラスターから小型のエッジデバイスまで、さまざまな環境でデプロイされています。
開発者はUltralyticsモデルにTPUアクセラレーションを活用できます。特に、クラウドトレーニングのためにUltralytics Platformを使用する場合や、エッジデプロイメントのためにモデルをエクスポートする場合に有効です。例えば、Edge TPUは、モデルがそのアーキテクチャ用に量子化され、コンパイルされることを要求します。
以下の例は、YOLO26モデルをTFLiteフォーマットにエクスポートする方法を示しています。これは、Edge TPU用にコンパイルする前の前提条件となるステップです。
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
エクスポートされると、モデルはEdge TPU Compilerを使用してEdge TPU向けにさらにコンパイルでき、Coral USB Acceleratorを搭載したRaspberry Piのようなデバイスで効率的に実行できるようになります。デプロイメントに関する詳細については、TFLite統合ドキュメントを参照すると非常に役立ちます。

未来の機械学習で、新たな一歩を踏み出しましょう。