用語集

リカレントニューラルネットワーク（RNN）

再帰型ニューラルネットワーク（RNN）が記憶を用いて時系列データを処理する仕組みを探求します。RNNのアーキテクチャ、自然言語処理（NLP）への応用、PyTorch 学びます。

再帰型ニューラルネットワーク（RNN）は、テキスト、ゲノム、手書き文字、音声など、データ列のパターン認識に特化して設計された人工ニューラルネットワークの一種である。従来のフィードフォワード型ネットワークが全ての入力（および出力）を相互に独立と仮定するのとは異なり、 RNNは記憶機能を備えている。この内部記憶により、過去の情報を理解しながら入力を処理できるため、文脈や時間的順序が重要なタスクに特に適している。この構造は人間の情報処理方法を模倣している——例えば文章を読む際には、現在の単語を理解するために前の単語を記憶する必要がある。

RNNの仕組み

RNNの中核となる革新は、そのループ構造にある。標準的なフィードフォワードネットワークでは、情報は入力から出力へという一方向のみに流れる。これに対し、RNNは情報を持続させるフィードバックループを備える。ネットワークがシーケンスを処理する際、ネットワークの短期記憶として機能するベクトルである「隠れ状態」を維持する。各時間ステップにおいて、RNNは現在の入力と前の隠れ状態を受け取り、出力を生成するとともに、次のステップのための隠れ状態を更新する。

この逐次処理能力は、自然言語処理（NLP）および時系列分析に不可欠である。しかし、標準的な再帰的ニューラルネットワーク（RNN）は、勾配消失問題により長いシーケンスの処理に苦戦することが多い。これはシーケンスが長くなるにつれてネットワークが初期の入力を忘れる現象である。この制限が、より高度な変種である長短期記憶（LSTM）ネットワークやゲート付き再帰ユニット（GRU）の開発につながった。これらはより長い期間にわたる情報の流れを制御するメカニズムを導入している。

実際のアプリケーション

再帰型ニューラルネットワークは、機械が時系列データを理解することを可能にすることで、多くの産業を変革しました。以下に二つの顕著な例を示します：

機械翻訳：Google などのサービスは当初、ある言語から別の言語へのテキスト変換にRNNベースのアーキテクチャ（具体的にはシーケンス間モデル）を多用していた。ネットワークは入力文全体（例：English）を読み取り、文脈ベクトルを構築します。このベクトルを用いて翻訳出力（例：フランス語）を単語単位で生成し、文法的な一貫性を確保します。
予測入力と自動修正：スマートフォンで入力する際、キーボードは次に入力されそうな単語を提案します。これは多くの場合、RNNで訓練された言語モデルによって実現されています。モデルは既に入力された単語の列を分析し、最も可能性の高い次の単語を予測することで、ユーザーの入力速度と正確性を向上させます。同様のロジックは、音声認識システムにも適用され、音声データをテキストに変換します。

RNN対CNNとトランスフォーマー

RNNを他の主要なアーキテクチャと区別することは有用である。畳み込みニューラルネットワーク（CNN） (CNN) は主に画像などの空間データ向けに設計されており、ピクセルグリッドを処理して形状や物体を識別します。例えば、Ultralytics リアルタイム物体検出のために強力なCNNバックボーンを採用しています。 CNNが「この画像には何が写っているか？」に優れる一方、RNNは「この動画の次に何が起こるか？」に優れています。

近年では、多くの複雑な自然言語処理（NLP）タスクにおいて、トランスフォーマーアーキテクチャがRNNに取って代わっている。トランスフォーマーはアテンション機構を用いて、シーケンス全体を順次処理するのではなく並列処理する。しかし、特定の低遅延・リソース制約のあるストリーミングアプリケーションでは、RNNは依然として高い効率性を維持しており、単純な時系列予測のためのエッジデバイスへの展開も容易である。

PyTorch

現代のコンピュータビジョンタスクはCNNに依存することが多いが、ハイブリッドモデルでは動画フレームから抽出された時間的特徴を分析するためにRNNを使用する場合がある。以下はPyTorchを使用したシンプルで実行可能な例である PyTorch を使用して、データシーケンスを処理する基本的なRNNレイヤーを作成する実行可能な例です。

import torch
import torch.nn as nn

# Define a basic RNN layer
# input_size: number of features in the input (e.g., 10 features per time step)
# hidden_size: number of features in the hidden state (memory)
# batch_first: input shape will be (batch, seq, feature)
rnn = nn.RNN(input_size=10, hidden_size=20, num_layers=1, batch_first=True)

# Create a dummy input: Batch size 1, Sequence length 5, Features 10
input_seq = torch.randn(1, 5, 10)

# Forward pass through the RNN
# output contains the hidden state for every time step
# hn contains the final hidden state
output, hn = rnn(input_seq)

print(f"Output shape: {output.shape}")  # Expected: torch.Size([1, 5, 20])
print(f"Final hidden state shape: {hn.shape}")  # Expected: torch.Size([1, 1, 20])

課題と今後の展望

有用性にもかかわらず、RNNは計算上の課題に直面している。逐次処理は並列化を妨げるため、GPU上でのTransformerと比較して学習速度が遅くなる。さらに、勾配爆発問題の管理には、慎重なハイパーパラメータ調整や勾配クリッピングなどの技術が必要となる。

しかしながら、RNNは依然として深層学習（DL）における基礎概念であり続けています。これらは人工知能（AI）の進化を理解する上で不可欠であり、IoTセンサー向けの単純な異常検知システムにおいて現在も広く活用されています。視覚モデルと時系列予測器を組み合わせるなど、複雑なパイプラインを構築する開発者にとって、データセットとトレーニングワークフローの管理は極めて重要です。Ultralytics プロセスを簡素化し、様々な環境でデータを管理しモデルを効率的にデプロイするためのツールを提供します。

リカレントニューラルネットワーク（RNN）

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

RNNの仕組み

実際のアプリケーション

RNN対CNNとトランスフォーマー

PyTorch

課題と今後の展望

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

リカレントニューラルネットワーク（RNN）

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

RNNの仕組み

実際のアプリケーション

RNN対CNNとトランスフォーマー

PyTorch

課題と今後の展望

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

単眼深度推定とは何か？ 概要

Ultralytics YOLO を用いたAI脅威検知の活用事例

Ultralytics コミュニティに参加する

単眼深度推定とは何か？概要