YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

Sequence-to-Sequenceモデル

Sequence-to-Sequenceモデルが、入力を出力シーケンスに変換し、翻訳、チャットボット、音声認識などのAIタスクをどのように強化するかをご覧ください。

Sequence-to-Sequence(Seq2Seq)モデルは、入力シーケンスを出力シーケンスに変換するように設計された深層学習モデルの一種であり、入力と出力の長さが異なる場合があります。この柔軟性により、自然言語処理(NLP)をはじめとする幅広いタスクにおいて非常に強力なツールとなります。このコアとなるアイデアは、GoogleYoshua Bengioの研究室の研究者による論文で発表され、機械翻訳などの分野に革命をもたらしました。

Seq2Seqモデルはどのように機能するか

Seq2Seqモデルは、エンコーダー・デコーダーアーキテクチャ上に構築されています。この構造により、モデルは可変長のシーケンスを効率的に処理できます。

  • エンコーダ: このコンポーネントは、英語の文などの入力シーケンス全体を処理します。シーケンスを一度に1つの要素ずつ(たとえば、単語ごとに)読み取り、その情報をコンテキストベクトルまたは「思考ベクトル」と呼ばれる固定長の数値表現に圧縮します。従来、エンコーダはリカレントニューラルネットワーク(RNN)、またはシーケンシャル情報のキャプチャに長けているLong Short-Term Memory(LSTM)のようなより高度なバリアントです。

  • デコーダ: このコンポーネントは、エンコーダからのコンテキストベクトルを初期入力として受け取ります。その役割は、出力シーケンスを一度に1つの要素ずつ生成することです。たとえば、翻訳タスクでは、翻訳された文を単語ごとに生成します。各ステップからの出力は、次のステップでデコーダにフィードバックされ、一貫性のあるシーケンスを生成できます。このプロセスは、特別な終端シーケンスのトークンが生成されるまで続きます。Seq2Seqのパフォーマンスを大幅に向上させた重要なイノベーションは、出力の生成中にデコーダが元の入力シーケンスのさまざまな部分を振り返ることができる注意機構です。

Seq2Seqモデルの応用

可変長の入力を可変長の出力にマッピングできるため、Seq2Seqモデルは非常に汎用性が高くなっています。

  • 機械翻訳: これは典型的なアプリケーションです。モデルは、ある言語の文(例えば、「How are you?」)を受け取り、それを別の言語(例えば、「Wie geht es Ihnen?」)に翻訳できます。Google翻訳のようなサービスは、これらの原則を大いに活用しています。
  • テキスト要約: Seq2Seqモデルは、長い記事やドキュメント(入力シーケンス)を読み込み、簡潔な要約(出力シーケンス)を生成できます。これは、大量のテキストを理解しやすい洞察に凝縮するのに役立ちます。
  • チャットボットと会話型AI: モデルは、ユーザーのクエリまたはステートメント(入力シーケンス)に対して、関連性のあるコンテキストに応じた応答(出力シーケンス)を生成するようにトレーニングできます。
  • 画像キャプション: これにはコンピュータビジョンが関係しますが、原理は似ています。CNNは、画像を処理してコンテキストベクトルを作成するエンコーダとして機能し、デコーダはそれを使用して記述的なテキストシーケンスを生成します。 これは、マルチモーダルモデルの例です。

Seq2Seqと他のアーキテクチャの比較

RNNに基づくSeq2Seqモデルは画期的でしたが、この分野は進化しています。

  • 標準RNN: 通常、シーケンスを同じ長さのシーケンスにマッピングするか、シーケンス全体を分類しますが、可変出力長に対するエンコーダ-デコーダ構造の柔軟性がありません。
  • Transformers: RNNベースのSeq2Seqモデルが以前に処理していた多くの自然言語処理タスクを現在では支配しています。再帰の代わりに自己注意(self-attention)と位置エンコーディングを使用することで、並列化が向上し、長距離依存関係をより効果的に捉えることができます。ただし、基盤となるエンコーダー・デコーダーの概念は、多くのTransformerベースのモデルの中核であり続けています。UltralyticsがサポートするBaiduのRT-DETRのようなモデルは、物体検出のためにTransformerコンポーネントを組み込んでいます。
  • CNN: 主に画像のようなグリッド状のデータに使用されます(例えば、検出およびセグメンテーションのためのUltralytics YOLOモデル)。ただし、シーケンスのタスクに適用されることもあります。

Seq2SeqはRNNベースのエンコーダーデコーダー構造を指すことが多いですが、中間表現を使用して入力シーケンスを出力シーケンスにマッピングするという一般的な原則は、多くの最新アーキテクチャの中心にあります。PyTorchTensorFlowのようなツールは、従来のシーケンスモデルと最新のシーケンスモデルの両方を実装するための構成要素を提供します。学習プロセスの管理は、Ultralytics HUBのようなプラットフォームを使用して合理化でき、モデルのデプロイパイプライン全体が簡素化されます。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました