YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

2024年は生成AIの波から始まる

Abirami Vina

6 min read

2024年4月12日

2024年第1四半期のAI革新に関する考察。OpenAIのSora AI、Neuralinkの脳チップ、最新のLLMなどの画期的な技術を取り上げます。

AIコミュニティは、ほぼ毎日見出しを飾っているようです。2024年の最初の数か月は、エキサイティングで、新しいAIイノベーションが満載でした。強力な新しい大規模言語モデルから人間の脳インプラントまで、2024年は素晴らしい年になりそうです。

AI が産業を変革し、情報へのアクセスを容易にし、さらには私たちの心を機械と融合させるための第一歩を踏み出しているのを目にしています。2024 年の第 1 四半期を振り返り、わずか数か月で AI が達成した進歩を詳しく見てみましょう。

LLMがトレンドです

大量のテキストデータに基づいて人間の言語を理解、生成、および操作するように設計された大規模言語モデル(LLM)は、2024年の第1四半期に脚光を浴びました。多くの主要なテクノロジー企業が独自のLLMモデルをリリースし、それぞれが独自の機能を備えています。GPT-3のような以前のLLMの目覚ましい成功が、このトレンドを刺激しました。以下は、2024年初頭の最も注目すべきLLMリリースのいくつかです。

AnthropicのClaude 3

Anthropicは、2024年3月14日にClaude 3をリリースしました。Claude 3モデルには、Opus、Sonnet、Haikuの3つのバージョンがあり、それぞれ異なる市場と目的に対応しています。最速のモデルであるHaikuは、高速で基本的な応答に最適化されています。Sonnetは、速度とインテリジェンスのバランスを取り、エンタープライズアプリケーションを対象としています。最先端のバージョンであるOpusは、比類のないインテリジェンスと推論を提供し、複雑なタスクや最高のベンチマークの達成に最適です。

Claude 3は、多くの高度な機能と改善を誇っています。

  • 多言語会話の強化:スペイン語、日本語、フランス語を含む言語の能力が向上しました。
  • 高度なビジョン機能:さまざまなビジュアル形式を処理できます。
  • 拒否の最小化:不必要な拒否が減り、文脈の把握が向上していることを示します。​
  • 拡張されたコンテキストウィンドウ:200Kのコンテキストウィンドウを提供しますが、顧客のニーズに基づいて100万以上のトークンにわたる入力を処理できます。
__wf_reserved_inherit
図1. Claude 3は以前のバージョンよりもコンテキストをより意識している。

DatabricksのDBRX

Databricks DBRXは、Databricksが2024年3月27日にリリースしたオープンな汎用LLMです。DBRXは、言語理解、プログラミング、数学など、さまざまなベンチマークで非常に優れた性能を発揮します。類似のモデルよりも約40%小型でありながら、確立された他のモデルを凌駕しています。

__wf_reserved_inherit
Fig 2. DBRXと他のモデルの比較。

DBRX は、きめ細かい Mixture-of-Experts (MoE) アーキテクチャを用いた next-token prediction を使用してトレーニングされており、そのため、トレーニングと推論のパフォーマンスが大幅に向上しています。そのアーキテクチャにより、モデルは、多様な専門サブモデル(「エキスパート」)を参照することで、シーケンス内の次の単語をより正確に予測できます。これらのサブモデルは、さまざまな種類の情報やタスクの処理に優れています。

GoogleのGemini 1.5

Googleは2024年2月15日に、大量のテキスト、ビデオ、オーディオデータを分析できる、計算効率の高いマルチモーダルAIモデルであるGemini 1.5を発表しました。最新のモデルは、パフォーマンス、効率、および機能の点でより高度です。Gemini 1.5の重要な機能は、長文コンテキスト理解における画期的な進歩です。このモデルは、最大100万トークンを一貫して処理できます。Gemini 1.5の機能は、新しいMoEベースのアーキテクチャにもよるものです。

__wf_reserved_inherit
図3. 人気のあるLLMのコンテキスト長の比較

以下に、Gemini 1.5の最も興味深い機能をいくつかご紹介します。

  • データ処理の改善:大規模なPDF、コードリポジトリ、または長尺の動画をプロンプトとして直接アップロードできます。モデルは複数のモダリティを推論し、テキストを出力できます。
  • 複数ファイルのアップロードとクエリ:開発者は複数のファイルをアップロードして質問をすることができます。
  • さまざまなタスクに使用可能:多様なタスクに拡張できるように最適化されており、数学、科学、推論、多言語対応、ビデオ理解、コードなどの分野で改善が見られます。

AIによる素晴らしいビジュアル

2024年の第1四半期には、ソーシャルメディアの未来とAIの進歩に関する議論を巻き起こした、非常にリアルなビジュアルを作成できる生成AIモデルが登場しました。話題を呼んでいるモデルを詳しく見ていきましょう。

OpenAIのSora 

ChatGPTの開発元であるOpenAIは、2024年2月15日に、最先端のテキストからビデオへの深層学習モデルであるSoraを発表しました。Soraは、テキストによるユーザープロンプトに基づいて、視覚的に高品質な1分間のビデオを生成できるテキストからビデオへのジェネレーターです。 

例えば、次のプロンプトを見てください。 

「サンゴ礁のゴージャスにレンダリングされたペーパークラフトの世界。色とりどりの魚や海の生き物でいっぱいです。」 

そして、こちらが出力ビデオからのフレームです。 

__wf_reserved_inherit
図4. Soraによって生成された動画のフレーム。

Soraのアーキテクチャは、テクスチャ生成のための拡散モデルと構造的コヒーレンスのためのトランスフォーマーモデルをブレンドすることにより、これを可能にします。これまでのところ、Soraへのアクセスは、リスクを理解し、フィードバックを得るために、レッドチームと選ばれたビジュアルアーティスト、デザイナー、映画製作者のグループに提供されています。 

Stability AIのStable Diffusion 3 

Stability AIは、テキストから画像を生成するモデルであるStable Diffusion 3の登場を2024年2月22日に発表しました。このモデルは、拡散トランスフォーマーアーキテクチャとフローマッチングを組み合わせています。まだ技術論文は発表されていませんが、注目すべきいくつかの重要な機能があります。

__wf_reserved_inherit
Fig 5. プロンプトに基づいた出力画像:「夜の山の頂上で、宇宙の呪文を暗い空に唱え、色とりどりのエネルギーで「Stable Diffusion 3」と書かれた壮大なアニメアートワーク」

Stable Diffusionの最新モデルは、パフォーマンス、画質、および複数の被写体を含む画像の作成における精度が向上しています。Stable Diffusion 3は、8億から80億のパラメータに及ぶさまざまなモデルも提供します。これにより、ユーザーはスケーラビリティと詳細に関する特定のニーズに基づいて選択できます。

GoogleのLumiere 

2024年1月23日、Googleはテキストからビデオへの拡散モデルであるLumiereを発表しました。Lumiereは、Space-Time-U-Net(略してSTUNet)と呼ばれるアーキテクチャを使用しています。これにより、Lumiereはビデオ内の物の位置と動きを理解できます。そうすることで、スムーズでリアルなビデオを生成できます。

__wf_reserved_inherit
Fig 6.「家でウクレレを演奏するパンダ」というプロンプトに基づいて生成された動画のフレーム。

Lumiereは、1つのビデオあたり80フレームを生成する機能を備えており、AI分野におけるビデオ品質の限界を押し広げ、新たな基準を打ち立てています。Lumiereの機能の一部を以下に示します。

  • Image-to-Video:画像とプロンプトから、Lumiereは画像をアニメーション化してビデオにすることができます。
  • 様式化された生成:Lumiereは、単一の参照画像を使用して特定のスタイルでビデオを作成できます。
  • シネマグラフ:Lumiereは、画像内の特定の領域をアニメーション化して、ダイナミックなシーンを作成できます。たとえば、シーンの残りの部分が静止している間に、特定のオブジェクトが移動するなどです。
  • ビデオインペインティング:ビデオの一部を変更できます。たとえば、ビデオ内の人物の服装を変更したり、背景の詳細を変更したりできます。

未来はすぐそこに

2024年の初めには、SF映画から飛び出してきたようなAIイノベーションも数多く登場しました。以前は不可能だと言われていたことが、現在では研究されています。次の発見により、未来はそれほど遠くないように感じられます。

Elon MuskのNeuralink

Elon Musk氏のNeuralinkは、2024年1月29日に人間の脳にワイヤレス脳チップを埋め込むことに成功しました。これは、人間の脳をコンピュータに接続するための大きな一歩です。Elon Musk氏は、Neuralinkの最初の製品である「Telepathy」が開発中であると語りました。 

__wf_reserved_inherit
図7。Neuralinkインプラント

その目標は、ユーザー、特に手足の機能を失った人が、思考を通じて楽にデバイスを制御できるようにすることです。潜在的なアプリケーションは利便性にとどまりません。イーロン・マスクは、麻痺のある人が簡単にコミュニケーションできる未来を想像しています。

ディズニーのHoloTile Floor 

2024年1月18日、ウォルト・ディズニー・イマジニアリングは、HoloTile Floorを発表しました。これは、世界初の多人数対応の全方向トレッドミルグラウンドと呼ばれています。 

__wf_reserved_inherit
図8。ディズニーのイマジニア、ラニー・スムートが最新のイノベーションであるHoloTileフロアでポーズをとっています。

念動力のように人や物の下を移動し、没入感のあるバーチャルおよび拡張現実体験を実現します。どの方向に歩いても衝突を回避できます。ディズニーのHoloTile Floorは、劇場ステージに設置して、創造的な方法でダンスや動きを表現することも可能です。

Apple Vision Pro

2024年2月2日、Appleの待望のVision Proヘッドセットが発売されました。仮想現実および拡張現実体験を再定義するように設計されたさまざまな機能とアプリケーションを備えています。Vision Proヘッドセットは、エンターテインメント、生産性、空間コンピューティングを融合させることで、多様な視聴者に対応します。Appleは、発売時に生産性ツールからゲームやエンターテインメントサービスまで、600を超えるアプリがVision Pro向けに最適化されたことを誇らしげに発表しました。

Cognition’s Devin

2024年3月12日、CognitionはDevinと呼ばれるソフトウェアエンジニアリングアシスタントをリリースしました。Devinは、自律型AIソフトウェアエンジニアへの世界初の試みです。提案を提供したり、特定のタスクを完了したりする従来のコーディングアシスタントとは異なり、Devinは最初のコンセプトから完成まで、ソフトウェア開発プロジェクト全体を処理するように設計されています。 

新しい技術を習得し、完全なアプリケーションを構築およびデプロイしたり、バグを見つけて修正したり、独自のモデルをトレーニングしたり、オープンソースや本番環境のコードベースに貢献したり、Upworkのようなサイトから実際の開発ジョブを引き受けたりすることもできます。 

__wf_reserved_inherit
図9。Devinと他のモデルの比較。

Devinは、Djangoやscikit-learnのようなオープンソースプロジェクトで見つかった実際世界のGitHubの問題をエージェントに解決させる、挑戦的なベンチマークであるSWE-benchで評価されました。以前の最先端技術の1.96%と比較して、問題をエンドツーエンドで13.86%正しく解決しました。

佳作

非常に多くのことが起こっているので、この記事ですべてを網羅することはできません。しかし、ここでは、さらにいくつかの特筆すべきものを紹介します。 

  • NVIDIAが2024年3月21日に発表したLATTE3Dは、テキストプロンプトから3D表現を即座に生成するテキストto 3D AIモデルです。
  • Midjourneyの新しいテキストからビデオを生成するジェネレーターは、CEOのDavid Holzによって発表され、1月にトレーニングを開始し、まもなくリリースされる予定です。
  • AI PC革命を推進するため、Lenovoは2024年1月8日にE Ink Prismテクノロジー搭載のThinkBook 13xと高性能AIラップトップを発表しました。

私たちと一緒にAIトレンドの最新情報を入手しましょう!

2024年の初めには、AIにおける画期的な進歩と多くの主要な技術的マイルストーンが見られました。しかし、これはAIができることのほんの始まりにすぎません。最新のAI開発について詳しく知りたい場合は、Ultralyticsにお任せください。

コンピュータビジョンとAIにおける最新の貢献については、GitHubリポジトリをご覧ください。また、AIが製造業ヘルスケアなどの業界でどのように使用されているかについては、ソリューションページをご覧ください。 

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました