2024年は生成的AIの波で始まる

アビラミ・ヴィナ

6分で読める

2024年4月12日

2024年第1四半期からのエキサイティングなAIイノベーションに注目。OpenAIのSora AI、Neuralinkのブレイン・チップ、最新のLLMなどのブレークスルーを取り上げる。

AIコミュニティは毎日のようにニュースを賑わせている。2024年の最初の数カ月はエキサイティングで、新しいAIのイノベーションでいっぱいだった。強力な新しい大規模言語モデルから人間の脳インプラントまで、2024年は素晴らしい年になりそうだ。

私たちはAIが産業を変革し、情報をより身近なものにし、さらには私たちの心を機械と融合させる第一歩を踏み出すのを目の当たりにしている。2024年の第1四半期を巻き戻し、わずか数ヶ月の間にAIが成し遂げた進歩を詳しく見てみよう。

LLMがトレンドに

膨大なテキストデータに基づいて人間の言語を理解し、生成し、操作するように設計された大規模言語モデル(LLM)が、2024年第1四半期に中心的な役割を果たした。多くの大手ハイテク企業が独自のLLMモデルを発表し、それぞれがユニークな機能を備えている。GPT-3のような先行LLMが驚異的な成功を収めたことが、この傾向に拍車をかけた。2024年初頭にリリースされた最も注目すべきLLMをいくつか紹介しよう。

アントロピックのクロード3

アンソロピックは2024年3月14日にクロード3を発表した。クロード3には3つのバージョンがある:Opus(オーパス)、Sonnet(ソネット)、Haiku(ハイク)の3種類で、それぞれ異なる市場と目的に対応している。最も迅速なモデルであるHaikuは、高速で基本的なレスポンスに最適化されている。Sonnetは、スピードとインテリジェンスのバランスをとり、エンタープライズ・アプリケーションをターゲットにしている。最も高度なバージョンであるOpusは、比類のないインテリジェンスと推論を提供し、複雑なタスクやトップベンチマークの達成に最適です。

クロード3は多くの先進的な機能と改良を誇っている:

  • 多言語会話の強化:スペイン語、日本語、フランス語などの言語能力が向上
    ↪CF200D↩
  • 高度なビジョン機能:
    ‍ 様々なビジュアル・フォーマットに対応可能。
  • 拒否の最小化:
    ‍ 不要な拒否が減り、文脈把握が向上したことを示す。
  • 拡張コンテキスト・ウィンドウ:200Kのコンテキスト・ウィンドウを提供するが、顧客のニーズに応じて100万トークンを超える入力を処理できる。
__wf_reserved_inherit
図1.クロード3は、以前のバージョンよりも文脈を意識している。

データブリックスのDBRX

Databricks DBRXは、Databricks社が2024年3月27日にリリースしたオープンな汎用LLMである。DBRXは言語理解、プログラミング、数学など様々なベンチマークで非常に優れた結果を出している。類似のモデルより約40%小型でありながら、他の確立されたモデルを凌駕している。

__wf_reserved_inherit
図2.DBRXと他のモデルの比較。

DBRXは、きめ細かなMoE(Mixture-of-Experts)アーキテクチャによるネクストトークン予測を用いて学習された。このアーキテクチャにより、モデルは多様な専門サブモデル(「エキスパート」)を参照することで、シーケンスの次の単語をより正確に予測することができる。これらのサブモデルは、異なるタイプの情報やタスクを処理するのが得意である。

グーグルのジェミニ1.5

グーグルは2024年2月15日、膨大なテキスト、動画、音声データを分析できる計算効率の高いマルチモーダルAIモデル、ジェミニ1.5を発表した。最新モデルは、性能、効率、能力の面でより進化している。Gemini 1.5の主な特徴は、ロングコンテキストの理解における画期的な進歩である。このモデルは、最大100万トークンを一貫して処理することができる。Gemini1.5の能力は、新しいMoEベースのアーキテクチャのおかげでもある。

__wf_reserved_inherit
図3.人気のあるLLMのコンテキストの長さの比較

ジェミニの1.5の最も興味深い機能をいくつか紹介しよう:

  • データハンドリングの改善:プロンプトとして、大きなPDF、コードリポジト リ、または長いビデオの直接アップロードが可能。
    ‍モダリティを超えた推論とテキスト出力が可能。
  • 複数ファイルのアップロードと質問:開発者が複数のファイルをアップロードして質問できるようになった。
  • 様々なタスクに対応数学、科学、推論、多言語、ビデオ理解、コードなどの分野で改善が見られる。

AIによる見事なビジュアル

2024年第1四半期、リアルなビジュアルを作成できるジェネレーティブAIモデルが発表され、ソーシャルメディアの未来とAIの進歩に関する議論が巻き起こっている。話題を呼んでいるモデルに飛び込もう。

OpenAIのソラ 

ChatGPTを開発したOpenAIは2024年2月15日、最先端のテキストから動画へのディープラーニングモデル「Sora」を発表した。Soraは、ユーザーのテキストによるプロンプトに基づいて、高いビジュアルクオリティで1分程度の動画を生成できるテキストから動画へのジェネレーターである。 

例えば、次のプロンプトを見てみよう。 

"色とりどりの魚や海の生き物であふれるサンゴ礁の世界を華麗に表現したペーパークラフト" 

そして、これが出力ビデオのフレームだ。 

__wf_reserved_inherit
図4. Soraが生成したビデオのフレーム。

Soraのアーキテクチャは、テクスチャ生成のための拡散モデルと、構造的な一貫性のためのトランスフォーマーモデルをブレンドすることによって、これを可能にしている。これまでのところ、Soraへのアクセスは、リスクを理解し、フィードバックを得るために、レッドチーマーと、ビジュアルアーティスト、デザイナー、映画制作者の選ばれたグループに与えられている。 

安定性AIの安定した拡散3 

Stability AIは2024年2月22日、テキストから画像への生成モデル、Stable Diffusion 3の登場を発表した。このモデルは拡散トランスフォーマーアーキテクチャとフローマッチングをミックスしている。テクニカルペーパーはまだ発表されていないが、注目すべき主要な機能がいくつかある。

__wf_reserved_inherit
図5.プロンプトに基づく出力画像:"夜の山の頂上にいる魔法使いが、カラフルなエネルギーでできた「安定拡散3」と書かれた宇宙の呪文を暗い空に唱える壮大なアニメ作品"

ステイブル・ディフュージョンの最新モデルは、複数の被写体を含む画像を作成する際の性能、画質、精度が向上しています。また、Stable Diffusion 3は、8億から80億のパラメータまで、さまざまなモデルを提供する。これにより、ユーザーは拡張性とディテールに対する特定のニーズに基づいて選択できるようになる。

グーグルのルミエール 

2024年1月23日、グーグルはテキストから動画への拡散モデルであるルミエールを発表した。ルミエールはSpace-Time-U-Net、略してSTUNetと呼ばれるアーキテクチャを使用している。STUNetは、ルミエールがビデオ内のどこに何があり、どのように動いているかを理解するのに役立つ。そうすることで、スムーズでリアルな動画を生成することができる。

__wf_reserved_inherit
図6. プロンプトに基づいて生成されたビデオのフレーム:「パンダが家でウクレレを弾く。

ビデオ1本あたり80フレームを生成する能力を持つルミエールは、AI分野におけるビデオ品質の限界を押し広げ、新たな基準を打ち立てようとしている。以下はルミエールの特徴の一部である:

  • イメージからビデオへ画像とプロンプトから始まり、ルミエールは画像を動画にアニメーションさせることができる。
  • スタイライズドジェネレーション:
    ‍ Lumiereは、1つの参照画像を用いて特定のスタイルのビデオを作成することができます。
  • シネマグラフシネマグラフ: ルミエールでは、画像内の特定の領域をアニメーション化することで、特定のオブジェクトが動き、他の部分が静止しているようなダイナミックなシーンを作成することができます。
  • ビデオインペインティング:ビデオ内の人物の服装を変えたり、背景のディテールを変更するなど、ビデオの一部を変更することができます。

未来はここにある

2024年の始まりは、SF映画から飛び出してきたかのようなAIの革新をもたらしている。以前なら不可能だと言われていたようなことが、現在では取り組まれている。次のような発見があれば、未来はそう遠くないように感じられる。

イーロン・マスクのニューラルリンク

イーロン・マスクのニューラリンク社は2024年1月29日、無線脳チップを人間に埋め込むことに成功した。これは、人間の脳をコンピューターに接続するための大きな一歩である。イーロン・マスクは、「テレパシー」と名付けられたニューラルリンクの最初の製品が準備中であることを明かした。 

__wf_reserved_inherit
図7.ニューラルリンク・インプラント

その目的は、特に手足の機能を失ったユーザーが、自分の思考を通して楽に機器を操作できるようにすることだ。応用の可能性は利便性だけにとどまらない。イーロン・マスクは、麻痺のある人が簡単にコミュニケーションを取れる未来を想像している。

ディズニー・ホロタイル・フロア 

2024年1月18日、ウォルト・ディズニー・イマジニアリング社はホロタイル・フロアを発表した。これは世界初の多人数用、全方向トレッドミル・グラウンドと呼ばれている。 

__wf_reserved_inherit
図8.最新のイノベーションであるホロタイルの床でポーズをとるディズニーのイマジニア、ラニー・スムート。

テレキネシスのように人や物の下を移動することができ、没入感のある仮想現実や拡張現実を体験できる。どの方向にも歩くことができ、その上で衝突を避けることもできる。ディズニーのホロタイル・フロアは、劇場のステージに設置して、創造的な方法で踊ったり動いたりすることもできる。

アップルのビジョン・プロ

2024年2月2日、アップル待望のVision Proヘッドセットが市場に登場した。このヘッドセットは、仮想現実と拡張現実の体験を再定義するために設計された、さまざまな機能とアプリケーションを備えている。ヴィジョン・プロ・ヘッドセットは、エンターテインメント、生産性、空間コンピューティングを融合させることで、多様なユーザーに対応する。アップルは、生産性向上ツールからゲーム、エンターテインメントサービスまで、600以上のアプリケーションがVision Pro用に最適化されていることを発表した。

コグニションのデヴィン

2024年3月12日、コグニション社はソフトウェア・エンジニアリング・アシスタント「デヴィン」を発表した。Devinは、自律型AIソフトウェア・エンジニアとしては世界初の試みだ。提案や特定のタスクをこなす従来のコーディング・アシスタントとは異なり、Devinは最初のコンセプトから完成まで、ソフトウェア開発プロジェクト全体を扱うように設計されている。 

新しい技術を学び、完全なアプリを構築してデプロイし、バグを見つけて修正し、独自のモデルを訓練し、オープンソースやプロダクションのコードベースに貢献し、アップワークのようなサイトから実際の開発仕事を請け負うこともできる。 

__wf_reserved_inherit
図9.Devinと他のモデルの比較。

Devinは、Djangoやscikit-learnのようなオープンソースプロジェクトに見られる実際のGitHubの問題を解決するようエージェントに求める難易度の高いベンチマークであるSWE-benchで評価された。Devinは、エンドツーエンドで13.86%の問題を正しく解決しました。

佳作

あまりに多くの出来事があったので、この記事ですべてをカバーすることは不可能だ。しかし、ここにさらにいくつかの佳作を紹介しよう。 

  • 2024年3月21日に発表されたNVIDIAのLATTE3Dは、テキストプロンプトから3D表現を瞬時に作成するtext-to-3D AIモデルである。
    ‍。
  • Midjourneyの新しいテキストからビデオへのジェネレーターは、CEOのDavid Holzによって予告され、1月にトレーニングを開始し、間もなく発売される予定である。
    ‍。
  • AI PC革命を推進するレノボは、2024年1月8日、E Ink Prismテクノロジーと高性能AIノートPCを搭載したThinkBook 13xを発表した。

AIの最新トレンドは私たちにお任せください!

2024年の幕開けには、AIの画期的な進歩が見られ、多くの大きな技術的マイルストーンがあった。しかし、これはAIにできることのほんの始まりに過ぎない。最新のAI開発についてもっと知りたい方は、Ultralyticsにお任せください。

当社のGitHubリポジトリで、コンピュータ・ビジョンとAIにおける最新の貢献をご覧ください。また、当社のソリューションのページでは、製造業や ヘルスケアなどの業界でAIがどのように活用されているかをご覧いただけます。 

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう

無料で始める
クリップボードにコピーされたリンク