AIコミュニティは毎日のようにニュースを賑わせている。2024年の最初の数カ月はエキサイティングで、新しいAIのイノベーションでいっぱいだった。強力な新しい大規模言語モデルから人間の脳インプラントまで、2024年は素晴らしい年になりそうだ。
私たちはAIが産業を変革し、情報をより身近なものにし、さらには私たちの心を機械と融合させる第一歩を踏み出すのを目の当たりにしている。2024年の第1四半期を巻き戻し、わずか数ヶ月の間にAIが成し遂げた進歩を詳しく見てみよう。
膨大なテキストデータに基づいて人間の言語を理解し、生成し、操作するように設計された大規模言語モデル(LLM)が、2024年第1四半期に中心的な役割を果たした。多くの大手ハイテク企業が独自のLLMモデルを発表し、それぞれがユニークな機能を備えている。GPT-3のような先行LLMが驚異的な成功を収めたことが、この傾向に拍車をかけた。2024年初頭にリリースされた最も注目すべきLLMをいくつか紹介しよう。
アンソロピックは2024年3月14日にクロード3を発表した。クロード3には3つのバージョンがある:Opus(オーパス)、Sonnet(ソネット)、Haiku(ハイク)の3種類で、それぞれ異なる市場と目的に対応している。最も迅速なモデルであるHaikuは、高速で基本的なレスポンスに最適化されている。Sonnetは、スピードとインテリジェンスのバランスをとり、エンタープライズ・アプリケーションをターゲットにしている。最も高度なバージョンであるOpusは、比類のないインテリジェンスと推論を提供し、複雑なタスクやトップベンチマークの達成に最適です。
クロード3は多くの先進的な機能と改良を誇っている:
Databricks DBRXは、Databricks社が2024年3月27日にリリースしたオープンな汎用LLMである。DBRXは言語理解、プログラミング、数学など様々なベンチマークで非常に優れた結果を出している。類似のモデルより約40%小型でありながら、他の確立されたモデルを凌駕している。
DBRXは、きめ細かなMoE(Mixture-of-Experts)アーキテクチャによるネクストトークン予測を用いて学習された。このアーキテクチャにより、モデルは多様な専門サブモデル(「エキスパート」)を参照することで、シーケンスの次の単語をより正確に予測することができる。これらのサブモデルは、異なるタイプの情報やタスクを処理するのが得意である。
グーグルは2024年2月15日、膨大なテキスト、動画、音声データを分析できる計算効率の高いマルチモーダルAIモデル、ジェミニ1.5を発表した。最新モデルは、性能、効率、能力の面でより進化している。Gemini 1.5の主な特徴は、ロングコンテキストの理解における画期的な進歩である。このモデルは、最大100万トークンを一貫して処理することができる。Gemini1.5の能力は、新しいMoEベースのアーキテクチャのおかげでもある。
ジェミニの1.5の最も興味深い機能をいくつか紹介しよう:
2024年第1四半期、リアルなビジュアルを作成できるジェネレーティブAIモデルが発表され、ソーシャルメディアの未来とAIの進歩に関する議論が巻き起こっている。話題を呼んでいるモデルに飛び込もう。
ChatGPTを開発したOpenAIは2024年2月15日、最先端のテキストから動画へのディープラーニングモデル「Sora」を発表した。Soraは、ユーザーのテキストによるプロンプトに基づいて、高いビジュアルクオリティで1分程度の動画を生成できるテキストから動画へのジェネレーターである。
例えば、次のプロンプトを見てみよう。
"色とりどりの魚や海の生き物であふれるサンゴ礁の世界を華麗に表現したペーパークラフト"
そして、これが出力ビデオのフレームだ。
Soraのアーキテクチャは、テクスチャ生成のための拡散モデルと、構造的な一貫性のためのトランスフォーマーモデルをブレンドすることによって、これを可能にしている。これまでのところ、Soraへのアクセスは、リスクを理解し、フィードバックを得るために、レッドチーマーと、ビジュアルアーティスト、デザイナー、映画制作者の選ばれたグループに与えられている。
Stability AIは2024年2月22日、テキストから画像への生成モデル、Stable Diffusion 3の登場を発表した。このモデルは拡散トランスフォーマーアーキテクチャとフローマッチングをミックスしている。テクニカルペーパーはまだ発表されていないが、注目すべき主要な機能がいくつかある。
ステイブル・ディフュージョンの最新モデルは、複数の被写体を含む画像を作成する際の性能、画質、精度が向上しています。また、Stable Diffusion 3は、8億から80億のパラメータまで、さまざまなモデルを提供する。これにより、ユーザーは拡張性とディテールに対する特定のニーズに基づいて選択できるようになる。
2024年1月23日、グーグルはテキストから動画への拡散モデルであるルミエールを発表した。ルミエールはSpace-Time-U-Net、略してSTUNetと呼ばれるアーキテクチャを使用している。STUNetは、ルミエールがビデオ内のどこに何があり、どのように動いているかを理解するのに役立つ。そうすることで、スムーズでリアルな動画を生成することができる。
ビデオ1本あたり80フレームを生成する能力を持つルミエールは、AI分野におけるビデオ品質の限界を押し広げ、新たな基準を打ち立てようとしている。以下はルミエールの特徴の一部である:
2024年の始まりは、SF映画から飛び出してきたかのようなAIの革新をもたらしている。以前なら不可能だと言われていたようなことが、現在では取り組まれている。次のような発見があれば、未来はそう遠くないように感じられる。
イーロン・マスクのニューラリンク社は2024年1月29日、無線脳チップを人間に埋め込むことに成功した。これは、人間の脳をコンピューターに接続するための大きな一歩である。イーロン・マスクは、「テレパシー」と名付けられたニューラルリンクの最初の製品が準備中であることを明かした。
その目的は、特に手足の機能を失ったユーザーが、自分の思考を通して楽に機器を操作できるようにすることだ。応用の可能性は利便性だけにとどまらない。イーロン・マスクは、麻痺のある人が簡単にコミュニケーションを取れる未来を想像している。
2024年1月18日、ウォルト・ディズニー・イマジニアリング社はホロタイル・フロアを発表した。これは世界初の多人数用、全方向トレッドミル・グラウンドと呼ばれている。
テレキネシスのように人や物の下を移動することができ、没入感のある仮想現実や拡張現実を体験できる。どの方向にも歩くことができ、その上で衝突を避けることもできる。ディズニーのホロタイル・フロアは、劇場のステージに設置して、創造的な方法で踊ったり動いたりすることもできる。
2024年2月2日、アップル待望のVision Proヘッドセットが市場に登場した。このヘッドセットは、仮想現実と拡張現実の体験を再定義するために設計された、さまざまな機能とアプリケーションを備えている。ヴィジョン・プロ・ヘッドセットは、エンターテインメント、生産性、空間コンピューティングを融合させることで、多様なユーザーに対応する。アップルは、生産性向上ツールからゲーム、エンターテインメントサービスまで、600以上のアプリケーションがVision Pro用に最適化されていることを発表した。
2024年3月12日、コグニション社はソフトウェア・エンジニアリング・アシスタント「デヴィン」を発表した。Devinは、自律型AIソフトウェア・エンジニアとしては世界初の試みだ。提案や特定のタスクをこなす従来のコーディング・アシスタントとは異なり、Devinは最初のコンセプトから完成まで、ソフトウェア開発プロジェクト全体を扱うように設計されている。
新しい技術を学び、完全なアプリを構築してデプロイし、バグを見つけて修正し、独自のモデルを訓練し、オープンソースやプロダクションのコードベースに貢献し、アップワークのようなサイトから実際の開発仕事を請け負うこともできる。
Devinは、Djangoやscikit-learnのようなオープンソースプロジェクトに見られる実際のGitHubの問題を解決するようエージェントに求める難易度の高いベンチマークであるSWE-benchで評価された。Devinは、エンドツーエンドで13.86%の問題を正しく解決しました。
あまりに多くの出来事があったので、この記事ですべてをカバーすることは不可能だ。しかし、ここにさらにいくつかの佳作を紹介しよう。
2024年の幕開けには、AIの画期的な進歩が見られ、多くの大きな技術的マイルストーンがあった。しかし、これはAIにできることのほんの始まりに過ぎない。最新のAI開発についてもっと知りたい方は、Ultralyticsにお任せください。
当社のGitHubリポジトリで、コンピュータ・ビジョンとAIにおける最新の貢献をご覧ください。また、当社のソリューションのページでは、製造業や ヘルスケアなどの業界でAIがどのように活用されているかをご覧いただけます。