AI 2024：ジェネレーティブAIの波

AIコミュニティは、ほぼ毎日見出しを飾っているようです。2024年の最初の数か月は、エキサイティングで、新しいAIイノベーションが満載でした。強力な新しい大規模言語モデルから人間の脳インプラントまで、2024年は素晴らしい年になりそうです。

AI が産業を変革し、情報へのアクセスを容易にし、さらには私たちの心を機械と融合させるための第一歩を踏み出しているのを目にしています。2024 年の第 1 四半期を振り返り、わずか数か月で AI が達成した進歩を詳しく見てみましょう。

LLMがトレンドです

大量のテキストデータに基づいて人間の言語を理解、生成、および操作するように設計された大規模言語モデル（LLM）は、2024年の第1四半期に脚光を浴びました。多くの主要なテクノロジー企業が独自のLLMモデルをリリースし、それぞれが独自の機能を備えています。GPT-3のような以前のLLMの目覚ましい成功が、このトレンドを刺激しました。以下は、2024年初頭の最も注目すべきLLMリリースのいくつかです。

Anthropicクロード3

Anthropic 2024年3月14日にクロード3を発表した。クロード3には3つのバージョンがある：Opus（オーパス）、Sonnet（ソネット）、Haiku（ハイク）の3種類で、それぞれ異なる市場と目的に対応している。最も迅速なモデルであるHaikuは、高速で基本的なレスポンスに最適化されている。Sonnetはスピードとインテリジェンスのバランスが取れたモデルで、エンタープライズ・アプリケーションをターゲットにしている。最も高度なバージョンであるOpusは、比類のないインテリジェンスと推論を提供し、複雑なタスクやトップベンチマークの達成に最適です。

Claude 3は、多くの高度な機能と改善を誇っています。

多言語会話の強化：スペイン語、日本語、フランス語を含む言語の能力が向上しました。
‍
高度なビジョン機能：さまざまなビジュアル形式を処理できます。
‍
拒否の最小化：不必要な拒否が減り、文脈の把握が向上していることを示します。
‍
拡張されたコンテキストウィンドウ：200Kのコンテキストウィンドウを提供しますが、顧客のニーズに基づいて100万以上のトークンにわたる入力を処理できます。

__wf_reserved_inherit — 図1. Claude 3は以前のバージョンよりもコンテキストをより意識している。

‍

DatabricksのDBRX

Databricks DBRXは、Databricksが2024年3月27日にリリースしたオープンな汎用LLMです。DBRXは、言語理解、プログラミング、数学など、さまざまなベンチマークで非常に優れた性能を発揮します。類似のモデルよりも約40%小型でありながら、確立された他のモデルを凌駕しています。

‍

DBRX は、きめ細かい Mixture-of-Experts (MoE) アーキテクチャを用いた next-token prediction を使用してトレーニングされており、そのため、トレーニングと推論のパフォーマンスが大幅に向上しています。そのアーキテクチャにより、モデルは、多様な専門サブモデル（「エキスパート」）を参照することで、シーケンス内の次の単語をより正確に予測できます。これらのサブモデルは、さまざまな種類の情報やタスクの処理に優れています。

Googleジェミニ1.5

Google 2024年2月15日、膨大なテキスト、動画、音声データを分析できる計算効率の高いマルチモーダルAIモデル、ジェミニ1.5を発表した。最新モデルは、性能、効率、能力の面でより進化している。Gemini 1.5の主な特徴は、ロングコンテキストの理解における画期的な進歩である。このモデルは、最大100万トークンを一貫して処理することができる。Gemini1.5の能力は、新しいMoEベースのアーキテクチャのおかげでもある。

‍

以下に、Gemini 1.5の最も興味深い機能をいくつかご紹介します。

データ処理の改善：大規模なPDF、コードリポジトリ、または長尺の動画をプロンプトとして直接アップロードできます。モデルは複数のモダリティを推論し、テキストを出力できます。
‍
複数ファイルのアップロードとクエリ：開発者は複数のファイルをアップロードして質問をすることができます。
‍
さまざまなタスクに使用可能：多様なタスクに拡張できるように最適化されており、数学、科学、推論、多言語対応、ビデオ理解、コードなどの分野で改善が見られます。

AIによる素晴らしいビジュアル

2024年の第1四半期には、ソーシャルメディアの未来とAIの進歩に関する議論を巻き起こした、非常にリアルなビジュアルを作成できる生成AIモデルが登場しました。話題を呼んでいるモデルを詳しく見ていきましょう。

OpenAIのSora

ChatGPT開発したOpenAIは2024年2月15日、最先端のテキストから動画へのディープラーニングモデル「Sora」を発表した。Soraは、ユーザーのテキストによるプロンプトに基づいて、高いビジュアルクオリティで1分程度の動画を生成できるテキストから動画へのジェネレーターである。

例えば、次のプロンプトを見てください。

「サンゴ礁のゴージャスにレンダリングされたペーパークラフトの世界。色とりどりの魚や海の生き物でいっぱいです。」

そして、こちらが出力ビデオからのフレームです。

‍

Soraのアーキテクチャは、テクスチャ生成のための拡散モデルと構造的コヒーレンスのためのトランスフォーマーモデルをブレンドすることにより、これを可能にします。これまでのところ、Soraへのアクセスは、リスクを理解し、フィードバックを得るために、レッドチームと選ばれたビジュアルアーティスト、デザイナー、映画製作者のグループに提供されています。

Stability AI安定した拡散3

Stability AI 2024年2月22日、テキストから画像への生成モデル、Stable Diffusion 3の登場を発表した。このモデルは拡散トランスフォーマーアーキテクチャとフローマッチングをミックスしている。テクニカルペーパーはまだ発表されていないが、注目すべき主要な機能がいくつかある。

‍

Stable Diffusionの最新モデルは、パフォーマンス、画質、および複数の被写体を含む画像の作成における精度が向上しています。Stable Diffusion 3は、8億から80億のパラメータに及ぶさまざまなモデルも提供します。これにより、ユーザーはスケーラビリティと詳細に関する特定のニーズに基づいて選択できます。

Googleルミエール

2024年1月23日、Google テキストから動画への拡散モデルであるルミエールを発表した。ルミエールはSpace-Time-U-Net、略してSTUNetと呼ばれるアーキテクチャを使用している。STUNetは、ルミエールがビデオ内のどこに何があり、どのように動いているかを理解するのに役立つ。そうすることで、スムーズでリアルな動画を生成することができる。

‍

Lumiereは、1つのビデオあたり80フレームを生成する機能を備えており、AI分野におけるビデオ品質の限界を押し広げ、新たな基準を打ち立てています。Lumiereの機能の一部を以下に示します。

Image-to-Video：画像とプロンプトから、Lumiereは画像をアニメーション化してビデオにすることができます。
‍
様式化された生成：Lumiereは、単一の参照画像を使用して特定のスタイルでビデオを作成できます。
‍
シネマグラフ：Lumiereは、画像内の特定の領域をアニメーション化して、ダイナミックなシーンを作成できます。たとえば、シーンの残りの部分が静止している間に、特定のオブジェクトが移動するなどです。
‍
ビデオインペインティング：ビデオの一部を変更できます。たとえば、ビデオ内の人物の服装を変更したり、背景の詳細を変更したりできます。

未来はすぐそこに

2024年の初めには、SF映画から飛び出してきたようなAIイノベーションも数多く登場しました。以前は不可能だと言われていたことが、現在では研究されています。次の発見により、未来はそれほど遠くないように感じられます。

Elon MuskのNeuralink

Elon Musk氏のNeuralinkは、2024年1月29日に人間の脳にワイヤレス脳チップを埋め込むことに成功しました。これは、人間の脳をコンピュータに接続するための大きな一歩です。Elon Musk氏は、Neuralinkの最初の製品である「Telepathy」が開発中であると語りました。

‍

その目標は、ユーザー、特に手足の機能を失った人が、思考を通じて楽にデバイスを制御できるようにすることです。潜在的なアプリケーションは利便性にとどまりません。イーロン・マスクは、麻痺のある人が簡単にコミュニケーションできる未来を想像しています。

ディズニーのHoloTile Floor

2024年1月18日、ウォルト・ディズニー・イマジニアリングは、HoloTile Floorを発表しました。これは、世界初の多人数対応の全方向トレッドミルグラウンドと呼ばれています。

‍

念動力のように人や物の下を移動し、没入感のあるバーチャルおよび拡張現実体験を実現します。どの方向に歩いても衝突を回避できます。ディズニーのHoloTile Floorは、劇場ステージに設置して、創造的な方法でダンスや動きを表現することも可能です。

Apple Vision Pro

2024年2月2日、Appleの待望のVision Proヘッドセットが発売されました。仮想現実および拡張現実体験を再定義するように設計されたさまざまな機能とアプリケーションを備えています。Vision Proヘッドセットは、エンターテインメント、生産性、空間コンピューティングを融合させることで、多様な視聴者に対応します。Appleは、発売時に生産性ツールからゲームやエンターテインメントサービスまで、600を超えるアプリがVision Pro向けに最適化されたことを誇らしげに発表しました。

Cognition’s Devin

2024年3月12日、CognitionはDevinと呼ばれるソフトウェアエンジニアリングアシスタントをリリースしました。Devinは、自律型AIソフトウェアエンジニアへの世界初の試みです。提案を提供したり、特定のタスクを完了したりする従来のコーディングアシスタントとは異なり、Devinは最初のコンセプトから完成まで、ソフトウェア開発プロジェクト全体を処理するように設計されています。

新しい技術を習得し、完全なアプリケーションを構築およびデプロイしたり、バグを見つけて修正したり、独自のモデルをトレーニングしたり、オープンソースや本番環境のコードベースに貢献したり、Upworkのようなサイトから実際の開発ジョブを引き受けたりすることもできます。

‍

Devinは、Djangoやscikit-learnのようなオープンソースプロジェクトで見つかった実際世界のGitHubの問題をエージェントに解決させる、挑戦的なベンチマークであるSWE-benchで評価されました。以前の最先端技術の1.96%と比較して、問題をエンドツーエンドで13.86%正しく解決しました。

佳作

非常に多くのことが起こっているので、この記事ですべてを網羅することはできません。しかし、ここでは、さらにいくつかの特筆すべきものを紹介します。

2024年3月21日に発表されたNVIDIA LATTE3Dは、テキストプロンプトから3D表現を瞬時に作成するtext-to-3D AIモデルである。
‍。
Midjourneyの新しいテキストからビデオを生成するジェネレーターは、CEOのDavid Holzによって発表され、1月にトレーニングを開始し、まもなくリリースされる予定です。
‍
AI PC革命を推進するため、Lenovoは2024年1月8日にE Ink Prismテクノロジー搭載のThinkBook 13xと高性能AIラップトップを発表しました。

私たちと一緒にAIトレンドの最新情報を入手しましょう！

2024年の幕開けには、AIの画期的な進歩が見られ、多くの大きな技術的マイルストーンがあった。しかし、これはAIができることのほんの始まりに過ぎない。最新のAI開発についてもっと知りたい方は、Ultralytics お任せください。

コンピュータビジョンとAIにおける最新の貢献については、GitHubリポジトリをご覧ください。また、AIが製造業やヘルスケアなどの業界でどのように使用されているかについては、ソリューションページをご覧ください。

2024年は生成AIの波から始まる

LLMがトレンドです

Anthropicクロード3

DatabricksのDBRX

Googleジェミニ1.5

AIによる素晴らしいビジュアル

OpenAIのSora

Stability AI安定した拡散3

Googleルミエール

未来はすぐそこに

Elon MuskのNeuralink

ディズニーのHoloTile Floor

Apple Vision Pro

Cognition’s Devin

佳作

私たちと一緒にAIトレンドの最新情報を入手しましょう！

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

医療診断のためのビジョンAIツール

データから意思決定へ：企業戦略におけるビジョンAIの活用

AIの未来を
共に築きましょう！

2024年は生成AIの波から始まる

LLMがトレンドです

Anthropicクロード3

DatabricksのDBRX

Googleジェミニ1.5

AIによる素晴らしいビジュアル

OpenAIのSora

Stability AI安定した拡散3

Googleルミエール

未来はすぐそこに

Elon MuskのNeuralink

ディズニーのHoloTile Floor

Apple Vision Pro

Cognition’s Devin

佳作

私たちと一緒にAIトレンドの最新情報を入手しましょう！

このカテゴリの関連記事

コンピュータービジョンを活用した12の航空写真活用事例

医療診断のためのビジョンAIツール

データから意思決定へ：企業戦略におけるビジョンAIの活用

AIの未来を共に築きましょう！

AIの未来を
共に築きましょう！