YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

コンピュータビジョンタスクでGoogle Gemini 2.5を実際に体験する

Abirami Vina

5分で読めます

2025年3月31日

Google Gemini 2.5を、オブジェクト検出、画像キャプション、Vision AIソリューション向けのOCRなどのコンピュータビジョンタスクで実際に使用する方法をご覧ください。

AIの進歩は急速に進んでおり、新しいイノベーションがほぼ毎日話題になっています。最近の画期的な進歩の1つは、3月26日に発表されたGoogle DeepMindの最新のマルチモーダルモデルであるGemini 2.5です。従来の大規模言語モデル(LLM)は、大量のデータから学習して人間のようなテキストを生成できますが、Gemini 2.5はそれを超えています。 

画像、オーディオ、ビデオを処理できる「思考モデル」として設計されています。推論とコーディングのスキルが向上しています。興味深いことに、コンピュータビジョンタスクに関しても非常に優れたパフォーマンスを発揮します。コンピュータビジョンタスクでは、マシンがオブジェクト検出、画像キャプション、光学文字認識(OCR)などの視覚データを解釈および分析します。

__wf_reserved_inherit
図1. Gemini 2.5を使用して画像の内容を理解する例。

この記事では、Gemini 2.5のコンピュータビジョンの能力を実際に体験できる、Ultralyticsのノートブックをご紹介します。また、Gemini 2.5の主要な機能について詳しく見ていき、現実世界のアプリケーション向けのコンピュータビジョンソリューションを構築するために、どのように活用できるかを紹介します。それでは、始めましょう。

Gemini 2.5の概要:機能と性能

Gemini 2.5モデルシリーズで最初にリリースされたバージョンは、Gemini 2.5 Proの実験的なリリースです。回答を出す前に応答を検討することで、複雑な問題に対処するように設計されています。強化学習(モデルがフィードバックから学習する)や連鎖思考プロンプト(問題を解決するための段階的なアプローチ)のような方法を使用します。

その主要な機能の1つは、100万トークン(約100万語または単語の一部)を保持できる巨大なコンテキストウィンドウであり、200万に増加すると予想されています。これは、モデルが一度に大量の情報を取得できることを意味し、より詳細で正確な結果につながります。

Gemini 2.5は、言語処理に加えて、以下のコンピュータビジョンタスクに使用できます。

  • 物体検出: 画像内の物体を識別して位置を特定するプロセスです。監視や自動運転車などのアプリケーションで使用できます。
  • 画像キャプション: このタスクでは、画像の記述的なテキストを生成します。これにより、視覚的なコンテンツがよりアクセスしやすく、理解しやすくなります。
  • 光学文字認識: このテクノロジーは、画像内のテキストを編集可能な機械可読テキストに変換します。ドキュメントのデジタル化やデータ入力の自動化に役立ちます。

Google Gemini 2.5と他のモデルのベンチマークと比較

現在、AI分野ではいくつかのマルチモーダルモデルが利用可能であるため、Gemini 2.5 Proをそれらと比較する方法を理解することが重要です。GoogleのDeepMindが共有したベンチマーク結果に基づいて、Gemini 2.5 Proはさまざまなタスクで目覚ましいパフォーマンスを示しています。 

例えば、多くの科目を網羅し、高度な推論と一般的な知識をテストする難しい試験をシミュレートしたHumanity’s Last Examというテストでは、Gemini 2.5 Proは約18.8%のスコアを獲得し、OpenAIのo3-miniなどのモデル(約14%のスコア)を上回っています。 

__wf_reserved_inherit
Fig 2. Gemini 2.5 Proのベンチマークパフォーマンスの概要。

また、数学やコーディングの課題でも非常に優れた性能を発揮し、OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta、DeepSeek R1などのモデルの性能に匹敵するか、それを上回ることが多く、複雑なタスクを処理し、大量のデータを処理する能力を示しています。

Gemini 2.5を実際に体験する:Google Gemini APIの使用方法

Gemini 2.5 Proは、複数のプラットフォームで利用できます。Google AI Studioで試したり、Gemini Advancedユーザー向けのGeminiアプリからアクセスしたりできます。発表では、Google DeepMindは、このモデルがVertex AIでも間もなくサポートされると述べています。これらのアクセスポイントにより、開発者はGemini 2.5 Proを実際のAIアプリケーションで簡単に使用できます。 

ただし、Google Gemini APIを使い、複雑な設定なしに数分で開始したい場合や、そのコンピュータビジョンの能力をより深く理解したい場合は、Gemini 2.5 Proを使用した物体検出や画像キャプションなどのタスクを紹介するUltralyticsノートブックを確認できます。ノートブックで何が期待できるかを詳しく見ていきましょう。

Google Gemini 2.5ノートブックを使用した推論の設定

Ultralyticsノートブックを使い始め、Google Gemini 2.5を使用するには、まずGoogle AI Studioを通じてAPIキーを生成する必要があります。このキーを使用すると、Gemini APIにアクセスしてモデルを使用できます。

APIキーを取得したら、環境に必要なライブラリがインストールされていることを確認してください。これには、UltralyticsおよびGoogleのAIツールキットのパッケージが含まれます。この手順はノートブックで明確に概説されているため、指示に従ってワークスペースを簡単に設定できます。

すべての設定が完了したら、(下記に示すように)APIキーを入力してGemini APIに接続し、ワークスペースとモデル間のリンクを作成できます。その後、画像とテキストプロンプトをGemini 2.5に送信する準備が整います。

基本的に、画像と簡単な指示(「この画像のオブジェクトを検出する」または「何が見えるかを説明する」など)をモデルに提供すると、必要な結果が返されます。この簡単なプロセスにより、Gemini 2.5のコンピュータビジョンの機能を簡単に調べ始めることができます。

Google Gemini 2.5による物体検出

ノートブックの主要な例の1つは、Gemini 2.5 Proを使用したオブジェクト検出です。この例では、モデルに画像とオブジェクトを検出するための簡単なプロンプトを提供します。 

モデルは画像を処理し、検出した各オブジェクトの座標とラベルのセットを返します。これらの座標は正規化された形式で提供されます。Ultralytics Pythonパッケージの関数を使用して、これらの正規化された値を画像の実際の寸法に合わせて変換し、以下に示すように各オブジェクトの周りに明確なバウンディングボックスを描画します。

__wf_reserved_inherit
図3. Google Gemini 2.5を使用した物体検出。

Gemini 2.5を使用した画像キャプション

ノートブックのもう一つの興味深い例は、Gemini 2.5 Proを使用した画像キャプション生成です。この例では、モデルに画像と、画像の内容を詳細に説明するキャプションを生成するように求めるプロンプトを提供します。 

次に、モデルは視覚的なコンテンツを分析し、画像の内容とコンテキストの両方を捉えたナラティブを返します。多くの場合、複数の文としてフォーマットされます。この機能は、アクセシビリティの向上、視覚情報の要約、さらには創造的なストーリーテリングの強化に役立ちます。

Google GeminiモデルによるOCR精度の向上

Gemini 2.5 Proの画像内のテキストを読み取る機能を使用するコンピュータビジョンタスクは、OCRです。ノートブックでは、テキストを含む画像をモデルに提供し、そのテキストを抽出するように促すことができます。モデルは画像を処理し、検出されたテキストとテキストが配置されている座標の両方を返します。以下に示します。

次に、Ultralytics Pythonパッケージの関数を使用して、これらの正規化された座標を画像の実際の寸法に変換し、テキスト領域の周りにバウンディングボックスを描画します。このアノテーション付きの出力は、テキストがどこにあるかを明確にし、ドキュメントのデジタル化、データ入力の自動化、アクセシビリティの向上に役立ちます。

__wf_reserved_inherit
図4. Google Gemini 2.5を使用して画像内のテキストデータを抽出。

Google Gemini 2.5 の実世界での応用

Google Gemini 2.5 Proをさまざまなコンピュータビジョンタスクに使用する方法を説明したところで、これらの機能を使用できる現実世界の応用例をいくつか見ていきましょう。

たとえば、Gemini 2.5 Proの物体検出機能は、大量の画像を自動的にラベル付けして整理するのに役立ち、データセットの作成やコンテンツ管理などのタスクを大幅に高速化できます。また、小売や農業などの分野で画像を分析するためにも使用できます。たとえば、棚の製品を検出したり、農場の写真で作物のストレスの兆候を特定したりできます。

__wf_reserved_inherit
図5。Gemini 2.5 Proによる植物の健康状態の分析。

一方、このモデルの画像キャプション機能は、視覚障碍者が画像の内容を理解するのに役立ちます。たとえば、交通量の多い通りの写真がある場合、モデルはシーンを詳細に説明するキャプションを生成し、車両の種類、歩行者の活動、さらには照明の手がかりに基づいて時刻を記述する場合があります。 

これに加えて、Gemini 2.5のOCR機能は、さまざまなアプリケーションで使用できます。たとえば、ページまたは領収書をスキャンして、印刷されたドキュメントをデジタル化できます。この機能は、データ入力タスクの自動化、フォームの処理、または名刺や看板からのテキストの読み取りに最適です。 

全体として、Google Gemini 2.5 Proは、幅広い実用的なAIアプリケーションへの扉を開きます。

主なポイント

テキストの生成と分析にとどまらず、Google Gemini 2.5 Proは、物体検出、画像キャプション、OCRなどのコンピュータビジョンタスクに使用できます。大規模なコンテキストウィンドウと強化された推論能力により、現実世界のシナリオでうまく機能する詳細でコンテキストを意識した結果が得られます。 

AIモデルが進化し続けるにつれて、Gemini 2.5 Proのようなツールが登場し、業界全体の複雑な問題をより簡単に解決できるようになっています。より多くの組織が、視覚的な理解から言語処理まで、幅広いタスクを処理できる柔軟なマルチモーダルソリューションを求めるようになるにつれて、AIの導入はさらに広がると考えられます。

コミュニティに参加して、GitHubリポジトリで最先端のAIプロジェクトについて学びましょう。農業におけるVision AIの応用や、ソリューションページで製造業におけるAIの役割をご覧ください。ライセンスプランを確認して、今日からコンピュータビジョンソリューションを構築しましょう!

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました