ハンズオン Gemini 2.5 for Computer Vision

AIの進歩は日進月歩で、毎日のように新たなイノベーションが話題を呼んでいる。そのような最近のブレークスルーのひとつが、3月26日に発表されたGoogle DeepMindの最新のマルチモーダルモデル、Gemini 2.5である。従来の大規模言語モデル（LLM）は膨大なデータから学習して人間のようなテキストを生成することができるが、Gemini 2.5はそれを超えている。

画像、オーディオ、ビデオを処理できる「思考モデル」として設計されています。推論とコーディングのスキルが向上しています。興味深いことに、コンピュータビジョンタスクに関しても非常に優れたパフォーマンスを発揮します。コンピュータビジョンタスクでは、マシンがオブジェクト検出、画像キャプション、光学文字認識（OCR）などの視覚データを解釈および分析します。

__wf_reserved_inherit — 図1. Gemini 2.5を使用して画像の内容を理解する例。

‍

この記事では、Gemini 2.5のコンピュータビジョン機能を実際に体験するのに役立つUltralyticsノートブックの1つを紹介する。また、Gemini 2.5の主な機能を詳しく見ていき、実世界のアプリケーションのためのコンピュータビジョンソリューションを構築するためにGemini 2.5をどのように使用できるかを紹介します。さあ、始めよう！

Gemini 2.5の概要：機能と性能

Gemini 2.5モデルシリーズで最初にリリースされたバージョンは、Gemini 2.5 Proの実験的なリリースです。回答を出す前に応答を検討することで、複雑な問題に対処するように設計されています。強化学習（モデルがフィードバックから学習する）や連鎖思考プロンプト（問題を解決するための段階的なアプローチ）のような方法を使用します。

その主要な機能の1つは、100万トークン（約100万語または単語の一部）を保持できる巨大なコンテキストウィンドウであり、200万に増加すると予想されています。これは、モデルが一度に大量の情報を取得できることを意味し、より詳細で正確な結果につながります。

Gemini 2.5は、言語処理に加えて、以下のコンピュータビジョンタスクに使用できます。

物体検出: 画像内の物体を識別して位置を特定するプロセスです。監視や自動運転車などのアプリケーションで使用できます。
‍
画像キャプション： このタスクでは、画像の記述的なテキストを生成します。これにより、視覚的なコンテンツがよりアクセスしやすく、理解しやすくなります。

光学文字認識: このテクノロジーは、画像内のテキストを編集可能な機械可読テキストに変換します。ドキュメントのデジタル化やデータ入力の自動化に役立ちます。

Google Gemini 2.5と他のモデルのベンチマーク比較

現在、AIの分野ではいくつかのマルチモーダルモデルが利用可能であるため、Gemini 2.5 Proがそれらと比較してどうなのかを理解することは重要である。GoogleDeepMindによって共有されたベンチマーク結果に基づいて、Gemini 2.5 Proは、さまざまなタスクで印象的なパフォーマンスを示している。

例えば、多くの科目を網羅し、高度な推論と一般的な知識をテストする難しい試験をシミュレートしたHumanity’s Last Examというテストでは、Gemini 2.5 Proは約18.8%のスコアを獲得し、OpenAIのo3-miniなどのモデル（約14%のスコア）を上回っています。

‍

また、数学やコーディングの課題でも非常に優れた性能を発揮し、OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta、DeepSeek R1などのモデルの性能に匹敵するか、それを上回ることが多く、複雑なタスクを処理し、大量のデータを処理する能力を示しています。

Gemini 2.5を使いこなす:Google Gemini APIの使い方

Gemini 2.5 Proは複数のプラットフォームで利用できる。Gemini 2.5 Proは複数のプラットフォームで利用可能で、Google AI Studioで実験したり、Gemini Advancedユーザー向けのGeminiアプリからアクセスすることができる。Google DeepMindは発表の中で、このモデルが近々Vertex AIでサポートされる予定であることにも言及している。これらのアクセスポイントにより、開発者はGemini 2.5 Proを実世界のAIアプリケーションに簡単に使用することができる。

しかし、Google Gemini APIを使用し、複雑なセットアップをすることなく、わずか数分で始めたい場合、また、そのコンピュータビジョン機能をより深く理解したい場合は、Gemini 2.5 Proを使用したオブジェクト検出や画像キャプション付けなどのタスクを紹介するUltralytics ノートブックをご覧ください。このノートブックで期待できることを詳しく説明しよう。

Google Gemini 2.5ノートブックでの推論の設定

Ultralytics ノートブックを使い始め、Google Gemini 2.5を使用するには、まずGoogle AI Studioを通してAPIキーを生成する必要があります。このキーによってGemini APIにアクセスできるようになり、モデルを使用できるようになります。

APIキーを取得したら、お使いの環境に必要なライブラリがインストールされていることを確認してください。 UltralyticsとGoogleAIツールキットのパッケージが含まれる。このステップはノートブックで明確に説明されているので、指示に従って簡単にワークスペースをセットアップできる。

すべての設定が完了したら、（下記に示すように）APIキーを入力してGemini APIに接続し、ワークスペースとモデル間のリンクを作成できます。その後、画像とテキストプロンプトをGemini 2.5に送信する準備が整います。

‍

基本的には、画像と簡単な命令（「この画像から物体をdetect 」とか「見えているものを描写する」とか）をモデルに与えると、必要な結果を返してくれる。この簡単なプロセスにより、Gemini 2.5のコンピュータビジョン機能を簡単に使い始めることができる。

Google Gemini 2.5による物体検出

このノートブックの主要な例の1つは、Gemini 2.5 Proを使用した物体検出です。この例では、オブジェクトをdetect するための画像と簡単なプロンプトをモデルに与えます。

これらの座標は正規化された形式で与えられます。これらの座標は正規化された形式で与えられます。次に、Ultralytics Python パッケージの関数を使用して、これらの正規化された値を画像の実際の寸法に合わせて変換し、以下に示すように、各オブジェクトの周囲に明確なバウンディングボックスを描画します。

‍

Gemini 2.5を使用した画像キャプション

ノートブックのもう一つの興味深い例は、Gemini 2.5 Proを使用した画像キャプション生成です。この例では、モデルに画像と、画像の内容を詳細に説明するキャプションを生成するように求めるプロンプトを提供します。

次に、モデルは視覚的なコンテンツを分析し、画像の内容とコンテキストの両方を捉えたナラティブを返します。多くの場合、複数の文としてフォーマットされます。この機能は、アクセシビリティの向上、視覚情報の要約、さらには創造的なストーリーテリングの強化に役立ちます。

Google GeminiモデルによるOCR精度の向上

Gemini 2.5 Proの画像内のテキストを読み取る機能を使用するコンピュータビジョンタスクは、OCRです。ノートブックでは、テキストを含む画像をモデルに提供し、そのテキストを抽出するように促すことができます。モデルは画像を処理し、検出されたテキストとテキストが配置されている座標の両方を返します。以下に示します。

‍

次に、Ultralytics Python パッケージの関数を使用して、これらの正規化された座標を画像の実際の寸法に変換し、テキスト領域の周囲にバウンディングボックスを描画します。この注釈付き出力により、テキストの位置が明確になり、文書のデジタル化、データ入力の自動化、アクセシビリティの向上に役立ちます。

‍

Google Gemini 2.5の実際のアプリケーション

さて、Google Gemini 2.5 Proが様々なコンピュータビジョンタスクにどのように使用できるかを説明したところで、これらの機能が使用できる実際のアプリケーションをいくつか探ってみよう。

たとえば、Gemini 2.5 Proの物体検出機能は、大量の画像を自動的にラベル付けして整理するのに役立ち、データセットの作成やコンテンツ管理などのタスクを大幅に高速化できます。また、小売や農業などの分野で画像を分析するためにも使用できます。たとえば、棚の製品を検出したり、農場の写真で作物のストレスの兆候を特定したりできます。

‍

一方、このモデルの画像キャプション機能は、視覚障碍者が画像の内容を理解するのに役立ちます。たとえば、交通量の多い通りの写真がある場合、モデルはシーンを詳細に説明するキャプションを生成し、車両の種類、歩行者の活動、さらには照明の手がかりに基づいて時刻を記述する場合があります。

これに加えて、Gemini 2.5のOCR機能は、さまざまなアプリケーションで使用できます。たとえば、ページまたは領収書をスキャンして、印刷されたドキュメントをデジタル化できます。この機能は、データ入力タスクの自動化、フォームの処理、または名刺や看板からのテキストの読み取りに最適です。

全体として、Google Gemini 2.5 Proは、幅広い実用的なAIアプリケーションへの扉を開く。

主なポイント

テキストの生成や分析にとどまらず、Google Gemini 2.5 Proは、オブジェクト検出、画像キャプション、OCRなどのコンピュータビジョンタスクに使用することができます。巨大なコンテキストウィンドウと強化された推論機能により、実世界のシナリオでうまく機能する、詳細でコンテキストを考慮した結果を生成します。

AIモデルが進化し続けるにつれて、Gemini 2.5 Proのようなツールが登場し、業界全体の複雑な問題をより簡単に解決できるようになっています。より多くの組織が、視覚的な理解から言語処理まで、幅広いタスクを処理できる柔軟なマルチモーダルソリューションを求めるようになるにつれて、AIの導入はさらに広がると考えられます。

コミュニティに参加して、GitHubリポジトリで最先端のAIプロジェクトについて学びましょう。農業におけるVision AIの応用や、ソリューションページで製造業におけるAIの役割をご覧ください。ライセンスプランを確認して、今日からコンピュータビジョンソリューションを構築しましょう！

コンピュータビジョンタスクのためのGoogle Gemini 2.5を体験しよう

Gemini 2.5の概要：機能と性能

Google Gemini 2.5と他のモデルのベンチマーク比較