YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

コンピュータビジョンタスクにおけるGoogle Gemini 2.5の実践

物体検出、画像キャプション、Vision AIソリューション向けのOCRなどのコンピュータビジョンタスクにおいて、Google Gemini 2.5を実際に活用する方法をご覧ください。

ABAbirami Vina
5 min read
コンピュータビジョンタスクにおけるGoogle Gemini 2.5の使用

AIの進化は目覚ましく、ほぼ毎日新しいイノベーションがニュースを賑わせています。その最新のブレイクスルーの一つが、3月26日にGoogle DeepMindからリリースされた最新のマルチモーダルモデル「Gemini 2.5」です。従来型の大規模言語モデル (LLM)は、膨大なデータから学習し人間のようなテキストを生成できますが、Gemini 2.5はさらにその先を行く能力を備えています。

Gemini 2.5は、画像、音声、ビデオを処理できる「思考するモデル」として設計されており、推論能力やコーディング能力が強化されています。興味深いことに、物体検出、画像キャプション生成、光学文字認識(OCR)など、機械が視覚データを解釈・分析するコンピュータビジョンタスクにおいても非常に優れた性能を発揮します。

Gemini 2.5を使用して画像の内容を理解する

図1。Gemini 2.5を使用して画像の内容を理解する例。

本記事では、Gemini 2.5のコンピュータビジョン機能を実際に体験できるUltralyticsのノートブックを紹介します。また、Gemini 2.5の主要機能についても詳しく解説し、実世界のアプリケーションに向けたコンピュータビジョンソリューションの構築方法を提示します。早速始めましょう!

Link to this sectionGemini 2.5の概要:機能と性能#

Gemini 2.5モデルシリーズの第一弾としてリリースされたのは、試験的な「Gemini 2.5 Pro」です。このモデルは、回答を出す前にプロセスを熟考することで複雑な問題を解決するように設計されています。強化学習(モデルがフィードバックから学習する手法)や思考の連鎖(Chain-of-Thought、問題を段階的に解決するアプローチ)といった手法を採用しています。

主要な機能の一つに巨大なコンテキストウィンドウがあります。これは100万トークン(約100万語やその断片)を保持でき、将来的には200万まで拡大される見込みです。つまり、モデルは一度に大量の情報を入力として受け取ることができ、より詳細で正確な結果を出力できることを意味します。

言語処理に加え、Gemini 2.5は以下のコンピュータビジョンタスクに活用できます。

  • 物体検出:画像内のオブジェクトを特定し、その位置を特定するプロセスです。監視システムや自動運転車などのアプリケーションで使用されます。

  • 画像キャプション生成:このタスクでは、画像に対して説明的なテキストを生成します。これにより、視覚コンテンツがよりアクセスしやすく、理解しやすくなります。

  • 光学文字認識(OCR):画像内のテキストを編集可能な機械可読テキストに変換する技術です。文書のデジタル化やデータ入力の自動化に役立ちます。

Link to this sectionGoogle Gemini 2.5のベンチマークと他モデルとの比較#

現在AI分野には複数のマルチモーダルモデルが存在するため、Gemini 2.5 Proがそれらとどのように比較されるかを理解することが重要です。Google DeepMindが共有したベンチマーク結果に基づくと、Gemini 2.5 Proは幅広いタスクで非常に優れた性能を示しています。

例えば、「Humanity’s Last Exam」と呼ばれるテストでは、多くの教科を網羅する難易度の高い試験をシミュレートし、高度な推論と一般知識を評価します。Gemini 2.5 Proは約18.8%のスコアを記録し、約14%のOpenAIのo3-miniなどのモデルを上回っています。

Gemini 2.5 Proのベンチマークパフォーマンスの概要

図2。 Gemini 2.5 Proのベンチマーク性能の概要。

また、数学やコーディングの課題でも非常に優れた性能を発揮し、OpenAI GPT-4.5、Claude 3.7 Sonnet、Grok 3 Beta、DeepSeek R1といったモデルと同等かそれ以上の性能を示し、複雑なタスクの処理と大量のデータへの対応能力を実証しています。

Link to this sectionGemini 2.5を体験する:Google Gemini APIの使い方#

Gemini 2.5 Proは複数のプラットフォームで利用可能です。Google AI Studioで試用できるほか、Gemini AdvancedユーザーであればGeminiアプリを通じてアクセスできます。Google DeepMindは発表の中で、このモデルが近日中にVertex AIでもサポートされる予定であると述べています。これらのアクセスポイントにより、開発者はGemini 2.5 Proを実世界のAIアプリケーションに容易に組み込めます。

しかし、Google Gemini APIを使用して複雑な設定なしで数分以内に開始したい場合や、そのコンピュータビジョン機能をより深く理解したい場合は、Ultralyticsノートブックをチェックすることをお勧めします。このノートブックでは、Gemini 2.5 Proを使用した物体検出や画像キャプション生成などのタスクを紹介しています。次に、このノートブックで何ができるか詳しく見ていきましょう。

Link to this sectionGoogle Gemini 2.5ノートブックを用いた推論環境の構築#

Ultralyticsノートブックを使用してGoogle Gemini 2.5を使い始めるには、まずGoogle AI Studioを通じてAPIキーを発行する必要があります。このキーによりGemini APIへのアクセス権が得られ、モデルを使用できるようになります。

APIキーを取得したら、環境に必要なライブラリがインストールされていることを確認してください。これにはUltralyticsのパッケージやGoogleのAIツールキットが含まれます。このステップはノートブック内で明確に説明されているため、指示に従って簡単にワークスペースをセットアップできます。

構成が完了したら、APIキーを入力して(以下参照)Gemini APIに接続します。これにより、ワークスペースとモデルの間にリンクが作成されます。その後は、画像やテキストのプロンプトをGemini 2.5に送信する準備が整います。

基本的に、画像と簡単な命令(「この画像内の物体を検出して」や「何が見えるか説明して」など)をモデルに提供すると、必要な結果が返されます。この直感的なプロセスにより、Gemini 2.5のコンピュータビジョン機能の探索を容易に開始できます。

Link to this sectionGoogle Gemini 2.5による物体検出#

ノートブックにおける重要な例の一つが、Gemini 2.5 Proを使用した物体検出です。この例では、画像と物体検出のための簡単なプロンプトをモデルに提供します。

モデルは画像を処理し、検出した各物体に対する座標セットとラベルを返します。これらの座標は正規化された形式で提供されます。Ultralytics Pythonパッケージの関数を使用して、これらの正規化された値を実際の画像寸法に合わせて変換し、以下のように各オブジェクトの周囲に鮮明なバウンディングボックスを描画します。

Google Gemini 2.5を使用した物体検出

図3。Google Gemini 2.5を用いた物体検出。

Link to this sectionGemini 2.5を用いた画像キャプション生成#

ノートブックのもう一つの興味深い例は、Gemini 2.5 Proを用いた画像キャプション生成です。この例では、画像と、その画像の内容を詳しく説明するキャプションの生成を求めるプロンプトをモデルに与えます。

モデルは視覚的内容を分析し、内容と文脈を捉えた説明文(多くの場合、複数の文で構成される)を返します。この機能は、アクセシビリティの向上や視覚情報の要約、さらにはクリエイティブなストーリーテリングの強化にも役立ちます。

Link to this sectionGoogle GeminiモデルによるOCR精度の向上#

Gemini 2.5 Proの「画像内のテキストを読む能力」を活用したコンピュータビジョンタスクがOCRです。ノートブックでは、テキストを含む画像と、そのテキストを抽出するプロンプトをモデルに提供します。モデルは画像を処理し、検出されたテキストと、そのテキストが配置されている座標を返します(以下参照)。

Ultralytics Pythonパッケージの関数を用いて、これらの正規化された座標を実際の画像寸法に変換し、テキスト領域の周囲にバウンディングボックスを描画します。この注釈付きの出力により、テキストの場所が明確になり、文書のデジタル化、データ入力の自動化、アクセシビリティの向上に役立ちます。

Google Gemini 2.5を使用して画像内のテキストデータを抽出する

図4。Google Gemini 2.5を使用して画像内のテキストデータを抽出する様子。

Link to this sectionGoogle Gemini 2.5の実世界のアプリケーション#

Google Gemini 2.5 Proを様々なコンピュータビジョンタスクに活用する方法を確認したところで、これらの機能が役立ついくつかの実世界のアプリケーションを探ってみましょう。

例えば、Gemini 2.5 Proの物体検出機能は、膨大な画像セットの自動ラベリングや整理に役立ち、データセットの作成やコンテンツ管理のタスクを大幅に効率化できます。また、小売業や農業分野での画像分析、例えば棚の製品検出や、農場写真における作物のストレス検知などにも応用できます。

植物の健康状態を分析するGemini 2.5 Pro

図5。Gemini 2.5 Proが植物の健康状態を分析する様子。

一方で、このモデルの画像キャプション生成機能は、視覚障害を持つユーザーが画像の内容を理解する手助けとなります。例えば、混雑した通りの写真がある場合、モデルは車両の種類、歩行者の活動状況、照明のヒントに基づく時間帯など、詳細を説明するキャプションを生成する可能性があります。

さらに、Gemini 2.5のOCR機能は多様なアプリケーションで使用できます。例えば、ページや領収書をスキャンすることで印刷文書をデジタル化できます。この機能は、データ入力タスクの自動化やフォーム処理、名刺や看板からのテキスト読み取りに最適です。

全体として、Google Gemini 2.5 Proは幅広い実用的なAIアプリケーションへの扉を開きます。

Link to this section重要なポイント#

Google Gemini 2.5 Proは、テキストの生成や分析を超えて、物体検出、画像キャプション生成、OCRといったコンピュータビジョンタスクに活用できます。巨大なコンテキストウィンドウと強化された推論能力により、実環境のシナリオで十分に機能する詳細でコンテキストを理解した結果を生み出します。

AIモデルが進化し続ける中、Gemini 2.5 Proのようなツールは、業界全体で複雑な問題を解決することをより容易にしています。視覚的な理解から言語処理まで、幅広いタスクをこなせる柔軟でマルチモーダルなソリューションを求める組織が増えるにつれ、AIのより広範な採用が進むことになるでしょう。

私たちのコミュニティに参加し、最先端のAIプロジェクトについてGitHubリポジトリで学びましょう。農業におけるVision AIの応用例や、製造業におけるAIの役割については、ソリューションページをご覧ください。ライセンスプランを確認し、今すぐコンピュータビジョンソリューションを構築しましょう!

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう