Практическое использование Google Gemini 2.5 для задач компьютерного зрения

Абирами Вина

5 минут чтения

31 марта 2025 г.

Узнайте, как можно использовать Google Gemini 2.5 для решения задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR для решений Vision AI.

Развитие искусственного интеллекта идет быстрыми темпами, и новые инновации попадают в заголовки газет практически каждый день. Одним из таких последних прорывов стала Gemini 2.5, новейшая мультимодальная модель от Google DeepMind, представленная 26 марта. В то время как традиционные большие языковые модели (LLM) могут обучаться на огромном количестве данных, чтобы генерировать человекоподобный текст, Gemini 2.5 выходит за эти рамки. 

Он создан как "модель мышления", способная обрабатывать изображения, аудио и видео. Она обладает улучшенными навыками рассуждения и кодирования. Интересно, что он также демонстрирует отличные результаты в задачах компьютерного зрения, где машины интерпретируют и анализируют визуальные данные, таких как обнаружение объектов, создание подписей к изображениям и оптическое распознавание символов (OCR).

__wf_reserved_inherit
Рис. 1. Пример использования Gemini 2.5 для понимания содержимого изображения.

В этой статье мы рассмотрим один из ноутбуков Ultralytics, который поможет вам познакомиться с возможностями компьютерного зрения Gemini 2.5. Мы также подробно рассмотрим ключевые особенности Gemini 2.5 и покажем, как его можно использовать для создания решений в области компьютерного зрения для реальных приложений. Давайте начнем!

Обзор Gemini 2.5: особенности и возможности

Первая версия в серии моделей Gemini 2.5, которая только что была выпущена, - это экспериментальный релиз Gemini 2.5 Pro. Она предназначена для решения сложных задач, продумывая свои ответы перед тем, как дать ответ. В ней используются такие методы, как обучение с подкреплением (когда модель обучается на основе обратной связи) и подсказки в виде цепочки мыслей (пошаговый подход к решению задач).

Одна из его ключевых особенностей - огромное контекстное окно, которое вмещает 1 миллион лексем (примерно миллион слов или частей слов) и, как ожидается, вырастет до 2 миллионов. Это означает, что модель может воспринимать сразу много информации, что приводит к более детальным и точным результатам.

Помимо языка обработки, Gemini 2.5 можно использовать для решения следующих задач компьютерного зрения:

  • Обнаружение объекта: Это процесс идентификации и определения местоположения объектов на изображении. Он может использоваться в таких приложениях, как видеонаблюдение или самоуправляемые автомобили.
  • Создание подписей к изображениям: Эта задача включает в себя создание описательного текста для изображения. Это делает визуальный контент более доступным и легким для понимания.
  • Оптическое распознавание символов: Эта технология преобразует текст, содержащийся на изображениях, в редактируемый, машиночитаемый текст. Она полезна для оцифровки документов и автоматизации ввода данных.

Бенчмаркинг и сравнение Google Gemini 2.5 с другими моделями

На сегодняшний день в сфере ИИ существует несколько мультимодальных моделей, поэтому важно понять, как Gemini 2.5 Pro сопоставляется с ними. По результатам бенчмарков, проведенных DeepMind компании Google, Gemini 2.5 Pro демонстрирует впечатляющую производительность в ряде задач. 

Например, в тесте под названием Humanity's Last Exam, который имитирует сложный экзамен по многим предметам и проверяет развитое мышление и общие знания, Gemini 2.5 Pro набрал около 18,8 %, опередив такие модели, как o3-mini от OpenAI, набравшую около 14 %. 

__wf_reserved_inherit
Рис. 2. Обзор производительности Gemini 2.5 Pro в бенчмарках.

Он также отлично справляется с задачами по математике и кодированию, часто соответствуя или превосходя по производительности такие модели, как OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta и DeepSeek R1, демонстрируя свою способность справляться со сложными задачами и обрабатывать большие объемы данных.

Практическая работа с Gemini 2.5: как использовать API Google Gemini

Gemini 2.5 Pro доступен на нескольких платформах. Вы можете экспериментировать с ней в Google AI Studio и получить доступ к ней через приложение Gemini для пользователей Gemini Advanced. В своем объявлении о запуске Google DeepMind также упомянула, что в скором времени модель будет поддерживаться в Vertex AI. Благодаря этим точкам доступа разработчики могут легко использовать Gemini 2.5 Pro для реальных приложений ИИ. 

Однако если вы хотите использовать API Google Gemini и приступить к работе всего за несколько минут без сложной настройки и хотите лучше понять возможности его компьютерного зрения, вы можете ознакомиться с блокнотом Ultralytics, в котором показаны такие задачи, как обнаружение объектов и создание подписей к изображениям с помощью Gemini 2.5 Pro. Давайте подробно рассмотрим, что вас ожидает в этом блокноте.

Настройка конференц-связи с ноутбуком Google Gemini 2.5

Чтобы начать работу с блокнотом Ultralytics и использовать Google Gemini 2.5, вам сначала нужно сгенерировать ключ API через Google AI Studio. Этот ключ дает вам доступ к API Gemini, чтобы вы могли использовать модель.

Получив API-ключ, убедитесь, что в вашей среде установлены необходимые библиотеки - это пакеты от Ultralytics и инструментарий Google AI. Этот шаг четко описан в блокноте, поэтому вы сможете легко следовать инструкциям по настройке рабочего пространства.

Когда все настроено, вы можете подключиться к API Gemini, введя свой API-ключ (как показано ниже), который создаст связь между вашей рабочей областью и моделью. После этого вы будете готовы отправлять изображения и текстовые подсказки в Gemini 2.5.

По сути, вы можете предоставить изображение и простую инструкцию (например, "обнаружить объекты на этом изображении" или "описать то, что вы видите") модели, и она вернет вам нужные результаты. Этот простой процесс позволяет легко начать изучать возможности компьютерного зрения Gemini 2.5.

Обнаружение объектов с помощью Google Gemini 2.5

Один из ключевых примеров в блокноте - обнаружение объектов с помощью Gemini 2.5 Pro. В этом примере вы предоставляете модели изображение и простой запрос на обнаружение объектов. 

Модель обрабатывает изображение и возвращает набор координат и меток для каждого найденного объекта; эти координаты даются в нормализованном виде. Затем используются функции из пакета Ultralytics Python для преобразования этих нормализованных значений в соответствии с реальными размерами изображения и рисования четких ограничительных рамок вокруг каждого объекта, как показано ниже.

__wf_reserved_inherit
Рис. 3. Использование Google Gemini 2.5 для обнаружения объектов.

Создание подписей к изображениям с помощью Gemini 2.5

Еще один интересный пример в блокноте - создание подписей к изображениям с помощью Gemini 2.5 Pro. В этом примере вы предоставляете модели изображение и запрос на создание подробной подписи, описывающей то, что изображено на картинке. 

Затем модель анализирует визуальный контент и выдает рассказ, часто в виде нескольких предложений, который отражает как содержание, так и контекст изображения. Эта функция полезна для улучшения доступности, обобщения визуальной информации и даже для улучшения творческого повествования.

Повышение точности OCR с помощью моделей Google Gemini

Задача компьютерного зрения, в которой используется способность Gemini 2.5 Pro читать текст на изображениях, - это OCR. В блокноте вы можете предоставить модели изображение, содержащее текст, и запрос на извлечение этого текста. Модель обрабатывает изображение и возвращает обнаруженный текст и координаты, в которых он находится, как показано ниже.

Функции из пакета Ultralytics Python используются для преобразования нормализованных координат в реальные размеры изображения и рисования ограничительных рамок вокруг текстовых областей. Этот аннотированный вывод позволяет понять, где находится текст, что полезно для оцифровки документов, автоматизации ввода данных и улучшения доступности.

__wf_reserved_inherit
Рис. 4. Извлечение текстовых данных из изображения с помощью Google Gemini 2.5.

Реальные приложения Google Gemini 2.5

Теперь, когда мы рассмотрели, как Google Gemini 2.5 Pro можно использовать для решения различных задач компьютерного зрения, давайте изучим некоторые реальные приложения, в которых можно применить эти возможности.

Например, функция обнаружения объектов в Gemini 2.5 Pro позволяет автоматически маркировать и упорядочивать большие наборы изображений, что значительно ускоряет выполнение таких задач, как создание наборов данных или управление контентом. Она также может использоваться для анализа изображений в таких областях, как розничная торговля и сельское хозяйство - например, для обнаружения товаров на полках или выявления признаков стресса на фермерских фотографиях.

__wf_reserved_inherit
Рис. 5. Gemini 2.5 Pro анализирует состояние растения.

Кроме того, функция создания подписей к изображениям может помочь пользователям с ослабленным зрением понять, что изображено на снимке. Например, если у вас есть фотография оживленной улицы, модель может создать надпись, подробно описывающую сцену, с указанием типов транспортных средств, активности пешеходов и даже времени суток на основе сигналов освещения. 

Кроме того, функция OCR в Gemini 2.5 может использоваться в различных приложениях. Например, вы можете оцифровать печатные документы, отсканировав страницы или квитанции. Эта возможность идеально подходит для автоматизации задач ввода данных, обработки форм или даже чтения текста с визитных карточек и вывесок. 

В целом, Google Gemini 2.5 Pro открывает двери для широкого спектра практических приложений ИИ.

Основные выводы

Не ограничиваясь созданием и анализом текста, Google Gemini 2.5 Pro можно использовать для задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR. Благодаря огромному контекстному окну и расширенным возможностям рассуждений он выдает подробные, учитывающие контекст результаты, которые хорошо работают в реальных сценариях. 

Поскольку модели ИИ продолжают развиваться, инструменты, подобные Gemini 2.5 Pro, упрощают решение сложных задач в различных отраслях. Вполне вероятно, что мы станем свидетелями еще более широкого внедрения ИИ, поскольку все больше организаций ищут гибкие, мультимодальные решения, способные решать широкий спектр задач, от визуального понимания до обработки языка.

Станьте частью нашего сообщества и узнайте о передовых проектах в области ИИ в нашем репозитории GitHub. Ознакомьтесь с применением ИИ в сельском хозяйстве и ролью ИИ в производстве на страницах наших решений. Изучите наши планы лицензирования и создавайте решения в области компьютерного зрения уже сегодня!

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена