Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Практическое использование Google Gemini 2.5 для задач компьютерного зрения

Абирами Вина

5 мин чтения

31 марта 2025 г.

Узнайте, как можно использовать Google Gemini 2.5 для решения задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR для решений Vision AI.

Развитие искусственного интеллекта идет быстрыми темпами, и новые инновации попадают в заголовки газет практически каждый день. Одним из таких последних прорывов стала Gemini 2.5, новейшая мультимодальная модель от Google DeepMind, представленная 26 марта. В то время как традиционные большие языковые модели (LLM) могут обучаться на огромном количестве данных, чтобы генерировать человекоподобный текст, Gemini 2.5 выходит за эти рамки. 

Она разработана как “модель мышления”, которая может обрабатывать изображения, аудио и видео. Она обладает улучшенными навыками рассуждения и кодирования. Интересно, что она также исключительно хорошо работает в отношении задач компьютерного зрения, где машины интерпретируют и анализируют визуальные данные, такие как обнаружение объектов, создание подписей к изображениям и оптическое распознавание символов (OCR).

__wf_reserved_inherit
Рис. 1. Пример использования Gemini 2.5 для понимания содержимого изображения.

В этой статье мы рассмотрим один из ноутбуков Ultralytics, который поможет вам познакомиться с возможностями компьютерного зрения Gemini 2.5. Мы также подробно рассмотрим ключевые особенности Gemini 2.5 и покажем, как его можно использовать для создания решений в области компьютерного зрения для реальных приложений. Давайте начнем!

Обзор Gemini 2.5: особенности и возможности

Первая версия в серии моделей Gemini 2.5, которая только что была выпущена, является экспериментальным выпуском Gemini 2.5 Pro. Она предназначена для решения сложных задач путем обдумывания своих ответов перед их выдачей. В ней используются такие методы, как обучение с подкреплением (когда модель учится на обратной связи) и подсказки типа chain-of-thought (пошаговый подход к решению задач).

Одной из ее ключевых особенностей является огромное контекстное окно, которое может содержать 1 миллион токенов (примерно миллион слов или частей слов) и, как ожидается, вырастет до 2 миллионов. Это означает, что модель может одновременно воспринимать большой объем информации, что приводит к более подробным и точным результатам.

Помимо обработки языка, Gemini 2.5 можно использовать для следующих задач компьютерного зрения:

  • Обнаружение объектов: Это процесс идентификации и определения местоположения объектов на изображении. Его можно использовать в таких приложениях, как наблюдение или самоуправляемые автомобили.
  • Создание подписей к изображениям: Эта задача включает в себя создание описательного текста для изображения. Это делает визуальный контент более доступным и понятным.
  • Оптическое распознавание символов: Эта технология преобразует текст, найденный на изображениях, в редактируемый, машиночитаемый текст. Это полезно для оцифровки документов и автоматизации ввода данных.

Бенчмаркинг и сравнение Google Gemini 2.5 с другими моделями

На сегодняшний день в сфере ИИ существует несколько мультимодальных моделей, поэтому важно понять, как Gemini 2.5 Pro сопоставляется с ними. По результатам бенчмарков, проведенных DeepMind Google, Gemini 2.5 Pro демонстрирует впечатляющую производительность в ряде задач. 

Например, в тесте под названием Humanity’s Last Exam, который имитирует сложный экзамен, охватывающий множество предметов и проверяющий продвинутое мышление и общие знания, Gemini 2.5 Pro набирает около 18,8%, превосходя такие модели, как o3-mini от OpenAI, которая набирает около 14%. 

__wf_reserved_inherit
Рис. 2. Обзор результатов бенчмаркинга Gemini 2.5 Pro.

Он также очень хорошо справляется с математическими задачами и задачами кодирования, часто соответствуя или превосходя производительность таких моделей, как OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta и DeepSeek R1, демонстрируя свою способность справляться со сложными задачами и обрабатывать большие объемы данных.

Практическая работа с Gemini 2.5: как использовать API Google Gemini

Gemini 2.5 Pro доступен на нескольких платформах. Вы можете экспериментировать с ней в Google AI Studio и получить доступ к ней через приложение Gemini для пользователей Gemini Advanced. В своем объявлении о запуске Google DeepMind также упомянул, что в скором времени модель будет поддерживаться в Vertex AI. Благодаря этим точкам доступа разработчики могут легко использовать Gemini 2.5 Pro для реальных приложений ИИ. 

Однако если вы хотите использовать API Google Gemini и приступить к работе всего за несколько минут без сложной настройки и хотите лучше понять возможности его компьютерного зрения, вы можете ознакомиться с блокнотомUltralytics , в котором показаны такие задачи, как обнаружение объектов и создание подписей к изображениям с помощью Gemini 2.5 Pro. Давайте подробно рассмотрим, что вас ожидает в этом блокноте.

Настройка конференц-связи с ноутбуком Google Gemini 2.5

Чтобы начать работу с блокнотом Ultralytics и использовать Google Gemini 2.5, вам сначала нужно сгенерировать ключ API через Google AI Studio. Этот ключ дает вам доступ к API Gemini, чтобы вы могли использовать модель.

Получив ключ API, убедитесь, что в вашем окружении установлены необходимые библиотеки - это пакеты от Ultralytics и инструментарий искусственного интеллекта Google. Этот шаг четко описан в блокноте, поэтому вы сможете легко следовать инструкциям по настройке рабочего пространства.

После настройки всего необходимого вы можете подключиться к Gemini API, введя свой API-ключ (как показано ниже), что создаст связь между вашей рабочей средой и моделью. После этого вы будете готовы отправлять изображения и текстовые запросы в Gemini 2.5.

По сути, вы можете предоставить изображение и простую инструкцию (например, "detect объекты на этом изображении" или "описать то, что вы видите") модели, и она вернет вам нужные результаты. Этот простой процесс позволяет легко начать изучать возможности компьютерного зрения Gemini 2.5.

Обнаружение объектов с помощью Google Gemini 2.5

Один из ключевых примеров в блокноте - обнаружение объектов с помощью Gemini 2.5 Pro. В этом примере вы предоставляете модели изображение и простой запрос на detect объектов. 

Модель обрабатывает изображение и возвращает набор координат и меток для каждого найденного объекта; эти координаты задаются в нормализованном виде. Затем используются функции из пакетаUltralytics Python для преобразования этих нормализованных значений в соответствии с реальными размерами изображения и рисования четких ограничительных рамок вокруг каждого объекта, как показано ниже.

__wf_reserved_inherit
Рис. 3. Использование Google Gemini 2.5 для обнаружения объектов.

Создание подписей к изображениям с помощью Gemini 2.5

Другим интересным примером в блокноте является создание подписей к изображениям с использованием Gemini 2.5 Pro. В этом примере вы предоставляете модели изображение и запрос с просьбой сгенерировать подробную подпись, описывающую содержимое изображения. 

Затем модель анализирует визуальное содержимое и возвращает описание, часто в виде нескольких предложений, которое отражает как содержание, так и контекст изображения. Эта функция полезна для улучшения доступности, обобщения визуальной информации и даже для улучшения творческого повествования.

Повышение точности OCR с помощью моделей Google Gemini

Задача компьютерного зрения, в которой используется способность Gemini 2.5 Pro читать текст на изображениях, — это OCR (оптическое распознавание символов). В блокноте вы можете предоставить модели изображение, содержащее текст, вместе с запросом на извлечение этого текста. Модель обрабатывает изображение и возвращает как обнаруженный текст, так и координаты, где расположен текст, как показано ниже.

Функции из пакета Ultralytics Python используются для преобразования нормализованных координат в реальные размеры изображения и рисования ограничительных рамок вокруг текстовых областей. Этот аннотированный вывод позволяет понять, где находится текст, что полезно для оцифровки документов, автоматизации ввода данных и улучшения доступности.

__wf_reserved_inherit
Рис. 4. Извлечение текстовых данных из изображения с помощью Google Gemini 2.5.

Реальные приложения Google Gemini 2.5

Теперь, когда мы рассмотрели, как Google Gemini 2.5 Pro можно использовать для решения различных задач компьютерного зрения, давайте изучим некоторые реальные приложения, в которых можно применить эти возможности.

Например, возможность обнаружения объектов Gemini 2.5 Pro может помочь автоматически маркировать и систематизировать большие наборы изображений, что значительно ускоряет такие задачи, как создание наборов данных или управление контентом. Его также можно использовать для анализа изображений в таких областях, как розничная торговля и сельское хозяйство — например, для обнаружения товаров на полках или выявления признаков стресса растений на фотографиях ферм.

__wf_reserved_inherit
Рис. 5. Gemini 2.5 Pro анализирует состояние здоровья растения.

Между тем, функция создания подписей к изображениям может помочь пользователям с нарушениями зрения понять, что изображено на картинке. Например, если у вас есть фотография оживленной улицы, модель может создать подпись, подробно описывающую сцену, упоминая типы транспортных средств, активность пешеходов и даже время суток на основе световых сигналов. 

В дополнение к этому, функциональность OCR Gemini 2.5 может использоваться в различных приложениях. Например, вы можете оцифровывать печатные документы, сканируя страницы или квитанции. Эта возможность идеально подходит для автоматизации задач ввода данных, обработки форм или даже чтения текста с визитных карточек и вывесок. 

В целом, Google Gemini 2.5 Pro открывает двери для широкого спектра практических приложений ИИ.

Основные выводы

Не ограничиваясь созданием и анализом текста, Google Gemini 2.5 Pro можно использовать для задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR. Благодаря огромному контекстному окну и расширенным возможностям рассуждений он выдает подробные, учитывающие контекст результаты, которые хорошо работают в реальных сценариях. 

По мере развития моделей ИИ такие инструменты, как Gemini 2.5 Pro, облегчают решение сложных задач в различных отраслях. Вполне вероятно, что мы увидим еще более широкое внедрение ИИ, поскольку все больше организаций ищут гибкие, мультимодальные решения, которые могут справиться с широким спектром задач, от визуального понимания до обработки языка.

Станьте частью нашего сообщества и узнавайте о передовых проектах в области ИИ в нашем репозитории GitHub. Ознакомьтесь с применением Vision AI в сельском хозяйстве и ролью ИИ в производстве на страницах наших решений. Изучите наши тарифные планы и начните создавать решения для компьютерного зрения уже сегодня!

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно