Vision AI

Начни работать с Google Gemini 2.5 для задач компьютерного зрения

Узнай, как начать работу с Google Gemini 2.5 для задач компьютерного зрения, таких как обнаружение объектов, создание описаний изображений и распознавание текста (OCR) для решений Vision AI.

АБАбирами Вина

5 min readMarch 31, 2025

Использование Google Gemini 2.5 для задач компьютерного зрения

Технологии ИИ развиваются стремительно, и новые инновации попадают в заголовки почти каждый день. Один из таких недавних прорывов — Gemini 2.5, новейшая мультимодальная модель от Google DeepMind, представленная 26 марта. В то время как традиционные большие языковые модели (LLM) могут учиться на огромных объемах данных для генерации текста, похожего на человеческий, Gemini 2.5 идет дальше.

Она разработана как «мыслящая модель», способная обрабатывать изображения, аудио и видео. У нее улучшенные навыки рассуждения и написания кода. Интересно, что она также исключительно хорошо справляется с задачами компьютерного зрения, где машины интерпретируют и анализируют визуальные данные, такие как обнаружение объектов, описание изображений и оптическое распознавание символов (OCR).

Использование Gemini 2.5 для распознавания содержимого изображения

Рис. 1. Пример использования Gemini 2.5 для понимания содержимого изображения.

В этой статье мы разберем один из ноутбуков Ultralytics, который поможет тебе начать работать с возможностями компьютерного зрения Gemini 2.5. Мы также подробнее рассмотрим ключевые особенности Gemini 2.5 и покажем, как ее можно использовать для создания решений в области компьютерного зрения для реальных приложений. Давай приступим!

Link to this sectionОбзор Gemini 2.5: возможности и функции#

Первая версия в серии моделей Gemini 2.5, которая была только что выпущена — это экспериментальный релиз Gemini 2.5 Pro. Она разработана для решения сложных задач путем обдумывания своих ответов перед их выдачей. Она использует такие методы, как обучение с подкреплением (где модель учится на обратной связи) и цепочка рассуждений (пошаговый подход к решению задач).

Одной из ее ключевых особенностей является огромное контекстное окно, которое может вместить 1 миллион токенов (примерно миллион слов или их частей) и, как ожидается, вырастет до 2 миллионов. Это означает, что модель может воспринимать много информации сразу, что приводит к более детальным и точным результатам.

Помимо обработки языка, Gemini 2.5 можно использовать для следующих задач компьютерного зрения:

Обнаружение объектов: это процесс идентификации и определения местоположения объектов внутри изображения. Его можно использовать в таких приложениях, как наблюдение или беспилотные автомобили.
Описание изображений: эта задача включает в себя генерацию описательного текста для изображения. Это делает визуальный контент более доступным и понятным.
Оптическое распознавание символов: эта технология преобразует текст, найденный на изображениях, в редактируемый, машиночитаемый текст. Это полезно для оцифровки документов и автоматизации ввода данных.

Link to this sectionТестирование и сравнение Google Gemini 2.5 с другими моделями#

Сегодня в сфере ИИ существует несколько мультимодальных моделей, поэтому важно понимать, как Gemini 2.5 Pro соотносится с ними. Основываясь на результатах тестирования, представленных Google DeepMind, Gemini 2.5 Pro демонстрирует впечатляющую производительность в ряде задач.

Например, в тесте под названием Humanity’s Last Exam, который имитирует сложный экзамен, охватывающий множество дисциплин и проверяющий продвинутые рассуждения и общие знания, Gemini 2.5 Pro набирает около 18,8%, превосходя модели, такие как o3-mini от OpenAI, которая набирает около 14%.

Обзор производительности Gemini 2.5 Pro в тестах

Рис. 2. Обзор производительности Gemini 2.5 Pro в тестах.

Она также очень хорошо справляется с математическими и кодинговыми задачами, часто соответствуя или превосходя производительность таких моделей, как OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta и DeepSeek R1, что демонстрирует ее способность справляться со сложными задачами и обрабатывать большие объемы данных.

Link to this sectionНачинаем работу с Gemini 2.5: как использовать Google Gemini API#

Gemini 2.5 Pro доступна на нескольких платформах. Ты можешь экспериментировать с ней в Google AI Studio и получить доступ через приложение Gemini для пользователей Gemini Advanced. В анонсе запуска Google DeepMind также упомянули, что модель скоро будет поддерживаться на Vertex AI. Эти точки доступа облегчают разработчикам использование Gemini 2.5 Pro для реальных ИИ-приложений.

Однако, если ты хочешь использовать Google Gemini API и начать работу всего за несколько минут без сложной настройки, а также хочешь лучше понять ее возможности в компьютерном зрении, ты можешь ознакомиться с ноутбуком Ultralytics, в котором продемонстрированы такие задачи, как обнаружение объектов и описание изображений с использованием Gemini 2.5 Pro. Давай подробно разберем, что тебя ждет в этом ноутбуке.

Link to this sectionНастройка логического вывода с помощью ноутбука Google Gemini 2.5#

Чтобы начать работу с ноутбуком Ultralytics и использовать Google Gemini 2.5, тебе сначала нужно сгенерировать API-ключ через Google AI Studio. Этот ключ дает тебе доступ к Gemini API, чтобы ты мог использовать модель.

Как только у тебя будет API-ключ, убедись, что в твоем окружении установлены необходимые библиотеки — они включают пакеты от Ultralytics и инструментарий Google AI. Этот шаг четко описан в ноутбуке, поэтому ты легко сможешь следовать инструкциям для настройки своей рабочей среды.

После настройки всего необходимого ты сможешь подключиться к Gemini API, введя свой API-ключ (как показано ниже), что создаст связь между твоей рабочей средой и моделью. После этого ты будешь готов отправлять изображения и текстовые запросы в Gemini 2.5.

По сути, ты можешь предоставить изображение и простую инструкцию (например, «найди объекты на этом изображении» или «опиши то, что ты видишь») модели, и она вернет тебе нужные результаты. Этот простой процесс позволяет легко начать изучение возможностей компьютерного зрения в Gemini 2.5.

Link to this sectionОбнаружение объектов с Google Gemini 2.5#

Один из ключевых примеров в ноутбуке — обнаружение объектов с помощью Gemini 2.5 Pro. В этом примере ты предоставляешь модели изображение и простой запрос для обнаружения объектов.

Модель обрабатывает изображение и возвращает набор координат и меток для каждого найденного объекта; эти координаты даны в нормализованной форме. Затем используются функции из пакета Ultralytics Python для преобразования этих нормализованных значений в соответствии с фактическими размерами изображения и отрисовки четких ограничивающих рамок вокруг каждого объекта, как показано ниже.

Использование Google Gemini 2.5 для детекции объектов

Рис. 3. Использование Google Gemini 2.5 для обнаружения объектов.

Link to this sectionОписание изображений с помощью Gemini 2.5#

Еще один интересный пример в ноутбуке — описание изображений с помощью Gemini 2.5 Pro. В этом примере ты предоставляешь модели изображение и запрос, просящий сгенерировать детальное описание того, что изображено на картинке.

Затем модель анализирует визуальный контент и возвращает повествование, часто отформатированное как несколько предложений, которое отражает как содержание, так и контекст изображения. Эта функция полезна для улучшения доступности, обобщения визуальной информации и даже улучшения творческого повествования.

Link to this sectionПовышение точности OCR с помощью моделей Google Gemini#

Задача компьютерного зрения, которая использует способность Gemini 2.5 Pro читать текст на изображениях, — это OCR. В ноутбуке ты можешь предоставить модели изображение, содержащее текст, вместе с запросом на извлечение этого текста. Модель обрабатывает изображение и возвращает как обнаруженный текст, так и координаты, где этот текст находится, как показано ниже.

Функции из пакета Ultralytics Python затем используются для преобразования этих нормализованных координат в фактические размеры изображения и отрисовки ограничивающих рамок вокруг областей с текстом. Этот аннотированный вывод четко показывает, где расположен текст, что полезно для оцифровки документов, автоматизации ввода данных и повышения доступности.

Извлечение текстовых данных из изображения с помощью Google Gemini 2.5

Рис. 4. Извлечение текстовых данных на изображении с использованием Google Gemini 2.5.

Link to this sectionРеальные применения Google Gemini 2.5#

Теперь, когда мы разобрали, как Google Gemini 2.5 Pro может быть использована для различных задач компьютерного зрения, давай изучим некоторые реальные приложения, где можно применить эти возможности.

Например, способность Gemini 2.5 Pro обнаруживать объекты может помочь автоматически маркировать и организовывать большие наборы изображений, делая такие задачи, как создание датасетов или управление контентом, намного быстрее. Ее также можно использовать для анализа изображений в таких областях, как розничная торговля и сельское хозяйство — например, обнаружение товаров на полках или выявление признаков стресса у сельскохозяйственных культур на фотографиях ферм.

Gemini 2.5 Pro анализирует состояние растения

Рис. 5. Gemini 2.5 Pro анализирует состояние растения.

Тем временем, функция описания изображений в модели может помочь пользователям с нарушениями зрения понять, что изображено на картинке. Например, если у тебя есть фотография оживленной улицы, модель может создать описание, которое детально описывает сцену, упоминая типы транспортных средств, активность пешеходов и даже время суток, основываясь на признаках освещения.

В дополнение к этому, функциональность OCR в Gemini 2.5 может быть использована в самых разных приложениях. Например, ты можешь оцифровывать печатные документы путем сканирования страниц или квитанций. Эта возможность идеально подходит для автоматизации задач ввода данных, обработки форм или даже чтения текста с визитных карточек и вывесок.

В целом, Google Gemini 2.5 Pro открывает двери для широкого спектра практических ИИ-приложений.

Link to this sectionОсновные выводы#

Выходя за рамки простого создания и анализа текста, Google Gemini 2.5 Pro может использоваться для задач компьютерного зрения, таких как обнаружение объектов, описание изображений и OCR. Благодаря своему массивному контекстному окну и улучшенным возможностям рассуждения, она выдает детальные, контекстно-зависимые результаты, которые хорошо работают в реальных сценариях.

По мере того как модели ИИ продолжают развиваться, такие инструменты, как Gemini 2.5 Pro, облегчают решение сложных проблем в различных отраслях. Вероятно, мы увидим еще более широкое внедрение ИИ, поскольку все больше организаций ищут гибкие, мультимодальные решения, способные справляться с широким кругом задач, от визуального понимания до обработки языка.

Стань частью нашего сообщества и узнавай о передовых ИИ-проектах в нашем репозитории на GitHub. Посмотри на приложения Vision AI в сельском хозяйстве и роль ИИ в производстве на наших страницах с решениями. Изучи наши планы лицензирования и начни создавать решения компьютерного зрения уже сегодня!

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Начни работать с Google Gemini 2.5 для задач компьютерного зрения

Link to this sectionОбзор Gemini 2.5: возможности и функции#

Link to this sectionТестирование и сравнение Google Gemini 2.5 с другими моделями#

Link to this sectionНачинаем работу с Gemini 2.5: как использовать Google Gemini API#

Link to this sectionНастройка логического вывода с помощью ноутбука Google Gemini 2.5#

Link to this sectionОбнаружение объектов с Google Gemini 2.5#

Link to this sectionОписание изображений с помощью Gemini 2.5#

Link to this sectionПовышение точности OCR с помощью моделей Google Gemini#

Link to this sectionРеальные применения Google Gemini 2.5#

Link to this sectionОсновные выводы#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!