Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Настройки cookie
Нажимая “Принять все файлы cookie”, вы соглашаетесь на сохранение файлов cookie на вашем устройстве с целью улучшения навигации по сайту, анализа использования сайта и помощи в наших маркетинговых усилиях. Подробнее
Узнайте, как можно практически использовать Google Gemini 2.5 для задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR, для решений в области Vision AI.
Развитие ИИ происходит стремительно, и новые инновации появляются почти каждый день. Одним из таких недавних прорывов является Gemini 2.5, новейшая мультимодальная модель от Google DeepMind, запущенная 26 марта. В то время как традиционные большие языковые модели (LLM) могут обучаться на огромных объемах данных для генерации текста, похожего на человеческий, Gemini 2.5 идет дальше.
Она разработана как “модель мышления”, которая может обрабатывать изображения, аудио и видео. Она обладает улучшенными навыками рассуждения и кодирования. Интересно, что она также исключительно хорошо работает в отношении задач компьютерного зрения, где машины интерпретируют и анализируют визуальные данные, такие как обнаружение объектов, создание подписей к изображениям и оптическое распознавание символов (OCR).
Рис. 1. Пример использования Gemini 2.5 для понимания содержимого изображения.
В этой статье мы рассмотрим один из блокнотов Ultralytics, который поможет вам практически ознакомиться с возможностями компьютерного зрения Gemini 2.5. Мы также внимательнее рассмотрим ключевые особенности Gemini 2.5 и покажем, как его можно использовать для создания решений компьютерного зрения для реальных приложений. Давайте начнем!
Обзор Gemini 2.5: особенности и возможности
Первая версия в серии моделей Gemini 2.5, которая только что была выпущена, является экспериментальным выпуском Gemini 2.5 Pro. Она предназначена для решения сложных задач путем обдумывания своих ответов перед их выдачей. В ней используются такие методы, как обучение с подкреплением (когда модель учится на обратной связи) и подсказки типа chain-of-thought (пошаговый подход к решению задач).
Одной из ее ключевых особенностей является огромное контекстное окно, которое может содержать 1 миллион токенов (примерно миллион слов или частей слов) и, как ожидается, вырастет до 2 миллионов. Это означает, что модель может одновременно воспринимать большой объем информации, что приводит к более подробным и точным результатам.
Помимо обработки языка, Gemini 2.5 можно использовать для следующих задач компьютерного зрения:
Обнаружение объектов: Это процесс идентификации и определения местоположения объектов на изображении. Его можно использовать в таких приложениях, как наблюдение или самоуправляемые автомобили.
Создание подписей к изображениям: Эта задача включает в себя создание описательного текста для изображения. Это делает визуальный контент более доступным и понятным.
Оптическое распознавание символов: Эта технология преобразует текст, найденный на изображениях, в редактируемый, машиночитаемый текст. Это полезно для оцифровки документов и автоматизации ввода данных.
Бенчмаркинг и сравнение Google Gemini 2.5 с другими моделями
Сегодня в сфере ИИ доступно несколько мультимодальных моделей, поэтому важно понимать, как Gemini 2.5 Pro сопоставляется с ними. Основываясь на результатах бенчмаркинга, предоставленных Google DeepMind, Gemini 2.5 Pro демонстрирует впечатляющую производительность в широком спектре задач.
Например, в тесте под названием Humanity’s Last Exam, который имитирует сложный экзамен, охватывающий множество предметов и проверяющий продвинутое мышление и общие знания, Gemini 2.5 Pro набирает около 18,8%, превосходя такие модели, как o3-mini от OpenAI, которая набирает около 14%.
Рис. 2. Обзор результатов бенчмаркинга Gemini 2.5 Pro.
Он также очень хорошо справляется с математическими задачами и задачами кодирования, часто соответствуя или превосходя производительность таких моделей, как OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta и DeepSeek R1, демонстрируя свою способность справляться со сложными задачами и обрабатывать большие объемы данных.
Практическое применение Gemini 2.5: Как использовать Google Gemini API
Gemini 2.5 Pro доступен на нескольких платформах. Вы можете экспериментировать с ним в Google AI Studio и получить к нему доступ через приложение Gemini для пользователей Gemini Advanced. В своем анонсе запуска Google DeepMind также упомянула, что модель скоро будет поддерживаться в Vertex AI. Эти точки доступа позволяют разработчикам легко использовать Gemini 2.5 Pro для реальных приложений ИИ.
Однако, если вы хотите использовать Google Gemini API и начать работу всего за несколько минут без сложной настройки и стремитесь лучше понять его возможности компьютерного зрения, вы можете ознакомиться с блокнотом Ultralytics, в котором демонстрируются такие задачи, как обнаружение объектов и создание подписей к изображениям с использованием Gemini 2.5 Pro. Давайте подробно рассмотрим, что вас ждет в блокноте.
Настройка логического вывода с помощью блокнота Google Gemini 2.5
Чтобы начать работу с блокнотом Ultralytics и использовать Google Gemini 2.5, вам сначала потребуется сгенерировать API-ключ через Google AI Studio. Этот ключ предоставляет вам доступ к Gemini API, чтобы вы могли использовать модель.
Получив API-ключ, убедитесь, что в вашей среде установлены необходимые библиотеки, включая пакеты от Ultralytics и набор инструментов Google AI. Этот шаг четко описан в блокноте, поэтому вы можете легко следовать инструкциям по настройке рабочей среды.
После настройки всего необходимого вы можете подключиться к Gemini API, введя свой API-ключ (как показано ниже), что создаст связь между вашей рабочей средой и моделью. После этого вы будете готовы отправлять изображения и текстовые запросы в Gemini 2.5.
По сути, вы можете предоставить изображение и простую инструкцию (например, «обнаружить объекты на этом изображении» или «описать, что вы видите») модели, и она вернет необходимые вам результаты. Этот простой процесс позволяет легко начать изучение возможностей компьютерного зрения Gemini 2.5.
Обнаружение объектов с помощью Google Gemini 2.5
Одним из ключевых примеров в блокноте является обнаружение объектов с использованием Gemini 2.5 Pro. В этом примере вы предоставляете модели изображение и простой запрос на обнаружение объектов.
Модель обрабатывает изображение и возвращает набор координат и меток для каждого найденного объекта; эти координаты представлены в нормализованной форме. Функции из Python-пакета Ultralytics затем используются для преобразования этих нормализованных значений в соответствие с фактическими размерами изображения и для отрисовки четких ограничивающих рамок вокруг каждого объекта, как показано ниже.
Рис. 3. Использование Google Gemini 2.5 для обнаружения объектов.
Создание подписей к изображениям с помощью Gemini 2.5
Другим интересным примером в блокноте является создание подписей к изображениям с использованием Gemini 2.5 Pro. В этом примере вы предоставляете модели изображение и запрос с просьбой сгенерировать подробную подпись, описывающую содержимое изображения.
Затем модель анализирует визуальное содержимое и возвращает описание, часто в виде нескольких предложений, которое отражает как содержание, так и контекст изображения. Эта функция полезна для улучшения доступности, обобщения визуальной информации и даже для улучшения творческого повествования.
Повышение точности OCR с помощью моделей Google Gemini
Задача компьютерного зрения, в которой используется способность Gemini 2.5 Pro читать текст на изображениях, — это OCR (оптическое распознавание символов). В блокноте вы можете предоставить модели изображение, содержащее текст, вместе с запросом на извлечение этого текста. Модель обрабатывает изображение и возвращает как обнаруженный текст, так и координаты, где расположен текст, как показано ниже.
Функции из Python-пакета Ultralytics затем используются для преобразования этих нормализованных координат в фактические размеры изображения и для отрисовки ограничивающих рамок вокруг текстовых областей. Этот аннотированный вывод дает четкое представление о том, где расположен текст, что полезно для оцифровки документов, автоматизации ввода данных и повышения доступности.
Рис. 4. Извлечение текстовых данных из изображения с помощью Google Gemini 2.5.
Реальные применения Google Gemini 2.5
Теперь, когда мы рассмотрели, как Google Gemini 2.5 Pro можно использовать для различных задач компьютерного зрения, давайте рассмотрим некоторые реальные приложения, где можно использовать эти возможности.
Например, возможность обнаружения объектов Gemini 2.5 Pro может помочь автоматически маркировать и систематизировать большие наборы изображений, что значительно ускоряет такие задачи, как создание наборов данных или управление контентом. Его также можно использовать для анализа изображений в таких областях, как розничная торговля и сельское хозяйство — например, для обнаружения товаров на полках или выявления признаков стресса растений на фотографиях ферм.
Рис. 5. Gemini 2.5 Pro анализирует состояние здоровья растения.
Между тем, функция создания подписей к изображениям может помочь пользователям с нарушениями зрения понять, что изображено на картинке. Например, если у вас есть фотография оживленной улицы, модель может создать подпись, подробно описывающую сцену, упоминая типы транспортных средств, активность пешеходов и даже время суток на основе световых сигналов.
В дополнение к этому, функциональность OCR Gemini 2.5 может использоваться в различных приложениях. Например, вы можете оцифровывать печатные документы, сканируя страницы или квитанции. Эта возможность идеально подходит для автоматизации задач ввода данных, обработки форм или даже чтения текста с визитных карточек и вывесок.
В целом, Google Gemini 2.5 Pro открывает двери для широкого спектра практических приложений ИИ.
Основные выводы
Помимо создания и анализа текста, Google Gemini 2.5 Pro можно использовать для задач компьютерного зрения, таких как обнаружение объектов, создание подписей к изображениям и OCR. Благодаря огромному контекстному окну и расширенным возможностям рассуждения он выдает подробные, контекстно-зависимые результаты, которые хорошо работают в реальных сценариях.
По мере развития моделей ИИ такие инструменты, как Gemini 2.5 Pro, облегчают решение сложных задач в различных отраслях. Вполне вероятно, что мы увидим еще более широкое внедрение ИИ, поскольку все больше организаций ищут гибкие, мультимодальные решения, которые могут справиться с широким спектром задач, от визуального понимания до обработки языка.