Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Configuración de cookies
Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Descubre cómo puedes ponerte manos a la obra con Google Gemini 2.5 para tareas de visión por ordenador como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres para soluciones de IA de visión.
Los avances de la IA avanzan a gran velocidad y casi todos los días aparecen nuevas innovaciones en los titulares. Una de ellas es Gemini 2.5, el último modelo multimodal de Google DeepMind, lanzado el 26 de marzo. Mientras que los grandes modelos lingüísticos (LLM) tradicionales pueden aprender de cantidades masivas de datos para generar texto similar al humano, Gemini 2.5 va más allá.
Está diseñado como un "modelo de pensamiento" que puede procesar imágenes, audio y vídeo. Posee capacidades de razonamiento y codificación mejoradas. Curiosamente, también rinde excepcionalmente bien en tareas de visión por ordenador, en las que las máquinas interpretan y analizan datos visuales, como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres (OCR).
Fig. 1. Ejemplo de utilización de Gemini 2.5 para comprender el contenido de una imagen.
En este artículo, le mostraremos uno de los cuadernos de Ultralytics que puede ayudarle a familiarizarse con las capacidades de visión por ordenador de Gemini 2.5. También analizaremos las principales características de Gemini 2.5 y mostraremos cómo se puede utilizar para crear soluciones de visión por ordenador para aplicaciones del mundo real. Pongámonos manos a la obra.
Gemini 2.5: características y funciones
La primera versión de la serie de modelos Gemini 2.5 que acaba de salir al mercado es una versión experimental de Gemini 2.5 Pro. Está diseñado para resolver problemas complejos pensando las respuestas antes de darlas. Utiliza métodos como el aprendizaje por refuerzo (en el que el modelo aprende de la retroalimentación) y la cadena de pensamiento (un enfoque paso a paso para resolver problemas).
Una de sus principales características es su enorme ventana contextual, que puede contener un millón de tokens (aproximadamente un millón de palabras o partes de palabras) y se espera que crezca hasta los dos millones. Esto significa que el modelo puede asimilar mucha información a la vez, lo que permite obtener resultados más detallados y precisos.
Además del procesamiento de lenguaje, Gemini 2.5 puede utilizarse para las siguientes tareas de visión por ordenador:
Detección de objetos: Es el proceso de identificar y localizar objetos dentro de una imagen. Puede utilizarse en aplicaciones como la vigilancia o los coches autoconducidos.
Subtitulado de imágenes: Esta tarea consiste en generar un texto descriptivo para una imagen. Hace que el contenido visual sea más accesible y fácil de entender.
Reconocimiento óptico de caracteres: Esta tecnología convierte el texto de las imágenes en texto editable y legible por máquina. Es útil para digitalizar documentos y automatizar la introducción de datos.
Benchmarking y comparación de Google Gemini 2.5 con otros modelos
Hoy en día existen varios modelos multimodales en el ámbito de la IA, por lo que es importante saber cómo se compara Gemini 2.5 Pro con ellos. Según los resultados de las pruebas comparativas compartidas por DeepMind de Google, Gemini 2.5 Pro muestra un rendimiento impresionante en una serie de tareas.
Por ejemplo, en una prueba llamada Humanity's Last Exam (El último examen de la humanidad), que simula un examen exigente que abarca muchas asignaturas y pone a prueba el razonamiento avanzado y los conocimientos generales, Gemini 2.5 Pro obtiene una puntuación de alrededor del 18,8%, superando a modelos como o3-mini de OpenAI, que obtiene una puntuación de alrededor del 14%.
Fig. 2. Resumen del rendimiento de Gemini 2.5 Pro en las pruebas de referencia.
También rinde muy bien en retos matemáticos y de codificación, a menudo igualando o superando el rendimiento de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta y DeepSeek R1, lo que demuestra su capacidad para manejar tareas complejas y procesar grandes cantidades de datos.
Introducción a Gemini 2.5: Cómo utilizar la API Gemini de Google
Gemini 2.5 Pro está disponible en múltiples plataformas. Puedes experimentar con él en Google AI Studio y acceder a él a través de la app Gemini para usuarios de Gemini Advanced. En su anuncio de lanzamiento, Google DeepMind también mencionó que el modelo será compatible con Vertex AI en breve. Estos puntos de acceso facilitan a los desarrolladores el uso de Gemini 2.5 Pro para aplicaciones de IA del mundo real.
Sin embargo, si quieres utilizar la API de Google Gemini y empezar a trabajar en pocos minutos sin una configuración complicada y quieres conocer mejor sus capacidades de visión por ordenador, puedes consultar el cuaderno Ultralytics que muestra tareas como la detección de objetos y el subtitulado de imágenes utilizando Gemini 2.5 Pro. Veamos en detalle lo que puedes esperar del cuaderno.
Configuración de la inferencia con el cuaderno Google Gemini 2.5
Para empezar con el cuaderno Ultralytics y utilizar Google Gemini 2.5, primero tendrás que generar una clave API a través de Google AI Studio. Esta clave te da acceso a la API de Gemini para que puedas utilizar el modelo.
Una vez que dispongas de tu clave API, asegúrate de que tu entorno tiene instaladas las bibliotecas necesarias, entre las que se incluyen paquetes de Ultralytics y el kit de herramientas de IA de Google. Este paso está claramente descrito en el cuaderno, por lo que puedes seguir fácilmente las instrucciones para configurar tu espacio de trabajo.
Con todo configurado, puedes conectarte a la API de Gemini introduciendo tu clave de API (como se muestra a continuación), lo que crea un vínculo entre tu espacio de trabajo y el modelo. Después de eso, estarás listo para enviar imágenes y mensajes de texto a Gemini 2.5.
Básicamente, puede proporcionar una imagen y una instrucción sencilla (como "detecte objetos en esta imagen" o "describa lo que ve") al modelo, y éste le devolverá los resultados que necesita. Este sencillo proceso facilita la exploración de las capacidades de visión por ordenador de Gemini 2.5.
Detección de objetos con Google Gemini 2.5
Uno de los ejemplos clave del cuaderno es la detección de objetos con Gemini 2.5 Pro. En este ejemplo, se proporciona al modelo una imagen y una instrucción sencilla para detectar objetos.
El modelo procesa la imagen y devuelve un conjunto de coordenadas y etiquetas para cada objeto que encuentra; estas coordenadas se dan en forma normalizada. A continuación, se utilizan funciones del paquete Python de Ultralytics para convertir estos valores normalizados de forma que coincidan con las dimensiones reales de la imagen y dibujar cuadros delimitadores claros alrededor de cada objeto, como se muestra a continuación.
Fig. 3. Uso de Google Gemini 2.5 para la detección de objetos.
Subtitulado de imágenes con Gemini 2.5
Otro ejemplo interesante del cuaderno es la creación de pies de foto con Gemini 2.5 Pro. En este ejemplo, se proporciona al modelo una imagen y se le pide que genere un pie de foto detallado que describa lo que hay en la imagen.
A continuación, el modelo analiza el contenido visual y devuelve una narración, a menudo formateada como varias frases, que capta tanto el contenido como el contexto de la imagen. Esta función es útil para mejorar la accesibilidad, resumir información visual e incluso mejorar la narración creativa.
Mejora de la precisión del reconocimiento óptico de caracteres con los modelos de Google Gemini
Una tarea de visión artificial que utiliza la capacidad de Gemini 2.5 Pro para leer texto en imágenes es el reconocimiento óptico de caracteres. En el cuaderno, puede proporcionar al modelo una imagen que contenga texto junto con una solicitud para extraer dicho texto. El modelo procesa la imagen y devuelve tanto el texto detectado como las coordenadas donde se encuentra el texto, como se muestra a continuación.
A continuación, se utilizan funciones del paquete Python de Ultralytics para convertir estas coordenadas normalizadas en las dimensiones reales de la imagen y dibujar cuadros delimitadores alrededor de las regiones de texto. Esta salida anotada deja claro dónde se encuentra el texto, lo que resulta útil para digitalizar documentos, automatizar la introducción de datos y mejorar la accesibilidad.
Fig. 4. Extracción de datos textuales en una imagen utilizando Google Gemini 2.5.
Aplicaciones reales de Google Gemini 2.5
Ahora que hemos visto cómo se puede utilizar Google Gemini 2.5 Pro para diversas tareas de visión por ordenador, vamos a explorar algunas aplicaciones del mundo real en las que se pueden utilizar estas capacidades.
La capacidad de detección de objetos de Gemini 2.5 Pro, por ejemplo, puede ayudar a etiquetar y organizar automáticamente grandes conjuntos de imágenes, agilizando tareas como la creación de conjuntos de datos o la gestión de contenidos. También puede utilizarse para analizar imágenes en campos como el comercio minorista y la agricultura, por ejemplo, detectando productos en estanterías o identificando signos de estrés en los cultivos en fotos de granjas.
Fig. 5. Gemini 2.5 Pro analizando la salud de una planta.
Por otro lado, la función de subtitulado de imágenes del modelo puede ayudar a los usuarios con problemas de visión a entender lo que hay en una imagen. Por ejemplo, si tienes una foto de una calle muy transitada, el modelo puede producir un pie de foto que describa la escena con detalle, mencionando los tipos de vehículos, la actividad de los peatones e incluso la hora del día basándose en las señales luminosas.
Además, la funcionalidad OCR de Gemini 2.5 puede utilizarse en diversas aplicaciones. Por ejemplo, puede digitalizar documentos impresos escaneando páginas o recibos. Esta capacidad es ideal para automatizar tareas de introducción de datos, procesar formularios o incluso leer texto de tarjetas de visita y carteles.
En general, Google Gemini 2.5 Pro abre las puertas a una amplia gama de aplicaciones prácticas de IA.
Principales conclusiones
Más allá de la generación y el análisis de texto, Google Gemini 2.5 Pro puede utilizarse para tareas de visión por ordenador como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres. Gracias a su enorme ventana de contexto y a sus capacidades de razonamiento mejoradas, produce resultados detallados y conscientes del contexto que funcionan bien en escenarios del mundo real.
A medida que los modelos de IA siguen evolucionando, herramientas como Gemini 2.5 Pro facilitan la resolución de problemas complejos en todos los sectores. Es probable que veamos una adopción aún más amplia de la IA a medida que más organizaciones busquen soluciones flexibles y multimodales que puedan manejar una amplia gama de tareas, desde la comprensión visual hasta el procesamiento del lenguaje.