Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Descubre cómo puedes ponerte manos a la obra con Google Gemini 2.5 para tareas de visión por ordenador como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres para soluciones de IA de visión.
Los avances de la IA avanzan a gran velocidad y casi todos los días aparecen nuevas innovaciones en los titulares. Una de ellas es Gemini 2.5, el último modelo multimodal de Google DeepMind, lanzado el 26 de marzo. Mientras que los grandes modelos lingüísticos (LLM) tradicionales pueden aprender de cantidades masivas de datos para generar texto similar al humano, Gemini 2.5 va más allá.
Está diseñado como un “modelo de pensamiento” que puede procesar imágenes, audio y vídeo. Tiene habilidades mejoradas de razonamiento y codificación. Curiosamente, también funciona excepcionalmente bien con respecto a las tareas de visión artificial, donde las máquinas interpretan y analizan datos visuales, como la detección de objetos, la descripción de imágenes y el reconocimiento óptico de caracteres (OCR).
Fig 1. Un ejemplo del uso de Gemini 2.5 para comprender el contenido de una imagen.
En este artículo, le mostraremos uno de los cuadernos de Ultralyticsque puede ayudarle a familiarizarse con las capacidades de visión por ordenador de Gemini 2.5. También analizaremos las principales características de Gemini 2.5 y mostraremos cómo se puede utilizar para crear soluciones de visión por ordenador para aplicaciones del mundo real. Pongámonos manos a la obra.
Descripción general de Gemini 2.5: características y capacidades
La primera versión de la serie de modelos Gemini 2.5 que se acaba de lanzar es una versión experimental de Gemini 2.5 Pro. Está diseñado para manejar problemas complejos pensando en sus respuestas antes de dar una respuesta. Utiliza métodos como el aprendizaje por refuerzo (donde el modelo aprende de la retroalimentación) y el encadenamiento de pensamientos (un enfoque paso a paso para resolver problemas).
Una de sus características clave es su enorme ventana de contexto, que puede contener 1 millón de tokens (aproximadamente un millón de palabras o partes de palabras) y se espera que crezca hasta 2 millones. Esto significa que el modelo puede recibir mucha información a la vez, lo que lleva a resultados más detallados y precisos.
Además de procesar el lenguaje, Gemini 2.5 se puede utilizar para las siguientes tareas de visión artificial:
Detección de objetos: Es el proceso de identificar y localizar objetos dentro de una imagen. Se puede utilizar en aplicaciones como la vigilancia o los coches autónomos.
Descripción de imágenes: Esta tarea implica generar un texto descriptivo para una imagen. Hace que el contenido visual sea más accesible y fácil de entender.
Reconocimiento óptico de caracteres: Esta tecnología convierte el texto encontrado en imágenes en texto editable y legible por máquina. Es útil para digitalizar documentos y automatizar la entrada de datos.
Benchmarking y comparación de Google Gemini 2.5 con otros modelos
Hoy en día hay varios modelos multimodales disponibles en el ámbito de la IA, por lo que es importante saber cómo se compara Gemini 2.5 Pro con ellos. Según los resultados de las pruebas comparativas compartidas por DeepMind de Google, Gemini 2.5 Pro muestra un rendimiento impresionante en una serie de tareas.
Por ejemplo, en una prueba llamada Humanity’s Last Exam, que simula un examen desafiante que cubre muchas materias y evalúa el razonamiento avanzado y el conocimiento general, Gemini 2.5 Pro obtiene una puntuación de alrededor del 18.8%, superando a modelos como o3-mini de OpenAI, que obtiene una puntuación de alrededor del 14%.
Fig 2. Una visión general del rendimiento de referencia de Gemini 2.5 Pro.
También tiene un muy buen desempeño en desafíos de matemáticas y codificación, a menudo igualando o superando el rendimiento de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta y DeepSeek R1, lo que demuestra su capacidad para manejar tareas complejas y procesar grandes cantidades de datos.
Introducción a Gemini 2.5: Cómo utilizar la API Gemini Google
Gemini 2.5 Pro está disponible en múltiples plataformas. Puedes experimentar con él en Google AI Studio y acceder a él a través de la app Gemini para usuarios de Gemini Advanced. En su anuncio de lanzamiento, Google DeepMind también mencionó que el modelo será compatible con Vertex AI en breve. Estos puntos de acceso facilitan a los desarrolladores el uso de Gemini 2.5 Pro para aplicaciones de IA del mundo real.
Sin embargo, si quieres utilizar la API de Google Gemini y empezar a trabajar en pocos minutos sin una configuración complicada y quieres conocer mejor sus capacidades de visión por ordenador, puedes consultar el cuadernoUltralytics que muestra tareas como la detección de objetos y el subtitulado de imágenes utilizando Gemini 2.5 Pro. Veamos en detalle lo que puedes esperar del cuaderno.
Configuración de la inferencia con el cuaderno Google Gemini 2.5
Para empezar con el cuaderno Ultralytics y utilizar Google Gemini 2.5, primero tendrás que generar una clave API a través de Google AI Studio. Esta clave te da acceso a la API de Gemini para que puedas utilizar el modelo.
Una vez que tenga su clave de API, asegúrese de que su entorno tiene instaladas las bibliotecas necesarias, entre las que se incluyen paquetes de Ultralytics y el kit de herramientas de IA de Google. Este paso está claramente descrito en el cuaderno, por lo que puedes seguir fácilmente las instrucciones para configurar tu espacio de trabajo.
Con todo configurado, puedes conectarte a la API de Gemini ingresando tu clave API (como se muestra a continuación), lo que crea un enlace entre tu espacio de trabajo y el modelo. Después de eso, estarás listo para enviar imágenes y mensajes de texto a Gemini 2.5.
Básicamente, puede proporcionar una imagen y una instrucción sencilla (como "detect objetos en esta imagen" o "describa lo que ve") al modelo, y éste le devolverá los resultados que necesita. Este sencillo proceso facilita la exploración de las capacidades de visión por ordenador de Gemini 2.5.
Detección de objetos con Google Gemini 2.5
Uno de los ejemplos clave del cuaderno es la detección de objetos con Gemini 2.5 Pro. En este ejemplo, se proporciona al modelo una imagen y una instrucción sencilla para detect objetos.
El modelo procesa la imagen y devuelve un conjunto de coordenadas y etiquetas para cada objeto que encuentra; estas coordenadas se dan en forma normalizada. A continuación, se utilizan funciones del paquetePython Ultralytics para convertir estos valores normalizados de forma que coincidan con las dimensiones reales de la imagen y dibujar cuadros delimitadores claros alrededor de cada objeto, como se muestra a continuación.
Fig. 3. Uso de Google Gemini 2.5 para la detección de objetos.
Descripción de imágenes usando Gemini 2.5
Otro ejemplo interesante en el notebook es la descripción de imágenes usando Gemini 2.5 Pro. En este ejemplo, proporcionas al modelo una imagen y una instrucción que le pide que genere una descripción detallada que describa lo que hay en la imagen.
Luego, el modelo analiza el contenido visual y devuelve una narrativa, a menudo formateada como varias oraciones, que captura tanto el contenido como el contexto de la imagen. Esta función es útil para mejorar la accesibilidad, resumir información visual e incluso mejorar la narración creativa.
Mejora de la precisión del reconocimiento óptico de caracteres con los modelos de Google Gemini
Una tarea de visión artificial que utiliza la capacidad de Gemini 2.5 Pro para leer texto en imágenes es OCR. En el notebook, puedes proporcionar al modelo una imagen que contenga texto junto con una instrucción para extraer ese texto. El modelo procesa la imagen y devuelve tanto el texto detectado como las coordenadas donde se encuentra el texto, como se muestra a continuación.
A continuación, se utilizan funciones del paquetePython Ultralytics para convertir estas coordenadas normalizadas en las dimensiones reales de la imagen y dibujar cuadros delimitadores alrededor de las regiones de texto. Esta salida anotada deja claro dónde se encuentra el texto, lo que resulta útil para digitalizar documentos, automatizar la introducción de datos y mejorar la accesibilidad.
Fig. 4. Extracción de datos textuales en una imagen utilizando Google Gemini 2.5.
Aplicaciones reales de Google Gemini 2.5
Ahora que hemos visto cómo se puede utilizar Google Gemini 2.5 Pro para diversas tareas de visión por ordenador, vamos a explorar algunas aplicaciones del mundo real en las que se pueden utilizar estas capacidades.
La capacidad de detección de objetos de Gemini 2.5 Pro, por ejemplo, puede ayudar a etiquetar y organizar automáticamente grandes conjuntos de imágenes, lo que hace que tareas como la creación de conjuntos de datos (datasets) o la gestión de contenido sean mucho más rápidas. También se puede utilizar para analizar imágenes en campos como el comercio minorista y la agricultura; por ejemplo, para detectar productos en los estantes o identificar signos de estrés en los cultivos en fotos de granjas.
Fig. 5. Gemini 2.5 Pro analizando la salud de una planta.
Mientras tanto, la función de subtitulado de imágenes del modelo puede ayudar a los usuarios con discapacidad visual a comprender lo que hay en una imagen. Por ejemplo, si tiene una foto de una calle concurrida, el modelo podría generar un subtítulo que describa la escena en detalle, mencionando los tipos de vehículos, la actividad de los peatones e incluso la hora del día según las indicaciones de iluminación.
Además de esto, la funcionalidad OCR de Gemini 2.5 se puede utilizar en una variedad de aplicaciones. Por ejemplo, puede digitalizar documentos impresos escaneando páginas o recibos. Esta capacidad es ideal para automatizar tareas de entrada de datos, procesar formularios o incluso leer texto de tarjetas de visita y señalización.
En general, Google Gemini 2.5 Pro abre las puertas a una amplia gama de aplicaciones prácticas de IA.
Conclusiones clave
Más allá de la generación y el análisis de texto, Google Gemini 2.5 Pro puede utilizarse para tareas de visión por ordenador como la detección de objetos, el subtitulado de imágenes y el reconocimiento óptico de caracteres. Gracias a su enorme ventana de contexto y a sus capacidades de razonamiento mejoradas, produce resultados detallados y conscientes del contexto que funcionan bien en escenarios del mundo real.
A medida que los modelos de IA continúan evolucionando, herramientas como Gemini 2.5 Pro facilitan la resolución de problemas complejos en todas las industrias. Es probable que veamos una adopción aún más amplia de la IA a medida que más organizaciones busquen soluciones multimodales flexibles que puedan manejar una amplia gama de tareas, desde la comprensión visual hasta el procesamiento del lenguaje.