Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Vea cómo puede experimentar de primera mano con Google Gemini 2.5 para tareas de visión artificial como la detección de objetos, la descripción de imágenes y el OCR para soluciones de IA de visión.
Los avances en IA se están moviendo rápidamente, con nuevas innovaciones que aparecen en los titulares casi todos los días. Uno de estos avances recientes es Gemini 2.5, el último modelo multimodal de Google DeepMind, lanzado el 26 de marzo. Mientras que los Modelos de Lenguaje Grande (LLM) tradicionales pueden aprender de cantidades masivas de datos para generar texto similar al humano, Gemini 2.5 va más allá.
Está diseñado como un “modelo de pensamiento” que puede procesar imágenes, audio y vídeo. Tiene habilidades mejoradas de razonamiento y codificación. Curiosamente, también funciona excepcionalmente bien con respecto a las tareas de visión artificial, donde las máquinas interpretan y analizan datos visuales, como la detección de objetos, la descripción de imágenes y el reconocimiento óptico de caracteres (OCR).
Fig 1. Un ejemplo del uso de Gemini 2.5 para comprender el contenido de una imagen.
En este artículo, repasaremos uno de los cuadernos de Ultralytics que puede ayudarle a experimentar de primera mano con las capacidades de visión artificial de Gemini 2.5. También analizaremos más de cerca las características clave de Gemini 2.5 y mostraremos cómo se puede utilizar para construir soluciones de visión artificial para aplicaciones del mundo real. ¡Empecemos!
Descripción general de Gemini 2.5: características y capacidades
La primera versión de la serie de modelos Gemini 2.5 que se acaba de lanzar es una versión experimental de Gemini 2.5 Pro. Está diseñado para manejar problemas complejos pensando en sus respuestas antes de dar una respuesta. Utiliza métodos como el aprendizaje por refuerzo (donde el modelo aprende de la retroalimentación) y el encadenamiento de pensamientos (un enfoque paso a paso para resolver problemas).
Una de sus características clave es su enorme ventana de contexto, que puede contener 1 millón de tokens (aproximadamente un millón de palabras o partes de palabras) y se espera que crezca hasta 2 millones. Esto significa que el modelo puede recibir mucha información a la vez, lo que lleva a resultados más detallados y precisos.
Además de procesar el lenguaje, Gemini 2.5 se puede utilizar para las siguientes tareas de visión artificial:
Detección de objetos: Es el proceso de identificar y localizar objetos dentro de una imagen. Se puede utilizar en aplicaciones como la vigilancia o los coches autónomos.
Descripción de imágenes: Esta tarea implica generar un texto descriptivo para una imagen. Hace que el contenido visual sea más accesible y fácil de entender.
Reconocimiento óptico de caracteres: Esta tecnología convierte el texto encontrado en imágenes en texto editable y legible por máquina. Es útil para digitalizar documentos y automatizar la entrada de datos.
Evaluación comparativa y comparación de Google Gemini 2.5 con otros modelos
Actualmente, existen varios modelos multimodales disponibles en el espacio de la IA, por lo que es importante comprender cómo se compara Gemini 2.5 Pro con ellos. Según los resultados de las pruebas comparativas compartidos por DeepMind de Google, Gemini 2.5 Pro muestra un rendimiento impresionante en una variedad de tareas.
Por ejemplo, en una prueba llamada Humanity’s Last Exam, que simula un examen desafiante que cubre muchas materias y evalúa el razonamiento avanzado y el conocimiento general, Gemini 2.5 Pro obtiene una puntuación de alrededor del 18.8%, superando a modelos como o3-mini de OpenAI, que obtiene una puntuación de alrededor del 14%.
Fig 2. Una visión general del rendimiento de referencia de Gemini 2.5 Pro.
También tiene un muy buen desempeño en desafíos de matemáticas y codificación, a menudo igualando o superando el rendimiento de modelos como OpenAI GPT-4.5, Claude 3.7 Sonnet, Grok 3 Beta y DeepSeek R1, lo que demuestra su capacidad para manejar tareas complejas y procesar grandes cantidades de datos.
Primeros pasos con Gemini 2.5: Cómo usar la API de Google Gemini
Gemini 2.5 Pro está disponible en múltiples plataformas. Puedes experimentar con él en Google AI Studio y acceder a él a través de la aplicación Gemini para usuarios de Gemini Advanced. En su anuncio de lanzamiento, Google DeepMind también mencionó que el modelo será compatible con Vertex AI en breve. Estos puntos de acceso facilitan a los desarrolladores el uso de Gemini 2.5 Pro para aplicaciones de IA del mundo real.
Sin embargo, si deseas utilizar la API de Google Gemini y comenzar en pocos minutos sin una configuración complicada, y buscas comprender mejor sus capacidades de visión artificial, puedes consultar el notebook de Ultralytics que muestra tareas como la detección de objetos y la descripción de imágenes utilizando Gemini 2.5 Pro. Repasemos en detalle lo que puedes esperar en el notebook.
Configuración de la inferencia con el notebook de Google Gemini 2.5
Para comenzar con el notebook de Ultralytics y usar Google Gemini 2.5, primero deberás generar una clave API a través de Google AI Studio. Esta clave te da acceso a la API de Gemini para que puedas usar el modelo.
Una vez que tengas tu clave API, asegúrate de que tu entorno tenga instaladas las bibliotecas necesarias; estas incluyen paquetes de Ultralytics y el kit de herramientas de IA de Google. Este paso se describe claramente en el notebook, para que puedas seguir fácilmente las instrucciones para configurar tu espacio de trabajo.
Con todo configurado, puedes conectarte a la API de Gemini ingresando tu clave API (como se muestra a continuación), lo que crea un enlace entre tu espacio de trabajo y el modelo. Después de eso, estarás listo para enviar imágenes y mensajes de texto a Gemini 2.5.
Esencialmente, puedes proporcionar una imagen y una instrucción simple (como “detectar objetos en esta imagen” o “describir lo que ves”) al modelo, y este devuelve los resultados que necesitas. Este proceso sencillo facilita el inicio de la exploración de las capacidades de visión artificial de Gemini 2.5.
Detección de objetos con Google Gemini 2.5
Uno de los ejemplos clave en el notebook es la detección de objetos utilizando Gemini 2.5 Pro. En este ejemplo, proporcionas al modelo una imagen y una instrucción simple para detectar objetos.
El modelo procesa la imagen y devuelve un conjunto de coordenadas y etiquetas para cada objeto que encuentra; estas coordenadas se dan en forma normalizada. Luego, se utilizan funciones del paquete de Python de Ultralytics para convertir estos valores normalizados para que coincidan con las dimensiones reales de la imagen y dibujar cuadros delimitadores claros alrededor de cada objeto, como se muestra a continuación.
Fig 3. Uso de Google Gemini 2.5 para la detección de objetos.
Descripción de imágenes usando Gemini 2.5
Otro ejemplo interesante en el notebook es la descripción de imágenes usando Gemini 2.5 Pro. En este ejemplo, proporcionas al modelo una imagen y una instrucción que le pide que genere una descripción detallada que describa lo que hay en la imagen.
Luego, el modelo analiza el contenido visual y devuelve una narrativa, a menudo formateada como varias oraciones, que captura tanto el contenido como el contexto de la imagen. Esta función es útil para mejorar la accesibilidad, resumir información visual e incluso mejorar la narración creativa.
Mejora de la precisión de OCR con los modelos de Google Gemini
Una tarea de visión artificial que utiliza la capacidad de Gemini 2.5 Pro para leer texto en imágenes es OCR. En el notebook, puedes proporcionar al modelo una imagen que contenga texto junto con una instrucción para extraer ese texto. El modelo procesa la imagen y devuelve tanto el texto detectado como las coordenadas donde se encuentra el texto, como se muestra a continuación.
Luego, se utilizan funciones del paquete de Python de Ultralytics para convertir estas coordenadas normalizadas en las dimensiones reales de la imagen y dibujar cuadros delimitadores alrededor de las regiones de texto. Esta salida anotada deja claro dónde se encuentra el texto, lo cual es útil para digitalizar documentos, automatizar la entrada de datos y mejorar la accesibilidad.
Fig 4. Extracción de datos textuales en una imagen usando Google Gemini 2.5.
Aplicaciones reales de Google Gemini 2.5
Ahora que hemos visto cómo se puede utilizar Google Gemini 2.5 Pro para diversas tareas de visión artificial, exploremos algunas aplicaciones reales donde se pueden utilizar estas capacidades.
La capacidad de detección de objetos de Gemini 2.5 Pro, por ejemplo, puede ayudar a etiquetar y organizar automáticamente grandes conjuntos de imágenes, lo que hace que tareas como la creación de conjuntos de datos (datasets) o la gestión de contenido sean mucho más rápidas. También se puede utilizar para analizar imágenes en campos como el comercio minorista y la agricultura; por ejemplo, para detectar productos en los estantes o identificar signos de estrés en los cultivos en fotos de granjas.
Fig. 5. Gemini 2.5 Pro analizando la salud de una planta.
Mientras tanto, la función de subtitulado de imágenes del modelo puede ayudar a los usuarios con discapacidad visual a comprender lo que hay en una imagen. Por ejemplo, si tiene una foto de una calle concurrida, el modelo podría generar un subtítulo que describa la escena en detalle, mencionando los tipos de vehículos, la actividad de los peatones e incluso la hora del día según las indicaciones de iluminación.
Además de esto, la funcionalidad OCR de Gemini 2.5 se puede utilizar en una variedad de aplicaciones. Por ejemplo, puede digitalizar documentos impresos escaneando páginas o recibos. Esta capacidad es ideal para automatizar tareas de entrada de datos, procesar formularios o incluso leer texto de tarjetas de visita y señalización.
En general, Google Gemini 2.5 Pro abre las puertas a una amplia gama de aplicaciones prácticas de IA.
Conclusiones clave
Más allá de generar y analizar texto, Google Gemini 2.5 Pro se puede utilizar para tareas de visión artificial como la detección de objetos, el subtitulado de imágenes y el OCR. Con su enorme ventana de contexto y sus capacidades de razonamiento mejoradas, produce resultados detallados y conscientes del contexto que funcionan bien en escenarios del mundo real.
A medida que los modelos de IA continúan evolucionando, herramientas como Gemini 2.5 Pro facilitan la resolución de problemas complejos en todas las industrias. Es probable que veamos una adopción aún más amplia de la IA a medida que más organizaciones busquen soluciones multimodales flexibles que puedan manejar una amplia gama de tareas, desde la comprensión visual hasta el procesamiento del lenguaje.