Empieza a trabajar con Google Gemini 2.5 para tareas de visión artificial
Descubre cómo puedes empezar a trabajar con Google Gemini 2.5 para tareas de visión artificial como detección de objetos, descripción de imágenes y OCR para soluciones de IA de visión.

Los avances en IA avanzan rápidamente, con nuevas innovaciones apareciendo en los titulares casi a diario. Un avance reciente es Gemini 2.5, el modelo multimodal más reciente de Google DeepMind, lanzado el 26 de marzo. Aunque los Large Language Models (LLMs) tradicionales pueden aprender de cantidades masivas de datos para generar texto similar al humano, Gemini 2.5 va más allá.
Está diseñado como un «modelo pensante» capaz de procesar imágenes, audio y vídeo. Cuenta con mejores capacidades de razonamiento y programación. Curiosamente, también funciona excepcionalmente bien en tareas de visión artificial, donde las máquinas interpretan y analizan datos visuales, como la detección de objetos, el etiquetado de imágenes y el reconocimiento óptico de caracteres (OCR).

Fig 1. Ejemplo del uso de Gemini 2.5 para comprender el contenido de una imagen.
En este artículo, analizaremos uno de los notebooks de Ultralytics que puede ayudarte a experimentar con las capacidades de visión artificial de Gemini 2.5. También echaremos un vistazo más de cerca a las características clave de Gemini 2.5 y mostraremos cómo se puede usar para crear soluciones de visión artificial para aplicaciones del mundo real. ¡Empecemos!
Link to this sectionDescripción general de Gemini 2.5: características y capacidades#
La primera versión de la serie de modelos Gemini 2.5 que se acaba de lanzar es una versión experimental de Gemini 2.5 Pro. Está diseñada para manejar problemas complejos pensando en sus respuestas antes de ofrecer una solución. Utiliza métodos como el aprendizaje por refuerzo (donde el modelo aprende de la retroalimentación) y el prompting de cadena de pensamiento (un enfoque paso a paso para resolver problemas).
Una de sus características clave es su enorme ventana de contexto, que puede albergar 1 millón de tokens (aproximadamente un millón de palabras o partes de palabras) y se espera que crezca hasta los 2 millones. Esto significa que el modelo puede recibir mucha información a la vez, lo que conduce a resultados más detallados y precisos.
Además de procesar lenguaje, Gemini 2.5 se puede utilizar para las siguientes tareas de visión artificial:
-
Detección de objetos: Es el proceso de identificar y localizar objetos dentro de una imagen. Se puede utilizar en aplicaciones como la vigilancia o los coches autónomos.
-
Etiquetado de imágenes: Esta tarea implica generar un texto descriptivo para una imagen. Hace que el contenido visual sea más accesible y fácil de entender.
-
Reconocimiento óptico de caracteres: Esta tecnología convierte el texto presente en las imágenes en texto editable legible por máquina. Es útil para digitalizar documentos y automatizar la entrada de datos.
Link to this sectionEvaluación comparativa y comparación de Google Gemini 2.5 con otros modelos#
Existen varios modelos multimodales disponibles en el ámbito de la IA hoy en día, por lo que es importante entender cómo se compara Gemini 2.5 Pro con ellos. Basándose en los resultados de las pruebas comparativas compartidos por DeepMind de Google, Gemini 2.5 Pro muestra un rendimiento impresionante en una variedad de tareas.
Por ejemplo, en una prueba llamada «Humanity’s Last Exam», que simula un examen desafiante que abarca muchas materias y pone a prueba el razonamiento avanzado y los conocimientos generales, Gemini 2.5 Pro obtiene alrededor de un 18,8%, superando a modelos como o3-mini de OpenAI, que obtiene alrededor de un 14%.

Fig 2. Descripción general del rendimiento comparativo de Gemini 2.5 Pro.
También funciona muy bien en desafíos de matemáticas y programación, a menudo igualando o superando el rendimiento de modelos como GPT-4.5 de OpenAI, Claude 3.7 Sonnet, Grok 3 Beta y DeepSeek R1, lo que demuestra su capacidad para manejar tareas complejas y procesar grandes cantidades de datos.
Link to this sectionFamiliarízate con Gemini 2.5: Cómo usar la API de Google Gemini#
Gemini 2.5 Pro está disponible en múltiples plataformas. Puedes experimentar con él en Google AI Studio y acceder a él a través de la aplicación Gemini para usuarios de Gemini Advanced. En su anuncio de lanzamiento, Google DeepMind también mencionó que el modelo será compatible con Vertex AI pronto. Estos puntos de acceso facilitan a los desarrolladores el uso de Gemini 2.5 Pro para aplicaciones de IA del mundo real.
Sin embargo, si quieres utilizar la API de Google Gemini y empezar en solo unos minutos sin una configuración complicada y buscas comprender mejor sus capacidades de visión artificial, puedes consultar el notebook de Ultralytics que muestra tareas como la detección de objetos y el etiquetado de imágenes usando Gemini 2.5 Pro. Vamos a detallar lo que puedes esperar en el notebook.
Link to this sectionConfiguración de la inferencia con el notebook de Google Gemini 2.5#
Para empezar con el notebook de Ultralytics y usar Google Gemini 2.5, primero tendrás que generar una clave de API a través de Google AI Studio. Esta clave te da acceso a la API de Gemini para que puedas usar el modelo.
Una vez que tengas tu clave de API, asegúrate de que tu entorno tenga instaladas las bibliotecas necesarias: estas incluyen paquetes de Ultralytics y el kit de herramientas de IA de Google. Este paso está claramente descrito en el notebook, por lo que puedes seguir fácilmente las instrucciones para configurar tu espacio de trabajo.
Con todo configurado, puedes conectarte a la API de Gemini introduciendo tu clave de API (como se muestra a continuación), lo que crea un enlace entre tu espacio de trabajo y el modelo. Después de eso, estarás listo para enviar imágenes y prompts de texto a Gemini 2.5.
Esencialmente, puedes proporcionar una imagen y una instrucción simple (como «detecta objetos en esta imagen» o «describe lo que ves») al modelo, y este devuelve los resultados que necesitas. Este proceso directo facilita el inicio en la exploración de las capacidades de visión artificial de Gemini 2.5.
Link to this sectionDetección de objetos con Google Gemini 2.5#
Uno de los ejemplos clave en el notebook es la detección de objetos usando Gemini 2.5 Pro. En este ejemplo, proporcionas al modelo una imagen y un prompt sencillo para detectar objetos.
El modelo procesa la imagen y devuelve un conjunto de coordenadas y etiquetas para cada objeto que encuentra; estas coordenadas se dan en forma normalizada. Luego se utilizan funciones del paquete de Python de Ultralytics para convertir estos valores normalizados de modo que coincidan con las dimensiones reales de la imagen y dibujar cuadros delimitadores claros alrededor de cada objeto, como se muestra a continuación.

Fig 3. Uso de Google Gemini 2.5 para la detección de objetos.
Link to this sectionEtiquetado de imágenes usando Gemini 2.5#
Otro ejemplo interesante en el notebook es el etiquetado de imágenes usando Gemini 2.5 Pro. En este ejemplo, proporcionas al modelo una imagen y un prompt pidiéndole que genere un pie de foto detallado que describa lo que hay en la imagen.
El modelo luego analiza el contenido visual y devuelve una narrativa, a menudo formateada como varias frases, que captura tanto el contenido como el contexto de la imagen. Esta función es útil para mejorar la accesibilidad, resumir información visual e incluso mejorar la narrativa creativa.
Link to this sectionMejora de la precisión del OCR con modelos de Google Gemini#
Una tarea de visión artificial que utiliza la capacidad de Gemini 2.5 Pro para leer texto en imágenes es el OCR. En el notebook, puedes proporcionar al modelo una imagen que contenga texto junto con un prompt para extraer ese texto. El modelo procesa la imagen y devuelve tanto el texto detectado como las coordenadas donde se encuentra el texto, como se muestra a continuación.
Luego se utilizan funciones del paquete de Python de Ultralytics para convertir estas coordenadas normalizadas a las dimensiones reales de la imagen y dibujar cuadros delimitadores alrededor de las regiones de texto. Esta salida anotada deja claro dónde se encuentra el texto, lo cual es útil para digitalizar documentos, automatizar la entrada de datos y mejorar la accesibilidad.

Fig 4. Extracción de datos textuales en una imagen usando Google Gemini 2.5.
Link to this sectionAplicaciones del mundo real de Google Gemini 2.5#
Ahora que hemos visto cómo se puede usar Google Gemini 2.5 Pro para varias tareas de visión artificial, exploremos algunas aplicaciones del mundo real donde se pueden usar estas capacidades.
La capacidad de detección de objetos de Gemini 2.5 Pro, por ejemplo, puede ayudar a etiquetar y organizar automáticamente grandes conjuntos de imágenes, haciendo que tareas como la creación de datasets o la gestión de contenido sean mucho más rápidas. También se puede utilizar para analizar imágenes en campos como el comercio minorista y la agricultura; por ejemplo, detectar productos en los estantes o identificar signos de estrés en los cultivos en fotos de granjas.

Fig 5. Gemini 2.5 Pro analizando la salud de una planta.
Mientras tanto, la función de etiquetado de imágenes del modelo puede ayudar a los usuarios con discapacidad visual a entender lo que hay en una imagen. Por ejemplo, si tienes una foto de una calle concurrida, el modelo podría producir un pie de foto que describa la escena en detalle, mencionando los tipos de vehículos, la actividad de los peatones e incluso la hora del día según las señales de iluminación.
Además de esto, la funcionalidad de OCR de Gemini 2.5 se puede utilizar en una variedad de aplicaciones. Por ejemplo, puedes digitalizar documentos impresos escaneando páginas o recibos. Esta capacidad es ideal para automatizar tareas de entrada de datos, procesar formularios o incluso leer texto de tarjetas de visita y señalización.
En general, Google Gemini 2.5 Pro abre las puertas a una amplia gama de aplicaciones prácticas de IA.
Link to this sectionConclusiones clave#
Más allá de generar y analizar texto, Google Gemini 2.5 Pro puede utilizarse para tareas de visión artificial como la detección de objetos, el etiquetado de imágenes y OCR. Con su enorme ventana de contexto y capacidades de razonamiento mejoradas, produce resultados detallados y conscientes del contexto que funcionan bien en escenarios del mundo real.
A medida que los modelos de IA siguen evolucionando, herramientas como Gemini 2.5 Pro facilitan la resolución de problemas complejos en todas las industrias. Es probable que veamos una adopción aún más amplia de la IA a medida que más organizaciones busquen soluciones flexibles y multimodales que puedan manejar una amplia gama de tareas, desde la comprensión visual hasta el procesamiento del lenguaje.
Forma parte de nuestra comunidad y aprende sobre proyectos de IA de vanguardia en nuestro repositorio de GitHub. Consulta las aplicaciones de Vision AI en la agricultura y el papel de la IA en la fabricación en nuestras páginas de soluciones. ¡Explora nuestros planes de licencias y crea soluciones de visión artificial hoy mismo!






