Google PaliGemma 2: Vision Language Model Insights

El 5 de diciembre de 2024, Google presentó PaliGemma 2, la última versión de su vanguardista modelo de visión-lenguaje (VLM). PaliGemma 2 está diseñado para realizar tareas que combinan imágenes y texto, como generar pies de foto, responder a preguntas visuales y detectar objetos en imágenes.

Basándose en el PaliGemma original, que ya era una herramienta sólida para el subtitulado multilingüe y el reconocimiento de objetos, PaliGemma 2 aporta varias mejoras clave. Estas incluyen tamaños de modelo más grandes, soporte para imágenes de mayor resolución y un mejor rendimiento en tareas visuales complejas. Estas actualizaciones lo hacen aún más flexible y eficaz para una amplia gama de usos.

En este artículo, analizaremos más de cerca PaliGemma 2, incluyendo cómo funciona, sus características clave y las aplicaciones en las que destaca. ¡Empecemos!

From Gemma 2 to PaliGemma 2

PaliGemma 2 se basa en dos tecnologías clave: el codificador de visión SigLIP y el modelo de lenguaje Gemma 2. El codificador SigLIP procesa datos visuales, como imágenes o vídeos, y los divide en características que el modelo puede analizar. Mientras tanto, Gemma 2 gestiona el texto, lo que permite al modelo comprender y generar lenguaje multilingüe. Juntos, forman un VLM, diseñado para interpretar y conectar información visual y textual sin problemas.

Lo que hace que PaliGemma 2 sea un gran paso adelante es su escalabilidad y versatilidad. A diferencia de la versión original, PaliGemma 2 viene en tres tamaños: 3 mil millones (3B), 10 mil millones (10B) y 28 mil millones (28B) de parámetros. Estos parámetros son como la configuración interna del modelo, lo que le ayuda a aprender y procesar datos de forma eficaz. También admite diferentes resoluciones de imagen (por ejemplo, 224 x 224 píxeles para tareas rápidas y 896 x 896 para análisis detallados), lo que lo hace adaptable para diversas aplicaciones.

Fig. 1. Una visión general de PaliGemma 2.

‍

La integración de las capacidades avanzadas de lenguaje de Gemma 2 con el procesamiento de imágenes de SigLIP hace que PaliGemma 2 sea significativamente más inteligente. Puede manejar tareas como:

Subtitulado de imágenes o vídeos: El modelo puede generar descripciones textuales detalladas de elementos visuales, lo que lo hace útil para crear subtítulos automáticamente.
‍
Respuesta visual a preguntas: PaliGemma 2 puede responder preguntas basadas en imágenes, como identificar objetos, personas o acciones en una escena.
‍
Reconocimiento de objetos: Identifica y etiqueta objetos dentro de una imagen, como distinguir entre un gato, una mesa o un automóvil en una foto.

PaliGemma 2 va más allá del procesamiento de imágenes y texto por separado: los une de forma significativa. Por ejemplo, puede comprender las relaciones en una escena, como reconocer que "El gato está sentado en la mesa", o identificar objetos añadiendo contexto, como reconocer un punto de referencia famoso.

Cómo funcionan los modelos PaliGemma 2 VLM de Google

A continuación, veremos un ejemplo utilizando el gráfico que se muestra en la imagen a continuación para comprender mejor cómo PaliGemma 2 procesa datos visuales y textuales. Digamos que sube este gráfico y le pregunta al modelo: "¿Qué representa este gráfico?"

Fig. 2. Un ejemplo de las capacidades de PaliGemma 2.
‍

El proceso comienza con el codificador de visión SigLIP de PaliGemma 2 para analizar imágenes y extraer características clave. En el caso de un gráfico, esto incluye la identificación de elementos como ejes, puntos de datos y etiquetas. El codificador está entrenado para captar tanto patrones amplios como detalles finos. También utiliza el reconocimiento óptico de caracteres (OCR ) para detect y procesar cualquier texto incrustado en la imagen. Estas características visuales se convierten en fichas, que son representaciones numéricas que el modelo puede procesar. A continuación, se ajustan mediante una capa de proyección lineal, una técnica que permite combinarlos perfectamente con los datos textuales.

Paralelamente, el modelo de lenguaje Gemma 2 procesa la consulta adjunta para determinar su significado e intención. El texto de la consulta se convierte en tokens, que se combinan con los tokens visuales de SigLIP para crear una representación multimodal, un formato unificado que vincula datos visuales y textuales.

Usando esta representación integrada, PaliGemma 2 genera una respuesta paso a paso a través de la decodificación autorregresiva, un método donde el modelo predice una parte de la respuesta a la vez basándose en el contexto que ya ha procesado.

Capacidades clave de PaliGemma 2

Ahora que hemos comprendido cómo funciona, exploremos las características clave que hacen de PaliGemma 2 un modelo de lenguaje de visión confiable:

Flexibilidad de ajuste fino: Se adapta fácilmente a conjuntos de datos y tareas específicas, con un buen rendimiento en aplicaciones como la descripción de imágenes, el razonamiento espacial y las imágenes médicas.
‍
Datos de entrenamiento diversos: Entrenado en conjuntos de datos como WebLI y OpenImages, lo que le confiere sólidas capacidades de reconocimiento de objetos y capacidades de salida multilingüe.
‍
Integración de OCR: Incluye el reconocimiento óptico de caracteres para extraer e interpretar texto de imágenes, lo que lo hace ideal para el análisis de documentos y otras tareas basadas en texto.
‍
Salidas multilingües: Genera subtítulos y respuestas en varios idiomas, ideal para aplicaciones globales.
‍
Integración con herramientas: Es compatible con frameworks como Hugging Face Transformers, PyTorch y Keras, lo que permite una fácil implementación y experimentación.

Comparación entre PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?

Analizar la arquitectura de la primera versión de PaliGemma es una buena manera de observar las mejoras de PaliGemma 2. Uno de los cambios más notables es la sustitución del modelo de lenguaje Gemma original por Gemma 2, lo que aporta mejoras sustanciales tanto en el rendimiento como en la eficiencia.

Gemma 2, disponible en tamaños de 9B y 27B parámetros, fue diseñado para ofrecer una precisión y velocidad líderes en su clase, al tiempo que reduce los costos de implementación. Lo logra a través de una arquitectura rediseñada optimizada para la eficiencia de la inferencia en diversas configuraciones de hardware, desde GPU potentes hasta configuraciones más accesibles.

Fig. 3. Recordando la primera versión de PaliGemma 2.

‍

Como resultado, PaliGemma 2 es un modelo altamente preciso. La versión de 10B de PaliGemma 2 alcanza una puntuación de Non-Entailment Sentence (NES) más baja, de 20.3, en comparación con el 34.3 del modelo original, lo que significa menos errores factuales en sus salidas. Estos avances hacen que PaliGemma 2 sea más escalable, preciso y adaptable a una gama más amplia de aplicaciones, desde el subtitulado detallado hasta el respuesta visual a preguntas.

Aplicaciones de PaliGemma 2: Usos reales para modelos VLM

PaliGemma 2 tiene el potencial de redefinir las industrias combinando a la perfección la comprensión visual y lingüística. Por ejemplo, en lo que respecta a la accesibilidad, puede generar descripciones detalladas de objetos, escenas y relaciones espaciales, proporcionando una ayuda crucial a las personas con discapacidad visual. Esta capacidad ayuda a los usuarios a comprender mejor su entorno, ofreciéndoles una mayor independencia a la hora de realizar las tareas cotidianas.

Fig 4. PaliGemma 2 puede hacer del mundo un lugar más accesible.

‍

Además de la accesibilidad, PaliGemma 2 está teniendo un impacto en varias industrias, incluyendo:

Comercio electrónico: El modelo mejora la categorización de productos analizando y describiendo los artículos en las imágenes, lo que simplifica la gestión del inventario y mejora la experiencia de búsqueda de los usuarios.
‍
Atención sanitaria: Apoya a los profesionales médicos en la interpretación de imágenes médicas, como radiografías y resonancias magnéticas, junto con notas clínicas para proporcionar diagnósticos más precisos e informados.
‍
Educación: PaliGemma 2 ayuda a los educadores a crear materiales de aprendizaje descriptivos y accesibles generando subtítulos y proporcionando información contextual para las imágenes.
‍
Creación de contenido: El modelo automatiza el proceso de generación de subtítulos y descripciones visuales para contenido multimedia, lo que ahorra tiempo a los creadores.

Pruébelo usted mismo: PaliGemma 2

Para probar PaliGemma 2, puedes empezar con la demo interactiva de Hugging Face. Te permite explorar sus capacidades en tareas como el subtitulado de imágenes y la respuesta a preguntas visuales. Sólo tienes que subir una imagen y hacerle preguntas al modelo sobre ella o pedirle una descripción de la escena.

Fig 5. Demostración de PaliGemma 2 (Fuente: huggingface).

‍

Si desea profundizar, aquí le mostramos cómo puede hacerlo de forma práctica:

Modelos preentrenados: Puedes acceder a modelos preentrenados y al código de plataformas como Hugging Face y Kaggle. Estos recursos proporcionan todo lo necesario para empezar a trabajar con el modelo.
‍
Notebooks: Existe documentación completa y notebooks de ejemplo para familiarizarse con PaliGemma 2. Puede comenzar con ejemplos de inferencia y experimentar con el ajuste fino del modelo en su propio conjunto de datos para tareas específicas.
‍
Integraciones: PaliGemma 2 es compatible con frameworks ampliamente utilizados como Hugging Face Transformers, Keras, PyTorch, JAX y Gemma.cpp, lo que le permite integrarlo en sus flujos de trabajo existentes sin esfuerzo.

Ventajas e inconvenientes del PaliGemma 2 de Google

Una vez que hemos comprendido cómo empezar a utilizar PaliGemma 2, echemos un vistazo más de cerca a sus principales puntos fuertes y débiles para tenerlos en cuenta al utilizar estos modelos.

Esto es lo que hace que PaliGemma 2 destaque como modelo de visión-lenguaje:

Ganancias de eficiencia: Aprovechando la arquitectura optimizada de Gemma 2, PaliGemma 2 ofrece un alto rendimiento al tiempo que minimiza los costes de implementación.
‍
Funciones de seguridad mejoradas: PaliGemma 2 incluye mejoras de seguridad significativas en su proceso de entrenamiento, como el filtrado robusto de los datos de preentrenamiento para reducir los sesgos y la evaluación rigurosa con respecto a los puntos de referencia de seguridad.
‍
Baja latencia para configuraciones más pequeñas: El modelo 3B ofrece tiempos de inferencia más rápidos, lo que lo hace adecuado para casos de uso donde la velocidad es crítica, como las recomendaciones de productos de comercio electrónico o los sistemas de soporte en vivo.

Mientras tanto, estas son algunas áreas en las que PaliGemma 2 puede enfrentar limitaciones:

Latencia: Si bien son potentes, los modelos más grandes pueden enfrentar problemas de latencia, especialmente cuando se implementan para tareas que requieren respuestas inmediatas, como los sistemas de IA interactivos en tiempo real.
‍
Dependencia de grandes conjuntos de datos: El rendimiento de PaliGemma 2 está estrechamente ligado a la calidad y diversidad de sus conjuntos de datos de entrenamiento, lo que podría limitar su eficacia en dominios o idiomas poco representados que no se incluyan en los datos de entrenamiento.
‍
Altos requisitos de recursos: A pesar de las optimizaciones, las versiones de 10B y 28B parámetros exigen una potencia computacional significativa, lo que las hace menos accesibles para las organizaciones más pequeñas con recursos limitados.

Conclusiones clave

PaliGemma 2 es un avance fascinante en el modelado de visión-lenguaje, que ofrece una escalabilidad mejorada, flexibilidad de ajuste fino y precisión. Puede servir como una herramienta valiosa para aplicaciones que van desde soluciones de accesibilidad y comercio electrónico hasta diagnósticos de atención médica y educación.

Si bien tiene limitaciones, como los requisitos computacionales y la dependencia de datos de alta calidad, sus puntos fuertes la convierten en una opción práctica para abordar tareas complejas que integran datos visuales y textuales. PaliGemma 2 puede proporcionar una base sólida para que investigadores y desarrolladores exploren y amplíen el potencial de la IA en aplicaciones multimodales.

Participe en la conversación sobre la IA consultando nuestro repositorio de GitHub y nuestra comunidad. Lea sobre cómo la IA está avanzando a pasos agigantados en la agricultura y la sanidad. 🚀

PaliGemma 2 de Google: modelos avanzados de VLM

From Gemma 2 to PaliGemma 2

Cómo funcionan los modelos PaliGemma 2 VLM de Google

Capacidades clave de PaliGemma 2

Comparación entre PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?

Aplicaciones de PaliGemma 2: Usos reales para modelos VLM

Pruébelo usted mismo: PaliGemma 2

Ventajas e inconvenientes del PaliGemma 2 de Google

Conclusiones clave

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro
de la IA!

PaliGemma 2 de Google: modelos avanzados de VLM

From Gemma 2 to PaliGemma 2

Cómo funcionan los modelos PaliGemma 2 VLM de Google

Capacidades clave de PaliGemma 2

Comparación entre PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?

Aplicaciones de PaliGemma 2: Usos reales para modelos VLM

Pruébelo usted mismo: PaliGemma 2

Ventajas e inconvenientes del PaliGemma 2 de Google

Conclusiones clave

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!