Acompáñenos a conocer más de cerca los nuevos modelos lingüísticos de visión de Google: PaliGemma 2. Estos modelos pueden ayudar a comprender y analizar tanto imágenes como texto.

Acompáñenos a conocer más de cerca los nuevos modelos lingüísticos de visión de Google: PaliGemma 2. Estos modelos pueden ayudar a comprender y analizar tanto imágenes como texto.
El 5 de diciembre de 2024, Google presentó PaliGemma 2, la última versión de su vanguardista modelo de visión-lenguaje (VLM). PaliGemma 2 está diseñado para realizar tareas que combinan imágenes y texto, como generar pies de foto, responder a preguntas visuales y detectar objetos en imágenes.
Basándose en el PaliGemma original, que ya era una herramienta sólida para el subtitulado multilingüe y el reconocimiento de objetos, PaliGemma 2 aporta varias mejoras clave. Entre ellas se incluyen modelos de mayor tamaño, compatibilidad con imágenes de mayor resolución y mejor rendimiento en tareas visuales complejas. Estas mejoras lo hacen aún más flexible y eficaz para una amplia gama de usos.
En este artículo analizaremos en detalle PaliGemma 2, su funcionamiento, sus principales características y las aplicaciones en las que destaca. Vamos a empezar.
PaliGemma 2 se basa en dos tecnologías clave: el codificador de visión SigLIP y el modelo de lenguaje Gemma 2. El codificador SigLIP procesa datos visuales, como imágenes o vídeos, y los descompone en características que el modelo puede analizar. Por su parte, Gemma 2 procesa el texto, lo que permite al modelo comprender y generar lenguaje multilingüe. Juntos forman un VLM, diseñado para interpretar y conectar a la perfección la información visual y textual.
Lo que hace de PaliGemma 2 un gran paso adelante es su escalabilidad y versatilidad. A diferencia de la versión original, PaliGemma 2 está disponible en tres tamaños: 3.000 millones (3B), 10.000 millones (10B) y 28.000 millones (28B) de parámetros. Estos parámetros son como los ajustes internos del modelo, que le ayudan a aprender y procesar los datos con eficacia. También admite distintas resoluciones de imagen (por ejemplo, 224 x 224 píxeles para tareas rápidas y 896 x 896 para análisis detallados), lo que lo hace adaptable a diversas aplicaciones.
La integración de las capacidades lingüísticas avanzadas de Gemma 2 con el procesamiento de imágenes de SigLIP hace que PaliGemma 2 sea significativamente más inteligente. Puede manejar tareas como:
PaliGemma 2 va más allá del procesamiento de imágenes y texto por separado: los une de forma significativa. Por ejemplo, puede entender las relaciones en una escena, como reconocer que "El gato está sentado en la mesa", o identificar objetos añadiendo contexto, como reconocer un monumento famoso.
A continuación, veremos un ejemplo en el que se utiliza el gráfico que se muestra en la siguiente imagen para comprender mejor cómo PaliGemma 2 procesa los datos visuales y textuales. Supongamos que cargas este gráfico y preguntas al modelo: "¿Qué representa este gráfico?
El proceso comienza con el codificador de visión SigLIP de PaliGemma 2 para analizar imágenes y extraer características clave. En el caso de un gráfico, esto incluye la identificación de elementos como ejes, puntos de datos y etiquetas. El codificador está entrenado para captar tanto patrones amplios como detalles finos. También utiliza el reconocimiento óptico de caracteres (OCR ) para detectar y procesar cualquier texto incrustado en la imagen. Estas características visuales se convierten en fichas, que son representaciones numéricas que el modelo puede procesar. Estos tokens se ajustan después mediante una capa de proyección lineal, una técnica que garantiza que puedan combinarse a la perfección con los datos textuales.
Al mismo tiempo, el modelo lingüístico Gemma 2 procesa la consulta adjunta para determinar su significado e intención. El texto de la consulta se convierte en tokens, que se combinan con los tokens visuales de SigLIP para crear una representación multimodal, un formato unificado que vincula datos visuales y textuales.
A partir de esta representación integrada, PaliGemma 2 genera una respuesta paso a paso mediante descodificación autorregresiva, un método en el que el modelo predice una parte de la respuesta cada vez basándose en el contexto que ya ha procesado.
Ahora que ya hemos entendido cómo funciona, vamos a explorar las características clave que hacen de PaliGemma 2 un modelo fiable de visión-lenguaje:
Echar un vistazo a la arquitectura de la primera versión de PaliGemma es una buena forma de ver las mejoras de PaliGemma 2. Uno de los cambios más notables es la sustitución del modelo de lenguaje Gemma original por Gemma 2, que aporta mejoras sustanciales tanto en rendimiento como en eficiencia.
Gemma 2, disponible en tamaños de parámetro de 9B y 27B, se ha diseñado para ofrecer una precisión y velocidad líderes en su clase, reduciendo al mismo tiempo los costes de implantación. Lo consigue gracias a una arquitectura rediseñada y optimizada para la eficiencia de la inferencia en distintas configuraciones de hardware, desde potentes GPU hasta configuraciones más accesibles.
Como resultado, PaliGemma 2 es un modelo muy preciso. La versión 10B de PaliGemma 2 alcanza una puntuación más baja de 20,3 en las frases no detalladas (Non-Entailment Sentence, NES), frente a los 34,3 del modelo original, lo que se traduce en menos errores factuales en sus resultados. Estos avances hacen que PaliGemma 2 sea más escalable, preciso y adaptable a una gama más amplia de aplicaciones, desde el subtitulado detallado hasta la respuesta visual a preguntas.
PaliGemma 2 tiene el potencial de redefinir las industrias combinando a la perfección la comprensión visual y lingüística. Por ejemplo, en lo que respecta a la accesibilidad, puede generar descripciones detalladas de objetos, escenas y relaciones espaciales, proporcionando una ayuda crucial a las personas con discapacidad visual. Esta capacidad ayuda a los usuarios a comprender mejor su entorno, ofreciéndoles una mayor independencia en las tareas cotidianas.
Además de la accesibilidad, PaliGemma 2 está teniendo impacto en varios sectores, entre ellos:
Para probar PaliGemma 2, puedes empezar con la demo interactiva de Hugging Face. Te permite explorar sus capacidades en tareas como el subtitulado de imágenes y la respuesta a preguntas visuales. Sólo tienes que subir una imagen y hacerle preguntas al modelo sobre ella o pedirle una descripción de la escena.
Si quieres profundizar más, aquí tienes cómo ponerte manos a la obra:
Una vez entendido cómo empezar a utilizar PaliGemma 2, veamos más de cerca sus principales puntos fuertes e inconvenientes a tener en cuenta al utilizar estos modelos.
Esto es lo que hace que PaliGemma 2 destaque como modelo de lenguaje visual:
Mientras tanto, he aquí algunas áreas en las que PaliGemma 2 puede tener limitaciones:
PaliGemma 2 es un fascinante avance en el modelado del lenguaje visual, que ofrece una mayor escalabilidad, flexibilidad de ajuste y precisión. Puede ser una valiosa herramienta para aplicaciones que van desde las soluciones de accesibilidad y el comercio electrónico hasta el diagnóstico sanitario y la educación.
Aunque tiene limitaciones, como los requisitos computacionales y la dependencia de datos de alta calidad, sus puntos fuertes lo convierten en una opción práctica para abordar tareas complejas que integran datos visuales y textuales. PaliGemma 2 puede proporcionar una base sólida para que investigadores y desarrolladores exploren y amplíen el potencial de la IA en aplicaciones multimodales.
Participe en el debate sobre la IA visitando nuestro repositorio de GitHub y nuestra comunidad. Infórmate sobre los avances de la IA en la agricultura y la sanidad. 🚀