Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Google PaliGemma 2: Perspectivas sobre modelos VLM avanzados

Únete a nosotros mientras analizamos más de cerca los nuevos modelos de lenguaje visual de Google: PaliGemma 2. Estos modelos pueden ayudar a comprender y analizar tanto imágenes como texto.

ABAbirami Vina
4 min read
Modelo de lenguaje visual PaliGemma 2 de Google

El 5 de diciembre de 2024, Google presentó PaliGemma 2, la última versión de su modelo de lenguaje y visión (VLM) de vanguardia. PaliGemma 2 está diseñado para gestionar tareas que combinan imágenes y texto, como generar subtítulos, responder preguntas visuales y detectar objetos en elementos visuales.

Partiendo del PaliGemma original, que ya era una herramienta sólida para el subtitulado multilingüe y el reconocimiento de objetos, PaliGemma 2 aporta varias mejoras clave. Entre ellas se incluyen tamaños de modelo más grandes, soporte para imágenes de mayor resolución y un mejor rendimiento en tareas visuales complejas. Estas actualizaciones lo hacen aún más flexible y eficaz para una amplia gama de usos.

En este artículo, analizaremos más de cerca PaliGemma 2, incluido su funcionamiento, sus características clave y las aplicaciones en las que destaca. ¡Empecemos!

Link to this sectionDe Gemma 2 a PaliGemma 2#

PaliGemma 2 se basa en dos tecnologías clave: el codificador de visión SigLIP y el modelo de lenguaje Gemma 2. El codificador SigLIP procesa datos visuales, como imágenes o vídeos, y los desglosa en características que el modelo puede analizar. Mientras tanto, Gemma 2 maneja el texto, lo que permite al modelo comprender y generar lenguaje multilingüe. Juntos, forman un VLM, diseñado para interpretar y conectar información visual y textual a la perfección.

Lo que hace que PaliGemma 2 sea un gran paso adelante es su escalabilidad y versatilidad. A diferencia de la versión original, PaliGemma 2 viene en tres tamaños: 3 mil millones (3B), 10 mil millones (10B) y 28 mil millones (28B) de parámetros. Estos parámetros son como los ajustes internos del modelo, que le ayudan a aprender y procesar datos de manera eficaz. También admite diferentes resoluciones de imagen (p. ej., 224 x 224 píxeles para tareas rápidas y 896 x 896 para análisis detallados), lo que lo hace adaptable a diversas aplicaciones.

Una visión general de PaliGemma 2

Fig 1. Una descripción general de PaliGemma 2.

La integración de las capacidades lingüísticas avanzadas de Gemma 2 con el procesamiento de imágenes de SigLIP hace que PaliGemma 2 sea significativamente más inteligente. Puede gestionar tareas como:

  • Subtitulado de imágenes o vídeos: El modelo puede generar descripciones textuales detalladas de elementos visuales, lo que resulta útil para crear subtítulos automáticamente.
  • Respuesta visual a preguntas: PaliGemma 2 puede responder preguntas basadas en imágenes, como identificar objetos, personas o acciones en una escena.
  • Reconocimiento de objetos: Identifica y etiqueta objetos dentro de una imagen, como distinguir entre un gato, una mesa o un coche en una fotografía.

PaliGemma 2 va más allá del procesamiento de imágenes y texto por separado: los reúne de manera significativa. Por ejemplo, puede entender las relaciones en una escena, como reconocer que "El gato está sentado sobre la mesa", o identificar objetos añadiendo contexto, como reconocer un monumento famoso.

Link to this sectionCómo funcionan los modelos VLM PaliGemma 2 de Google#

A continuación, veremos un ejemplo utilizando el gráfico que se muestra en la imagen de abajo para comprender mejor cómo procesa PaliGemma 2 los datos visuales y textuales. Digamos que subes este gráfico y le preguntas al modelo: "¿Qué representa este gráfico?"

Un ejemplo de las capacidades de PaliGemma 2

Fig 2. Un ejemplo de las capacidades de PaliGemma 2.

El proceso comienza con el codificador de visión SigLIP de PaliGemma 2 para analizar las imágenes y extraer características clave. Para un gráfico, esto incluye identificar elementos como ejes, puntos de datos y etiquetas. El codificador está entrenado para capturar tanto patrones amplios como detalles finos. También utiliza reconocimiento óptico de caracteres (OCR) para detectar y procesar cualquier texto incrustado en la imagen. Estas características visuales se convierten en tokens, que son representaciones numéricas que el modelo puede procesar. Estos tokens se ajustan utilizando una capa de proyección lineal, una técnica que garantiza que puedan combinarse perfectamente con datos textuales.

Al mismo tiempo, el modelo de lenguaje Gemma 2 procesa la consulta adjunta para determinar su significado e intención. El texto de la consulta se convierte en tokens, y estos se combinan con los tokens visuales de SigLIP para crear una representación multimodal, un formato unificado que vincula los datos visuales y textuales.

Utilizando esta representación integrada, PaliGemma 2 genera una respuesta paso a paso a través de la decodificación autorregresiva, un método en el que el modelo predice una parte de la respuesta a la vez según el contexto que ya ha procesado.

Link to this sectionCapacidades clave de PaliGemma 2#

Ahora que hemos comprendido cómo funciona, exploremos las características clave que hacen de PaliGemma 2 un modelo de lenguaje y visión fiable:

  • Flexibilidad de ajuste fino: Se adapta fácilmente a conjuntos de datos y tareas específicos, funcionando bien en aplicaciones como el subtitulado de imágenes, el razonamiento espacial y la imagen médica.
  • Diversos datos de entrenamiento: Entrenado en conjuntos de datos como WebLI y OpenImages, lo que le confiere sólidas capacidades de reconocimiento de objetos y capacidades de salida multilingüe.
  • Integración de OCR: Incluye reconocimiento óptico de caracteres para extraer e interpretar texto de imágenes, lo que lo hace ideal para el análisis de documentos y otras tareas basadas en texto.
  • Salidas multilingües: Genera subtítulos y respuestas en varios idiomas, ideal para aplicaciones globales.
  • Integración con herramientas: Es compatible con marcos como Hugging Face Transformers, PyTorch y Keras, lo que permite una implementación y experimentación sencillas.

Link to this sectionComparación entre PaliGemma 2 y PaliGemma: ¿Qué ha mejorado?#

Echar un vistazo a la arquitectura de la primera versión de PaliGemma es una buena forma de ver las mejoras de PaliGemma 2. Uno de los cambios más notables es la sustitución del modelo de lenguaje Gemma original por Gemma 2, lo que aporta mejoras sustanciales tanto en rendimiento como en eficiencia.

Gemma 2, disponible en tamaños de parámetros de 9B y 27B, fue diseñado para ofrecer una precisión y velocidad líderes en su clase, al tiempo que reduce los costes de despliegue. Lo consigue a través de una arquitectura rediseñada optimizada para la eficiencia de inferencia en varias configuraciones de hardware, desde potentes GPUs hasta configuraciones más accesibles.

Echando la vista atrás a la primera versión de PaliGemma

Fig 3. Recordando la primera versión de PaliGemma 2.

Como resultado, PaliGemma 2 es un modelo altamente preciso. La versión 10B de PaliGemma 2 logra una puntuación de oraciones de no implicación (NES) más baja de 20,3, en comparación con el 34,3 del modelo original, lo que significa menos errores factuales en sus salidas. Estos avances hacen que PaliGemma 2 sea más escalable, preciso y adaptable a una gama más amplia de aplicaciones, desde subtítulos detallados hasta respuestas a preguntas visuales.

Link to this sectionAplicaciones de PaliGemma 2: Usos reales de los modelos VLM#

PaliGemma 2 tiene el potencial de redefinir las industrias combinando a la perfección la comprensión visual y lingüística. Por ejemplo, con respecto a la accesibilidad, puede generar descripciones detalladas de objetos, escenas y relaciones espaciales, proporcionando una asistencia crucial a personas con discapacidad visual. Esta capacidad ayuda a los usuarios a comprender mejor sus entornos, ofreciendo una mayor independencia en lo que respecta a las tareas cotidianas.

PaliGemma 2 puede hacer del mundo un lugar más accesible

Fig 4. PaliGemma 2 puede hacer que el mundo sea un lugar más accesible.

Además de la accesibilidad, PaliGemma 2 está teniendo un impacto en diversas industrias, incluyendo:

  • Comercio electrónico: El modelo mejora la categorización de productos analizando y describiendo los artículos en las imágenes, lo que simplifica la gestión del inventario y mejora la experiencia de búsqueda para los usuarios.
  • Atención sanitaria: Apoya a los profesionales médicos interpretando imágenes médicas, como radiografías y resonancias magnéticas, junto con notas clínicas para proporcionar diagnósticos más precisos e informados.
  • Educación: PaliGemma 2 ayuda a los educadores a crear materiales de aprendizaje descriptivos y accesibles mediante la generación de subtítulos y la provisión de información contextual para imágenes.
  • Creación de contenido: El modelo automatiza el proceso de generación de subtítulos y descripciones visuales para contenido multimedia, ahorrando tiempo a los creadores.

Link to this sectionPruébalo tú mismo: PaliGemma 2#

Para probar PaliGemma 2, puedes empezar con la demostración interactiva de Hugging Face. Te permite explorar sus capacidades en tareas como el subtitulado de imágenes y la respuesta visual a preguntas. Simplemente sube una imagen y hazle preguntas al modelo sobre ella o solicita una descripción de la escena.

Una demostración de PaliGemma 2

Fig 5. Una demostración de PaliGemma 2 (Fuente: Hugging Face).

Si deseas profundizar, aquí te explico cómo puedes empezar:

  • Modelos preentrenados: Puedes acceder a modelos preentrenados y código desde plataformas como Hugging Face y Kaggle. Estos recursos proporcionan todo lo que necesitas para comenzar a trabajar con el modelo.
  • Cuadernos: Hay documentación completa y ejemplos de cuadernos para familiarizarte con PaliGemma 2. Puedes empezar con ejemplos de inferencia y experimentar con el ajuste fino del modelo en tu propio conjunto de datos para tareas específicas.
  • Integraciones: PaliGemma 2 es compatible con marcos ampliamente utilizados como Hugging Face Transformers, Keras, PyTorch, JAX y Gemma.cpp, lo que te permite integrarlo en tus flujos de trabajo existentes sin esfuerzo.

Link to this sectionPros y contras del PaliGemma 2 de Google#

Una vez comprendido cómo empezar con PaliGemma 2, analicemos más de cerca sus fortalezas y debilidades principales que debes tener en cuenta al utilizar estos modelos.

Esto es lo que hace que PaliGemma 2 destaque como modelo de lenguaje y visión:

  • Ganancias en eficiencia: Aprovechando la arquitectura optimizada de Gemma 2, PaliGemma 2 ofrece un alto rendimiento mientras minimiza los costes de despliegue.
  • Funciones de seguridad mejoradas: PaliGemma 2 incluye mejoras de seguridad significativas en su proceso de entrenamiento, como un filtrado robusto de los datos de preentrenamiento para reducir sesgos y una evaluación rigurosa contra puntos de referencia de seguridad.
  • Baja latencia para configuraciones más pequeñas: El modelo 3B ofrece tiempos de inferencia más rápidos, lo que lo hace adecuado para casos de uso donde la velocidad es crítica, como recomendaciones de productos de comercio electrónico o sistemas de asistencia en directo.

Mientras tanto, aquí hay algunas áreas donde PaliGemma 2 puede tener limitaciones:

  • Latencia: Aunque es potente, los modelos más grandes pueden enfrentar problemas de latencia, especialmente cuando se implementan para tareas que requieren respuestas inmediatas, como sistemas de IA interactivos en tiempo real.
  • Dependencia de grandes conjuntos de datos: El rendimiento de PaliGemma 2 está estrechamente ligado a la calidad y diversidad de sus conjuntos de datos de entrenamiento, lo que podría limitar su eficacia en dominios subrepresentados o idiomas no incluidos en los datos de entrenamiento.
  • Altos requisitos de recursos: A pesar de las optimizaciones, las versiones de 10B y 28B parámetros demandan una potencia computacional significativa, lo que los hace menos accesibles para organizaciones más pequeñas con recursos limitados.

Link to this sectionConclusiones clave#

PaliGemma 2 es un avance fascinante en el modelado de lenguaje y visión, que ofrece una mayor escalabilidad, flexibilidad de ajuste fino y precisión. Puede servir como una herramienta valiosa para aplicaciones que van desde soluciones de accesibilidad y comercio electrónico hasta diagnósticos de atención sanitaria y educación.

Aunque tiene limitaciones, como los requisitos computacionales y la dependencia de datos de alta calidad, sus fortalezas lo convierten en una opción práctica para abordar tareas complejas que integran datos visuales y textuales. PaliGemma 2 puede proporcionar una base sólida para que investigadores y desarrolladores exploren y amplíen el potencial de la IA en aplicaciones multimodales.

Forma parte de la conversación sobre IA echando un vistazo a nuestro repositorio de GitHub y nuestra comunidad. ¡Lee sobre cómo la IA está logrando avances en agricultura y atención sanitaria! 🚀

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático