Una inmersión profunda en las capacidades del GPT-4o Mini de OpenAI

Abirami Vina

6 min leer

25 de julio de 2024

Explore las características y aplicaciones de GPT-4o Mini. El modelo más reciente y rentable de OpenAI ofrece funciones avanzadas de IA un 60% más baratas que GPT-3.5 Turbo.

En mayo de 2024, OpenAI lanzó GPT-4o, y ahora, solo tres meses después, vuelven con otro modelo impresionante: GPT-4o Mini. El 18 de julio de 2024, OpenAI presentó GPT-4o Mini. Lo llaman su "modelo más rentable". GPT-4o Mini es un modelo compacto que se basa en las capacidades de los modelos anteriores y pretende hacer que la IA avanzada sea más accesible y asequible.

GPT-4o Mini soporta actualmente interacciones de texto y visión, y se espera que futuras actualizaciones añadan capacidades para manejar imágenes, vídeos y audio. En este artículo, exploraremos qué es GPT-4o Mini, sus características más destacadas, cómo se puede utilizar, las diferencias entre GPT-4 y GPT-4o Mini, y cómo se puede utilizar en diversos casos de uso de visión por computador. Vamos a ver qué nos ofrece GPT-4o Mini.

¿Qué es GPT-4o Mini?

GPT-4o Mini es la última incorporación a la gama de modelos de IA de OpenAI, diseñada para ser más rentable y accesible. Se trata de un modelo multimodal de lenguaje amplio (LLM), lo que significa que puede procesar y generar distintos tipos de datos, como texto, imágenes, vídeos y audio. El modelo se basa en los puntos fuertes de modelos anteriores como GPT-4 y GPT-4o para ofrecer potentes funciones en un paquete compacto. 

GPT-4o Mini es un 60% más barato que GPT-3.5 Turbo: cuesta 15 céntimos por millón de tokens de entrada (unidades de texto o datos que procesa el modelo) y 60 céntimos por millón de tokens de salida (unidades que genera el modelo como respuesta). Para ponerlo en perspectiva, un millón de tokens equivale aproximadamente a procesar 2.500 páginas de texto. Con una ventana de contexto de 128.000 tokens y la capacidad de manejar hasta 16.000 tokens de salida por solicitud, GPT-4o Mini está diseñado para ser eficiente y asequible.

__wf_reserved_inherit
Fig. 1. GPT-4o Mini es un 60% más barato que GPT-3.5 Turbo.

Características principales de GPT-4o Mini 

GPT-4o Mini admite una serie de tareas que lo convierten en una gran opción para diversas aplicaciones. Se puede utilizar al ejecutar varias operaciones a la vez, como llamar a varias API, tratar con grandes cantidades de datos como bases de código completas o historiales de conversaciones, y proporcionar respuestas rápidas en tiempo real en chatbots de atención al cliente.

He aquí otras características clave:

  • Base de conocimientos actualizada: El modelo contiene información hasta octubre de 2023.
  • Tokenizador mejorado: GPT-4o Mini hace más rentable el procesamiento de textos en otros idiomas.
  • Sólidas medidas de seguridad: Estas medidas incluyen el filtrado de contenidos nocivos y la protección contra problemas de seguridad como inyecciones puntuales y manipulaciones del sistema.

Primeros pasos con GPT-4o Mini 

Puede probar a utilizar GPT-4o Mini a través de la interfaz ChatGPT. Es accesible para usuarios Free, Plus y Team, y sustituye a GPT-3.5, como se muestra a continuación. Los usuarios de empresa también tendrán acceso en breve, en línea con el objetivo de OpenAI de proporcionar beneficios de IA a todos. GPT-4o Mini también está disponible a través de la API para los desarrolladores que deseen integrar sus capacidades en sus aplicaciones. Por el momento, las capacidades de visión sólo son accesibles a través de la API.

__wf_reserved_inherit
Fig. 2. Opciones de modelos dentro de ChatGPT.

Diferencia entre GPT-4o y GPT-4o Mini 

Tanto GPT-4o Mini como GPT-4o ofrecen un rendimiento impresionante en diversas pruebas de rendimiento. Aunque GPT-4o suele superar a GPT-4o Mini, GPT-4o Mini sigue siendo una solución rentable para las tareas cotidianas. Las pruebas incluyen tareas de razonamiento, competencia matemática y de codificación, y razonamiento multimodal. Como se muestra en la siguiente imagen, GPT-4o Mini obtiene resultados muy superiores a los de otros modelos populares.

__wf_reserved_inherit
Fig. 3. Comparación de GPT-4o Mini con otros modelos populares.

Manos a la obra con GPT-4o y GPT-4o Mini

Una pregunta interesante que ha sido objeto de debate en Internet implica a los populares LLM comparando números decimales incorrectamente. Cuando pusimos a prueba a GPT-4o y GPT-4o Mini, sus capacidades de razonamiento mostraron claras diferencias. En la imagen siguiente, preguntamos a ambos modelos cuál es mayor: 9,11 o 9,9, y luego les pedimos que explicaran su razonamiento.

__wf_reserved_inherit
Fig. 4. Pruebas de GPT-4o y GPT-4o Mini.

Ambos modelos responden inicialmente de forma incorrecta y afirman que 9,11 es mayor. Sin embargo, GPT-4o es capaz de razonar hasta llegar a la respuesta correcta y afirma que 9,9 es mayor. Ofrece una explicación detallada y compara los decimales con precisión. Por el contrario, GPT-4o Mini mantiene obstinadamente su respuesta inicial errónea a pesar de haber razonado correctamente que 9,9 es mayor.

Ambos modelos muestran una gran capacidad de razonamiento. La capacidad de GPT-4o para corregirse a sí mismo lo hace superior y útil para tareas más complejas. GPT-4o Mini, aunque menos adaptable, sigue ofreciendo un razonamiento claro y preciso para tareas más sencillas. 

Utilización de GPT-4o Mini para diversos casos de visión por ordenador

Si prefieres explorar las capacidades de visión de GPT-4o Mini sin sumergirte en el código, puedes probar fácilmente la API en OpenAI Playground. Nosotros mismos lo probamos para ver lo bien que GPT-4o Mini es capaz de manejar varios casos de uso relacionados con la visión por ordenador.

Clasificación de imágenes con GPT-4o Mini

Pedimos a GPT-4o Mini que clasificara dos imágenes: una de una mariposa y otra de un mapa. El modelo de IA identificó con éxito la mariposa y el mapa. Se trata de una tarea bastante sencilla dado que las imágenes son muy diferentes.

__wf_reserved_inherit
Fig 5. Clasificación de imágenes con ayuda de GPT-4o Mini.

A continuación, pasamos otras dos imágenes por el modelo: una con una mariposa posada en una planta y otra con una mariposa posada en el suelo. La IA volvió a hacer un gran trabajo, detectando correctamente la mariposa sobre la planta y la que estaba en el suelo. Así que dimos un paso más.

__wf_reserved_inherit
Fig. 6. Clasificación de imágenes similares con ayuda de GPT-4o Mini.

A continuación, pedimos a GPT-4o Mini que clasificara dos imágenes: una que mostraba una mariposa alimentándose de las flores de un algodoncillo de pantano y otra que mostraba una mariposa alimentándose de una flor de zinnia. Es sorprendente que el modelo fuera capaz de clasificar una etiqueta tan específica sin necesidad de realizar más ajustes. Estos ejemplos rápidos demuestran que GPT-4o Mini podría utilizarse para tareas de clasificación de imágenes sin necesidad de un entrenamiento personalizado.

__wf_reserved_inherit
Fig 7. Clasificación de imágenes detalladas con ayuda de GPT-4o Mini.

Comprender las posturas con GPT-4o Mini

Por ahora, las tareas de visión por ordenador como la detección de objetos y la segmentación de instancias no pueden realizarse con GPT-4o Mini. GPT-4o tiene problemas de precisión, pero puede utilizarse para estas tareas. En este sentido, con respecto a la comprensión de poses, no podemos detectar o estimar la pose en la imagen, pero podemos clasificar y comprender la pose.

__wf_reserved_inherit
Fig. 8. Uso de GPT-4o Mini para comprender las poses de una imagen. 

La imagen anterior muestra cómo GPT-4o Mini puede clasificar y comprender poses, a pesar de no ser capaz de detectar o estimar las coordenadas precisas de la pose. Esto puede ser útil en distintas aplicaciones. Por ejemplo, en la analítica deportiva, puede evaluar ampliamente los movimientos de los atletas y ayudar a prevenir lesiones. Del mismo modo, en fisioterapia, puede ayudar a controlar los ejercicios para asegurarse de que los pacientes realizan los movimientos correctos durante la rehabilitación. También para la vigilancia, puede ayudar a identificar actividades sospechosas analizando el lenguaje corporal general. Aunque GPT-4o Mini no puede detectar puntos clave específicos, su capacidad para clasificar poses generales lo hace útil en estos y otros campos.

Aplicaciones GPT-4o Mini son adecuados para

Ya hemos visto lo que GPT-4o Mini puede hacer. Ahora, vamos a discutir las aplicaciones en las que es más óptimo utilizar GPT-4o Mini.

GPT-4o Mini es ideal para aplicaciones que requieren una comprensión avanzada del lenguaje natural y necesitan una pequeña huella computacional. Permite integrar la IA en aplicaciones en las que normalmente sería demasiado costosa. De hecho, un análisis detallado realizado por Artificial Analysis demuestra que GPT-4o Mini proporciona respuestas de alta calidad a velocidades de vértigo en comparación con la mayoría de los demás modelos.

__wf_reserved_inherit
Fig. 9. Calidad en función de la velocidad de salida de GPT-4o Mini.

He aquí algunas áreas clave en las que podría brillar en el futuro:

  • Asistentes virtuales y chatbots: GPT-4o Mini puede ofrecer respuestas rápidas e inteligentes para mejorar las interacciones con los usuarios.
  • Herramientas educativas: El modelo puede utilizarse para construir herramientas que ofrezcan tutorías personalizadas y generación de contenidos.
  • Herramientas de productividad: Puede mejorar tareas como resumir documentos, redactar correos electrónicos y traducir idiomas para aumentar la eficacia.
  • Traducción de idiomas: La última versión de GPT puede utilizarse para desarrollar traductores que proporcionen una traducción de idiomas precisa y en tiempo real para una mejor comunicación entre diferentes idiomas.

GPT-4o Mini abre nuevas puertas

GPT-4o Mini está creando nuevas oportunidades para el futuro de la IA multimodal. El gasto de procesar cada fragmento de texto o datos, conocido como coste por token, ha disminuido sustancialmente -en casi un 99 %- desde 2022, cuando se lanzó text-davinci-003, el modelo GPT-3. La disminución del coste muestra una clara tendencia a hacer que la IA avanzada sea más asequible. A medida que los modelos de IA siguen mejorando, es cada vez más probable que la integración de la IA en todas las aplicaciones y sitios web sea económicamente viable.

¿Quieres ponerte manos a la obra con la IA? Visite nuestro repositorio de GitHub para ver nuestras innovaciones y formar parte de nuestra activa comunidad. Obtenga más información sobre aplicaciones de IA en fabricación y agricultura en nuestras páginas de soluciones.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles