Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Un análisis profundo de las capacidades de GPT-4o Mini de OpenAI

Explora las características y aplicaciones de GPT-4o Mini. El modelo más reciente y rentable de OpenAI ofrece capacidades de IA avanzadas un 60% más baratas que GPT-3.5 Turbo.

ABAbirami Vina
6 min read
Modelo de IA multimodal rentable OpenAI GPT-4o Mini

En mayo de 2024, OpenAI lanzó GPT-4o y, ahora, solo tres meses después, vuelven con otro modelo impresionante: GPT-4o Mini. El 18 de julio de 2024, OpenAI presentó GPT-4o Mini. ¡Lo denominan su “modelo más rentable”! GPT-4o Mini es un modelo compacto que se basa en las capacidades de modelos anteriores y aspira a hacer que la IA avanzada sea más accesible y asequible.

GPT-4o Mini actualmente admite interacciones de texto y visión, y se espera que futuras actualizaciones añadan capacidades para procesar imágenes, vídeos y audio. En este artículo, exploraremos qué es GPT-4o Mini, sus características destacadas, cómo utilizarlo, las diferencias entre GPT-4 y GPT-4o Mini, y cómo puede emplearse en diversos casos de uso de visión artificial. ¡Adentrémonos y veamos qué ofrece GPT-4o Mini!

Link to this section¿Qué es GPT-4o Mini?#

GPT-4o Mini es la última incorporación a la línea de modelos de IA de OpenAI, diseñada para ser más rentable y accesible. Es un modelo de lenguaje grande (LLM) multimodal, lo que significa que puede procesar y generar diferentes tipos de datos, tales como texto, imágenes, vídeos y audio. El modelo se basa en los puntos fuertes de modelos anteriores como GPT-4 y GPT-4o para ofrecer capacidades potentes en un paquete compacto.

GPT-4o Mini es un 60% más barato que GPT-3.5 Turbo, con un coste de 15 céntimos por millón de tokens de entrada (unidades de texto o datos que el modelo procesa) y 60 céntimos por millón de tokens de salida (unidades que el modelo genera como respuesta). Para ponerlo en perspectiva, un millón de tokens equivale aproximadamente al procesamiento de 2.500 páginas de texto. Con una ventana de contexto de 128K tokens y la capacidad de gestionar hasta 16K tokens de salida por solicitud, GPT-4o Mini está diseñado para ser eficiente y asequible a la vez.

GPT-4o Mini es un 60% más barato que GPT-3.5 Turbo

Fig. 1. GPT-4o Mini es un 60% más barato que GPT-3.5 Turbo.

Link to this sectionCaracterísticas clave de GPT-4o Mini#

GPT-4o Mini admite una gama de tareas que lo convierten en una opción excelente para diversas aplicaciones. Puede utilizarse al ejecutar varias operaciones a la vez, como llamar a múltiples API, gestionar grandes cantidades de datos como bases de código completas o historiales de conversación, y proporcionar respuestas rápidas en tiempo real en chatbots de atención al cliente.

Aquí tienes otras características clave:

  • Base de conocimientos actualizada: El modelo contiene información hasta octubre de 2023.
  • Tokenizador mejorado: GPT-4o Mini hace que el procesamiento de texto que no está en inglés sea más rentable.
  • Medidas de seguridad sólidas: Estas medidas incluyen el filtrado de contenido dañino y la protección contra problemas de seguridad como inyecciones de prompts y manipulaciones del sistema.

Link to this sectionEmpezando con GPT-4o Mini#

Puedes probar a usar GPT-4o Mini a través de la interfaz de ChatGPT. Es accesible para usuarios de los planes Free, Plus y Team, sustituyendo a GPT-3.5 tal como se muestra a continuación. Los usuarios de Enterprise también obtendrán acceso pronto, en línea con el objetivo de OpenAI de ofrecer los beneficios de la IA a todos. GPT-4o Mini también está disponible a través de la API para desarrolladores que deseen integrar sus capacidades en sus aplicaciones. Por el momento, las capacidades de visión solo son accesibles a través de la API.

Opciones de modelo dentro de ChatGPT

Fig 2. Opciones de modelos dentro de ChatGPT.

Link to this sectionLa diferencia entre GPT-4o y GPT-4o Mini#

GPT-4o Mini y GPT-4o funcionan de forma impresionante en varios puntos de referencia. Aunque GPT-4o supera generalmente a GPT-4o Mini, este último sigue siendo una solución rentable para las tareas cotidianas. Los puntos de referencia incluyen tareas de razonamiento, matemáticas y dominio de la programación, y razonamiento multimodal. Como se muestra en la imagen de abajo, GPT-4o Mini puntúa bastante alto en comparación con otros modelos populares.

Comparación de GPT-4o Mini con otros modelos populares

Fig 3. Comparando GPT-4o Mini con otros modelos populares.

Link to this sectionEmpezando con GPT-4o y GPT-4o Mini#

Un prompt interesante que se ha debatido en línea implica a LLM populares comparando números decimales de forma incorrecta. Cuando pusimos a prueba a GPT-4o y GPT-4o Mini, sus capacidades de razonamiento mostraron diferencias claras. En la imagen de abajo, pedimos a ambos modelos que dijeran cuál es mayor: 9.11 o 9.9, y luego les pedimos que explicaran su razonamiento.

Prueba del razonamiento de GPT-4o y GPT-4o Mini

Fig 4. Probando GPT-4o y GPT-4o Mini.

Ambos modelos responden inicialmente de forma incorrecta y afirman que 9.11 es mayor. Sin embargo, GPT-4o es capaz de razonar hasta llegar a la respuesta correcta y afirma que 9.9 es mayor. Proporciona una explicación detallada y compara los decimales con precisión. Por el contrario, GPT-4o Mini mantiene obstinadamente su respuesta inicial incorrecta a pesar de haber deducido correctamente el razonamiento detrás de por qué 9.9 es mayor.

Ambos modelos muestran sólidas habilidades de razonamiento. La capacidad de GPT-4o para corregirse a sí mismo lo hace superior y útil para tareas más complejas. GPT-4o Mini, aunque menos adaptable, sigue ofreciendo un razonamiento claro y preciso para tareas más sencillas.

Link to this sectionUso de GPT-4o Mini para varios casos de uso de visión artificial#

Si prefieres explorar las capacidades de visión de GPT-4o Mini sin entrar en el código, puedes probar fácilmente la API en el OpenAI Playground. Lo probamos nosotros mismos para ver lo bien que GPT-4o Mini es capaz de gestionar varios casos de uso relacionados con la visión artificial.

Link to this sectionClasificación de imágenes usando GPT-4o Mini#

Pedimos a GPT-4o Mini que clasificara dos imágenes: una de una mariposa y otra de un mapa. El modelo de IA identificó con éxito la mariposa y el mapa. Esta es una tarea bastante sencilla dado que las imágenes son muy diferentes.

Clasificación de imágenes de una mariposa y un mapa con GPT-4o Mini

Fig 5. Clasificando imágenes con la ayuda de GPT-4o Mini.

Continuamos y procesamos dos imágenes más a través del modelo: una que muestra una mariposa descansando sobre una planta y otra que muestra una mariposa descansando en el suelo. La IA volvió a hacer un gran trabajo, detectando correctamente la mariposa sobre la planta y la que estaba en el suelo. Así que, fuimos un paso más allá de nuevo.

Clasificación de imágenes similares de mariposas con GPT-4o Mini

Fig 6. Clasificando imágenes similares con la ayuda de GPT-4o Mini.

Luego pedimos a GPT-4o Mini que clasificara dos imágenes: una que muestra una mariposa alimentándose de las flores de una asclepia (Swamp Milkweed) y la otra que muestra una mariposa alimentándose de una flor de Zinnia. Es sorprendente que el modelo fuera capaz de clasificar una etiqueta tan específica sin un ajuste fino adicional. Estos ejemplos rápidos demuestran que GPT-4o Mini podría utilizarse posiblemente para tareas de clasificación de imágenes sin necesidad de entrenamiento personalizado.

Clasificación de imágenes detalladas de mariposas con GPT-4o Mini

Fig 7. Clasificando imágenes detalladas con la ayuda de GPT-4o Mini.

Link to this sectionEntendiendo poses usando GPT-4o Mini#

A día de hoy, tareas de visión artificial como la detección de objetos y la segmentación de instancias no pueden ser manejadas usando GPT-4o Mini. GPT-4o lucha por la precisión, pero puede ser utilizado para tales tareas. En este sentido, con respecto a entender poses, no podemos detectar o estimar la pose en la imagen, pero podemos clasificar y entender la pose.

Uso de GPT-4o Mini para entender las poses en una imagen

Fig 8. Usando GPT-4o Mini para entender las poses en una imagen.

La imagen de arriba muestra cómo GPT-4o Mini puede clasificar y entender poses, a pesar de no ser capaz de detectar o estimar las coordenadas precisas de la pose. Esto puede ser útil en diferentes aplicaciones. Por ejemplo, en el análisis deportivo, puede evaluar de forma general los movimientos de los atletas y ayudar a prevenir lesiones. De manera similar, en fisioterapia, puede ayudar a monitorizar los ejercicios para asegurar que los pacientes realicen los movimientos correctos durante la rehabilitación. También para la vigilancia, puede ayudar a identificar actividades sospechosas analizando el lenguaje corporal general. Aunque GPT-4o Mini no puede detectar puntos clave específicos, su capacidad para clasificar poses generales lo hace útil en estos y otros campos.

Link to this sectionAplicaciones para las que GPT-4o Mini es adecuado#

Hemos echado un vistazo a lo que puede hacer GPT-4o Mini. Ahora, discutamos las aplicaciones donde es más óptimo usar GPT-4o Mini.

GPT-4o Mini es excelente para aplicaciones que requieren una comprensión avanzada del lenguaje natural y necesitan una huella computacional pequeña. Hace posible integrar la IA en aplicaciones donde normalmente sería demasiado costoso. De hecho, un análisis detallado de Artificial Analysis muestra que GPT-4o Mini proporciona respuestas de alta calidad a velocidades vertiginosas en comparación con la mayoría de los demás modelos.

Calidad frente a velocidad de salida de GPT-4o Mini

Fig 9. Calidad frente a velocidad de salida de GPT-4o Mini.

Aquí hay algunas áreas clave donde podría brillar en el futuro:

  • Asistentes virtuales y chatbots: GPT-4o Mini puede proporcionar respuestas rápidas e inteligentes para mejorar las interacciones de los usuarios.
  • Herramientas educativas: El modelo puede utilizarse para crear herramientas que ofrezcan tutoría personalizada y generación de contenido.
  • Herramientas de productividad: Puede mejorar tareas como resumir documentos, redactar correos electrónicos y traducir idiomas para impulsar la eficiencia.
  • Traducción de idiomas: La última versión de GPT puede usarse para desarrollar traductores que proporcionen una traducción de idiomas precisa y en tiempo real para una mejor comunicación a través de diferentes lenguas.

Link to this sectionGPT-4o Mini abre nuevas puertas#

GPT-4o Mini está creando nuevas oportunidades para el futuro de la IA multimodal. El gasto de procesar cada pieza de texto o dato, conocido como el coste por token, ha disminuido sustancialmente —en casi un 99%— desde 2022, cuando se lanzó text-davinci-003, el modelo GPT-3. La disminución en el coste muestra una tendencia clara hacia hacer que la IA avanzada sea más asequible. A medida que los modelos de IA continúan mejorando, ¡se vuelve cada vez más probable que integrar IA en cada aplicación y sitio web sea económicamente viable!

¿Quieres ponerte manos a la obra con la IA? Visita nuestro repositorio de GitHub para ver nuestras innovaciones y formar parte de nuestra activa comunidad. Descubre más sobre aplicaciones de IA en fabricación y agricultura en nuestras páginas de soluciones.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático