GPT-4o: Modelo Omni AI de OpenAI - Detalles y características

El lunes 13 de mayo de 2024, OpenAI anunció el lanzamiento de su nuevo modelo insignia, GPT-4o, donde la "o" significa "omni". GPT-4o es un modelo avanzado de IA multimodal para interacciones de texto, audio y visión en tiempo real, que ofrece un procesamiento más rápido, soporte multilingüe y seguridad mejorada.

Pone sobre la mesa capacidades de IA generativa nunca vistas. Las funciones de GPT-4o, que se basan en la capacidad de conversación de ChatGPT, suponen un avance sustancial en la percepción de la IA. Ahora podemos hablar con GPT-4o como si fuera una persona real. Veamos de qué es capaz GPT-4o.

Conozca GPT-4o

En la actualización de primavera de OpenAI, se reveló que, aunque GPT-4o es igual de inteligente que GPT-4, puede procesar datos más rápidamente y está mejor equipado para manejar texto, visión y audio. A diferencia de versiones anteriores, que se centraban en hacer los modelos más inteligentes, esta versión se ha realizado teniendo en cuenta la necesidad de que la IA sea más fácil de usar para el público en general.

__wf_reserved_inherit — Fig. 1. Actualización de primavera de OpenAI

El modo de voz de ChatGPT, que se lanzó a finales del año pasado, incluía tres modelos diferentes que se unían para transcribir las entradas vocales, comprender y generar respuestas escritas y convertir el texto en voz para que el usuario pudiera oír una respuesta. Este modo presentaba problemas de latencia y no resultaba muy natural. GPT-4o puede procesar de forma nativa texto, visión y audio de una sola vez para dar al usuario la impresión de estar participando en una conversación natural.

Además, a diferencia del modo de voz, ahora puedes interrumpir a GPT-4o mientras está hablando, y reaccionará igual que lo haría una persona. Hará una pausa, escuchará y responderá en tiempo real en función de lo que hayas dicho. También puede expresar emociones a través de su voz y entender tu tono.

Emocionantes características de GPT-4o

La evaluación del modelo de GPT-4o demuestra lo avanzado que es. Uno de los resultados más interesantes es que GPT-4o mejora notablemente el reconocimiento del habla en comparación con Whisper-v3 en todos los idiomas, especialmente en los menos utilizados.

El rendimiento del ASR (reconocimiento automático del habla) de audio mide la precisión con la que un modelo transcribe el lenguaje hablado a texto. El rendimiento de GPT-4o se mide mediante la tasa de error de palabra (WER), que muestra el porcentaje de palabras transcritas incorrectamente (una WER más baja significa mejor calidad). El siguiente gráfico muestra la menor WER de GPT-4o en varias regiones, lo que demuestra su eficacia a la hora de mejorar el reconocimiento del habla en idiomas con menos recursos.

A continuación le mostramos algunas de las características exclusivas de GPT-4o:

Más rápido - Es el doble de rápido que GPT-4 Turbo. Puede responder a entradas de audio en solo 232 milisegundos, tiempos de respuesta similares a los de una conversación humana.
‍
Rentable - La versión API de GPT-4o es un 50% más barata que GPT-4 Turbo.
‍
Memoria - GPT-4o tiene la capacidad de mantener la atención a través de diferentes conversaciones. Puede recordar de qué estás hablando en diferentes chats.
‍
Multilingüe - GPT-4o ha sido entrenado para mejorar la velocidad y la calidad en 50 idiomas diferentes.

Ejemplos de lo que puede hacer GPT-4o

Ahora puedes sacar GPT-4o de tu teléfono, encender la cámara y pedirle a GPT-4o, como harías con un amigo, que adivine tu estado de ánimo basándose en tu expresión facial. GPT-4o puede verte a través de la cámara y responderte.

Incluso puedes utilizarlo para ayudarte a resolver problemas de matemáticas mostrando a GPT-4o lo que estás escribiendo a través de un vídeo. Alternativamente, puedes compartir tu pantalla, y puede convertirse en un tutor útil en Khan Academy, pidiéndote que señales las diferentes partes de un triángulo en geometría, como se muestra a continuación.

Además de ayudar a los niños con las matemáticas, los desarrolladores pueden mantener conversaciones con GPT-4o para depurar su código. Esto es posible gracias a la introducción de ChatGPT como aplicación de escritorio. Si resaltas y copias tu código utilizando CTRL "C" mientras hablas con la aplicación de voz GPT-4o, ésta podrá leer tu código. También puedes utilizarla para traducir conversaciones entre desarrolladores que hablen distintos idiomas.

Las posibilidades de GPt-4o parecen infinitas. Una de las demostraciones más interesantes de OpenAI utilizó dos teléfonos para mostrar a GPt-4o hablando con diferentes instancias de sí mismo y cantando juntas.

Aplicaciones GPT-4o

Como se muestra en una demostración, GPT-4o puede hacer el mundo más accesible para las personas con problemas de visión. Puede ayudarles a interactuar y moverse de forma más segura e independiente. Por ejemplo, los usuarios pueden encender el vídeo y mostrar a GPT-4o una vista de la calle. GPT-4o puede proporcionarles descripciones del entorno en tiempo real, como identificar obstáculos, leer señales de tráfico o guiarles a un lugar concreto. Incluso puede ayudarles a llamar a un taxi avisándoles cuando se acerca uno.

Del mismo modo, GPT-4o puede transformar varios sectores gracias a sus funciones avanzadas. En el comercio minorista, puede mejorar el servicio al cliente proporcionando asistencia en tiempo real, respondiendo a consultas y ayudando a los clientes a encontrar productos tanto en línea como en la tienda. Supongamos que está mirando una estantería de productos y no puede elegir el producto que busca, GPT-4o puede ayudarle.

En el ámbito sanitario, GPT-4o puede ayudar en el diagnóstico analizando los datos del paciente, sugiriendo posibles afecciones basadas en los síntomas y ofreciendo orientación sobre las opciones de tratamiento. También puede ayudar a los profesionales médicos resumiendo los historiales de los pacientes, proporcionando un acceso rápido a la literatura médica e incluso ofreciendo traducción de idiomas en tiempo real para comunicarse con pacientes que hablan idiomas diferentes. Estos son sólo un par de ejemplos. Las aplicaciones de GPT-4o facilitan la vida cotidiana ofreciendo asistencia adaptada al contexto y eliminando las barreras a la información y la comunicación.

GPT-4o y seguridad de los modelos

Al igual que las versiones anteriores de GPT, que han repercutido en cientos de millones de vidas, GPT-4o interactuará probablemente con audio y vídeo en tiempo real a escala mundial, lo que convierte la seguridad en un elemento crucial en estas aplicaciones. OpenAI ha tenido mucho cuidado al construir GPT-4o centrándose en mitigar los riesgos potenciales.

Para garantizar la seguridad y la fiabilidad, OpenAI ha implantado rigurosas medidas de seguridad. Entre ellas se incluyen el filtrado de los datos de entrenamiento, el refinamiento del comportamiento del modelo tras el entrenamiento y la incorporación de nuevos sistemas de seguridad para gestionar las salidas de voz. Además, la GPT-4o ha sido sometida a pruebas exhaustivas por más de 70 expertos externos en campos como la psicología social, la parcialidad y la imparcialidad, y la desinformación. Las pruebas externas garantizan que cualquier riesgo introducido o amplificado por las nuevas funciones se identifique y aborde.

Para mantener un alto nivel de seguridad, OpenAI está lanzando las funciones de GPT-4o de forma gradual a lo largo de las próximas semanas. El despliegue gradual permite a OpenAI supervisar el rendimiento, solucionar cualquier problema y recoger los comentarios de los usuarios. Un enfoque cuidadoso garantiza que GPT-4o ofrezca funciones avanzadas manteniendo los más altos estándares de seguridad y uso ético.

Pruebe GPT-4o usted mismo

GPT-4o es de acceso gratuito. Para probar las capacidades de conversación en tiempo real mencionadas anteriormente, puede descargar la aplicación ChatGPT desde Google Play Store o Apple App Store directamente en su teléfono.

Después de iniciar sesión, podrá seleccionar GPT-4o de la lista que aparece tocando los tres puntos de la esquina superior derecha de la pantalla. Después de navegar a un chat habilitado con GPT-4o, si toca el signo más en la esquina inferior izquierda de la pantalla, verá múltiples opciones de entrada. En la esquina inferior derecha de la pantalla, verás un icono de auriculares. Al seleccionar el icono de los auriculares, se le preguntará si desea experimentar una versión manos libres de GPT-4o. Después de aceptar, podrá probar GPT-4o, como se muestra a continuación.

Si desea integrar las capacidades avanzadas de GPT-4o en sus propios proyectos, está disponible como API para desarrolladores. Le permite incorporar el potente reconocimiento de voz, el soporte multilingüe y las capacidades conversacionales en tiempo real de GPT-4o en sus aplicaciones. Mediante el uso de la API, puede mejorar la experiencia del usuario, crear aplicaciones más inteligentes y llevar la tecnología de IA de vanguardia a diferentes sectores.

GPT-4o: Todavía no es humano

Aunque GPT-4o es mucho más avanzada que los modelos de IA anteriores, es importante recordar que GPT-4o tiene sus propias limitaciones. OpenAI ha mencionado que a veces puede cambiar aleatoriamente de idioma mientras habla, pasando del inglés al francés. También han visto cómo GPT-4o traducía incorrectamente entre idiomas. A medida que más gente pruebe el modelo, entenderemos en qué destaca GPT-4o y en qué necesita mejorar.

Lo esencial

La GPT-4o de OpenAI abre nuevas puertas a la IA con su procesamiento avanzado de texto, visión y audio, ofreciendo interacciones naturales y similares a las humanas. Destaca por su velocidad, rentabilidad y soporte multilingüe. GPT-4o es una herramienta versátil para la educación, la accesibilidad y la asistencia en tiempo real. A medida que los usuarios exploren las posibilidades de GPT-4o, sus comentarios impulsarán su evolución. GPT-4o demuestra que la IA está cambiando realmente nuestro mundo y formando parte de nuestra vida cotidiana.

Explore nuestro repositorio de GitHub y únase a nuestra comunidad para profundizar en la IA. Visite nuestras páginas de soluciones para ver cómo la IA está transformando sectores como la fabricación y la agricultura.

El GPT-4o de OpenAI muestra el potencial de la IA

Conozca GPT-4o

Emocionantes características de GPT-4o

Ejemplos de lo que puede hacer GPT-4o

Aplicaciones GPT-4o

GPT-4o y seguridad de los modelos

Pruebe GPT-4o usted mismo

GPT-4o: Todavía no es humano

Lo esencial

Leer más en esta categoría

Detección de fracturas de muñeca con visión por ordenador

Cómo saber si la fruta del dragón está madura mediante visión por ordenador

Segmentación celular: Qué es y cómo la mejora Vision AI

¡Construyamos juntos el futuro
de la IA!

El GPT-4o de OpenAI muestra el potencial de la IA

Conozca GPT-4o

Emocionantes características de GPT-4o

Ejemplos de lo que puede hacer GPT-4o

Aplicaciones GPT-4o

GPT-4o y seguridad de los modelos

Pruebe GPT-4o usted mismo

GPT-4o: Todavía no es humano

Lo esencial

Leer más en esta categoría

Detección de fracturas de muñeca con visión por ordenador

Cómo saber si la fruta del dragón está madura mediante visión por ordenador

Segmentación celular: Qué es y cómo la mejora Vision AI

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!