Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

GPT-4o de OpenAI muestra el potencial de la IA

Explora el nuevo GPT-4o de OpenAI, que cuenta con una IA avanzada con interacciones realistas que cambian la forma en que nos comunicamos con la tecnología. ¡Explora sus características innovadoras!

ABAbirami Vina
5 min read
GPT-4o de OpenAI mostrando el potencial de la IA

El lunes 13 de mayo de 2024, OpenAI anunció el lanzamiento de su nuevo modelo insignia, GPT-4o, donde la 'o' significa 'omni'. GPT-4o es un modelo de IA multimodal avanzado para interacciones en tiempo real de texto, audio y visión, que ofrece un procesamiento más rápido, compatibilidad multilingüe y una seguridad mejorada.

Trae consigo capacidades de IA generativa nunca antes vistas. Basándose en las fortalezas conversacionales de ChatGPT, las características de GPT-4o marcan un paso importante en cómo la gente percibe la IA. Ahora podemos hablar con GPT-4o como si fuera una persona real. ¡Vamos a profundizar y ver exactamente de qué es capaz GPT-4o!

Link to this sectionConociendo a GPT-4o#

En la actualización de primavera de OpenAI, se reveló que, aunque GPT-4o es igual de inteligente que GPT-4, puede procesar datos más rápido y está mejor equipado para manejar texto, visión y audio. A diferencia de lanzamientos anteriores que se centraban en hacer que los modelos fueran más inteligentes, este lanzamiento se ha hecho teniendo en cuenta la necesidad de hacer que la IA sea más fácil de usar para el público general.

Actualización de primavera de OpenAI

Fig 1. Actualización de primavera de OpenAI

El modo de voz de ChatGPT, que se lanzó a finales del año pasado, involucraba a tres modelos diferentes que se unían para transcribir entradas vocales, comprender y generar respuestas escritas, y convertir texto a voz para que el usuario pudiera escuchar una respuesta. Este modo lidiaba con problemas de latencia y no resultaba muy natural. GPT-4o puede procesar de forma nativa texto, visión y audio de una sola vez para darle al usuario la impresión de que está participando en una conversación natural.

Además, a diferencia del modo de voz, ahora puedes interrumpir a GPT-4o mientras habla y reaccionará tal como lo haría una persona. Hará una pausa y escuchará, para luego darte su respuesta en tiempo real basada en lo que dijiste. También puede expresar emociones a través de su voz y entender tu tono también.

Link to this sectionEmocionantes características de GPT-4o#

La evaluación del modelo GPT-4o muestra lo avanzado que es. Uno de los resultados más interesantes encontrados fue que GPT-4o mejora enormemente el reconocimiento de voz en comparación con Whisper-v3 en todos los idiomas, especialmente en aquellos que se utilizan menos.

El rendimiento de ASR (Reconocimiento Automático de Voz) de audio mide con qué precisión un modelo transcribe el lenguaje hablado a texto. El rendimiento de GPT-4o se sigue mediante la Tasa de Error de Palabras (WER, por sus siglas en inglés), que muestra el porcentaje de palabras transcritas incorrectamente (una WER más baja significa mejor calidad). El gráfico a continuación muestra la menor WER de GPT-4o en varias regiones, lo que demuestra su eficacia para mejorar el reconocimiento de voz en idiomas con menos recursos.

GPT-4o cuenta con un reconocimiento de voz superior en múltiples idiomas

Fig 2. GPT-4o tiene un reconocimiento de voz superior en múltiples idiomas.

Aquí tienes un vistazo a algunas características más únicas de GPT-4o:

  • Más rápido: es dos veces más rápido que GPT-4 Turbo. Puede responder a entradas de audio en solo 232 milisegundos, similar a los tiempos de respuesta de una conversación humana.
  • Rentable: la versión de API de GPT-4o es un 50% más barata que GPT-4 Turbo.
  • Memoria: GPT-4o tiene la capacidad de mantener la conciencia entre diferentes conversaciones. Puede recordar de qué estás hablando en diferentes chats.
  • Multilingüe: GPT-4o ha sido entrenado para tener mayor velocidad y calidad en 50 idiomas diferentes.

Link to this sectionEjemplos de lo que puede hacer GPT-4o#

Ahora puedes sacar GPT-4o en tu teléfono, encender la cámara y pedirle a GPT-4o, como lo harías con un amigo, que adivine tu estado de ánimo según tu expresión facial. GPT-4o puede verte a través de la cámara y responder.

GPT-4o comprende el estado de ánimo de una persona a través de vídeo

Fig 3. GPT-4o entendiendo el estado de ánimo de una persona a través de video.

Incluso puedes usarlo para ayudarte a resolver problemas matemáticos mostrándole a GPT-4o lo que estás escribiendo a través de video. Alternativamente, podrías compartir tu pantalla y puede convertirse en un tutor útil en Khan Academy, pidiéndote que señales diferentes partes de un triángulo en geometría, como se muestra a continuación.

GPT-4o actuando como tutor en Khan Academy

Fig 4. GPT-4o actuando como tutor en Khan Academy.

Más allá de ayudar a los niños con las matemáticas, los desarrolladores pueden tener conversaciones con GPT-4o para depurar su código. Esto es posible gracias a la introducción de ChatGPT como una aplicación de escritorio. Si resaltas y copias tu código usando CTRL "C" mientras hablas con la aplicación de voz de escritorio de GPT-4o, podrá leer tu código. O bien, podrías usarlo para traducir conversaciones entre desarrolladores que hablan diferentes idiomas.

Las posibilidades con GPT-4o parecen infinitas. Una de las demostraciones más interesantes de OpenAI utilizó dos teléfonos para mostrar a GPT-4o hablando con diferentes instancias de sí mismo y cantando juntos.

IA hablando y cantando con otra IA

Fig 5. IA hablando y cantando con IA.

Link to this sectionAplicaciones de GPT-4o#

Como se muestra en una demostración, GPT-4o puede hacer que el mundo sea más accesible para personas con discapacidades visuales. Puede ayudarlos a interactuar y moverse de manera más segura e independiente. Por ejemplo, los usuarios pueden activar su video y mostrarle a GPT-4o una vista de la calle. GPT-4o puede proporcionar descripciones en tiempo real del entorno, como identificar obstáculos, leer señales de tráfico o guiarlos a una ubicación específica. Incluso puede ayudarlos a pedir un taxi avisándoles cuando se acerca uno.

GPT-4o avisando de la aproximación de un taxi

Fig 6. GPT-4o avisando de la llegada de un taxi.

Del mismo modo, GPT-4o puede transformar varias industrias con sus capacidades avanzadas. En el retail, puede mejorar el servicio al cliente proporcionando asistencia en tiempo real, respondiendo consultas y ayudando a los clientes a encontrar productos tanto en línea como en la tienda. Digamos que estás mirando un estante de productos y no puedes elegir el producto que buscas, GPT-4o puede ayudarte.

En healthcare, GPT-4o puede ayudar con los diagnósticos analizando los datos del paciente, sugiriendo posibles afecciones basadas en los síntomas y ofreciendo orientación sobre las opciones de tratamiento. También puede apoyar a los profesionales médicos resumiendo los registros de los pacientes, brindando acceso rápido a literatura médica e incluso ofreciendo traducción de idiomas en tiempo real para comunicarse con pacientes que hablan diferentes idiomas. Estos son solo un par de ejemplos. Las aplicaciones de GPT-4o hacen que la vida diaria sea más fácil al ofrecer asistencia personalizada y consciente del contexto, y al eliminar las barreras a la información y la comunicación.

Link to this sectionGPT-4o y la seguridad del modelo#

Al igual que las versiones anteriores de GPT, que han impactado a cientos de millones de vidas, es probable que GPT-4o interactúe con audio y video en tiempo real a nivel mundial, lo que hace que la seguridad sea un elemento crucial en estas aplicaciones. OpenAI ha tenido mucho cuidado de construir GPT-4o centrándose en mitigar los riesgos potenciales.

Para garantizar la seguridad y la fiabilidad, OpenAI ha implementado medidas de seguridad rigurosas. Estas incluyen filtrar los datos de entrenamiento, refinar el comportamiento del modelo después del entrenamiento e incorporar nuevos sistemas de seguridad para gestionar las salidas de voz. Además, GPT-4o ha sido probado exhaustivamente por más de 70 expertos externos en campos como la psicología social, el sesgo y la equidad, y la desinformación. Las pruebas externas aseguran que cualquier riesgo introducido o amplificado por las nuevas características sea identificado y abordado.

Para mantener altos estándares de seguridad, OpenAI está lanzando las características de GPT-4o gradualmente durante las próximas semanas. Un despliegue gradual permite a OpenAI monitorear el rendimiento, abordar cualquier problema y recopilar comentarios de los usuarios. Adoptar un enfoque cuidadoso asegura que GPT-4o ofrezca capacidades avanzadas mientras mantiene los más altos estándares de seguridad y uso ético.

Link to this sectionPrueba GPT-4o tú mismo#

GPT-4o está disponible para acceso gratuito. Para probar las capacidades de conversación en tiempo real mencionadas anteriormente, puedes descargar la app de ChatGPT desde Google Play Store o Apple App Store directamente en tu teléfono.

Después de iniciar sesión, podrás seleccionar GPT-4o de la lista que se muestra tocando los tres puntos en la esquina superior derecha de la pantalla. Después de navegar a un chat habilitado con GPT-4o, si tocas el signo más en la esquina inferior izquierda de la pantalla, verás múltiples opciones de entrada. En la esquina inferior derecha de la pantalla, verás un icono de auriculares. Al seleccionar el icono de auriculares, se te preguntará si deseas experimentar una versión manos libres de GPT-4o. Después de aceptar, podrás probar GPT-4o, como se muestra a continuación.

Probando GPT-4o en la aplicación móvil de ChatGPT

Fig 7. Probando GPT-4o en la aplicación móvil de ChatGPT.

Si deseas integrar las capacidades avanzadas de GPT-4o en tus propios proyectos, está disponible como API para desarrolladores. Te permite incorporar el potente reconocimiento de voz, la compatibilidad multilingüe y las capacidades de conversación en tiempo real de GPT-4o en tus aplicaciones. Al usar la API, puedes mejorar las experiencias de los usuarios, crear aplicaciones más inteligentes y llevar tecnología de IA de vanguardia a diferentes sectores.

Link to this sectionGPT-4o: Aún no es del todo humano#

Si bien GPT-4o es mucho más avanzado que los modelos de IA anteriores, es importante recordar que GPT-4o viene con sus propias limitaciones. OpenAI ha mencionado que a veces puede cambiar de idioma aleatoriamente mientras habla, pasando del inglés al francés. También han visto que GPT-4o traduce incorrectamente entre idiomas. A medida que más personas prueben el modelo, entenderemos dónde destaca GPT-4o y en qué necesita más mejoras.

Link to this sectionEn resumen#

GPT-4o de OpenAI abre nuevas puertas para la IA con su procesamiento avanzado de texto, visión y audio, ofreciendo interacciones naturales similares a las humanas. Destaca en términos de velocidad, rentabilidad y compatibilidad multilingüe. GPT-4o es una herramienta versátil para la educación, la accesibilidad y la asistencia en tiempo real. A medida que los usuarios exploren las capacidades de GPT-4o, los comentarios impulsarán su evolución. GPT-4o demuestra que la IA realmente está cambiando nuestro mundo y convirtiéndose en parte de nuestra vida diaria.

Explora nuestro GitHub repository y únete a nuestra community para profundizar en la IA. Visita nuestras páginas de soluciones para ver cómo la IA está transformando industrias como manufacturing y agriculture.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático