OpenAI o1: Una nueva serie de modelos de OpenAI para el razonamiento de la IA

13 de septiembre de 2024
Descubra los nuevos modelos o1 de OpenAI y qué los hace especiales. También analizaremos cómo funcionan y su impacto en el futuro de la IA.


13 de septiembre de 2024
Descubra los nuevos modelos o1 de OpenAI y qué los hace especiales. También analizaremos cómo funcionan y su impacto en el futuro de la IA.

La comunidad de la IA ha estado especulando sobre el siguiente paso para los modelos GPT de OpenAI, y muchos se refieren a él como "Proyecto Fresa". La razón detrás de esto es que si le pides a GPT-4o que te diga cuántas R hay en la palabra "strawberry" (fresa en inglés), te dirá que hay dos R en la palabra "strawberry". Puede parecer extraño, teniendo en cuenta lo potente que es GPT-4o. Sin embargo, el modelo está construido para procesar el subtexto, no las palabras exactas. Se rumoreaba que el próximo modelo tendría como objetivo solucionar esto. Sam Altman alimentó aún más estos rumores publicando fotos de fresas en su cuenta de X (antes conocido como Twitter).
Con el último anuncio de OpenAI el jueves 12 de septiembre, ¡finalmente tenemos una respuesta a la especulación! Se ha lanzado OpenAI o1, una nueva serie de modelos de IA diseñados para ralentizar y pensar antes de responder. Curiosamente, ¡OpenAI o1 puede razonar mejor y responder correctamente a la pregunta sobre las fresas! En este artículo, analizaremos qué es OpenAI o1, cómo funciona, dónde se puede utilizar y qué significa para el futuro de la IA. ¡Empecemos!
.png)
En julio de 2024, los ejecutivos de OpenAI compartieron que la investigación de OpenAI se está acercando a un nivel humano de resolución de problemas, denominado nivel 2 de la IA. Está claro que este nivel se centra en el razonamiento, ya que OpenAI presenta su nueva serie de modelos, OpenAI o1, como pensar antes de responder. OpenAI o1 es un nuevo LLM (modelo de lenguaje grande), un modelo de IA que comprende y genera texto similar al humano aprendiendo patrones de cantidades masivas de datos lingüísticos. Ha sido diseñado para manejar problemas complejos que requieren un razonamiento profundo.

El modelo ha sido entrenado utilizando aprendizaje por refuerzo, una técnica en la que el modelo aprende a tomar mejores decisiones a través de prueba y error al recibir recompensas o penalizaciones por sus acciones. El algoritmo de aprendizaje por refuerzo ayuda al modelo a pensar de manera más efectiva siguiendo una cadena de pensamiento. OpenAI también compartió que el rendimiento de o1 sigue mejorando con más aprendizaje por refuerzo durante el entrenamiento y con más tiempo dedicado a "pensar" durante la resolución de problemas, lo que demuestra que tanto el entrenamiento extendido como el procesamiento reflexivo ayudan a impulsar las habilidades del modelo.
Si bien OpenAI o1 es un avance significativo para el razonamiento complejo, sigue siendo un modelo temprano y carece de algunas características que hacen que ChatGPT sea útil, como navegar por la web o cargar archivos e imágenes. Para muchas tareas comunes, GPT-4o podría ser aún más capaz por ahora. Sin embargo, OpenAI o1 marca un gran paso adelante en la capacidad de la IA para manejar el razonamiento complejo, razón por la cual OpenAI está comenzando una nueva serie y la llama OpenAI o1.
OpenAI o1 se puede utilizar para tareas como descifrar códigos, resolver desafíos de programación, responder problemas de matemáticas, abordar crucigramas e incluso manejar temas complejos en ciencia, seguridad y atención médica. En un guiño divertido al nombre en clave del proyecto, OpenAI mostró las habilidades de razonamiento del modelo al descifrar un código que reveló el mensaje "THERE ARE THREE R’S IN STRAWBERRY".
Más allá de resolver cifrados, OpenAI o1 también es hábil en la codificación. Tiene un buen desempeño en desafíos de programación competitiva como los de Codeforces, una plataforma donde los programadores resuelven problemas de codificación complejos en condiciones de tiempo limitado. En estos desafíos, el modelo alcanza altas calificaciones Elo (un sistema de puntuación que mide los niveles de habilidad basados en el rendimiento contra otros competidores) y supera a los modelos anteriores. También sobresale en matemáticas y tiene un buen desempeño en exámenes como el American Invitational Mathematics Examination (AIME).
.png)
Estos avances posicionan a OpenAI o1 como una mejora significativa con respecto a modelos anteriores como GPT-4o. Abre nuevas posibilidades para la IA en áreas como los negocios, el desarrollo, la investigación y la atención médica. Por ejemplo, en la investigación genética, OpenAI o1 puede revisar rápidamente una gran cantidad de artículos de investigación, seleccionando hallazgos clave y conexiones entre marcadores genéticos y enfermedades. Comprende el lenguaje científico complejo y puede resumir los puntos importantes, lo que ayuda a los investigadores a centrarse en la información más relevante.
Vimos antes que OpenAI o1 introduce un proceso de razonamiento de "Cadena de Pensamiento". Permite al modelo abordar problemas complejos de una manera similar a las estrategias cognitivas humanas. El modelo puede dividir los desafíos en pasos más pequeños y manejables y refinar iterativamente su enfoque. A diferencia de los modelos anteriores que se basaban en el reconocimiento de patrones inmediato, o1 optimiza su toma de decisiones explorando múltiples rutas de razonamiento, aprendiendo tanto de los éxitos como de los errores a través del aprendizaje por refuerzo.
OpenAI ha decidido mantener estas cadenas de pensamiento en bruto ocultas a los usuarios, ofreciendo en cambio resúmenes que proporcionan información sobre el razonamiento del modelo sin exponer cada paso. Esta decisión ayuda a prevenir el uso indebido del proceso de pensamiento del modelo, al tiempo que permite a los desarrolladores monitorear y refinar la seguridad y la alineación de la IA. Al observar las cadenas ocultas internamente, los desarrolladores pueden asegurarse de que o1 se adhiera a las directrices éticas y evite comportamientos dañinos.
OpenAI o1 muestra mejoras importantes con respecto a GPT-4o en varios benchmarks que evalúan las habilidades de razonamiento y resolución de problemas. En el American Invitational Mathematics Examination (AIME) 2024, un examen de matemáticas desafiante para los mejores estudiantes de secundaria, o1 logró una tasa de precisión del 74% con solo una muestra por problema, en comparación con el 12% de GPT-4o. Con consenso en 64 muestras, su precisión aumentó al 83%, y al utilizar un método de re-ranking refinado con 1,000 muestras, alcanzó el 93%, ubicándose entre los 500 mejores estudiantes a nivel nacional.
Más allá de las matemáticas, o1 también tuvo un desempeño excepcionalmente bueno en los benchmarks que evalúan el conocimiento científico, como el GPQA Diamond, que cubre preguntas de nivel de doctorado en química, física y biología. Sorprendentemente, o1 superó a los expertos humanos con doctorados en esta prueba, convirtiéndose en el primer modelo de IA en hacerlo. También superó a GPT-4o en 54 de 57 categorías en el benchmark MMLU, que evalúa la comprensión en un conjunto diverso de temas, incluyendo historia, derecho y ciencia.
.png)
OpenAI ha presentado dos nuevos modelos de IA en la serie o1: o1-preview y o1-mini. El modelo o1-preview está diseñado para pensar más profundamente antes de responder, destacando en tareas complejas de razonamiento en ciencia, codificación y matemáticas. Ofrece capacidades avanzadas de resolución de problemas para usuarios que abordan proyectos desafiantes. En contraste, o1-mini es un modelo más pequeño, rápido y rentable optimizado específicamente para el razonamiento STEM, particularmente en matemáticas y codificación. Si bien puede tener un conocimiento del mundo menos amplio, o1-mini casi iguala el rendimiento de o1-preview en evaluaciones clave como la competencia de matemáticas AIME y los desafíos de codificación de Codeforces, todo a un 80% menos de costo.
.png)
Puede probar estos modelos a través de varias plataformas de OpenAI. Los usuarios de ChatGPT Plus y Team pueden acceder tanto a o1-preview como a o1-mini a través del selector de modelos, experimentando capacidades de razonamiento mejoradas directamente en ChatGPT. Los desarrolladores con acceso de nivel 5 al uso de la API pueden empezar a crear prototipos con estos modelos, aunque algunas funciones avanzadas aún están en desarrollo. OpenAI también planea hacer que o1-mini esté disponible para todos los usuarios de ChatGPT Free pronto. Al explorar estos modelos, puede experimentar de primera mano los avances en el razonamiento de la IA y elegir el que mejor se adapte a sus necesidades.
OpenAI se ha centrado en la ética y la seguridad al desarrollar la serie de modelos o1. Antes de lanzar los modelos o1-preview y o1-mini, realizaron evaluaciones exhaustivas, incluyendo pruebas externas y controles internos de riesgos como contenido prohibido, alucinaciones y sesgos. Los modelos están diseñados con capacidades de razonamiento avanzadas para comprender y seguir mejor las normas de seguridad.
OpenAI también ha implementado salvaguardias como listas de bloqueo y clasificadores de seguridad para gestionar los riesgos. El modelo o1 tiene una calificación de riesgo general medio. Tiene bajos riesgos en áreas como la ciberseguridad y la autonomía del modelo, y riesgos medios en áreas como el contenido CBRN (Químico, Biológico, Radiológico y Nuclear) y la persuasión. El Grupo Asesor de Seguridad y la Junta Directiva de OpenAI han revisado estas medidas de seguridad para garantizar que el modelo sea seguro y ético de usar.
.png)
OpenAI o1 es un gran paso adelante en el razonamiento de la IA, convirtiendo algunos de los primeros rumores en realidad. A diferencia de GPT-4o, la serie o1 piensa más profundamente utilizando un enfoque de "Cadena de Pensamiento", dividiendo problemas complejos en pasos más pequeños para obtener mejores respuestas. Actualmente disponible como una vista previa anticipada en ChatGPT y la API, OpenAI planea agregar funciones como la navegación web y la carga de archivos e imágenes. OpenAI también compartió que planean seguir desarrollando y lanzando modelos en la serie GPT, junto con la nueva serie OpenAI o1. A medida que la IA continúa evolucionando, avances como estos están allanando el camino para sistemas de IA más potentes, intuitivos y versátiles que puedan ayudar y comprender mejor las necesidades humanas.
¡Manténgase al día con lo último en IA uniéndose a nuestra comunidad! Diríjase a nuestro repositorio de GitHub para ver cómo estamos siendo pioneros en soluciones de IA en sectores como la fabricación y la atención médica. 🚀