OpenAI o1: Una nueva serie de modelos OpenAI para el razonamiento de IA

13 de septiembre de 2024
Descubra los nuevos modelos OpenAI o1 y lo que los hace especiales. También veremos cómo funcionan y su impacto en el futuro de la IA.

13 de septiembre de 2024
Descubra los nuevos modelos OpenAI o1 y lo que los hace especiales. También veremos cómo funcionan y su impacto en el futuro de la IA.
La comunidad de IA ha estado especulando sobre el próximo paso de los modelos GPT de OpenAI, y muchos se refieren a él como "Proyecto Fresa". La razón es que si preguntas a GPT-4o cuántas erres hay en la palabra "fresa", te dirá que hay dos erres en la palabra"fresa". Puede parecer extraño, teniendo en cuenta lo potente que es GPT-4o. Sin embargo, el modelo está construido para procesar el subtexto, no las palabras exactas. Se rumorea que el próximo modelo tratará de solucionar este problema. Sam Altman alimentó aún más estos rumores publicando fotos de fresas en su cuenta X (antes conocida como Twitter).
Con el último anuncio de OpenAI el jueves 12 de septiembre, ¡por fin tenemos una respuesta a las especulaciones! OpenAI o1, una nueva serie de modelos de IA diseñados para ir más despacio y pensar antes de responder, ha sido lanzada. Curiosamente, OpenAI o1 puede razonar mejor y responder correctamente a la pregunta sobre las fresas. En este artículo hablaremos de qué es OpenAI o1, cómo funciona, dónde puede utilizarse y qué significa para el futuro de la IA. Empecemos.
En julio de 2024, los ejecutivos de OpenAI compartieron que la investigación de OpenAI se acerca a un nivel humano de resolución de problemas, denominado nivel 2 de IA. Está claro que este nivel se centra en el razonamiento, ya que OpenAI presenta su nueva serie de modelos, OpenAI o1, que piensa antes de responder. OpenAI o1 es un nuevo LLM (large language model), un modelo de IA que entiende y genera texto similar al humano aprendiendo patrones a partir de cantidades masivas de datos lingüísticos. Se ha diseñado para gestionar problemas complejos que requieren un razonamiento en profundidad.
El modelo se ha entrenado utilizando el aprendizaje por refuerzo, una técnica en la que el modelo aprende a tomar mejores decisiones mediante ensayo y error al recibir recompensas o penalizaciones por sus acciones. El algoritmo de aprendizaje por refuerzo ayuda al modelo a pensar con más eficacia siguiendo una cadena de pensamiento. OpenAI también compartió que el rendimiento de o1 sigue mejorando con más aprendizaje por refuerzo durante el entrenamiento y con más tiempo dedicado a "pensar" durante la resolución de problemas, lo que demuestra que tanto el entrenamiento prolongado como el procesamiento reflexivo ayudan a potenciar las habilidades del modelo.
Aunque OpenAI o1 es un avance significativo para el razonamiento complejo, aún es un modelo incipiente y carece de algunas funciones que hacen útil a ChatGPT, como navegar por Internet o subir archivos e imágenes. Para muchas tareas comunes, GPT-4o podría seguir siendo más capaz por ahora. Sin embargo, OpenAI o1 supone un gran paso adelante en la capacidad de la IA para manejar razonamientos complejos, razón por la cual OpenAI inicia una nueva serie y la denomina OpenAI o1.
OpenAI o1 puede utilizarse para tareas como descifrar claves, resolver retos de programación, responder a problemas matemáticos, resolver crucigramas e incluso tratar temas complejos de ciencia, seguridad y sanidad. En un divertido guiño al nombre en clave del proyecto, OpenAI demostró las habilidades de razonamiento del modelo descifrando un cifrado que revelaba el mensaje "HAY TRES R EN LAS FRESAS".
Además de resolver problemas de cifrado, OpenAI o1 también sabe programar. Obtiene buenos resultados en retos de programación competitivos como los de Codeforces, una plataforma en la que los programadores resuelven complejos problemas de programación en condiciones de tiempo limitado. En estos retos, el modelo alcanza altas puntuaciones Elo (un sistema de puntuación que mide los niveles de habilidad basándose en el rendimiento frente a otros competidores) y supera a modelos anteriores. También destaca en matemáticas y obtiene buenos resultados en exámenes como el American Invitational Mathematics Examination (AIME).
Estos avances sitúan a OpenAI o1 como una mejora significativa respecto a modelos anteriores como GPT-4o. Abre nuevas posibilidades para la IA en ámbitos como la empresa, el desarrollo, la investigación y la sanidad. Por ejemplo, en el campo de la investigación genética, OpenAI o1 puede analizar rápidamente un gran número de artículos de investigación y extraer conclusiones clave y conexiones entre marcadores genéticos y enfermedades. Entiende el complejo lenguaje científico y puede resumir los puntos importantes, ayudando a los investigadores a centrarse en la información más relevante.
Ya hemos visto que OpenAI o1 introduce un proceso de razonamiento de "cadena de pensamiento". Permite al modelo abordar problemas complejos de forma similar a las estrategias cognitivas humanas. El modelo puede dividir los retos en pasos más pequeños y manejables y refinar iterativamente su enfoque. A diferencia de los modelos anteriores, que se basaban en el reconocimiento inmediato de patrones, o1 optimiza su toma de decisiones explorando múltiples vías de razonamiento, aprendiendo tanto de los aciertos como de los errores mediante el aprendizaje por refuerzo.
OpenAI ha decidido mantener estas cadenas de pensamiento en bruto ocultas a los usuarios, ofreciendo en su lugar resúmenes que proporcionan una visión del razonamiento del modelo sin exponer cada paso. Esta decisión ayuda a evitar el uso indebido del proceso de pensamiento del modelo, al tiempo que permite a los desarrolladores controlar y perfeccionar la seguridad y la alineación de la IA. Al observar las cadenas ocultas internamente, los desarrolladores pueden asegurarse de que o1 se adhiere a las directrices éticas y evita comportamientos perjudiciales.
OpenAI o1 muestra importantes mejoras con respecto a GPT-4o en varias pruebas que evalúan las capacidades de razonamiento y resolución de problemas. En el American Invitational Mathematics Examination (AIME) 2024, un exigente examen de matemáticas para los mejores estudiantes de secundaria, o1 alcanzó una tasa de precisión del 74% con una sola muestra por problema, frente al 12% de GPT-4o. Con el consenso de 64 muestras, su precisión aumentó hasta el 83%, y utilizando un método refinado de reclasificación con 1.000 muestras, alcanzó el 93%, situándose entre los 500 mejores estudiantes a nivel nacional.
Además de en matemáticas, o1 también obtuvo resultados excepcionales en pruebas de conocimientos científicos, como el GPQA Diamond, que incluye preguntas de nivel de doctorado en química, física y biología. Sorprendentemente, o1 superó a expertos humanos con doctorados en esta prueba, convirtiéndose en el primer modelo de IA que lo consigue. También superó a GPT-4o en 54 de las 57 categorías de la prueba de referencia MMLU, que evalúa la comprensión de un conjunto diverso de materias, como historia, derecho y ciencias.
OpenAI ha presentado dos nuevos modelos de IA de la serie o1: o1-preview y o1-mini. El modelo o1-preview está diseñado para pensar más profundamente antes de responder, destacando en tareas de razonamiento complejas en ciencia, codificación y matemáticas. Ofrece funciones avanzadas de resolución de problemas a los usuarios que se enfrentan a proyectos complejos. En cambio, o1-mini es un modelo más pequeño, más rápido y más rentable, optimizado específicamente para el razonamiento STEM, en particular las matemáticas y la codificación. Aunque puede tener menos conocimientos generales del mundo, o1-mini casi iguala el rendimiento de o1-preview en evaluaciones clave como la competición matemática AIME y los retos de codificación Codeforces, todo ello a un coste un 80% inferior.
Puedes probar estos modelos a través de varias plataformas OpenAI. Los usuarios de ChatGPT Plus y Team pueden acceder tanto a o1-preview como a o1-mini a través del selector de modelos, experimentando capacidades de razonamiento mejoradas directamente en ChatGPT. Los desarrolladores con acceso al nivel 5 de uso de la API pueden empezar a crear prototipos con estos modelos, aunque algunas funciones avanzadas aún están en desarrollo. OpenAI también planea poner o1-mini a disposición de todos los usuarios de ChatGPT Free en breve. Explorando estos modelos, podrás experimentar de primera mano los avances en el razonamiento de IA y elegir el que mejor se adapte a tus necesidades.
OpenAI se ha centrado en la ética y la seguridad durante el desarrollo de la serie de modelos o1. Antes de lanzar los modelos o1-preview y o1-mini, llevaron a cabo evaluaciones exhaustivas, incluidas pruebas externas y comprobaciones internas para detectar riesgos como contenidos no permitidos, alucinaciones y sesgos. Los modelos están diseñados con capacidades de razonamiento avanzadas para comprender y seguir mejor las normas de seguridad.
OpenAI también ha implementado salvaguardas como listas de bloqueo y clasificadores de seguridad para gestionar los riesgos. El modelo o1 tiene una clasificación de riesgo global media. Tiene riesgos bajos en áreas como la ciberseguridad y la autonomía del modelo y riesgos medios en áreas como el contenido y la persuasión CBRN (Química, Biológica, Radiológica y Nuclear). El Grupo Asesor de Seguridad y el Consejo de OpenAI han revisado estas medidas de seguridad para garantizar que el modelo sea seguro y ético de usar.
OpenAI o1 es un gran paso adelante en el razonamiento de IA, convirtiendo algunos de los primeros rumores en realidad. A diferencia de GPT-4o, la serie o1 piensa más profundamente utilizando un enfoque de "cadena de pensamiento", descomponiendo los problemas complejos en pasos más pequeños para obtener mejores respuestas. OpenAI tiene previsto añadir funciones como la navegación web y la carga de archivos e imágenes. OpenAI también ha comunicado que tiene previsto seguir desarrollando y lanzando modelos de la serie GPT, junto con la nueva serie OpenAI o1. A medida que la IA sigue evolucionando, avances como estos están allanando el camino para sistemas de IA más potentes, intuitivos y versátiles que puedan ayudar y comprender mejor las necesidades humanas.
Únase a nuestra comunidad y manténgase al día de las últimas novedades en IA. Dirígete a nuestro repositorio de GitHub para ver cómo somos pioneros en soluciones de IA en sectores como la fabricación y la sanidad. 🚀