Las últimas actualizaciones de OpenAI: Canvas, ajuste fino de visión y más
Acompáñanos a analizar las recientes actualizaciones de ChatGPT lanzadas por OpenAI. Exploraremos Canvas, el ajuste fino para capacidades de visión y la última función de búsqueda.

Después de que analizamos por última vez los modelos o1 de OpenAI en septiembre (que se diseñaron para mejorar el razonamiento), se han añadido muchas funciones nuevas e interesantes a ChatGPT. Algunos de estos lanzamientos están orientados a los desarrolladores, mientras que otros están diseñados para refinar la experiencia del usuario. En general, cada mejora ayuda a hacer que las interacciones con ChatGPT sean más intuitivas y efectivas.
Actualizaciones como Canvas, diseñada para la escritura y programación colaborativa, y el ajuste fino para capacidades de visión que mejora la forma en que ChatGPT trabaja con imágenes, han despertado mucho interés, alentando a los usuarios a explorar más posibilidades creativas. Mientras tanto, las actualizaciones técnicas, como las nuevas API y los informes de pruebas de equidad, abordan aspectos como la integración de modelos y las prácticas de IA ética. ¡Sumérgete y comprende mejor las últimas funciones de ChatGPT de OpenAI!
Link to this sectionUna descripción general de la función Canvas de OpenAI#
Canvas es la primera actualización importante de la interfaz de usuario (UI) de ChatGPT desde su lanzamiento. Es una nueva interfaz con un diseño de dos pantallas, con sugerencias en la barra lateral izquierda y respuestas en la ventana derecha. La nueva UI elimina el flujo de trabajo habitual de una estructura de una sola pantalla tipo chat y pasa a un diseño de dos pantallas que se adapta a tareas múltiples para aumentar la productividad.

Fig 1. Canvas trae actualizaciones de UI a ChatGPT.
Antes de que se introdujera Canvas, trabajar con documentos largos en ChatGPT significaba tener que desplazarse hacia arriba y hacia abajo bastante. En el nuevo diseño, las sugerencias se muestran en la barra lateral izquierda y el documento de texto o fragmento de código ocupa la mayor parte de la pantalla. Si es necesario, incluso puedes personalizar el tamaño de la barra lateral izquierda y la pantalla de salida. Además, puedes seleccionar una parte del texto o una sección de código y editar esa sección específica sin alterar todo el documento.

Fig 2. Edita secciones específicas de texto usando Canvas.
Si usas Canvas, notarás que no hay un botón o interruptor específico para abrirlo en la interfaz de ChatGPT. En cambio, cuando trabajas con el modelo GPT-4o, Canvas se abre automáticamente si detecta que estás editando, escribiendo o programando. Para sugerencias más simples, permanece inactivo. Si quieres abrirlo manualmente, puedes usar sugerencias como "Open the Canvas" o "Get me the Canvas layout."
Actualmente, Canvas está en fase beta y solo disponible con GPT-4o. Sin embargo, OpenAI ha mencionado que Canvas estará disponible para todos los usuarios gratuitos una vez que salga de la fase beta.
Link to this sectionActualizaciones de la API de ChatGPT#
OpenAI ha lanzado tres nuevas actualizaciones de la API de ChatGPT destinadas a mejorar la eficiencia, la escalabilidad y la versatilidad. Echemos un vistazo más de cerca a cada una de estas actualizaciones.
Link to this sectionDestilación de modelos#
Usando la función de Destilación de Modelos a través de las API de OpenAI, los desarrolladores pueden utilizar los resultados de modelos avanzados como GPT-4o o o1-preview para mejorar el rendimiento de modelos más pequeños y económicos como GPT-4o mini. La destilación de modelos es un proceso que implica entrenar modelos más pequeños para imitar el comportamiento de otros más avanzados, haciéndolos más eficientes para tareas específicas.
Antes de que se introdujera esta funcionalidad, los desarrolladores tenían que coordinar manualmente diversas tareas utilizando distintas herramientas. Estas tareas incluían generar datasets, medir el rendimiento del modelo y realizar el fine-tuning de modelos, lo que a menudo hacía que el proceso fuera complejo y propenso a errores. La actualización de Destilación de Modelos permite a los desarrolladores utilizar Stored Completions, una herramienta que permite generar datasets automáticamente capturando y almacenando los pares de entrada-salida producidos por modelos avanzados a través de la API.
Otra característica de la Destilación de Modelos, Evals (actualmente en fase beta), ayuda a medir qué tan bien funciona un modelo en tareas específicas, sin necesidad de crear scripts de evaluación personalizados ni usar herramientas separadas. Usando datasets generados con "Stored Completions" y evaluando el rendimiento con Evals, los desarrolladores pueden realizar el ajuste fino de sus propios modelos GPT personalizados.

Fig 3. Puedes usar Evals para medir el rendimiento del modelo.
Link to this sectionAlmacenamiento en caché de sugerencias (Prompt Caching)#
A menudo, al crear aplicaciones de IA, especialmente chatbots, se utiliza repetidamente el mismo contexto (la información de fondo o el historial de conversaciones previo necesario para entender la solicitud actual) para múltiples llamadas a la API. Prompt Caching permite a los desarrolladores reutilizar tokens de entrada utilizados recientemente (segmentos de texto que el modelo procesa para entender el prompt y generar una respuesta), ayudando a reducir costes y latencia.
Desde el 1 de octubre, OpenAI ha aplicado automáticamente Prompt Caching a sus modelos como GPT-4o, GPT-4o mini, o1-preview y o1-mini. Esto significa que cuando los desarrolladores utilizan la API para interactuar con un modelo con un prompt largo (más de 1024 tokens), el sistema guarda las partes que ya ha procesado.
De esta forma, si se vuelven a utilizar las mismas sugerencias o similares, puede omitir el recálculo de esas partes. El sistema almacena automáticamente la parte más larga de la sugerencia que ha encontrado anteriormente, comenzando con 1,024 tokens y agregando fragmentos de 128 tokens a medida que la sugerencia se hace más larga.
Link to this sectionAPI en tiempo real#
Crear un asistente de voz generalmente implica la necesidad de transcribir audio a texto, procesar el texto y luego convertirlo de nuevo a audio para reproducir la respuesta. La Realtime API de OpenAI tiene como objetivo manejar todo este proceso con una única solicitud de API. Al simplificar el proceso, la API permite conversaciones en tiempo real con IA.
Por ejemplo, un asistente de voz integrado con la API en tiempo real puede realizar acciones específicas, como realizar un pedido o encontrar información, según las solicitudes del usuario. La API hace que el asistente de voz sea más receptivo y capaz de adaptarse rápidamente a las necesidades de los usuarios. La API en tiempo real estuvo disponible a través de la beta pública el 1 de octubre, con seis voces. El 30 de octubre se añadieron cinco voces más, lo que hace un total de once voces disponibles.

Fig 4. Un ejemplo de uso de la API en tiempo real para practicar conversaciones en un idioma nuevo.
Link to this sectionAjuste fino de ChatGPT para tareas de visión#
Originalmente, el modelo de lenguaje de visión GPT-4o solo podía ajustarse y personalizarse usando datasets exclusivamente de texto. Ahora, con el lanzamiento de la API de ajuste fino de visión, los desarrolladores pueden entrenar y personalizar GPT-4o usando datasets de imágenes. Desde su lanzamiento, el ajuste fino de visión se ha convertido en un tema de gran interés entre los desarrolladores e ingenieros de visión artificial.
Para realizar el ajuste fino de las capacidades de visión de GPT-4o, los desarrolladores pueden usar datasets de imágenes que van desde tan solo 100 imágenes hasta 50,000 imágenes. Después de asegurarse de que el dataset coincide con el formato requerido por OpenAI, se puede cargar en la plataforma de OpenAI y el modelo puede ajustarse para aplicaciones específicas.
Por ejemplo, Automat, una empresa de automatización, utilizó un dataset de capturas de pantalla para entrenar a GPT-4o para que fuera capaz de identificar elementos de UI en una pantalla basándose en una descripción. Esto ayuda a agilizar la Automatización Robótica de Procesos (RPA) al hacer que sea más fácil para los bots interactuar con las interfaces de usuario. En lugar de depender de coordenadas fijas o reglas de selección complejas, el modelo puede identificar elementos de UI basados en descripciones simples, haciendo que las configuraciones de automatización sean más adaptables y fáciles de mantener cuando las interfaces cambian.

Fig 5. Uso de una versión ajustada del modelo GPT-4o para detectar elementos de UI.
Link to this sectionEquidad y detección de sesgos en ChatGPT#
Las preocupaciones éticas que rodean a las aplicaciones de IA son un tema de conversación destacado a medida que la IA se vuelve cada vez más avanzada. Debido a que las respuestas de ChatGPT se basan en sugerencias proporcionadas por los usuarios y datos disponibles en Internet, puede ser un desafío ajustar su lenguaje para que sea responsable todo el tiempo. Los informes indican que las respuestas de ChatGPT están sesgadas en cuanto a nombre, género y raza. Para abordar este problema, el equipo interno de OpenAI realizó una prueba de equidad en primera persona.
Los nombres a menudo llevan pistas sutiles sobre nuestra cultura y factores geográficos. En la mayoría de los casos, ChatGPT ignorará las pistas sutiles en los nombres. Sin embargo, en algunos casos, los nombres que reflejan raza o cultura conducen a respuestas diferentes de ChatGPT, con aproximadamente el 1% de ellas reflejando un lenguaje dañino. Eliminar los sesgos y el lenguaje dañino es una tarea desafiante para un modelo de lenguaje. Sin embargo, al compartir estos hallazgos públicamente y reconocer las limitaciones del modelo, OpenAI ayuda a los usuarios a refinar sus sugerencias para lograr respuestas más neutrales e imparciales.

Fig 6. Un ejemplo de respuestas diferentes debido al nombre del usuario.
Link to this sectionEntendiendo la búsqueda de ChatGPT#
Cuando se lanzó ChatGPT por primera vez, hubo debates en la comunidad de IA sobre si podría reemplazar la navegación web tradicional. Ahora, muchos usuarios están usando ChatGPT en lugar de la Búsqueda de Google.
La nueva actualización de OpenAI, la función de Búsqueda, lleva esto un paso más allá. Con Búsqueda, ChatGPT genera respuestas actualizadas e incluye enlaces a fuentes relevantes. A partir del 31 de octubre, la función de Búsqueda está disponible para todos los usuarios de ChatGPT Plus y Team, lo que hace que ChatGPT funcione más como un motor de búsqueda impulsado por IA.

Fig 7. Un ejemplo de uso de la nueva función de Búsqueda de ChatGPT.
Link to this sectionEl camino por delante#
Las actualizaciones recientes de ChatGPT se centran en hacer que la IA sea más útil, flexible y justa. La nueva función Canvas ayuda a los usuarios a trabajar de manera más eficiente, mientras que el ajuste fino de visión permite a los desarrolladores personalizar los modelos para manejar mejor las tareas visuales. Abordar la equidad y reducir el sesgo también son prioridades clave, asegurando que la IA funcione bien para todos, independientemente de quiénes sean. Tanto si eres un desarrollador que ajusta modelos como si solo estás usando las últimas funciones, ChatGPT está evolucionando para satisfacer una amplia gama de necesidades. Con capacidades en tiempo real, integración visual y un enfoque en el uso responsable, estas actualizaciones están construyendo una experiencia de IA más confiable y segura para todos.
Explora más sobre IA visitando nuestro repositorio de GitHub y uniéndote a nuestra comunidad. Aprende más sobre las aplicaciones de IA en conducción autónoma y atención sanitaria.






