Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Configuración de cookies
Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Acompáñanos en nuestro análisis de las últimas actualizaciones de ChatGPT publicadas por OpenAI. Exploraremos Canvas, el ajuste de las capacidades de visión y la última función de búsqueda.
Desde la última vez que analizamos los modelos o1 de OpenAI en septiembre (diseñados para mejorar el razonamiento), se han añadido muchas funciones nuevas y emocionantes a ChatGPT. Algunas de estas novedades están orientadas a los desarrolladores, y otras están diseñadas para perfeccionar la experiencia del usuario. En general, cada actualización ayuda a que las interacciones con ChatGPT sean más intuitivas y eficaces.
Actualizaciones como Canvas, diseñada para la escritura y la codificación colaborativas, y el ajuste de las capacidades de visión que mejora el funcionamiento de ChatGPT con imágenes, han despertado mucho interés, animando a los usuarios a explorar más posibilidades creativas. Mientras tanto, las actualizaciones técnicas, como las nuevas API y los informes de pruebas de imparcialidad, abordan aspectos como la integración de modelos y las prácticas éticas de la IA . Conozcamos a fondo las últimas funciones de ChatGPT de OpenAI.
Visión general de la función de lienzo de OpenAI
Canvas es la primera actualización importante de la interfaz de usuario de ChatGPT desde su lanzamiento. Se trata de una nueva interfaz con un diseño de dos pantallas, las solicitudes en la barra lateral izquierda y las respuestas en la ventana lateral derecha. La nueva interfaz de usuario elimina el flujo de trabajo habitual de una estructura de pantalla única tipo chat y pasa a un diseño de dos pantallas que se adapta a la multitarea para aumentar la productividad.
Fig. 1. Canvas actualiza la interfaz de usuario de ChatGPT.
Antes de la introducción de Canvas, trabajar con documentos largos en ChatGPT significaba tener que desplazarse bastante hacia arriba y hacia abajo. En el nuevo diseño, las instrucciones se muestran en la barra lateral izquierda, y el documento de texto o fragmento de código ocupa la mayor parte de la pantalla. Si es necesario, puedes incluso personalizar el tamaño de la barra lateral izquierda y de la pantalla de salida. Además, puedes seleccionar una parte del texto o una sección de código y editar la sección específica sin alterar todo el documento.
Fig 2. Editar secciones específicas de texto utilizando Canvas.
Si utilizas Canvas, te darás cuenta de que no hay ningún botón o conmutador específico para abrirlo en la interfaz de ChatGPT. En cambio, cuando trabajas con el modelo GPT-4o, Canvas se abre automáticamente si detecta que estás editando, escribiendo o codificando. Para indicaciones más sencillas, permanece inactivo. Si quieres abrirlo manualmente, puedes usar indicaciones como "Abrir el Lienzo" o "Consígueme el diseño del Lienzo".
Actualmente, Canvas está en beta y disponible sólo con GPT-4o. Sin embargo, OpenAI ha mencionado que Canvas estará disponible para todos los usuarios gratuitos cuando salga de beta.
Actualizaciones de la API de ChatGPT
OpenAI ha publicado tres nuevas actualizaciones de la API ChatGPT destinadas a mejorar la eficacia, la escalabilidad y la versatilidad. Echemos un vistazo más de cerca a cada una de estas actualizaciones.
Modelo de destilación
Mediante la función de destilación de modelos a través de las API de OpenAI, los desarrolladores pueden utilizar los resultados de modelos avanzados como GPT-4o u o1-preview para mejorar el rendimiento de modelos más pequeños y rentables como GPT-4o mini. La destilación de modelos es un proceso que consiste en entrenar modelos más pequeños para que imiten el comportamiento de los más avanzados, haciéndolos más eficientes para tareas específicas.
Antes de que se introdujera esta función, los desarrolladores tenían que coordinar manualmente una serie de tareas utilizando distintas herramientas. Estas tareas incluían la generación de conjuntos de datos, la medición del rendimiento del modelo y el ajuste de los modelos, lo que a menudo hacía que el proceso fuera complejo y propenso a errores. La actualización de Model Distillation permite a los desarrolladores utilizar Stored Completions, una herramienta que les permite generar automáticamente conjuntos de datos capturando y almacenando los pares de entrada-salida producidos por modelos avanzados a través de la API.
Otra función de Model Distillation, Evals (actualmente en fase beta), ayuda a medir el rendimiento de un modelo en tareas específicas, sin necesidad de crear scripts de evaluación personalizados ni de utilizar herramientas independientes. Utilizando conjuntos de datos generados con Stored Completions y evaluando el rendimiento con Evals, los desarrolladores pueden afinar sus propios modelos GPT personalizados.
Fig. 3. Puede utilizar Evals para medir el rendimiento del modelo.
Caché de avisos
A menudo, cuando se crean aplicaciones de IA, especialmente chatbots, el mismo contexto (la información de fondo o el historial de conversaciones previas necesarias para entender la solicitud actual) se utilizará repetidamente para múltiples llamadas a la API. Prompt Caching permite a los desarrolladores reutilizar los tokens de entrada utilizados recientemente (segmentos de texto que el modelo procesa para entender la solicitud y generar una respuesta), ayudando a reducir el coste y la latencia.
Desde el 1 de octubre, OpenAI aplica automáticamente Prompt Caching a sus modelos como GPT-4o, GPT-4o mini, o1-preview y o1-mini. Esto significa que cuando los desarrolladores utilizan la API para interactuar con un modelo con un prompt largo (más de 1.024 tokens), el sistema guarda las partes que ya ha procesado.
De este modo, si se vuelve a utilizar la misma pregunta o una similar, se puede omitir el recálculo de esas partes. El sistema almacena automáticamente en caché la parte más larga de la pregunta que ha encontrado previamente, empezando con 1.024 tokens y añadiendo trozos de 128 tokens a medida que la pregunta se hace más larga.
API en tiempo real
Crear un asistente de voz suele implicar la necesidad de transcribir el audio a texto, procesar el texto y volver a convertirlo en audio para reproducir la respuesta. La API en tiempo real de OpenAI pretende gestionar todo este proceso con una única petición. Al simplificar el proceso, la API permite mantener conversaciones en tiempo real con la IA.
Por ejemplo, un asistente de voz integrado con la API Realtime puede realizar acciones específicas, como hacer un pedido o buscar información, basándose en las peticiones del usuario. La API hace que el asistente de voz sea más receptivo y capaz de adaptarse rápidamente a las necesidades de los usuarios. La API Realtime comenzó a estar disponible en versión beta pública el 1 de octubre, con seis voces. El 30 de octubre se añadieron cinco voces más, hasta un total de once.
Fig. 4. Ejemplo de uso de la API en tiempo real para practicar conversaciones en un nuevo idioma.
Ajuste de ChatGPT para tareas de visión
Originalmente, el modelo de lenguaje de visión GPT-4o sólo podía ajustarse y personalizarse utilizando conjuntos de datos de texto. Ahora, con el lanzamiento de la API de ajuste fino de visión, los desarrolladores pueden entrenar y personalizar GPT-4o utilizando conjuntos de datos de imágenes. Desde su lanzamiento, el ajuste fino de la visión se ha convertido en un tema de gran interés entre desarrolladores e ingenieros de visión por ordenador.
Para perfeccionar las capacidades de visión de GPT-4o, los desarrolladores pueden utilizar conjuntos de datos de imágenes que oscilan entre 100 y 50.000 imágenes. Tras asegurarse de que el conjunto de datos se ajusta al formato requerido por OpenAI, puede cargarse en la plataforma Openai y ajustar el modelo para aplicaciones específicas.
Por ejemplo, Automat, una empresa de automatización, utilizó un conjunto de datos de capturas de pantalla para entrenar a GPT-4o para que fuera capaz de identificar elementos de interfaz de usuario en una pantalla basándose en una descripción. Esto ayuda a agilizar la automatización de procesos robóticos (RPA) facilitando a los robots la interacción con las interfaces de usuario. En lugar de basarse en coordenadas fijas o complejas reglas de selección, el modelo puede identificar elementos de la interfaz de usuario a partir de descripciones sencillas, lo que hace que las configuraciones de automatización sean más adaptables y fáciles de mantener cuando cambian las interfaces.
Fig. 5. Utilización de una versión perfeccionada del modelo GPT-4o para detectar elementos de interfaz de usuario.
ChatGPT: equidad y detección de prejuicios
Las preocupaciones éticas en torno a las aplicaciones de IA son un tema de conversación destacado a medida que la IA se vuelve más y más avanzada. Dado que las respuestas de ChatGPT se basan en las indicaciones de los usuarios y en los datos disponibles en Internet, puede resultar difícil ajustar su lenguaje para que sea responsable en todo momento. Los informes afirman que las respuestas de ChatGPT están sesgadas en cuanto a nombre, sexo y raza. Para solucionar este problema, el equipo interno de OpenAI realizó una prueba de imparcialidad en primera persona.
Los nombres suelen contener sutiles indicios sobre nuestra cultura y factores geográficos. En la mayoría de los casos, ChatGPT ignorará las pistas sutiles de los nombres. Sin embargo, en algunos casos, los nombres que reflejan la raza o la cultura provocan respuestas diferentes de ChatGPT, y alrededor del 1% de ellos reflejan un lenguaje perjudicial. Eliminar los prejuicios y el lenguaje nocivo es una tarea difícil para un modelo lingüístico. Sin embargo, al compartir públicamente estos resultados y reconocer las limitaciones del modelo, OpenAI ayuda a los usuarios a refinar sus preguntas para obtener respuestas más neutrales e imparciales.
Fig. 6. Ejemplo de respuestas diferentes en función del nombre del usuario.
Comprender la búsqueda en ChatGPT
Cuando se lanzó por primera vez ChatGPT, en la comunidad de AI se discutió si podría sustituir a la navegación web tradicional. Ahora, muchos usuarios utilizan ChatGPT en lugar de Google Search.
La nueva actualización de OpenAI, la función de Búsqueda, va un paso más allá. Con la Búsqueda, ChatGPT genera respuestas actualizadas e incluye enlaces a fuentes relevantes. Desde el 31 de octubre, la función de búsqueda está disponible para todos los usuarios de ChatGPT Plus y Team, haciendo que ChatGPT funcione más como un motor de búsqueda potenciado por IA.
Fig. 7. Ejemplo de uso de la nueva función de búsqueda de ChatGPT.
El camino por recorrer
Las últimas actualizaciones de ChatGPT se centran en hacer la IA más útil, flexible y justa. La nueva función Canvas ayuda a los usuarios a trabajar de forma más eficiente, mientras que el ajuste de la visión permite a los desarrolladores personalizar los modelos para manejar mejor las tareas visuales. Abordar la equidad y reducir los prejuicios también son prioridades clave, garantizando que la IA funcione bien para todos, independientemente de quiénes sean. ChatGPT está evolucionando para satisfacer una amplia gama de necesidades, tanto si eres un desarrollador que está ajustando modelos como si simplemente estás utilizando las últimas funciones. Con capacidades en tiempo real, integración visual y un enfoque en el uso responsable, estas actualizaciones construyen una experiencia de IA más fiable y digna de confianza para todos.