Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Configuración de cookies
Al hacer clic en “Aceptar todas las cookies”, aceptas el almacenamiento de cookies en tu dispositivo para mejorar la navegación del sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información
Acompáñanos en nuestro análisis de las últimas actualizaciones ChatGPT publicadas por OpenAI. Exploraremos Canvas, el ajuste de las capacidades de visión y la última función de búsqueda.
Desde la última vez que analizamos los modelos o1 de OpenAI en septiembre (diseñados para mejorar el razonamiento), se han añadido muchas funciones nuevas y emocionantes a ChatGPT. Algunas de estas novedades están orientadas a los desarrolladores, y otras están diseñadas para perfeccionar la experiencia del usuario. En general, cada actualización ayuda a que las interacciones con ChatGPT sean más intuitivas y eficaces.
Actualizaciones como Canvas, diseñada para la escritura y la codificación colaborativas, y el ajuste de las capacidades de visión que mejora el funcionamiento de ChatGPT con imágenes, han despertado mucho interés, animando a los usuarios a explorar más posibilidades creativas. Mientras tanto, las actualizaciones técnicas, como las nuevas API y los informes de pruebas de imparcialidad, abordan aspectos como la integración de modelos y las prácticas éticas de la IA . Conozcamos a fondo las últimas funciones ChatGPT de OpenAI.
Una visión general de la función de lienzo de OpenAI
Canvas es la primera actualización importante de la interfaz de usuario de ChatGPTdesde su lanzamiento. Se trata de una nueva interfaz con un diseño de dos pantallas, las solicitudes en la barra lateral izquierda y las respuestas en la ventana lateral derecha. La nueva interfaz de usuario elimina el flujo de trabajo habitual de una estructura de pantalla única tipo chat y pasa a un diseño de dos pantallas que se adapta a la multitarea para aumentar la productividad.
Fig. 1. Canvas actualiza la interfaz de usuario de ChatGPT.
Antes de la introducción de Canvas, trabajar con documentos largos en ChatGPT significaba tener que desplazarse bastante hacia arriba y hacia abajo. En el nuevo diseño, las instrucciones se muestran en la barra lateral izquierda, y el documento de texto o fragmento de código ocupa la mayor parte de la pantalla. Si es necesario, puedes incluso personalizar el tamaño de la barra lateral izquierda y de la pantalla de salida. Además, puedes seleccionar una parte del texto o una sección de código y editarla sin alterar todo el documento.
Fig. 2. Edición de secciones específicas de texto mediante Canvas.
Si utilizas Canvas, te darás cuenta de que no hay ningún botón o conmutador específico para abrirlo en la interfaz ChatGPT . En cambio, cuando trabajas con el modelo GPT-4o, Canvas se abre automáticamente si detecta que estás editando, escribiendo o codificando. Para indicaciones más sencillas, permanece inactivo. Si quieres abrirlo manualmente, puedes usar indicaciones como "Abrir el Lienzo" o "Consígueme el diseño del Lienzo".
Actualmente, Canvas está en fase beta y solo está disponible con GPT-4o. Sin embargo, OpenAI ha mencionado que Canvas estará disponible para todos los usuarios gratuitos cuando salga de la fase beta.
Actualizaciones de la API de ChatGPT
OpenAI ha publicado tres nuevas actualizaciones de la API ChatGPT destinadas a mejorar la eficacia, la escalabilidad y la versatilidad. Echemos un vistazo más de cerca a cada una de estas actualizaciones.
Destilación de modelos
Usando la función de Destilación de Modelos a través de las APIs de OpenAI, los desarrolladores pueden usar las salidas de modelos avanzados como GPT-4o u o1-preview para mejorar el rendimiento de modelos más pequeños y rentables como GPT-4o mini. La destilación de modelos es un proceso que implica el entrenamiento de modelos más pequeños para imitar el comportamiento de otros más avanzados, haciéndolos más eficientes para tareas específicas.
Antes de que se introdujera esta función, los desarrolladores tenían que coordinar manualmente una variedad de tareas utilizando diferentes herramientas. Estas tareas incluían la generación de conjuntos de datos, la medición del rendimiento del modelo y el ajuste fino de los modelos, lo que a menudo hacía que el proceso fuera complejo y propenso a errores. La actualización de Destilación de Modelos permite a los desarrolladores utilizar Completions Almacenadas, una herramienta que les permite generar conjuntos de datos automáticamente capturando y almacenando los pares de entrada-salida producidos por modelos avanzados a través de la API.
Otra característica de Model Distillation, Evals (actualmente en versión beta), ayuda a medir el rendimiento de un modelo en tareas específicas, sin necesidad de crear scripts de evaluación personalizados ni de utilizar herramientas independientes. Utilizando conjuntos de datos generados con Stored Completions y evaluando el rendimiento con Evals, los desarrolladores pueden ajustar sus propios modelos GPT personalizados.
Fig 3. Puede utilizar Evals para medir el rendimiento del modelo.
Caché de prompts
A menudo, al construir aplicaciones de IA, especialmente chatbots, el mismo contexto (la información de fondo o el historial de conversación previo necesario para entender la solicitud actual) se utilizará repetidamente para múltiples llamadas a la API. El almacenamiento en caché de prompts permite a los desarrolladores reutilizar tokens de entrada usados recientemente (segmentos de texto que el modelo procesa para entender el prompt y generar una respuesta), lo que ayuda a reducir el coste y la latencia.
Desde el 1 de octubre, OpenAI ha aplicado automáticamente el almacenamiento en caché de prompts (Prompt Caching) a sus modelos como GPT-4o, GPT-4o mini, o1-preview y o1-mini. Esto significa que cuando los desarrolladores usan la API para interactuar con un modelo con un prompt largo (más de 1024 tokens), el sistema guarda las partes que ya ha procesado.
De esta manera, si se utilizan las mismas indicaciones o similares de nuevo, puede omitir el recálculo de esas partes. El sistema almacena automáticamente en caché la parte más larga de la indicación que ha encontrado previamente, comenzando con 1024 tokens y añadiendo fragmentos de 128 tokens a medida que la indicación se alarga.
API en tiempo real
La creación de un asistente de voz generalmente implica la necesidad de transcribir audio a texto, procesar el texto y luego convertirlo de nuevo a audio para reproducir la respuesta. La API Realtime de OpenAI tiene como objetivo gestionar todo este proceso con una única solicitud a la API. Al simplificar el proceso, la API permite conversaciones en tiempo real con la IA.
Por ejemplo, un asistente de voz integrado con la API Realtime puede realizar acciones específicas, como hacer un pedido o encontrar información, basándose en las peticiones del usuario. La API hace que el asistente de voz sea más receptivo y capaz de adaptarse rápidamente a las necesidades de los usuarios. La API Realtime estuvo disponible a través de la versión beta pública el 1 de octubre, con seis voces. El 30 de octubre, se añadieron cinco voces más, lo que hace un total de once voces disponibles.
Fig 4. Un ejemplo del uso de la API en tiempo real para practicar conversaciones en un nuevo idioma.
Ajuste de ChatGPT para tareas de visión
Originalmente, el modelo de lenguaje de visión GPT-4o solo podía ajustarse y personalizarse utilizando conjuntos de datos de solo texto. Ahora, con el lanzamiento de la API de ajuste fino de visión, los desarrolladores pueden entrenar y personalizar GPT-4o utilizando conjuntos de datos de imágenes. Desde su lanzamiento, el ajuste fino de visión se ha convertido en un tema de gran interés entre los desarrolladores e ingenieros de visión artificial.
Para ajustar las capacidades de visión de GPT-4o, los desarrolladores pueden utilizar conjuntos de datos de imágenes que varían desde tan solo 100 imágenes hasta 50,000. Después de asegurarse de que el conjunto de datos coincida con el formato requerido por OpenAI, se puede cargar en la plataforma OpenAI y el modelo se puede ajustar para aplicaciones específicas.
Por ejemplo, Automat, una empresa de automatización, utilizó un conjunto de datos de capturas de pantalla para entrenar a GPT-4o para que pueda identificar elementos de la interfaz de usuario en una pantalla basándose en una descripción. Esto ayuda a optimizar la automatización robótica de procesos (RPA) al facilitar que los bots interactúen con las interfaces de usuario. En lugar de depender de coordenadas fijas o reglas de selector complejas, el modelo puede identificar elementos de la interfaz de usuario basándose en descripciones simples, lo que hace que las configuraciones de automatización sean más adaptables y fáciles de mantener cuando las interfaces cambian.
Fig. 5. Utilización de una versión ajustada del modelo GPT-4o para detect elementos de interfaz de usuario.
ChatGPT equidad y detección de prejuicios
Las preocupaciones éticas en torno a las aplicaciones de IA son un tema de conversación destacado a medida que la IA se vuelve más y más avanzada. Dado que las respuestas de ChatGPTse basan en las indicaciones de los usuarios y en los datos disponibles en Internet, puede resultar difícil ajustar su lenguaje para que sea responsable en todo momento. Los informes afirman que las respuestas deChatGPTestán sesgadas en cuanto a nombre, sexo y raza. Para solucionar este problema, el equipo interno de OpenAI realizó una prueba de imparcialidad en primera persona.
Los nombres suelen contener sutiles indicios sobre nuestra cultura y factores geográficos. En la mayoría de los casos, ChatGPT ignorará las pistas sutiles de los nombres. Sin embargo, en algunos casos, los nombres que reflejan la raza o la cultura provocan respuestas diferentes de ChatGPT, y alrededor del 1% de ellos reflejan un lenguaje perjudicial. Eliminar los prejuicios y el lenguaje nocivo es una tarea difícil para un modelo lingüístico. Sin embargo, al compartir públicamente estos resultados y reconocer las limitaciones del modelo, OpenAI ayuda a los usuarios a refinar sus preguntas para obtener respuestas más neutrales e imparciales.
Fig. 6. Un ejemplo de respuestas diferentes debido al nombre del usuario.
Comprender la búsqueda ChatGPT
Cuando se lanzó por primera vez ChatGPT , en la comunidad de AI se discutió si podría sustituir a la navegación web tradicional. Ahora, muchos usuarios utilizan ChatGPT en lugar de Google Search.
La nueva actualización de OpenAI, la función de Búsqueda, va un paso más allá. Con la Búsqueda, ChatGPT genera respuestas actualizadas e incluye enlaces a fuentes relevantes. Desde el 31 de octubre, la función de búsqueda está disponible para todos los usuarios de ChatGPT Plus y Team, haciendo que ChatGPT funcione más como un motor de búsqueda potenciado por IA.
Fig. 7. Ejemplo de uso de la nueva función de búsqueda de ChatGPT.
El camino a seguir
Las últimas actualizaciones de ChatGPT se centran en hacer la IA más útil, flexible y justa. La nueva función Canvas ayuda a los usuarios a trabajar de forma más eficiente, mientras que el ajuste de la visión permite a los desarrolladores personalizar los modelos para manejar mejor las tareas visuales. Abordar la equidad y reducir los prejuicios también son prioridades clave, garantizando que la IA funcione bien para todos, independientemente de quiénes sean. ChatGPT está evolucionando para satisfacer una amplia gama de necesidades, tanto si eres un desarrollador que está ajustando modelos como si simplemente estás utilizando las últimas funciones. Con capacidades en tiempo real, integración visual y un enfoque en el uso responsable, estas actualizaciones construyen una experiencia de IA más fiable y digna de confianza para todos.