Nuevas Funciones de ChatGPT: Visión, Búsqueda y Más

Después de que analizáramos por última vez los modelos o1 de OpenAI en septiembre (que fueron diseñados para mejorar el razonamiento), se han añadido muchas características nuevas e interesantes a ChatGPT. Algunos de estos lanzamientos están dirigidos a los desarrolladores, y otros están diseñados para perfeccionar la experiencia del usuario. En general, cada actualización ayuda a que las interacciones con ChatGPT sean más intuitivas y eficaces.

Las actualizaciones como Canvas, diseñado para la escritura y codificación colaborativas, y el ajuste fino para las capacidades de visión que mejoran la forma en que ChatGPT trabaja con imágenes, han despertado mucho interés, animando a los usuarios a explorar más posibilidades creativas. Mientras tanto, las mejoras técnicas, como las nuevas API y los informes de pruebas de equidad, abordan aspectos como la integración de modelos y las prácticas de IA ética. ¡Profundicemos y comprendamos mejor las últimas funciones de ChatGPT de OpenAI!

Una visión general de la función de lienzo de OpenAI

Canvas es la primera actualización importante de la interfaz de usuario (UI) de ChatGPT desde su lanzamiento. Es una nueva interfaz con un diseño de dos pantallas, indicaciones en la barra lateral izquierda y respuestas en la ventana del lado derecho. La nueva UI elimina el flujo de trabajo habitual de una estructura de pantalla única tipo chat y se traslada a un diseño de dos pantallas que se adapta a propósitos multitarea para aumentar la productividad.

Fig. 1. Canvas trae actualizaciones de la interfaz de usuario a ChatGPT.

‍

Antes de la introducción de Canvas, trabajar con documentos extensos en ChatGPT implicaba desplazarse bastante hacia arriba y hacia abajo. En el nuevo diseño, las indicaciones se muestran en la barra lateral izquierda, y el documento de texto o el fragmento de código ocupa la mayor parte de la pantalla. Si es necesario, incluso puedes personalizar el tamaño de la barra lateral izquierda y la pantalla de salida. Además, puedes seleccionar una parte del texto o una sección de código y editar esa sección específica sin alterar todo el documento.

Fig. 2. Edición de secciones específicas de texto mediante Canvas.

‍

Si utiliza Canvas, notará que no hay ningún botón o interruptor específico para abrirlo en la interfaz de ChatGPT. En cambio, cuando trabaja con el modelo GPT-4o, Canvas se abre automáticamente si detecta que está editando, escribiendo o codificando. Para indicaciones más sencillas, permanece inactivo. Si desea abrirlo manualmente, puede utilizar indicaciones como "Abrir Canvas" o "Mostrar el diseño de Canvas".

Actualmente, Canvas está en fase beta y solo está disponible con GPT-4o. Sin embargo, OpenAI ha mencionado que Canvas estará disponible para todos los usuarios gratuitos cuando salga de la fase beta.

Actualizaciones de la API de ChatGPT

OpenAI ha lanzado tres nuevas actualizaciones de la API de ChatGPT destinadas a mejorar la eficiencia, la escalabilidad y la versatilidad. Analicemos más de cerca cada una de estas actualizaciones.

Destilación de modelos

Usando la función de Destilación de Modelos a través de las APIs de OpenAI, los desarrolladores pueden usar las salidas de modelos avanzados como GPT-4o u o1-preview para mejorar el rendimiento de modelos más pequeños y rentables como GPT-4o mini. La destilación de modelos es un proceso que implica el entrenamiento de modelos más pequeños para imitar el comportamiento de otros más avanzados, haciéndolos más eficientes para tareas específicas.

Antes de que se introdujera esta función, los desarrolladores tenían que coordinar manualmente una variedad de tareas utilizando diferentes herramientas. Estas tareas incluían la generación de conjuntos de datos, la medición del rendimiento del modelo y el ajuste fino de los modelos, lo que a menudo hacía que el proceso fuera complejo y propenso a errores. La actualización de Destilación de Modelos permite a los desarrolladores utilizar Completions Almacenadas, una herramienta que les permite generar conjuntos de datos automáticamente capturando y almacenando los pares de entrada-salida producidos por modelos avanzados a través de la API.

Otra característica de Model Distillation, Evals (actualmente en versión beta), ayuda a medir el rendimiento de un modelo en tareas específicas, sin necesidad de crear scripts de evaluación personalizados ni de utilizar herramientas independientes. Utilizando conjuntos de datos generados con Stored Completions y evaluando el rendimiento con Evals, los desarrolladores pueden ajustar sus propios modelos GPT personalizados.

Fig 3. Puede utilizar Evals para medir el rendimiento del modelo.

‍

Caché de prompts

A menudo, al construir aplicaciones de IA, especialmente chatbots, el mismo contexto (la información de fondo o el historial de conversación previo necesario para entender la solicitud actual) se utilizará repetidamente para múltiples llamadas a la API. El almacenamiento en caché de prompts permite a los desarrolladores reutilizar tokens de entrada usados recientemente (segmentos de texto que el modelo procesa para entender el prompt y generar una respuesta), lo que ayuda a reducir el coste y la latencia.

Desde el 1 de octubre, OpenAI ha aplicado automáticamente el almacenamiento en caché de prompts (Prompt Caching) a sus modelos como GPT-4o, GPT-4o mini, o1-preview y o1-mini. Esto significa que cuando los desarrolladores usan la API para interactuar con un modelo con un prompt largo (más de 1024 tokens), el sistema guarda las partes que ya ha procesado.

De esta manera, si se utilizan las mismas indicaciones o similares de nuevo, puede omitir el recálculo de esas partes. El sistema almacena automáticamente en caché la parte más larga de la indicación que ha encontrado previamente, comenzando con 1024 tokens y añadiendo fragmentos de 128 tokens a medida que la indicación se alarga.

API en tiempo real

La creación de un asistente de voz generalmente implica la necesidad de transcribir audio a texto, procesar el texto y luego convertirlo de nuevo a audio para reproducir la respuesta. La API Realtime de OpenAI tiene como objetivo gestionar todo este proceso con una única solicitud a la API. Al simplificar el proceso, la API permite conversaciones en tiempo real con la IA.

Por ejemplo, un asistente de voz integrado con la API Realtime puede realizar acciones específicas, como hacer un pedido o encontrar información, basándose en las peticiones del usuario. La API hace que el asistente de voz sea más receptivo y capaz de adaptarse rápidamente a las necesidades de los usuarios. La API Realtime estuvo disponible a través de la versión beta pública el 1 de octubre, con seis voces. El 30 de octubre, se añadieron cinco voces más, lo que hace un total de once voces disponibles.

Fig 4. Un ejemplo del uso de la API en tiempo real para practicar conversaciones en un nuevo idioma.

‍

Ajuste fino de ChatGPT para tareas de visión

Originalmente, el modelo de lenguaje de visión GPT-4o solo podía ajustarse y personalizarse utilizando conjuntos de datos de solo texto. Ahora, con el lanzamiento de la API de ajuste fino de visión, los desarrolladores pueden entrenar y personalizar GPT-4o utilizando conjuntos de datos de imágenes. Desde su lanzamiento, el ajuste fino de visión se ha convertido en un tema de gran interés entre los desarrolladores e ingenieros de visión artificial.

Para ajustar las capacidades de visión de GPT-4o, los desarrolladores pueden utilizar conjuntos de datos de imágenes que varían desde tan solo 100 imágenes hasta 50,000. Después de asegurarse de que el conjunto de datos coincida con el formato requerido por OpenAI, se puede cargar en la plataforma OpenAI y el modelo se puede ajustar para aplicaciones específicas.

Por ejemplo, Automat, una empresa de automatización, utilizó un conjunto de datos de capturas de pantalla para entrenar a GPT-4o para que pueda identificar elementos de la interfaz de usuario en una pantalla basándose en una descripción. Esto ayuda a optimizar la automatización robótica de procesos (RPA) al facilitar que los bots interactúen con las interfaces de usuario. En lugar de depender de coordenadas fijas o reglas de selector complejas, el modelo puede identificar elementos de la interfaz de usuario basándose en descripciones simples, lo que hace que las configuraciones de automatización sean más adaptables y fáciles de mantener cuando las interfaces cambian.

Fig 5. Uso de una versión ajustada del modelo GPT-4o para detectar elementos de la interfaz de usuario.

‍

Detección de sesgos y equidad en ChatGPT

Las preocupaciones éticas que rodean a las aplicaciones de la IA son un tema de conversación destacado a medida que la IA se vuelve más y más avanzada. Debido a que las respuestas de ChatGPT se basan en las indicaciones proporcionadas por el usuario y los datos disponibles en Internet, puede ser un desafío ajustar su lenguaje para que sea responsable todo el tiempo. Los informes indican que las respuestas de ChatGPT están sesgadas en cuanto al nombre, el género y la raza. Para abordar este problema, el equipo interno de OpenAI realizó una prueba de equidad en primera persona.

Los nombres a menudo conllevan sutiles indicios sobre nuestra cultura y factores geográficos. En la mayoría de los casos, ChatGPT ignorará los sutiles indicios en los nombres. Sin embargo, en algunos casos, los nombres que reflejan la raza o la cultura conducen a diferentes respuestas de ChatGPT, y alrededor del 1% de estas reflejan lenguaje dañino. Eliminar sesgos y lenguaje dañino es una tarea desafiante para un modelo de lenguaje. Sin embargo, al compartir estos hallazgos públicamente y reconocer las limitaciones del modelo, OpenAI ayuda a los usuarios a refinar sus indicaciones para lograr respuestas más neutrales e imparciales.

Fig. 6. Un ejemplo de respuestas diferentes debido al nombre del usuario.

‍

Comprensión de la búsqueda en ChatGPT

Cuando ChatGPT se lanzó por primera vez, hubo debates en la comunidad de la IA sobre si podría reemplazar la navegación web tradicional. Ahora, muchos usuarios están utilizando ChatGPT en lugar de la Búsqueda de Google.

La nueva actualización de OpenAI, la función de búsqueda, lleva esto un paso más allá. Con la búsqueda, ChatGPT genera respuestas actualizadas e incluye enlaces a fuentes relevantes. A partir del 31 de octubre, la función de búsqueda está disponible para todos los usuarios de ChatGPT Plus y Team, lo que hace que ChatGPT funcione más como un motor de búsqueda impulsado por IA.

Fig 7. Un ejemplo del uso de la nueva función de búsqueda de ChatGPT.

‍

El camino a seguir

Las actualizaciones recientes de ChatGPT se centran en hacer que la IA sea más útil, flexible y justa. La nueva función Canvas ayuda a los usuarios a trabajar de manera más eficiente, mientras que el ajuste fino de la visión permite a los desarrolladores personalizar los modelos para manejar mejor las tareas visuales. Abordar la equidad y reducir los sesgos también son prioridades clave, garantizando que la IA funcione bien para todos, independientemente de quiénes sean. Ya sea que sea un desarrollador que ajusta los modelos o simplemente utiliza las últimas funciones, ChatGPT está evolucionando para satisfacer una amplia gama de necesidades. Con capacidades en tiempo real, integración visual y un enfoque en el uso responsable, estas actualizaciones construyen una experiencia de IA más confiable para todos.

Explore más sobre la IA visitando nuestro repositorio de GitHub y uniéndose a nuestra comunidad. Obtenga más información sobre las aplicaciones de la IA en la conducción autónoma y la atención médica.

Las últimas actualizaciones de OpenAI: Canvas, Vision Fine-Tuning y más

Una visión general de la función de lienzo de OpenAI