Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Definições de cookies
Ao clicar em "Aceitar todos os cookies", concorda com o armazenamento de cookies no seu dispositivo para melhorar a navegação no site, analisar a utilização do site e ajudar nos nossos esforços de marketing. Mais informações
Junte-se a nós para vermos mais de perto as recentes actualizações do ChatGPT lançadas pela OpenAI. Iremos explorar o Canvas, o ajuste fino das capacidades de visão e a mais recente funcionalidade de Pesquisa.
Depois de termos analisado pela última vez os modelos o1 da OpenAI em setembro (que foram concebidos para melhorar o raciocínio), foram adicionadas muitas funcionalidades novas e interessantes ao ChatGPT. Alguns destes lançamentos são direcionados para os programadores e outros são concebidos para aperfeiçoar a experiência do utilizador. No geral, cada atualização ajuda a tornar as interações com o ChatGPT mais intuitivas e eficazes.
Actualizações como o Canvas, concebido para escrita e codificação colaborativas, e o ajuste fino das capacidades de visão, que melhora a forma como o ChatGPT trabalha com imagens, despertaram muito interesse, encorajando os utilizadores a explorar mais possibilidades criativas. Entretanto, as actualizações técnicas, como as novas API e os relatórios de testes de imparcialidade, abordam aspectos como a integração de modelos e as práticas éticas de IA . Vamos mergulhar e compreender melhor as mais recentes funcionalidades do ChatGPT da OpenAI!
Uma visão geral da funcionalidade de ecrã da OpenAI
O Canvas é a primeira grande atualização da interface de utilizador (UI) do ChatGPT desde o seu lançamento. É uma nova interface com um layout de dois ecrãs, avisos na barra lateral esquerda e respostas na janela do lado direito. A nova IU elimina o fluxo de trabalho habitual de uma estrutura de ecrã único semelhante a um chat e muda para uma disposição de dois ecrãs que se adequa a fins multitarefa para aumentar a produtividade.
Figura 1. O Canvas traz actualizações da interface do utilizador para o ChatGPT.
Antes da introdução do Canvas, trabalhar com documentos longos no ChatGPT significava ter que rolar um pouco para cima e para baixo. No novo layout, os avisos são exibidos na barra lateral esquerda e o documento de texto ou trecho de código ocupa a maior parte da tela. Se necessário, pode até personalizar o tamanho da barra lateral esquerda e do ecrã de saída. Além disso, pode selecionar uma parte do texto ou uma secção de código e editar a secção específica sem alterar todo o documento.
Figura 2. Editar secções específicas de texto utilizando o Canvas.
Se utilizar o Canvas, notará que não existe um botão específico ou um botão de alternância para o abrir na interface do ChatGPT. Em vez disso, quando está a trabalhar com o modelo GPT-4o, o Canvas abre-se automaticamente se detetar que está a editar, escrever ou codificar. Para prompts mais simples, ele permanece inativo. Se quiseres abri-lo manualmente, podes usar prompts como "Abrir o Canvas" ou "Obter o layout do Canvas".
Atualmente, o Canvas está em versão beta e disponível apenas com o GPT-4o. No entanto, a OpenAI mencionou que o Canvas estará disponível para todos os utilizadores gratuitos quando sair da versão beta.
Actualizações da API do ChatGPT
A OpenAI lançou três novas actualizações da API ChatGPT com o objetivo de melhorar a eficiência, a escalabilidade e a versatilidade. Vamos dar uma olhada mais de perto em cada uma dessas atualizações.
Modelo de destilação
Utilizando a funcionalidade Model Distillation através das APIs OpenAI, os programadores podem utilizar os resultados de modelos avançados como o GPT-4o ou o1-preview para melhorar o desempenho de modelos mais pequenos e económicos como o GPT-4o mini. A destilação de modelos é um processo que envolve o treinamento de modelos menores para imitar o comportamento de modelos mais avançados, tornando-os mais eficientes para tarefas específicas.
Antes da introdução desta funcionalidade, os programadores tinham de coordenar manualmente uma série de tarefas utilizando diferentes ferramentas. Essas tarefas incluíam a geração de conjuntos de dados, a medição do desempenho do modelo e o ajuste fino dos modelos, o que muitas vezes tornava o processo complexo e propenso a erros. A atualização da Destilação de Modelos permite aos programadores utilizar as Conclusões Armazenadas, uma ferramenta que lhes permite gerar automaticamente conjuntos de dados, capturando e armazenando os pares de entradas e saídas produzidos por modelos avançados através da API.
Outro recurso do Model Distillation, o Evals (atualmente na versão beta), ajuda a medir o desempenho de um modelo em tarefas específicas, sem a necessidade de criar scripts de avaliação personalizados ou usar ferramentas separadas. Usando conjuntos de dados gerados com o Stored Completions e avaliando o desempenho com o Evals, os desenvolvedores podem ajustar seus próprios modelos GPT personalizados.
Figura 3. Pode utilizar as avaliações para medir o desempenho do modelo.
Cache de prompts
Muitas vezes, ao criar aplicativos de IA, especialmente chatbots, o mesmo contexto (as informações de fundo ou o histórico de conversas anteriores necessárias para entender a solicitação atual) será usado repetidamente para várias chamadas de API. O Prompt Caching permite que os desenvolvedores reutilizem tokens de entrada usados recentemente (segmentos de texto que o modelo processa para entender a solicitação e gerar uma resposta), ajudando a reduzir o custo e a latência.
A partir de 1 de outubro, a OpenAI aplicou automaticamente o Prompt Caching aos seus modelos como o GPT-4o, GPT-4o mini, o1-preview e o1-mini. Isto significa que quando os programadores utilizam a API para interagir com um modelo com um prompt longo (mais de 1024 tokens), o sistema guarda as partes que já processou.
Desta forma, se a mesma pergunta ou perguntas semelhantes forem usadas novamente, ele pode pular o recálculo dessas partes. O sistema coloca automaticamente em cache a parte mais longa da pergunta que encontrou anteriormente, começando com 1024 tokens e adicionando pedaços de 128 tokens à medida que a pergunta se torna mais longa.
API em tempo real
Criar um assistente de voz geralmente envolve a necessidade de transcrever o áudio para texto, processar o texto e depois convertê-lo novamente em áudio para reproduzir a resposta. A API Realtime da OpenAI tem como objetivo tratar todo este processo com um único pedido de API. Ao tornar o processo mais simples, a API permite conversas em tempo real com a IA.
Por exemplo, um assistente de voz integrado com a API em tempo real pode executar acções específicas, como fazer uma encomenda ou encontrar informações, com base nos pedidos do utilizador. A API torna o assistente de voz mais reativo e capaz de se adaptar rapidamente às necessidades dos utilizadores. A API Realtime ficou disponível através da versão beta pública a 1 de outubro, com seis vozes. No dia 30 de outubro, foram adicionadas mais cinco vozes, perfazendo um total de onze vozes disponíveis.
Fig. 4. Um exemplo de utilização da API em tempo real para praticar conversações numa nova língua.
Afinação do ChatGPT para tarefas de visão
Originalmente, o modelo de linguagem de visão GPT-4o só podia ser ajustado e personalizado usando conjuntos de dados somente de texto. Agora, com o lançamento da API de ajuste fino da visão, os programadores podem treinar e personalizar o GPT-4o utilizando conjuntos de dados de imagem. Desde o seu lançamento, o ajuste fino da visão tornou-se um tópico de grande interesse entre os programadores e engenheiros de visão computacional.
Para afinar as capacidades de visão do GPT-4o, os programadores podem utilizar conjuntos de dados de imagens que vão desde apenas 100 imagens até 50 000 imagens. Depois de garantir que o conjunto de dados corresponde ao formato exigido pela OpenAI, pode ser carregado na plataforma Openai e o modelo pode ser ajustado para aplicações específicas.
Por exemplo, a Automat, uma empresa de automação, utilizou um conjunto de dados de capturas de ecrã para treinar o GPT-4o a identificar elementos da IU num ecrã com base numa descrição. Isto ajuda a simplificar a automatização de processos robóticos (RPA), facilitando a interação dos bots com as interfaces de utilizador. Em vez de depender de coordenadas fixas ou de regras de seleção complexas, o modelo pode identificar elementos de IU com base em descrições simples, tornando as configurações de automatização mais adaptáveis e mais fáceis de manter quando as interfaces mudam.
Fig. 5. Utilização de uma versão aperfeiçoada do modelo GPT-4o para detetar elementos da IU.
Deteção de parcialidade e equidade do ChatGPT
As preocupações éticas em torno das aplicações de IA são um tópico de conversa proeminente à medida que a IA se torna cada vez mais avançada. Uma vez que as respostas do ChatGPT se baseiam em sugestões fornecidas pelo utilizador e em dados disponíveis na Internet, pode ser difícil ajustar a sua linguagem para ser sempre responsável. Os relatórios indicam que as respostas do ChatGPT são tendenciosas em termos de nome, género e raça. Para resolver este problema, a equipa interna da OpenAI realizou um teste de imparcialidade na primeira pessoa.
Os nomes contêm frequentemente pistas subtis sobre a nossa cultura e factores geográficos. Na maioria dos casos, o ChatGPT ignora as pistas subtis dos nomes. No entanto, em alguns casos, os nomes que reflectem a raça ou a cultura levam a respostas diferentes do ChatGPT, sendo que cerca de 1% destes reflectem linguagem prejudicial. Eliminar preconceitos e linguagem nociva é uma tarefa difícil para um modelo linguístico. No entanto, ao partilhar estas descobertas publicamente e ao reconhecer as limitações do modelo, a OpenAI ajuda os utilizadores a aperfeiçoar os seus pedidos para obter respostas mais neutras e imparciais.
Fig. 6. Um exemplo de respostas diferentes devido ao nome do utilizador.
Compreender a pesquisa do ChatGPT
Quando o ChatGPT foi lançado pela primeira vez, houve discussões na comunidade de IA sobre se poderia substituir a navegação tradicional na Web. Atualmente, muitos utilizadores utilizam o ChatGPT em vez da Pesquisa Google.
A nova atualização da OpenAI, a funcionalidade Pesquisar, leva isto um passo mais longe. Com a Pesquisa, o ChatGPT gera respostas actualizadas e inclui links para fontes relevantes. A partir de 31 de outubro, a funcionalidade de Pesquisa está disponível para todos os utilizadores do ChatGPT Plus e Team, fazendo com que o ChatGPT funcione mais como um motor de busca alimentado por IA.
Fig. 7. Um exemplo de utilização da nova funcionalidade de pesquisa do ChatGPT.
O caminho a seguir
As recentes actualizações do ChatGPT centram-se em tornar a IA mais útil, flexível e justa. A nova funcionalidade Canvas ajuda os utilizadores a trabalhar de forma mais eficiente, enquanto o ajuste fino da visão permite que os programadores personalizem os modelos para lidar melhor com as tarefas visuais. Abordar a equidade e reduzir o preconceito são também prioridades-chave, garantindo que a IA funciona bem para todos, independentemente de quem são. Quer seja um programador a afinar modelos ou apenas a utilizar as funcionalidades mais recentes, o ChatGPT está a evoluir para satisfazer uma vasta gama de necessidades. Com capacidades em tempo real, integração visual e um foco na utilização responsável, estas actualizações criam uma experiência de IA mais fiável e segura para todos.