Yolo Vision Shenzhen
Shenzhen
Junte-se agora

As últimas atualizações do OpenAI: Canvas, Vision Fine-Tuning e mais

Abirami Vina

4 min de leitura

7 de novembro de 2024

Junte-se a nós para vermos mais de perto as recentes actualizações ChatGPT lançadas pela OpenAI. Iremos explorar o Canvas, o ajuste fino das capacidades de visão e a mais recente funcionalidade de Pesquisa.

Depois de termos analisado pela última vez os modelos o1 da OpenAI em setembro (que foram concebidos para melhorar o raciocínio), foram adicionadas muitas funcionalidades novas e interessantes ao ChatGPT. Alguns destes lançamentos são direcionados para os programadores e outros são concebidos para aperfeiçoar a experiência do utilizador. No geral, cada atualização ajuda a tornar as interações com o ChatGPT mais intuitivas e eficazes.

Actualizações como o Canvas, concebido para escrita e codificação colaborativas, e o ajuste fino das capacidades de visão, que melhora a forma como ChatGPT trabalha com imagens, despertaram muito interesse, encorajando os utilizadores a explorar mais possibilidades criativas. Entretanto, as actualizações técnicas, como as novas API e os relatórios de testes de imparcialidade, abordam aspectos como a integração de modelos e as práticas éticas de IA . Vamos mergulhar e compreender melhor as mais recentes funcionalidades ChatGPT da OpenAI!

Uma visão geral do recurso de tela do OpenAI

O Canvas é a primeira grande atualização da interface de utilizador (UI) do ChatGPTdesde o seu lançamento. É uma nova interface com um layout de dois ecrãs, avisos na barra lateral esquerda e respostas na janela do lado direito. A nova IU elimina o fluxo de trabalho habitual de uma estrutura de ecrã único semelhante a um chat e muda para uma disposição de dois ecrãs que se adequa a fins multitarefa para aumentar a produtividade.

Figura 1. O Canvas traz actualizações da interface do utilizador para o ChatGPT.

Antes da introdução do Canvas, trabalhar com documentos longos no ChatGPT significava ter que rolar um pouco para cima e para baixo. No novo layout, os avisos são exibidos na barra lateral esquerda e o documento de texto ou trecho de código ocupa a maior parte da tela. Se necessário, pode até personalizar o tamanho da barra lateral esquerda e do ecrã de saída. Além disso, pode selecionar uma parte do texto ou uma secção de código e editar a secção específica sem alterar todo o documento.

Fig 2. Edite seções específicas de texto usando o Canvas.

Se utilizar o Canvas, notará que não existe um botão específico ou um botão de alternância para o abrir na interface ChatGPT . Em vez disso, quando está a trabalhar com o modelo GPT-4o, o Canvas abre-se automaticamente se detetar que está a editar, escrever ou codificar. Para prompts mais simples, ele permanece inativo. Se quiseres abri-lo manualmente, podes usar prompts como "Abrir o Canvas" ou "Obter o layout do Canvas".

Atualmente, o Canvas está em versão beta e disponível apenas com o GPT-4o. No entanto, a OpenAI mencionou que o Canvas estará disponível para todos os usuários gratuitos quando sair da versão beta.

Actualizações da API do ChatGPT

A OpenAI lançou três novas actualizações da API ChatGPT com o objetivo de melhorar a eficiência, a escalabilidade e a versatilidade. Vamos dar uma olhada mais de perto em cada uma dessas atualizações.

Destilação de modelo

Usando o recurso Destilação de Modelos através das APIs da OpenAI, os desenvolvedores podem usar as saídas de modelos avançados, como GPT-4o ou o1-preview, para melhorar o desempenho de modelos menores e mais econômicos, como o GPT-4o mini. A destilação de modelos é um processo que envolve o treinamento de modelos menores para imitar o comportamento de modelos mais avançados, tornando-os mais eficientes para tarefas específicas.

Antes da introdução deste recurso, os desenvolvedores tinham que coordenar manualmente uma variedade de tarefas usando diferentes ferramentas. Essas tarefas incluíam gerar conjuntos de dados, medir o desempenho do modelo e ajustar modelos, o que muitas vezes tornava o processo complexo e propenso a erros. A atualização do Model Distillation permite que os desenvolvedores usem o Stored Completions, uma ferramenta que permite gerar conjuntos de dados automaticamente, capturando e armazenando os pares de entrada-saída produzidos por modelos avançados através da API.

Outro recurso da Destilação de Modelos, o Evals (atualmente em versão beta), ajuda a medir o quão bem um modelo se desempenha em tarefas específicas, sem a necessidade de criar scripts de avaliação personalizados ou usar ferramentas separadas. Usando conjuntos de dados gerados com Conclusões Armazenadas e avaliando o desempenho com Evals, os desenvolvedores podem ajustar seus próprios modelos GPT personalizados.

Fig. 3. Pode usar o Evals para medir o desempenho do modelo.

Cache de prompt

Frequentemente, ao construir aplicações de IA, especialmente chatbots, o mesmo contexto (as informações de fundo ou o histórico de conversas anteriores necessárias para entender a solicitação atual) será usado repetidamente para várias chamadas de API. O Prompt Caching possibilita que os desenvolvedores reutilizem tokens de entrada usados recentemente (segmentos de texto que o modelo processa para entender o prompt e gerar uma resposta), ajudando a reduzir o custo e a latência.

A partir de 1º de outubro, a OpenAI aplicou automaticamente o Prompt Caching aos seus modelos, como GPT-4o, GPT-4o mini, o1-preview e o1-mini. Isso significa que, quando os desenvolvedores usam a API para interagir com um modelo com um prompt longo (mais de 1.024 tokens), o sistema salva as partes que já processou. 

Dessa forma, se os mesmos prompts ou prompts semelhantes forem usados novamente, ele pode pular o recálculo dessas partes. O sistema armazena automaticamente em cache a parte mais longa do prompt que encontrou anteriormente, começando com 1.024 tokens e adicionando em blocos de 128 tokens à medida que o prompt fica mais longo.

API em tempo real

Criar um assistente de voz geralmente envolve a necessidade de transcrever áudio para texto, processar o texto e, em seguida, convertê-lo de volta em áudio para reproduzir a resposta. A API Realtime da OpenAI tem como objetivo lidar com todo esse processo com uma única solicitação de API. Ao simplificar o processo, a API permite conversas em tempo real com IA. 

Por exemplo, um assistente de voz integrado com a Realtime API pode executar ações específicas, como fazer um pedido ou encontrar informações, com base nas solicitações do usuário. A API torna o assistente de voz mais responsivo e capaz de se adaptar rapidamente às necessidades dos usuários. A Realtime API ficou disponível por meio de beta público em 1º de outubro, com seis vozes. Em 30 de outubro, mais cinco vozes foram adicionadas, totalizando onze vozes disponíveis.

Fig 4. Um exemplo de uso da API Realtime para praticar conversas em um novo idioma.

Afinação do ChatGPT para tarefas de visão

Originalmente, o modelo de linguagem de visão GPT-4o só podia ser ajustado e personalizado usando conjuntos de dados apenas de texto. Agora, com o lançamento da API de ajuste fino de visão, os desenvolvedores podem treinar e personalizar o GPT-4o usando conjuntos de dados de imagem. Desde o seu lançamento, o ajuste fino de visão se tornou um dos principais tópicos de interesse entre desenvolvedores e engenheiros de visão computacional.

Para ajustar as capacidades de visão do GPT-4o, os desenvolvedores podem usar conjuntos de dados de imagem que variam de apenas 100 imagens a até 50.000 imagens. Depois de garantir que o conjunto de dados corresponda ao formato exigido pela OpenAI, ele pode ser carregado na plataforma OpenAI e o modelo pode ser ajustado para aplicações específicas. 

Por exemplo, a Automat, uma empresa de automação, usou um conjunto de dados de capturas de ecrã para treinar o GPT-4o para ser capaz de identificar elementos da interface do utilizador num ecrã com base numa descrição. Isto ajuda a simplificar a Automação Robótica de Processos (RPA), facilitando a interação dos bots com as interfaces do utilizador. Em vez de depender de coordenadas fixas ou regras de seleção complexas, o modelo pode identificar elementos da interface do utilizador com base em descrições simples, tornando as configurações de automação mais adaptáveis e fáceis de manter quando as interfaces mudam.

Fig. 5. Utilização de uma versão aperfeiçoada do modelo GPT-4o para detect elementos da IU.

Deteção de parcialidade e equidade ChatGPT

As preocupações éticas em torno das aplicações de IA são um tópico de conversa proeminente à medida que a IA se torna cada vez mais avançada. Uma vez que as respostas do ChatGPTse baseiam em sugestões fornecidas pelo utilizador e em dados disponíveis na Internet, pode ser difícil ajustar a sua linguagem para ser sempre responsável. Os relatórios indicam que as respostas doChatGPTsão tendenciosas em termos de nome, género e raça. Para resolver este problema, a equipa interna da OpenAI realizou um teste de imparcialidade na primeira pessoa.

Os nomes contêm frequentemente pistas subtis sobre a nossa cultura e factores geográficos. Na maioria dos casos, ChatGPT ignora as pistas subtis dos nomes. No entanto, em alguns casos, os nomes que reflectem a raça ou a cultura levam a respostas diferentes do ChatGPT, sendo que cerca de 1% destes reflectem linguagem prejudicial. Eliminar preconceitos e linguagem nociva é uma tarefa difícil para um modelo linguístico. No entanto, ao partilhar estas descobertas publicamente e ao reconhecer as limitações do modelo, a OpenAI ajuda os utilizadores a aperfeiçoar os seus pedidos para obter respostas mais neutras e imparciais. 

Fig 6. Um exemplo de respostas diferentes devido ao nome do utilizador.

Compreender a pesquisa ChatGPT

Quando ChatGPT foi lançado pela primeira vez, houve discussões na comunidade de IA sobre se poderia substituir a navegação tradicional na Web. Atualmente, muitos utilizadores utilizam ChatGPT em vez da Pesquisa Google

A nova atualização da OpenAI, a funcionalidade Pesquisar, leva isto um passo mais longe. Com a Pesquisa, ChatGPT gera respostas actualizadas e inclui links para fontes relevantes. A partir de 31 de outubro, a funcionalidade de Pesquisa está disponível para todos os utilizadores ChatGPT Plus e Team, fazendo com que ChatGPT funcione mais como um motor de busca alimentado por IA.

Fig. 7. Um exemplo de utilização da nova funcionalidade de pesquisa do ChatGPT.

O caminho a seguir

As recentes actualizações do ChatGPT centram-se em tornar a IA mais útil, flexível e justa. A nova funcionalidade Canvas ajuda os utilizadores a trabalhar de forma mais eficiente, enquanto o ajuste fino da visão permite que os programadores personalizem os modelos para lidar melhor com as tarefas visuais. Abordar a equidade e reduzir o preconceito são também prioridades-chave, garantindo que a IA funciona bem para todos, independentemente de quem são. Quer seja um programador a afinar modelos ou apenas a utilizar as funcionalidades mais recentes, ChatGPT está a evoluir para satisfazer uma vasta gama de necessidades. Com capacidades em tempo real, integração visual e um foco na utilização responsável, estas actualizações criam uma experiência de IA mais fiável e segura para todos.

Explore mais sobre IA visitando nosso repositório GitHub e juntando-se à nossa comunidade. Saiba mais sobre aplicações de IA em direção autônoma e saúde.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente