As últimas atualizações da OpenAI: Canvas, Ajuste Fino de Visão e mais
Junta-te a nós enquanto analisamos as recentes atualizações do ChatGPT lançadas pela OpenAI. Vamos explorar o Canvas, o ajuste fino para capacidades de visão e a mais recente funcionalidade de Pesquisa.

Desde que analisamos pela última vez os modelos o1 da OpenAI em setembro (projetados para melhorar o raciocínio), muitas funcionalidades novas e empolgantes foram adicionadas ao ChatGPT. Alguns desses lançamentos são voltados para desenvolvedores, enquanto outros foram criados para refinar a experiência do usuário. No geral, cada atualização ajuda a tornar as interações com o ChatGPT mais intuitivas e eficazes.
Atualizações como o Canvas, projetado para escrita e codificação colaborativa, e o ajuste fino para recursos de visão que melhora como o ChatGPT trabalha com imagens, despertaram muito interesse, incentivando os usuários a explorar possibilidades mais criativas. Enquanto isso, atualizações técnicas, como novas APIs e relatórios de testes de imparcialidade, abordam aspectos como integração de modelos e práticas de IA ética. Vamos explorar e entender melhor as mais recentes funcionalidades do ChatGPT da OpenAI!
Link to this sectionUma visão geral da funcionalidade Canvas da OpenAI#
O Canvas é a primeira grande atualização da interface de usuário (UI) do ChatGPT desde o seu lançamento. É uma nova interface com um layout de duas telas, prompts na barra lateral esquerda e respostas na janela do lado direito. A nova UI elimina a estrutura usual de tela única semelhante a um chat e muda para um layout de duas telas que atende a propósitos de multitarefa para aumentar a produtividade.

Fig 1. O Canvas traz atualizações de UI para o ChatGPT.
Antes da introdução do Canvas, trabalhar com documentos longos no ChatGPT significava ter que rolar para cima e para baixo com frequência. No novo layout, os prompts são exibidos na barra lateral esquerda e o documento de texto ou trecho de código ocupa a maior parte da tela. Se necessário, você pode até personalizar o tamanho da barra lateral esquerda e da tela de saída. Além disso, você pode selecionar uma parte do texto ou uma seção de código e editar a seção específica sem alterar todo o documento.

Fig 2. Edite seções específicas de texto usando o Canvas.
Se você usa o Canvas, notará que não há um botão ou interruptor específico para abri-lo na interface do ChatGPT. Em vez disso, quando você trabalha com o modelo GPT-4o, o Canvas abre automaticamente se detectar que você está editando, escrevendo ou codificando. Para prompts mais simples, ele permanece inativo. Se quiser abri-lo manualmente, você pode usar comandos como "Open the Canvas" ou "Get me the Canvas layout."
Atualmente, o Canvas está em versão beta e disponível apenas com o GPT-4o. No entanto, a OpenAI mencionou que o Canvas estará disponível para todos os usuários gratuitos quando sair da fase beta.
Link to this sectionAtualizações da API do ChatGPT#
A OpenAI lançou três novas atualizações da API do ChatGPT visando melhorar a eficiência, a escalabilidade e a versatilidade. Vamos dar uma olhada mais de perto em cada uma dessas atualizações.
Link to this sectionDestilação de modelo#
Usando o recurso de Destilação de Modelo através das APIs da OpenAI, os desenvolvedores podem usar as saídas de modelos avançados como o GPT-4o ou o o1-preview para melhorar o desempenho de modelos menores e com melhor custo-benefício, como o GPT-4o mini. A destilação de modelo é um processo que envolve o treinamento de modelos menores para imitar o comportamento de modelos mais avançados, tornando-os mais eficientes para tarefas específicas.
Antes de este recurso ser introduzido, os desenvolvedores precisavam coordenar manualmente uma variedade de tarefas usando ferramentas diferentes. Essas tarefas incluíam a geração de datasets, a medição de desempenho do modelo e o fine-tuning de modelos, o que frequentemente tornava o processo complexo e sujeito a erros. A atualização de Destilação de Modelo permite que os desenvolvedores usem Completions Armazenados, uma ferramenta que permite gerar automaticamente datasets ao capturar e armazenar os pares de entrada-saída produzidos por modelos avançados através da API.
Outro recurso da Destilação de Modelo, o Evals (atualmente em beta), ajuda a medir o quão bem um modelo performa em tarefas específicas, sem a necessidade de criar scripts de avaliação personalizados ou usar ferramentas separadas. Usando datasets gerados com Stored Completions e avaliando o desempenho com o Evals, os desenvolvedores podem fazer o ajuste fino de seus próprios modelos GPT personalizados.

Fig 3. Você pode usar o Evals para medir o desempenho do modelo.
Link to this sectionCache de prompt#
Muitas vezes, ao criar aplicações de IA, especialmente chatbots, o mesmo contexto (as informações de fundo ou o histórico de conversas anterior necessário para entender a solicitação atual) será usado repetidamente para várias chamadas de API. O Cache de Prompt possibilita que os desenvolvedores reutilizem tokens de entrada usados recentemente (segmentos de texto que o modelo processa para entender o prompt e gerar uma resposta), ajudando a reduzir custos e latência.
Desde 1º de outubro, a OpenAI aplicou automaticamente o Cache de Prompt aos seus modelos como GPT-4o, GPT-4o mini, o1-preview e o1-mini. Isso significa que, quando os desenvolvedores usam a API para interagir com um modelo com um prompt longo (acima de 1.024 tokens), o sistema salva as partes que já processou.
Dessa forma, se os mesmos prompts ou semelhantes forem usados novamente, ele pode pular o recálculo dessas partes. O sistema armazena automaticamente em cache a maior parte do prompt que encontrou anteriormente, começando com 1.024 tokens e adicionando em blocos de 128 tokens à medida que o prompt aumenta.
Link to this sectionAPI em tempo real#
Criar um assistente de voz geralmente envolve a necessidade de transcrever áudio para texto, processar o texto e, em seguida, convertê-lo de volta para áudio para reproduzir a resposta. A API em tempo real da OpenAI visa lidar com todo esse processo com uma única solicitação de API. Ao simplificar o processo, a API permite conversas em tempo real com IA.
Por exemplo, um assistente de voz integrado à API em tempo real pode realizar ações específicas, como fazer um pedido ou encontrar informações, com base nas solicitações do usuário. A API torna o assistente de voz mais responsivo e capaz de se adaptar rapidamente às necessidades dos usuários. A API em tempo real tornou-se disponível através de uma versão beta pública em 1º de outubro, com seis vozes. Em 30 de outubro, cinco vozes adicionais foram adicionadas, totalizando onze vozes disponíveis.

Fig 4. Um exemplo de uso da API em tempo real para praticar conversas em um novo idioma.
Link to this sectionAjuste fino do ChatGPT para tarefas de visão#
Originalmente, o modelo de linguagem de visão GPT-4o só podia ser ajustado e personalizado usando datasets apenas de texto. Agora, com o lançamento da API de ajuste fino de visão, os desenvolvedores podem treinar e personalizar o GPT-4o usando datasets de imagem. Desde o seu lançamento, o ajuste fino de visão tornou-se um importante tópico de interesse entre desenvolvedores e engenheiros de visão computacional.
Para fazer o ajuste fino das capacidades de visão do GPT-4o, os desenvolvedores podem usar datasets de imagem que variam de apenas 100 imagens até 50.000 imagens. Após garantir que o dataset corresponda ao formato exigido pela OpenAI, ele pode ser carregado na plataforma OpenAI e o modelo pode ser ajustado para aplicações específicas.
Por exemplo, a Automat, uma empresa de automação, usou um dataset de capturas de tela para treinar o GPT-4o para conseguir identificar elementos de UI em uma tela com base em uma descrição. Isso ajuda a agilizar a Automação de Processos Robóticos (RPA), tornando mais fácil para os bots interagirem com interfaces de usuário. Em vez de depender de coordenadas fixas ou regras de seletor complexas, o modelo pode identificar elementos de UI com base em descrições simples, tornando as configurações de automação mais adaptáveis e fáceis de manter quando as interfaces mudam.

Fig 5. Usando uma versão ajustada do modelo GPT-4o para detectar elementos de UI.
Link to this sectionImparcialidade e detecção de viés no ChatGPT#
Preocupações éticas em torno de aplicações de IA são um tópico proeminente de conversa à medida que a IA se torna cada vez mais avançada. Como as respostas do ChatGPT são baseadas em prompts fornecidos pelo usuário e dados disponíveis na Internet, pode ser desafiador ajustar sua linguagem para ser responsável o tempo todo. Relatórios afirmam que as respostas do ChatGPT são tendenciosas em relação a nome, gênero e raça. Para resolver esse problema, a equipe interna da OpenAI conduziu um teste de imparcialidade em primeira pessoa.
Nomes geralmente carregam pistas sutis sobre nossa cultura e fatores geográficos. Na maioria dos casos, o ChatGPT ignorará as pistas sutis nos nomes. No entanto, em alguns casos, nomes que refletem raça ou cultura levam a respostas diferentes do ChatGPT, com cerca de 1% delas refletindo linguagem prejudicial. Eliminar vieses e linguagem prejudicial é uma tarefa desafiadora para um modelo de linguagem. No entanto, ao compartilhar essas descobertas publicamente e reconhecer as limitações do modelo, a OpenAI ajuda os usuários a refinar seus prompts para obter respostas mais neutras e imparciais.

Fig 6. Um exemplo de respostas diferentes devido ao nome do usuário.
Link to this sectionEntendendo a pesquisa do ChatGPT#
Quando o ChatGPT foi lançado pela primeira vez, houve discussões na comunidade de IA sobre se ele poderia substituir a navegação tradicional na web. Agora, muitos usuários estão usando o ChatGPT em vez da Pesquisa Google.
A nova atualização da OpenAI, o recurso de Pesquisa, leva isso um passo adiante. Com a Pesquisa, o ChatGPT gera respostas atualizadas e inclui links para fontes relevantes. Desde 31 de outubro, o recurso de Pesquisa está disponível para todos os usuários do ChatGPT Plus e Team, fazendo com que o ChatGPT funcione mais como um motor de busca impulsionado por IA.

Fig 7. Um exemplo de uso do novo recurso de Pesquisa do ChatGPT.
Link to this sectionO caminho a seguir#
As atualizações recentes do ChatGPT concentram-se em tornar a IA mais útil, flexível e justa. O novo recurso Canvas ajuda os usuários a trabalharem com mais eficiência, enquanto o ajuste fino de visão permite que os desenvolvedores personalizem modelos para lidar melhor com tarefas visuais. Abordar a imparcialidade e reduzir o viés também são prioridades fundamentais, garantindo que a IA funcione bem para todos, independentemente de quem sejam. Esteja você como desenvolvedor fazendo o ajuste fino de modelos ou apenas usando os recursos mais recentes, o ChatGPT está evoluindo para atender a uma ampla gama de necessidades. Com capacidades em tempo real, integração visual e um foco no uso responsável, essas atualizações estão construindo uma experiência de IA mais confiável e segura para todos.
Explore mais sobre IA visitando nosso repositório no GitHub e juntando-se à nossa comunidade. Saiba mais sobre aplicações de IA em direção autônoma e saúde.






