Um mergulho profundo nas capacidades do GPT-4o Mini da OpenAI

Abirami Vina

6 min. de leitura

25 de julho de 2024

Explore as funcionalidades e aplicações do GPT-4o Mini. O modelo mais recente e económico da OpenAI oferece capacidades avançadas de IA a um preço 60% mais baixo do que o GPT-3.5 Turbo.

Em maio de 2024, a OpenAI lançou o GPT-4o, e agora, apenas três meses depois, está de volta com outro modelo impressionante: GPT-4o Mini. Em 18 de julho de 2024, a OpenAI apresentou o GPT-4o Mini. Chamam-lhe o seu "modelo mais económico"! O GPT-4o Mini é um modelo compacto que se baseia nas capacidades dos modelos anteriores e tem como objetivo tornar a IA avançada mais acessível e económica.

O GPT-4o Mini suporta atualmente interações de texto e visão, esperando-se que futuras actualizações adicionem capacidades para lidar com imagens, vídeos e áudio. Neste artigo, vamos explorar o que é o GPT-4o Mini, suas caraterísticas de destaque, como ele pode ser usado, as diferenças entre o GPT-4 e o GPT-4o Mini e como ele pode ser usado em vários casos de uso de visão computacional. Vamos mergulhar e ver o que o GPT-4o Mini tem para oferecer!

O que é o GPT-4o Mini?

O GPT-4o Mini é a mais recente adição à linha de modelos de IA da OpenAI, concebida para ser mais económica e acessível. É um modelo multimodal de linguagem grande (LLM), o que significa que pode processar e gerar diferentes tipos de dados, como texto, imagens, vídeos e áudio. O modelo baseia-se nos pontos fortes dos modelos anteriores, como o GPT-4 e o GPT-4o, para oferecer capacidades poderosas num pacote compacto. 

O GPT-4o Mini é 60% mais barato que o GPT-3.5 Turbo, custando 15 cêntimos por milhão de tokens de entrada (unidades de texto ou dados que o modelo processa) e 60 cêntimos por milhão de tokens de saída (unidades que o modelo gera em resposta). Para colocar isso em perspetiva, um milhão de tokens é aproximadamente equivalente ao processamento de 2.500 páginas de texto. Com uma janela de contexto de 128K tokens e a capacidade de processar até 16K tokens de saída por pedido, o GPT-4o Mini foi concebido para ser eficiente e económico.

__wf_reserved_inherit
Fig. 1. O GPT-4o Mini é 60% mais barato do que o GPT-3.5 Turbo.

Principais caraterísticas do GPT-4o Mini 

O GPT-4o Mini suporta uma série de tarefas que o tornam uma óptima opção para várias aplicações. Pode ser utilizado para executar várias operações ao mesmo tempo, como chamar várias APIs, lidar com grandes quantidades de dados, como bases de código completas ou históricos de conversas, e fornecer respostas rápidas e em tempo real em chatbots de apoio ao cliente.

Eis algumas outras caraterísticas importantes:

  • Base de conhecimentos actualizada: O modelo contém informações até outubro de 2023.
  • Tokenizer melhorado: O GPT-4o Mini torna o processamento de texto não inglês mais económico.
  • Medidas de segurança robustas: Estas medidas incluem a filtragem de conteúdos nocivos e a proteção contra problemas de segurança, como injecções rápidas e manipulações do sistema.

Começar a utilizar o GPT-4o Mini 

Pode tentar utilizar o GPT-4o Mini através da interface ChatGPT. Está acessível aos utilizadores Free, Plus e Team, substituindo o GPT-3.5, como se mostra abaixo. Os utilizadores empresariais também terão acesso em breve, em linha com o objetivo da OpenAI de proporcionar benefícios de IA a todos. O GPT-4o Mini também está disponível através da API para os programadores que pretendam integrar as suas capacidades nas suas aplicações. Atualmente, as capacidades de visão só estão acessíveis através da API.

__wf_reserved_inherit
Fig 2. Opções de modelos no ChatGPT.

A diferença entre o GPT-4o e o GPT-4o Mini 

O GPT-4o Mini e o GPT-4o têm um desempenho impressionante em vários benchmarks. Embora o GPT-4o geralmente supere o GPT-4o Mini, o GPT-4o Mini continua a ser uma solução económica para as tarefas diárias. Os testes de referência incluem tarefas de raciocínio, proficiência em matemática e codificação, e raciocínio multimodal. Como mostra a imagem abaixo, o GPT-4o Mini tem um desempenho bastante elevado quando comparado com outros modelos populares.

__wf_reserved_inherit
Fig. 3. Comparação do GPT-4o Mini com outros modelos populares.

Introdução ao GPT-4o e ao GPT-4o Mini

Uma questão interessante que tem sido debatida online envolve LLMs populares que comparam números decimais incorretamente. Quando pusemos à prova o GPT-4o e o GPT-4o Mini, as suas capacidades de raciocínio mostraram diferenças claras. Na imagem abaixo, perguntámos a ambos os modelos qual é o maior: 9,11 ou 9,9, e pedimos-lhes que explicassem o seu raciocínio.

__wf_reserved_inherit
Fig. 4. Teste do GPT-4o e do GPT-4o Mini.

Ambos os modelos respondem inicialmente de forma incorrecta e afirmam que 9,11 é maior. No entanto, o GPT-4o é capaz de raciocinar para chegar à resposta correta e afirma que 9,9 é maior. Ele fornece uma explicação detalhada e compara os decimais com precisão. Em contraste, o GPT-4o Mini mantém obstinadamente a sua resposta errada inicial, apesar de ter descoberto corretamente o raciocínio por detrás de 9,9 ser maior.

Ambos os modelos demonstram uma forte capacidade de raciocínio. A capacidade do GPT-4o de se corrigir a si próprio torna-o superior e útil para tarefas mais complexas. O GPT-4o Mini, embora menos adaptável, continua a oferecer um raciocínio claro e exato para tarefas mais simples. 

Utilização do GPT-4o Mini para vários casos de utilização de visão computacional

Se preferir explorar as capacidades de visão do GPT-4o Mini sem mergulhar no código, pode facilmente testar a API no OpenAI Playground. Nós próprios experimentámos para ver como o GPT-4o Mini é capaz de lidar com vários casos de utilização relacionados com a visão computacional.

Classificação de imagens utilizando o GPT-4o Mini

Pedimos ao GPT-4o Mini para classificar duas imagens: uma de uma borboleta e outra de um mapa. O modelo de IA identificou com sucesso a borboleta e o mapa. Esta é uma tarefa bastante simples, dado que as imagens são muito diferentes.

__wf_reserved_inherit
Fig. 5. Classificação de imagens com a ajuda do GPT-4o Mini.

Passámos mais duas imagens pelo modelo: uma que mostrava uma borboleta pousada numa planta e outra que mostrava uma borboleta pousada no chão. A IA voltou a fazer um excelente trabalho, detectando corretamente a borboleta na planta e a borboleta no chão. Por isso, demos novamente um passo em frente.

__wf_reserved_inherit
Fig. 6. Classificação de imagens semelhantes com a ajuda do GPT-4o Mini.

De seguida, pedimos ao GPT-4o Mini para classificar duas imagens: uma que mostra uma borboleta a alimentar-se nas flores de uma erva-leiteira do pântano e outra que mostra uma borboleta a alimentar-se numa flor de Zinnia. É espantoso que o modelo tenha sido capaz de classificar um rótulo tão específico sem mais afinações. Estes exemplos rápidos mostram que o GPT-4o Mini pode ser utilizado para tarefas de classificação de imagens sem necessitar de formação personalizada.

__wf_reserved_inherit
Fig. 7. Classificação de imagens pormenorizadas com a ajuda do GPT-4o Mini.

Compreender as poses utilizando o GPT-4o Mini

Atualmente, as tarefas de visão por computador, como a deteção de objectos e a segmentação de instâncias, não podem ser realizadas com o GPT-4o Mini. O GPT-4o tem dificuldades em termos de precisão, mas pode ser utilizado para essas tarefas. Nesta linha, no que diz respeito à compreensão de poses, não podemos detetar ou estimar a pose na imagem, mas podemos classificar e compreender a pose.

__wf_reserved_inherit
Fig. 8. Utilização do GPT-4o Mini para compreender as poses numa imagem. 

A imagem acima mostra como o GPT-4o Mini pode classificar e compreender as poses, apesar de não ser capaz de detetar ou estimar as coordenadas precisas da pose. Isto pode ser útil em diferentes aplicações. Por exemplo, na análise desportiva, pode avaliar amplamente os movimentos dos atletas e ajudar a prevenir lesões. Do mesmo modo, na fisioterapia, pode ajudar a monitorizar exercícios para garantir que os pacientes efectuam os movimentos corretos durante a reabilitação. Também para a vigilância, pode ajudar a identificar actividades suspeitas através da análise da linguagem corporal geral. Embora o GPT-4o Mini não consiga detetar pontos-chave específicos, a sua capacidade de classificar poses gerais torna-o útil nestes e noutros campos.

Aplicações para as quais o GPT-4o Mini é adequado

Já demos uma olhadela ao que o GPT-4o Mini pode fazer. Agora, vamos discutir as aplicações onde é melhor usar o GPT-4o Mini.

O GPT-4o Mini é ótimo para aplicações que requerem uma compreensão avançada da linguagem natural e necessitam de uma pequena pegada computacional. Torna possível integrar a IA em aplicações onde normalmente seria demasiado dispendiosa. De facto, uma análise detalhada da Artificial Analysis mostra que o GPT-4o Mini fornece respostas de alta qualidade a velocidades extremamente rápidas em comparação com a maioria dos outros modelos.

__wf_reserved_inherit
Fig. 9. Qualidade Vs. velocidade de saída do GPT-4o Mini.

Eis alguns dos principais domínios em que poderá brilhar no futuro:

  • Assistentes virtuais e Chatbots: O GPT-4o Mini pode fornecer respostas rápidas e inteligentes para melhorar as interações do usuário.
  • Ferramentas Educacionais: O modelo pode ser usado para construir ferramentas para oferecer tutoria personalizada e geração de conteúdo.
  • Ferramentas de produtividade: Pode melhorar tarefas como resumir documentos, redigir e-mails e traduzir idiomas para aumentar a eficiência.
  • Tradução de línguas: A versão mais recente do GPT pode ser utilizada para desenvolver tradutores que fornecem uma tradução linguística exacta e em tempo real para uma melhor comunicação entre diferentes línguas.

GPT-4o Mini abre novas portas

O GPT-4o Mini está a criar novas oportunidades para o futuro da IA multimodal. A despesa de processamento de cada texto ou dado, conhecida como custo por token, diminuiu substancialmente - em quase 99% - desde 2022, quando o text-davinci-003, o modelo GPT-3, foi lançado. A diminuição do custo mostra uma clara tendência para tornar a IA avançada mais acessível. À medida que os modelos de IA continuam a melhorar, é cada vez mais provável que a integração da IA em todas as aplicações e sítios Web seja economicamente viável!

Quer pôr mãos à obra com a IA? Visite o nosso repositório GitHub para ver as nossas inovações e fazer parte da nossa comunidade ativa. Saiba mais sobre as aplicações de IA no fabrico e na agricultura nas nossas páginas de soluções.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência