Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

Uma análise detalhada das capacidades do GPT-4o Mini da OpenAI

Explora as funcionalidades e aplicações do GPT-4o Mini. O mais recente e rentável modelo da OpenAI oferece capacidades avançadas de IA 60% mais baratas que o GPT-3.5 Turbo.

ABAbirami Vina
6 min read
Modelo de IA multimodal rentável OpenAI GPT-4o Mini

Em maio de 2024, a OpenAI lançou o GPT-4o, e agora, apenas três meses depois, eles voltaram com outro modelo impressionante: o GPT-4o Mini. Em 18 de julho de 2024, a OpenAI apresentou o GPT-4o Mini. Eles o chamam de seu “modelo mais econômico”! O GPT-4o Mini é um modelo compacto que se baseia nas capacidades de modelos anteriores e visa tornar a IA avançada mais acessível e econômica.

O GPT-4o Mini suporta atualmente interações de texto e visão, com futuras atualizações previstas para adicionar capacidades de processamento de imagens, vídeos e áudio. Neste artigo, exploraremos o que é o GPT-4o Mini, suas funcionalidades de destaque, como pode ser usado, as diferenças entre o GPT-4 e o GPT-4o Mini e como ele pode ser aplicado em diversos casos de uso de visão computacional. Vamos mergulhar no assunto e ver o que o GPT-4o Mini tem a oferecer!

Link to this sectionO que é o GPT-4o Mini?#

O GPT-4o Mini é a mais recente adição à linha de modelos de IA da OpenAI, projetado para ser mais econômico e acessível. É um large language model (LLM) multimodal, o que significa que ele pode processar e gerar diferentes tipos de dados, como texto, imagens, vídeos e áudio. O modelo baseia-se nos pontos fortes de modelos anteriores, como o GPT-4 e o GPT-4o, para oferecer capacidades poderosas em um pacote compacto.

O GPT-4o Mini é 60% mais barato que o GPT-3.5 Turbo, custando 15 centavos por milhão de tokens de entrada (unidades de texto ou dados que o modelo processa) e 60 centavos por milhão de tokens de saída (unidades que o modelo gera em resposta). Para colocar isso em perspectiva, um milhão de tokens é aproximadamente equivalente a processar 2.500 páginas de texto. Com uma janela de contexto de 128K tokens e a capacidade de lidar com até 16K tokens de saída por solicitação, o GPT-4o Mini foi projetado para ser eficiente e acessível.

GPT-4o Mini é 60% mais barato que o GPT-3.5 Turbo

Fig 1. O GPT-4o Mini é 60% mais barato que o GPT-3.5 Turbo.

Link to this sectionPrincipais funcionalidades do GPT-4o Mini#

O GPT-4o Mini suporta uma gama de tarefas que o tornam uma ótima opção para diversas aplicações. Ele pode ser usado ao executar várias operações ao mesmo tempo, como chamar múltiplas APIs, lidar com grandes quantidades de dados, como bases de código completas ou históricos de conversas, e fornecer respostas rápidas em tempo real em chatbots de suporte ao cliente.

Aqui estão outras funcionalidades principais:

  • Base de conhecimento atualizada: O modelo contém informações até outubro de 2023.
  • Tokenizer aprimorado: O GPT-4o Mini torna o processamento de texto que não está em inglês mais econômico.
  • Medidas de segurança robustas: Estas medidas incluem a filtragem de conteúdo prejudicial e a proteção contra problemas de segurança como injeções de prompt e manipulações de sistema.

Link to this sectionIntrodução ao GPT-4o Mini#

Você pode experimentar o GPT-4o Mini através da interface do ChatGPT. Ele está acessível para usuários Free, Plus e Team, substituindo o GPT-3.5 conforme mostrado abaixo. Usuários Enterprise também ganharão acesso em breve, em linha com o objetivo da OpenAI de fornecer benefícios da IA a todos. O GPT-4o Mini também está disponível através da API para desenvolvedores que desejam integrar suas capacidades em suas aplicações. No momento, as capacidades de visão estão acessíveis apenas através da API.

Opções de modelos dentro do ChatGPT

Fig 2. Opções de modelos dentro do ChatGPT.

Link to this sectionA diferença entre o GPT-4o e o GPT-4o Mini#

O GPT-4o Mini e o GPT-4o apresentam um desempenho impressionante em vários benchmarks. Embora o GPT-4o geralmente supere o GPT-4o Mini, o GPT-4o Mini continua sendo uma solução econômica para tarefas do dia a dia. Os benchmarks incluem tarefas de raciocínio, proficiência em matemática e codificação, e raciocínio multimodal. Como mostrado na imagem abaixo, o GPT-4o Mini pontua muito bem quando comparado a outros modelos populares.

Comparando o GPT-4o Mini com outros modelos populares

Fig 3. Comparando o GPT-4o Mini com outros modelos populares.

Link to this sectionColocando a mão na massa com o GPT-4o e o GPT-4o Mini#

Um prompt interessante que tem sido debatido online envolve LLMs populares comparando números decimais incorretamente. Quando colocamos o GPT-4o e o GPT-4o Mini à prova, suas habilidades de raciocínio mostraram diferenças claras. Na imagem abaixo, perguntamos a ambos os modelos qual é maior: 9.11 ou 9.9, e então pedimos que explicassem seu raciocínio.

Testando o raciocínio do GPT-4o e do GPT-4o Mini

Fig 4. Testando o GPT-4o e o GPT-4o Mini.

Ambos os modelos respondem inicialmente de forma incorreta e afirmam que 9.11 é maior. No entanto, o GPT-4o consegue raciocinar até chegar à resposta correta e afirma que 9.9 é maior. Ele fornece uma explicação detalhada e compara os decimais com precisão. Em contraste, o GPT-4o Mini mantém teimosamente sua resposta errada inicial, apesar de ter descoberto o raciocínio por trás do motivo de 9.9 ser maior corretamente.

Ambos os modelos mostram fortes habilidades de raciocínio. A capacidade do GPT-4o de se corrigir o torna superior e útil para tarefas mais complexas. O GPT-4o Mini, embora menos adaptável, ainda oferece um raciocínio claro e preciso para tarefas mais simples.

Link to this sectionUsando o GPT-4o Mini para diversos casos de uso de visão computacional#

Se preferir explorar as capacidades de visão do GPT-4o Mini sem mergulhar no código, você pode testar facilmente a API no OpenAI Playground. Nós mesmos testamos para ver quão bem o GPT-4o Mini é capaz de lidar com diversos casos de uso relacionados à visão computacional.

Link to this sectionClassificação de imagem usando o GPT-4o Mini#

Pedimos ao GPT-4o Mini para classificar duas imagens: uma de uma borboleta e uma de um mapa. O modelo de IA identificou com sucesso a borboleta e o mapa. Esta é uma tarefa bastante simples, dado que as imagens são muito diferentes.

Classificando imagens de uma borboleta e um mapa com o GPT-4o Mini

Fig 5. Classificando imagens com a ajuda do GPT-4o Mini.

Continuamos e processamos mais duas imagens através do modelo: uma mostrando uma borboleta descansando em uma planta e outra mostrando uma borboleta descansando no chão. A IA fez um ótimo trabalho novamente, detectando corretamente a borboleta na planta e a que estava no chão. Então, demos mais um passo adiante.

Classificando imagens de borboletas semelhantes com o GPT-4o Mini

Fig 6. Classificando imagens semelhantes com a ajuda do GPT-4o Mini.

Em seguida, pedimos ao GPT-4o Mini para classificar duas imagens: uma mostrando uma borboleta se alimentando nas flores de uma Asclepias incarnata e a outra mostrando uma borboleta se alimentando em uma flor Zinnia. É surpreendente que o modelo tenha sido capaz de classificar um rótulo tão específico sem um ajuste fino adicional. Esses exemplos rápidos mostram que o GPT-4o Mini poderia possivelmente ser usado para tarefas de image classification sem a necessidade de treinamento personalizado.

Classificando imagens detalhadas de borboletas com o GPT-4o Mini

Fig 7. Classificando imagens detalhadas com a ajuda do GPT-4o Mini.

Link to this sectionEntendendo poses usando o GPT-4o Mini#

Atualmente, tarefas de visão computacional como object detection e instance segmentation não podem ser tratadas usando o GPT-4o Mini. O GPT-4o luta para ter precisão, mas pode ser usado para tais tarefas. Nesse sentido, com relação a understanding poses, não podemos detectar ou estimar a pose na imagem, mas podemos classificar e entender a pose.

Usando o GPT-4o Mini para entender poses em uma imagem

Fig 8. Usando o GPT-4o Mini para entender as poses em uma imagem.

A imagem acima mostra como o GPT-4o Mini pode classificar e entender poses, apesar de não ser capaz de detectar ou estimar as coordenadas precisas da pose. Isso pode ser útil em diferentes aplicações. Por exemplo, em sports analytics, ele pode avaliar amplamente os movimentos dos atletas e ajudar a prevenir lesões. Da mesma forma, na physical therapy, ele pode ajudar no monitoramento de exercícios para garantir que os movimentos corretos sejam feitos pelos pacientes durante a reabilitação. Também para surveillance, ele pode ajudar a identify suspicious activities analisando a linguagem corporal geral. Embora o GPT-4o Mini não consiga detectar pontos-chave específicos, sua capacidade de classificar poses gerais o torna útil nestes e em outros campos.

Link to this sectionAplicações para as quais o GPT-4o Mini é adequado#

Demos uma olhada no que o GPT-4o Mini pode fazer. Agora, vamos discutir as aplicações onde é mais ideal usar o GPT-4o Mini.

O GPT-4o Mini é ótimo para aplicações que exigem compreensão avançada de linguagem natural e precisam de uma pequena pegada computacional. Ele torna possível integrar a IA em aplicações onde isso normalmente seria caro demais. De fato, uma análise detalhada da Artificial Analysis mostra que o GPT-4o Mini fornece respostas de alta qualidade a velocidades ultrarrápidas em comparação com a maioria dos outros modelos.

Qualidade versus velocidade de saída do GPT-4o Mini

Fig 9. Qualidade vs. Velocidade de Saída do GPT-4o Mini.

Aqui estão algumas key areas onde ele poderia brilhar no futuro:

  • Assistentes Virtuais e Chatbots: O GPT-4o Mini pode fornecer respostas rápidas e inteligentes para melhorar as interações dos usuários.
  • Ferramentas Educacionais: O modelo pode ser usado para construir ferramentas para oferecer personalized tutoring and content generation.
  • Ferramentas de Produtividade: Ele pode improve tasks como resumir documentos, redigir e-mails e traduzir idiomas para aumentar a eficiência.
  • Tradução de Idiomas: A versão mais recente do GPT pode ser usada para desenvolver tradutores que forneçam tradução precisa e em tempo real para uma melhor comunicação entre diferentes idiomas.

Link to this sectionO GPT-4o Mini abre novas portas#

O GPT-4o Mini está criando novas oportunidades para o futuro da IA multimodal. A despesa de processamento de cada peça de texto ou dado, conhecida como custo por token, diminuiu substancialmente - em quase 99% - desde 2022, quando o text-davinci-003, o modelo GPT-3, foi lançado. A diminuição no custo mostra uma tendência clara em direção a tornar a IA avançada mais acessível. À medida que os modelos de IA continuam a melhorar, torna-se cada vez mais provável que a integração da IA em cada aplicativo e site seja economicamente viável!

Quer colocar a mão na massa com IA? Visite nosso GitHub repository para ver nossas inovações e fazer parte da nossa community ativa. Saiba mais sobre aplicações de IA em manufacturing e agriculture em nossas páginas de soluções.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática