Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

GPT-4o da OpenAI demonstra o potencial da AI

Explora o novo GPT-4o da OpenAI, apresentando AI avançada com interações realistas que mudam a forma como nos comunicamos com a tecnologia. Explore seus recursos inovadores!

ABAbirami Vina
5 min read
GPT-4o da OpenAI mostrando o potencial da AI

Na segunda-feira, 13 de maio de 2024, a OpenAI anunciou o lançamento do seu novo modelo principal, o GPT-4o, onde o 'o' significa 'omni'. O GPT-4o é um modelo de IA multimodal avançado para interações em tempo real com texto, áudio e visão, oferecendo processamento mais rápido, suporte multilíngue e segurança aprimorada.

Ele traz capacidades de IA generativa nunca vistas antes. Com base nos pontos fortes de conversação do ChatGPT, os recursos do GPT-4o marcam um passo substancial em como as pessoas percebem a IA. Agora podemos conversar com o GPT-4o como se fosse uma pessoa real. Vamos mergulhar fundo e ver exatamente do que o GPT-4o é capaz!

Link to this sectionConhecendo o GPT-4o#

Na atualização de primavera da OpenAI, foi revelado que, embora o GPT-4o seja tão inteligente quanto o GPT-4, ele consegue processar dados mais rapidamente e está melhor equipado para lidar com texto, visão e áudio. Ao contrário de lançamentos anteriores que focavam em tornar os modelos mais inteligentes, este lançamento foi feito tendo em mente a necessidade de tornar a IA mais fácil de usar pelo público em geral.

Atualização de primavera da OpenAI

Fig 1. Atualização de Primavera da OpenAI

O modo de voz do ChatGPT, que foi lançado no final do ano passado, envolvia três modelos diferentes trabalhando juntos para transcrever entradas vocais, entender e gerar respostas escritas, e converter texto em fala para que o usuário pudesse ouvir uma resposta. Esse modo lidava com problemas de latência e não parecia muito natural. O GPT-4o consegue processar nativamente texto, visão e áudio de uma só vez para dar ao usuário a impressão de que está participando de uma conversa natural.

Além disso, ao contrário do modo de voz, agora você pode interromper o GPT-4o enquanto ele fala, e ele reagirá exatamente como uma pessoa faria. Ele pausará e ouvirá, depois dará sua resposta em tempo real com base no que você disse. Ele também pode expressar emoções através da sua voz e entender o seu tom.

Link to this sectionRecursos empolgantes do GPT-4o#

A avaliação do modelo GPT-4o mostra o quão avançado ele é. Um dos resultados mais interessantes encontrados foi que o GPT-4o melhora muito o reconhecimento de fala em comparação ao Whisper-v3 em todos os idiomas, especialmente aqueles que são menos usados.

O desempenho de ASR (Reconhecimento Automático de Fala) de áudio mede a precisão com que um modelo transcreve a linguagem falada em texto. O desempenho do GPT-4o é rastreado pela Taxa de Erro de Palavra (WER), que mostra a porcentagem de palavras transcritas incorretamente (um WER menor significa melhor qualidade). O gráfico abaixo mostra o menor WER do GPT-4o em várias regiões, demonstrando sua eficácia na melhoria do reconhecimento de fala para idiomas com menos recursos.

O GPT-4o tem reconhecimento de voz superior em vários idiomas

Fig 2. O GPT-4o tem reconhecimento de fala superior em vários idiomas.

Aqui está uma olhada em mais alguns dos recursos exclusivos do GPT-4o:

  • Mais rápido - Ele é duas vezes mais rápido que o GPT-4 Turbo. Ele consegue responder a entradas de áudio em apenas 232 milissegundos, semelhante aos tempos de resposta de uma conversa humana.
  • Custo-benefício - A versão API do GPT-4o é 50% mais barata que o GPT-4 Turbo.
  • Memória - O GPT-4o tem a capacidade de manter a consciência em diferentes conversas. Ele consegue lembrar sobre o que você está falando em diferentes chats.
  • Multilíngue - O GPT-4o foi treinado para ter maior velocidade e qualidade em 50 idiomas diferentes.

Link to this sectionExemplos do que o GPT-4o pode fazer#

Agora você pode abrir o GPT-4o no seu celular, ligar a câmera e pedir ao GPT-4o, como faria com um amigo, para adivinhar seu humor com base na sua expressão facial. O GPT-4o consegue ver você pela câmera e responder.

GPT-4o compreendendo o humor de um humano através de vídeo

Fig 3. GPT-4o entendendo o humor de um humano através de vídeo.

Você pode até usá-lo para ajudar a resolver problemas de matemática mostrando ao GPT-4o o que você está escrevendo via vídeo. Alternativamente, você pode compartilhar sua tela, e ele pode se tornar um tutor útil na Khan Academy, pedindo para você apontar diferentes partes de um triângulo em geometria, como mostrado abaixo.

GPT-4o atuando como tutor na Khan Academy

Fig 4. GPT-4o atuando como tutor na Khan Academy.

Além de ajudar crianças com matemática, desenvolvedores podem ter conversas com o GPT-4o para depurar seu código. Isso é possível graças à introdução do ChatGPT como um aplicativo de desktop. Se você destacar e copiar seu código usando CTRL “C” enquanto fala com o aplicativo de voz do GPT-4o para desktop, ele será capaz de ler seu código. Ou, você pode usá-lo para traduzir conversas entre desenvolvedores que falam idiomas diferentes.

As possibilidades com o GPT-4o parecem infinitas. Uma das demonstrações mais interessantes da OpenAI usou dois celulares para mostrar o GPT-4o conversando com diferentes instâncias de si mesmo e cantando juntos.

IA falando e cantando com IA

Fig 5. IA conversando e cantando com IA.

Link to this sectionAplicações do GPT-4o#

Como mostrado em uma demonstração, o GPT-4o pode tornar o mundo mais acessível para pessoas com deficiência visual. Ele pode ajudá-las a interagir e se mover com mais segurança e independência. Por exemplo, os usuários podem ligar seu vídeo e mostrar ao GPT-4o uma visão da rua. O GPT-4o pode então fornecer descrições em tempo real do ambiente, como identificar obstáculos, ler placas de rua ou guiá-las para um local específico. Ele pode até ajudar a chamar um táxi, alertando quando um táxi está se aproximando.

GPT-4o alertando a aproximação de um táxi

Fig 6. GPT-4o alertando a aproximação de um táxi.

Da mesma forma, o GPT-4o pode transformar vários setores com suas capacidades avançadas. No varejo, ele pode melhorar o atendimento ao cliente fornecendo assistência em tempo real, respondendo a perguntas e ajudando os clientes a encontrar produtos tanto online quanto na loja. Digamos que você esteja olhando para uma prateleira de produtos e não consiga encontrar o produto que procura; o GPT-4o pode ajudar.

Na saúde, o GPT-4o pode ajudar com diagnósticos analisando dados do paciente, sugerindo possíveis condições com base nos sintomas e oferecendo orientação sobre opções de tratamento. Ele também pode apoiar profissionais médicos resumindo registros de pacientes, fornecendo acesso rápido à literatura médica e até oferecendo tradução de idiomas em tempo real para comunicar-se com pacientes que falam idiomas diferentes. Estes são apenas alguns exemplos. As aplicações do GPT-4o tornam a vida diária mais fácil, oferecendo assistência personalizada e consciente do contexto, além de quebrar barreiras à informação e comunicação.

Link to this sectionGPT-4o e segurança do modelo#

Assim como as versões anteriores do GPT, que impactaram centenas de milhões de vidas, o GPT-4o provavelmente interagirá com áudio e vídeo em tempo real globalmente, tornando a segurança um elemento crucial nessas aplicações. A OpenAI tem sido muito cuidadosa ao construir o GPT-4o com foco na mitigação de riscos potenciais.

Para garantir segurança e confiabilidade, a OpenAI implementou medidas de segurança rigorosas. Isso inclui filtrar dados de treinamento, refinar o comportamento do modelo após o treinamento e incorporar novos sistemas de segurança para gerenciar saídas de voz. Além disso, o GPT-4o foi extensivamente testado por mais de 70 especialistas externos em áreas como psicologia social, viés e justiça, e desinformação. O teste externo garante que quaisquer riscos introduzidos ou amplificados pelos novos recursos sejam identificados e abordados.

Para manter altos padrões de segurança, a OpenAI está lançando os recursos do GPT-4o gradualmente nas próximas semanas. Um lançamento faseado permite que a OpenAI monitore o desempenho, resolva quaisquer problemas e colete feedback do usuário. Adotar uma abordagem cuidadosa garante que o GPT-4o entregue capacidades avançadas enquanto mantém os mais altos padrões de segurança e uso ético.

Link to this sectionExperimente o GPT-4o você mesmo#

O GPT-4o está disponível para acesso gratuito. Para experimentar as capacidades de conversação em tempo real mencionadas acima, você pode baixar o aplicativo ChatGPT da Google Play Store ou Apple App Store diretamente no seu celular.

Após fazer login, você poderá selecionar o GPT-4o na lista exibida tocando nos três pontos no canto superior direito da tela. Após navegar para um chat habilitado com GPT-4o, se você tocar no sinal de mais no canto inferior esquerdo da tela, verá várias opções de entrada. No canto inferior direito da tela, você verá um ícone de fone de ouvido. Ao selecionar o ícone de fone de ouvido, você será perguntado se gostaria de experimentar uma versão do GPT-4o com as mãos livres. Após concordar, você poderá experimentar o GPT-4o, como mostrado abaixo.

Experimentando o GPT-4o no aplicativo móvel ChatGPT

Fig 7. Experimentando o GPT-4o no aplicativo móvel ChatGPT.

Se você quiser integrar as capacidades avançadas do GPT-4o aos seus próprios projetos, ele está disponível como uma API para desenvolvedores. Ela permite que você incorpore o poderoso reconhecimento de fala, suporte multilíngue e capacidades de conversação em tempo real do GPT-4o em suas aplicações. Ao usar a API, você pode aprimorar experiências do usuário, criar aplicativos mais inteligentes e trazer tecnologia de IA de ponta para diferentes setores.

Link to this sectionGPT-4o: Ainda não exatamente humano#

Embora o GPT-4o seja muito mais avançado do que modelos de IA anteriores, é importante lembrar que o GPT-4o vem com suas próprias limitações. A OpenAI mencionou que ele pode, às vezes, trocar de idioma aleatoriamente enquanto fala, indo do inglês para o francês. Eles também observaram o GPT-4o traduzir incorretamente entre idiomas. À medida que mais pessoas experimentam o modelo, entenderemos onde o GPT-4o se destaca e no que ele precisa de melhorias adicionais.

Link to this sectionO resultado final#

O GPT-4o da OpenAI abre novas portas para a IA com seu processamento avançado de texto, visão e áudio, oferecendo interações naturais e semelhantes às humanas. Ele se destaca em termos de velocidade, custo-benefício e suporte multilíngue. O GPT-4o é uma ferramenta versátil para educação, acessibilidade e assistência em tempo real. À medida que os usuários exploram as capacidades do GPT-4o, o feedback impulsionará sua evolução. O GPT-4o prova que a IA está realmente mudando nosso mundo e se tornando parte de nossas vidas diárias.

Explore nosso repositório GitHub e junte-se à nossa comunidade para mergulhar mais fundo na IA. Visite nossas páginas de soluções para ver como a IA está transformando setores como manufatura e agricultura.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática