OpenAI o1: Uma nova série de modelos OpenAI para raciocínio de IA

13 de setembro de 2024
Descubra os modelos OpenAI o1 recém-lançados e o que os torna especiais. Também vamos dar uma olhada em como eles funcionam e seu impacto no futuro da IA.

13 de setembro de 2024
Descubra os modelos OpenAI o1 recém-lançados e o que os torna especiais. Também vamos dar uma olhada em como eles funcionam e seu impacto no futuro da IA.
A comunidade de IA tem fervilhado de especulações sobre o próximo passo para os modelos GPT da OpenAI, com muitos se referindo a ele como "Projeto Morango"." A razão por trás disso é que, se você solicitar ao GPT-4o perguntando quantos R's existem na palavra "morango", ele dirá que existem dois R's na palavra "morango." Pode parecer estranho, considerando o quão poderoso é o GPT-4o. No entanto, o modelo é construído para processar o subtexto, não as palavras exatas. Rumores dizem que o próximo modelo terá como objetivo resolver isso. Sam Altman alimentou ainda mais esses rumores postando fotos de morangos em sua conta X (anteriormente conhecida como Twitter).
Com o anúncio mais recente da OpenAI na quinta-feira, 12 de setembro, finalmente temos uma resposta à especulação! OpenAI o1, uma nova série de modelos de IA projetados para desacelerar e pensar antes de responder, foi lançada. Curiosamente, o OpenAI o1 consegue raciocinar melhor e responder corretamente à pergunta sobre morangos! Neste artigo, discutiremos o que é o OpenAI o1, como ele funciona, onde pode ser usado e o que significa para o futuro da IA. Vamos começar!
Em julho de 2024, executivos da OpenAI compartilharam que a pesquisa da OpenAI está se aproximando de um nível humano de resolução de problemas, conhecido como nível 2 de IA. É claro que este nível se concentra no raciocínio, pois a OpenAI apresenta sua nova série de modelos, OpenAI o1, como pensando antes de responder. O OpenAI o1 é um novo LLM (modelo de linguagem grande), um modelo de IA que entende e gera texto semelhante ao humano, aprendendo padrões de grandes quantidades de dados de linguagem. Ele foi projetado para lidar com problemas complexos que exigem raciocínio aprofundado.
O modelo foi treinado usando aprendizagem por reforço, uma técnica onde o modelo aprende a tomar melhores decisões através de tentativa e erro, recebendo recompensas ou penalidades pelas suas ações. O algoritmo de aprendizagem por reforço ajuda o modelo a pensar de forma mais eficaz, seguindo uma cadeia de pensamento. A OpenAI também partilhou que o desempenho do o1 continua a melhorar com mais aprendizagem por reforço durante o treino e com mais tempo gasto a "pensar" durante a resolução de problemas, mostrando que tanto o treino prolongado como o processamento ponderado ajudam a impulsionar as capacidades do modelo.
Embora o OpenAI o1 seja um avanço significativo para o raciocínio complexo, ainda é um modelo inicial e carece de alguns recursos que tornam o ChatGPT útil, como navegar na web ou carregar arquivos e imagens. Para muitas tarefas comuns, o GPT-4o ainda pode ser mais capaz por enquanto. No entanto, o OpenAI o1 marca um grande passo em frente na capacidade da IA de lidar com raciocínios complexos, e é por isso que a OpenAI está iniciando uma nova série e chamando-a de OpenAI o1.
O OpenAI o1 pode ser usado para tarefas como decodificar cifras, resolver desafios de programação, responder a problemas de matemática, resolver palavras cruzadas e até mesmo lidar com tópicos complexos em ciência, segurança e assistência médica. Em um aceno divertido ao codinome do projeto, a OpenAI mostrou as habilidades de raciocínio do modelo ao decifrar uma cifra que revelou a mensagem "THERE ARE THREE R’S IN STRAWBERRY."
Além de resolver cifras, o OpenAI o1 também é habilidoso em programação. Ele tem um bom desempenho em desafios de programação competitiva como os do Codeforces, uma plataforma onde os programadores resolvem problemas complexos de codificação sob condições cronometradas. Nesses desafios, o modelo alcança altas classificações Elo (um sistema de pontuação que mede os níveis de habilidade com base no desempenho em relação a outros concorrentes) e supera os modelos anteriores. Ele também se destaca em matemática e tem um bom desempenho em exames como o American Invitational Mathematics Examination (AIME).
Esses avanços posicionam o OpenAI o1 como uma atualização significativa em relação a modelos anteriores, como o GPT-4o. Ele abre novas possibilidades para a IA em áreas como negócios, desenvolvimento, pesquisa e saúde. Por exemplo, na pesquisa genética, o OpenAI o1 pode analisar rapidamente um grande número de artigos de pesquisa, identificando descobertas importantes e conexões entre marcadores genéticos e doenças. Ele entende a linguagem científica complexa e pode resumir pontos importantes, ajudando os pesquisadores a se concentrarem nas informações mais relevantes.
Vimos anteriormente que o OpenAI o1 introduz um processo de raciocínio de "Cadeia de Pensamento". Permite que o modelo enfrente problemas complexos de uma forma semelhante às estratégias cognitivas humanas. O modelo pode dividir os desafios em passos menores e gerenciáveis e refinar iterativamente a sua abordagem. Ao contrário dos modelos anteriores que dependiam do reconhecimento de padrões imediato, o o1 otimiza a sua tomada de decisão explorando vários caminhos de raciocínio, aprendendo tanto com sucessos quanto com erros através do aprendizado por reforço.
A OpenAI decidiu manter essas cadeias de pensamento brutas ocultas dos usuários, oferecendo em vez disso resumos que fornecem insights sobre o raciocínio do modelo sem expor cada etapa. Essa decisão ajuda a evitar o uso indevido do processo de pensamento do modelo, ao mesmo tempo em que permite que os desenvolvedores monitorem e refinem a segurança e o alinhamento da IA. Ao observar as cadeias ocultas internamente, os desenvolvedores podem garantir que o o1 adere às diretrizes éticas e evita comportamentos prejudiciais.
O OpenAI o1 mostra grandes melhorias em relação ao GPT-4o em vários benchmarks que testam habilidades de raciocínio e resolução de problemas. No American Invitational Mathematics Examination (AIME) 2024, um exame de matemática desafiador para os melhores alunos do ensino médio, o o1 alcançou uma taxa de precisão de 74% com apenas uma amostra por problema, em comparação com os 12% do GPT-4o. Com consenso em 64 amostras, sua precisão aumentou para 83% e, usando um método de reclassificação refinado com 1.000 amostras, atingiu 93%, colocando-o entre os 500 melhores alunos nacionalmente.
Além da matemática, o o1 também teve um desempenho excepcionalmente bom em benchmarks que testam o conhecimento científico, como o GPQA Diamond, que abrange questões de nível de doutorado em química, física e biologia. Notavelmente, o o1 superou especialistas humanos com doutorado neste teste, tornando-se o primeiro modelo de IA a fazê-lo. Ele também superou o GPT-4o em 54 de 57 categorias no benchmark MMLU, que testa a compreensão em um conjunto diversificado de assuntos, incluindo história, direito e ciência.
A OpenAI introduziu dois novos modelos de IA na série o1: o1-preview e o1-mini. O modelo o1-preview foi projetado para pensar mais profundamente antes de responder, destacando-se em tarefas complexas de raciocínio em ciência, programação e matemática. Ele oferece recursos avançados de resolução de problemas para usuários que enfrentam projetos desafiadores. Em contraste, o1-mini é um modelo menor, mais rápido e mais econômico, otimizado especificamente para raciocínio STEM, particularmente matemática e programação. Embora possa ter um conhecimento mundial menos amplo, o1-mini quase corresponde ao desempenho do o1-preview em avaliações importantes como a competição de matemática AIME e os desafios de programação Codeforces, tudo com 80% menos custo.
Você pode experimentar esses modelos através de várias plataformas da OpenAI. Usuários do ChatGPT Plus e Team podem acessar tanto o1-preview quanto o1-mini através do seletor de modelos, experimentando capacidades de raciocínio aprimoradas diretamente no ChatGPT. Desenvolvedores com acesso de nível 5 ao uso da API podem começar a prototipar com esses modelos, embora alguns recursos avançados ainda estejam em desenvolvimento. A OpenAI também planeja disponibilizar o o1-mini para todos os usuários do ChatGPT Free em breve. Ao explorar esses modelos, você pode experimentar em primeira mão os avanços no raciocínio da IA e escolher aquele que melhor se adapta às suas necessidades.
A OpenAI se concentrou na ética e segurança ao desenvolver a série de modelos o1. Antes de lançar os modelos o1-preview e o1-mini, eles conduziram avaliações completas, incluindo testes externos e verificações internas para riscos como conteúdo não permitido, alucinações e viés. Os modelos são projetados com habilidades avançadas de raciocínio para melhor entender e seguir as regras de segurança.
A OpenAI também implementou salvaguardas como listas de bloqueio e classificadores de segurança para gerenciar riscos. O modelo o1 tem uma classificação de risco geral média. Ele tem baixos riscos em áreas como segurança cibernética e autonomia do modelo e riscos médios em áreas como conteúdo CBRN (Químico, Biológico, Radiológico e Nuclear) e persuasão. O Grupo Consultivo de Segurança e o Conselho da OpenAI revisaram essas medidas de segurança para garantir que o modelo seja seguro e ético de usar.
O OpenAI o1 é um grande passo à frente no raciocínio de IA, transformando alguns dos primeiros rumores em realidade. Ao contrário do GPT-4o, a série o1 pensa mais profundamente usando uma abordagem de "Cadeia de Pensamento", dividindo problemas complexos em etapas menores para melhores respostas. Atualmente disponível como uma prévia antecipada no ChatGPT e na API, a OpenAI planeja adicionar recursos como navegação na web e uploads de arquivos e imagens. A OpenAI também compartilhou que planeja continuar desenvolvendo e lançando modelos na série GPT, juntamente com a nova série OpenAI o1. À medida que a IA continua a evoluir, avanços como esses estão abrindo caminho para sistemas de IA mais poderosos, intuitivos e versáteis que podem melhor auxiliar e entender as necessidades humanas.
Mantenha-se atualizado com as últimas novidades em IA juntando-se à nossa comunidade! Acesse nosso repositório GitHub para ver como estamos liderando soluções de IA em setores como manufatura e saúde. 🚀