O que o novo ChatGPT-4o faz? Entenda o que muda na ferramenta de IA
Nova versão de chatbot é mais rápida e consegue ouvir, conversar e reconhecer objetos
Cido Coelho
Apesar de frustrar as expectativas de que lançaria um novo buscador, a OpenAI revelou na segunda-feira (13) um novo modelo generativo de inteligência artificial chamado GPT-4o. A letra 'o' significa 'omnimodel', já que o modelo pode lidar com textos, fala e vídeo.
O GPT-4o será implementado nos produtos da empresa para desenvolvedores e para todos os usuários do serviço de chatbot nas próximas semanas.
Este é o primeiro modelo da OpenAI que realiza várias funções em tempo real. Ele consegue entender estes conteúdos variados de forma mais ágil que seu antecessor, o GPT-4.
Essa IA consegue reconhecer objetos com maior velocidade, com respostas quase imediatas, como se fosse um humano. O chatbot também poderá perceber nuances na voz do usuário.
"O GPT-4o raciocina por meio de voz, texto e visão", disse Mira Murati, CTO da OpenAI, durante a transmissão do evento da OpenAI, no YouTube.
A nova versão do chatbot fez com que os usuários nas redes sociais se lembrassem da assistente virtual do filme "Ela" ("Her", em inglês). Nele, o protagonista, interpretado por Joaquin Phoenix, se apaixona por um sistema operacional de inteligência artificial.
O cofundador da OpenAI, Sam Altman, concordou com a referência na rede social X (antigo Twitter).
Nos vídeos apresentados pela empresa de IA, há uma demonstração de uma conversa com o chatbot, além de uma interação da brincadeira "Pedra, papel e tesoura" com o GPT-4o.
Modelo de linguagem mais ágil
A nova versão de modelo de IA supera o GPT-3.5 e o GPT-4 para responder os comandos do usuário.
Estes modelos tinham que cumprir várias etapas para responder aos comandos de voz.
- O usuário enviava o comando ao chatbot;
- A IA usava um modelo de linguagem para converter o comando de áudio para texto;
- Depois, interpretava o conteúdo e gerava a resposta de volta ao usuário.
Já o GPT-4o responde aos comandos forma muito mais ágil, pois todas as etapas são processadas na mesma rede neural. Assim o tempo de resposta é mínimo, cerca de 232 milissegundos, chegando próximo do tempo usado por uma pessoa.
"E isso é extremamente importante, porque estamos olhando para o futuro da interação entre nós e as máquinas", ressalta a executiva.
O novo sistema, com os recursos de texto e foto, já foi liberado para os desenvolvedores usarem em seus próprios aplicativos.
Além disso, quem já paga assinatura do serviço ChatGPT Plus já tem acesso à novidade, com uma cota de uso maior - até cinco vezes maior que a versão gratuita. O recurso dos comandos de voz será liberado nas próximas semanas apenas para quem assina o serviço.
Para quem usa a versão gratuita, a OpenAI informa que a nova ferramenta será aberta, mas com limite de mensagens para quem usar a ferramenta. A empresa ainda não estipulou o limite gratuito de uso.
Já em relação aos recursos de vídeo, a empresa se limitou a dizer que, no momento, apenas um grupo restrito de desenvolvedores parceiros terá acesso à ferramenta.
"Nos últimos dois anos temos focados em melhorar a inteligência destes modelos. Mas esta é a primeira vez que estamos realmente danda um grande passo em frente no que diz respeito à facilidade de utilização", explica a executiva da OpenAI.
O GPT-4o teve também o desempenho aprimorado em até 50 idiomas. Ao usar a API da OpenAI no sistema Azure OpenAI Service, da Microsoft, o chatbot consegue ser duas vezes mais rápido. Uma versão para os computadores Mac, da Apple, também foi anunciada.
O mercado de inteligência artificial tem recebido grandes investimentos.
Segundo a empresa de venture capital e investimentos PitchBook, em 2023, cerca de 700 negócios voltados para IA receberam aporte de US$ 29,1 bilhões, marcando um aumento de mais de 260% em relação a 2022. Em até 10 anos, o mercado global pode chegar a US$ 1 trilhão.
Fundada em 2015, a OpenAI, que recebe investimentos da Microsoft, foi avaliado em mais de US$ 80 bilhões pelos investidores.