Pesquisadores da Unicamp desenvolvem “ChatGPT" e "DALL-E” brasileiros
Startup nacional de IA desenvolveu a MariTalk, um chatbot de inteligência artificial 100% em português tão eficiente quanto seu concorrente gringo; já está disponível na internet
Já pensou em um ChatGPT que “fala” português, desenvolvido no Brasil, que ajuda em algumas tarefas complexas? Sim, isso já é realidade. Talvez você ainda não saiba, mas o Brasil está no páreo do desenvolvimento global das inteligências artificiais.
+ Confira as últimas notícias de Tecnologia
O Brasil não faz feio diante de gigantes como OpenAI, com seu ChatGPT, financiado pela Microsoft; o Google, com seu modelo Gemini; Anthropic, com o seu Claude; a francesa Mistral, a chinesa Baidu, com Ernie Bot, entre outras.
Há 6 anos, um grupo de pesquisadores da Universidade Estadual de Campinas (Unicamp), no interior de São Paulo, vem estudando e se especializando em inteligência artificial (IA). A startup foi criada um mês antes do lançamento do ChatGPT, da OpenAI.
Nove meses depois, em maio de 2023, o resultado deste esforço se materializou no MariTalk, o chatbot de IA 100% brasileiro, que está disponível de graça na internet. Assim como o ChatGPT, da OpenAI, é treinado para auxílio em algumas tarefas, como resolver uma prova do Enem, até compreender aspectos da legislação brasileira. E, tudo isso nativo no idioma português brasileiro.
Esse grupo, liderado pelo doutor em Ciências da Computação e professor voluntário da Unicamp, Rodrigo Nogueira, com seu colega Ramon Pires, além dos pesquisadores Hugo Abonizio e Thales Almeida, formam a startup Maritaca AI, uma empresa 100% nacional que tem a ambição de ser uma OpenAI brasileira.
O grupo conversou com o SBT News sobre os desafios da startup. Os pesquisadores deram detalhes sobre o desenvolvimento do chatbot e revelaram que a Maritaca trabalha em uma IA que gera e cria imagens, no mesmo formato do chatbot DALL-E, da OpenAI.
O líder e fundador da startup tem um objetivo claro: transformar a Maritaca numa referência internacional em inteligência artificial, assim como a Embraer é referência na aviação mundial. Confira abaixo a entrevista.
Maritaca AI
- Fundada em outubro de 2022, em Campinas (SP)
- Fundador e CEO: Rodrigo Nogueira
- Integrantes: Ramon Pires (pesquisador), Hugo Abonizio (pesquisador), Thales Almeida (pesquisador) e Thiago Laitz (pesquisador)
Estabelecida em Campinas, no interior de São Paulo, um mês antes do lançamento do ChatGPT, pela OpenAI, startup desenvolve inteligências artificiais (IA) em domínios e idiomas. Desenvolvem produtos e pesquisa avançada em IA, grandes modelos de linguagem (LLM) e em processamento de linguagem natural em português. O chatbot MariTalk, desenvolvido em língua portuguesa, foi lançado em maio de 2023.
SBT News — Como começaram a trabalhar com inteligência artificial (IA)?
Rodrigo Nogueira (RN) — Comecei a trabalhar com IA em 2012, quando estava na área de imagens, onde foi o primeiro grande boom de IA. Ali, tivemos sucesso de conseguir identificar se uma impressão digital é verdadeira ou falsa. Isso se transformou num produto que é especial para várias empresas. Foi deste instante que comecei a gostar cada vez mais dessa área.
Em 2018, começarmos a trabalhar com um modelo de linguagem. Na época, não eram grandes, mas pequenos modelos de linguagem. A gente lançou o primeiro modelo de linguagem brasileira, pegado no português, o nome dele é BERTimbau. Hoje, tem mais de 10 milhões de downloads no site, no nosso repositório, que armazena todos esses modelos.
+ Íntegra do estudo do BERTimbau (pdf)
Sou formado nos Estados Unidos, depois voltei para o Brasil e trabalhei numa série de outras empresas. Todo time que está aqui comigo eram pessoas que trabalhavam nas outras empresas e então tomei a decisão de criar a Maritaca, convenci o pessoal de trabalhar com a gente.
O importante foi a percepção de criar a empresa antes do lançamento do ChatGPT. A gente já via que o turbilhão estava se formando.
A gente ganhou um Ad Grants do Google de US$ 1 milhão, para gastar no Google Cloud. O Google também deu para a gente acesso aos computadores deles para treinar. Foi o grande impacto.
A gente continua recebendo cada vez mais Ad Grants do Google. Tenho que agradecer à empresa, que cedeu parte da computação para a gente treinar esses grandes modelos de linguagem.
Isso culminou no Sabiá-2, que está chegando a um desempenho melhor que o GPT 3,5 Turbo. Mas, diferente do GPT 4, porque, com a especialização no português, a gente consegue serviços envolvendo algo muito melhor.
A gente está muito feliz com esse progresso, é uma tecnologia nacional, como você pode ver. Estamos tateando a área faz um tempão e tem que acertar a mão sempre.
SBT News — Qual foi essa fagulha, o que aconteceu para você fundar a Maritaca AI? O que faz a startup?
Nogueira — A gente sempre trabalhava com as inteligências artificiais, elas sempre funcionavam bem até cerca de 2021. Daí, em 2022, esses modelos tiveram um salto de potencial e melhorou muito a qualidade.
A gente já fazia a pesquisa no português e vi que, ao especializar essas linguagens para o português, o desempenho melhorava ainda mais. E foi daí que tive essa fagulha. Praticamente todos nós somos de vertente acadêmica, de pesquisa. Mas, esse negócio não é simplesmente uma curiosidade científica, será uma coisa que impactará todo mundo.
O que a gente faz hoje é algo bem parecido com o que a OpenIA oferta. Por exemplo, no ChatGPT, você faz perguntas e o chatbot dá as respostas. Por exemplo, se você fizer uma pergunta cuja resposta está em diversos documentos, é muito difícil fazer o gerenciamento da pesquisa no Google. Com a IA, você faz diversas consultas, agrega os resultados.
O GPT-4 já consegue agregar essas respostas, dar uma resposta mais concisa.
Hoje, prefiro perguntar ao chatbot direto, verificar a resposta sobre aquilo que procuro, do que ficar varrendo a documentação no [buscador] Google.
Mas, em termos de produto, é algo bem semelhante à OpenAI ou à Mistral. Todas essas são as nossas concorrentes e digo isso com uma certa intimidade.
+ Microsoft investe na Mistral AI, rival francês da OpenAI e União Europeia abre investigação
SBTN — A Maritaca AI quer ser uma “OpenAI brasileira”?
RN — Esse é o nosso desejo, é ter essa tecnologia nacional. A razão para a gente ter essa “OpenAI brasileira” não é só porque a OpenAI está na moda, mas porque é muito importante.
Por exemplo, se você é um órgão do governo, como o Tribunal de Contas da União, você está ali tomando uma decisão se os pedidos de denúncia vão ser tratados ou não. Você pode usar uma série de IAs lá fora para tomar essa decisão para você. E do dia para noite, o governo brasileiro pode baixar uma lei aqui que restringe o uso dos aplicativos de fora. Isso terá um impacto enorme.
+ Todas as notícias sobre OpenAI
A IA, no futuro, a gente imagina que terá um impacto parecido com a eletricidade. É uma coisa que permeia tanto a sociedade, é tão importante, que você precisa ter domínio dessa tecnologia em nível nacional. Para que, caso aconteça um problema lá fora, você já terá em mãos um equivalente nacional.
Também sonho que a gente desenvolva um ecossistema de empresas cada vez mais tecnológicas, que fazem bom uso dessa IA. Vão ter outras empresas que estarão construindo com a Maritaca, que estará com outras empresas. Hoje, esse ecossistema ainda é bem pequeno. A IA ainda está começando no Brasil e pode ser muito maior.
SBT News — Você pode explicar o que é o chatbot MariTalk?
Nogueira — Vou explicar de forma mais simples possível. Chatbots são inteligências artificiais treinadas para entregar uma grande quantidade de texto. A IA sempre prevê a próxima palavra dos documentos que ela está lendo. Imagine que ela é treinada para "apostar" na próxima palavra que vai aparecer naquela frase digitada pelo usuário.
Como são treinadas, são chamados de modelos de linguagem, que só aprendem a próxima palavra. Na prática, são redes neurais, que são algoritmos de IA que têm bilhões de parâmetros [cenários possíveis], que se ajustam de maneira automática, para que a IA acerte a predição [previsão] da próxima palavra.
É isso que está rodando no MariTalk e a gente treina esse chatbot em português. A maioria dos textos é em português e daí cria aquela ilusão de que, quando a gente está conversando com chatbot, a gente está prevendo a próxima palavra, por meio do recurso autocomplete.
O usuário pergunta que é o esteroide, por exemplo. A IA traz a palavra "anabolizante", acertando a próxima palavra. Então, você cria aquela ilusão de conversa.
Neste caso, o sistema foi treinado em português e, daí, é feito um pequeno refinamento para dar forma a um chatbot. Estes sistemas lembram muita coisa e sabem de muita coisa e a MariTalk faz isso também, com foco no Brasil.
SBT News — Como tem sido essa aceitação dessa inteligência artificial brasileira?
Nogueira — Lançamos a nossa primeira versão comercial em dezembro, praticamente num período de festa, mas, ainda assim, teve uma grande aceitação. A gente recebe uma dezena de e-mails por semana, de empresas interessadas, querendo usar o nosso sistema.
Os usuários também estão sobrecarregando nossos servidores, gerando dificuldade de encontrar computação para atender a demanda. Essa é a parte mais importante e estamos no começo.
Acabamos de lançar o chatbot e estamos muito empolgados com as próximas versões.
SBT News — Quais são os desafios para desenvolver uma tecnologia de inteligência artificial 100% brasileira?
Nogueira — O primeiro desafio é a computação. Para treinar essas inteligências artificiais, precisamos de computadores especiais, os chamados de “GPU dos CPUs”. E existe um problema para conseguir esses computadores.
A gente teve a sorte, pois o Google nos apoiou inicialmente. Mas, a gente está buscando mais apoio, porque sabemos que existe uma competição muito grande nesta área. Quanto mais computação você investe para treinar estes modelos de linguagem, melhores eles ficam.
A coleta de dados também é um problema. A gente podia pedir ao pessoal do governo para deixar esses dados cada vez mais públicos.
Essas inteligências artificiais se beneficiam de dados públicos para conseguir entregar algo melhor para o povo brasileiro.
+ Apoiada por Google e Amazon, Anthropic lança inteligência artificial Claude 3
Sobre o pessoal, tive a sorte de ter esse time que considero super high-tech, o pessoal é fera. Tenho essa perninha na Unicamp como professor convidado, então sempre estava ali perto.
Há uma defasagem na formação do pessoal que é capacitado para treinar essas coisas. Imagino que no futuro será resolvido. Mas, ainda há uma grande dificuldade.
SBT News — O Brasil tem especialistas e profissionais para dar conta da demanda atual e futura?
Nogueira — Toda semana, recebo um monte de e-mails de alunos e pessoas querendo aprender mais sobre inteligência artificial. Mas, ainda estamos muito atrás com essa mão de obra especializada. Os Estados Unidos e outros países desenvolvidos têm a maioria dos especialistas.
Acredito ser super importante essa formação, o pessoal vindo da graduação, mestrado e o doutorado. O Ramon, por exemplo, estuda inteligência artificial desde 2011; já o Hugo, está estudando desde 2018.
São conhecimentos que precisam de uma década para gente acertar a mão, na hora que terminar os estudos. Estou otimista de que vai melhorar.
SBT News — A Maritaca possui uma base própria de dados para treinar a MariTalk de forma adequada?
Nogueira — A gente começou coletando os próprios dados, vai ao cliente e coleta o possível. Há um grande esforço para fazer uma boa curadoria de dados.
Quanto melhor a qualidade, por exemplo, um documento que explica bem, uma lei que explica bem, mais teremos dados para treinamento. A gente faz um grande esforço para fazer uma boa coleta de dados. Os dados nesse mundo de IA valem ouro.
Se você precisa de documentos que expliquem bem em uma lei ou que expliquem uma doença tropical, ou coisas do tipo, não basta qualquer dado da internet. Você não entra num fórum de internet, onde tem várias conversas aleatórias, e espera que os dados retirados vão ajudar.
Estamos falando de milhões de documentos inseridos no modelo de linguagem, então não dá para fazer isso manualmente. São dados de treinamento dessa inteligência artificial. Criamos dados para validar a saída do modelo de linguagem, esse, sim, a gente faz à mão com muita cautela.
SBT News — As gigantes de IA atraem muitos recursos para investir nas suas tecnologias, como a OpenAI, que recebe investimento da Microsoft, e a Mistral, que recebeu investimentos do Google. Qual é o desafio da Maritaca AI para atrair investidores?
Nogueira — O investidor brasileiro gosta bastante de investir em empresas que desenvolvem aplicativos, como fintechs, aplicativos de compartilhamento e de gerenciamento de inúmeras coisas.
O que estamos criando é uma infraestrutura de IA que serve de base para a construção de outros aplicativos. A minha percepção é que não tem tanto apetite para esse tipo de investimento no momento. Porém, não posso dizer nomes, mas estamos com boas pessoas interessadas em investir na Maritaca.
Aos poucos mudamos essa mentalidade do investidor no Brasil. É o que a gente espera mudar com a Maritaca. Temos a ambição de ter uma empresa que faz tecnologia de base, como a Embraer. A Embraer mostra que o Brasil, sim, é capaz de produzir alta tecnologia.
SBT News — Quais são os próximos planos e ambições da Maritaca e os próximos planos da MariTalk?
Ramon Pires — Uma das coisas que trabalharemos nos próximos meses é deixar o modelo atualizado, para que o chatbot saiba dos eventos recentes, que aconteceram na última semana, por exemplo.
Isso é diferente do que existe hoje em modelos de linguagem geral, que têm uma data limite de conhecimento. Por exemplo, os modelos de linguagem da OpenAI, como o GPT-3,5, têm conhecimento registrado até 2021; já o GPT-4 tem conhecimento até outubro; uma das versões do chatbot vai até agosto e outra até dezembro do ano passado.
O que a gente quer fazer é um aprendizado contínuo. Deixaremos o modelo de linguagem atualizado sobre assuntos mais recentes, para evitar que ele esqueça as coisas relevantes do passado.
Outra coisa que a gente trabalhará na Maritaca é permitir que os usuários façam o ajuste fino dos modelos em dados próprios, para cada usuário obter conhecimento sobre algum domínio em que tenha interesse. Futuramente, a gente planeja também lançar modelos multimodais, com imagens e textos.
Thales Sales — Além de tudo isso que o Ramon falou, a gente também vai trazer modelos cada vez mais capazes. Nosso Sabiá-2 está esbarrando [em desempenho] no GPT-4, mas vamos lançar futuras versões. Estamos esperançosos em ultrapassar o desempenho do GPT-4, para ficar tão bom quanto o chatbot da OpenAI.
Hugo Abonizio — A gente especializou nossa IA para realizar grandes tarefas em português. Acreditamos que se especializar em domínios específicos também podemos trazer esse ganho, para assim atender o Brasil.
SBT News — Vocês podem falar desse modelo de linguagem ou desse chatbot que pode gerar imagens? Seria um “DALL-E brasileiro”?
Ramon Pires — Seria parecido com isso [DALL-E]. Na verdade, seria mais interessante um modelo que conseguisse entender a imagem. A arquitetura utilizada nos modelos de linguagem atuais foi pensada inicialmente para texto. Com isso, os usuários poderiam passar não só um texto, mas uma imagem para esse modelo.
Rodrigo Nogueira — A gente viu esses ganhos em português, temos essas ambições de fazer as inteligências artificiais para outras línguas, como o espanhol, por exemplo.
Uma vez montada essa infraestrutura, você leva para outros domínios, em outras línguas para a gente, não fica tão difícil. E a gente percebe que essa especialização da IA leva a modelos de linguagem muito melhores que os computacionais já disponíveis para treino.
+ Baidu anuncia Ernie Bot, o "ChatGPT" chinês
SBT News — E para encerrar, Rodrigo, como você enxerga o futuro da inteligência artificial? Como você vê o Brasil diante desse desafio tecnológico?
Nogueira — Estou bem esperançoso de a gente ter um ecossistema, um parque industrial, para inteligência artificial no Brasil. Com clusters nesses centros de dados (data centers) para servir e treinar essas IAs localmente ou em parceria com as empresas que consomem essas IAs.
Vejo que a Maritaca como uma das empresas que se posicionam nesse meio, onde as pessoas não estão presentes nem na construção de data centers, nem na construção de aplicativos para o cliente final. Mas, a gente está ali no meio, provendo toda a sua infraestrutura, com as melhores inteligências artificiais disponíveis.
Imagino que o Brasil tenha muito a fazer nessa área, uma vez que é um país grande e é super informatizado.
Uma das coisas que contribuem para isso é o que fizemos durante a divulgação do Sabiá-2. Encontramos 64 provas do Enade, OAB e Revalida para analisar o desempenho dos nossos modelos de IA.
Para nossa surpresa, quando a gente faz a mesma busca para a versão em espanhol, temos dificuldades. Fica mais difícil encontrar essas provas em outros países. Diferente do Brasil, que tem a cultura de informação, com documentos que estão sendo digitalizados e disponiblizados na internet.
Acesse as IAs generativas disponíveis:
>> Maritaca MariTalk - https://chat.maritaca.ai/
>> OpenAI ChatGPT - http://chat.openai.com/
>> Google Gemini - https://gemini.google.com/app
>> Anthropic Claude - https://claude.ai/
>> Mistral Le Chat - https://chat.mistral.ai/
>> Baidu Ernie Bot - https://yiyan.baidu.com/