Gemini 1.5 Pro:  nova versão do modelo de IA do Google

compartilhe este artigo:

Por Christine Salomão, jornalista – diretora de conteúdo da ebdi. Gemini 1.5 Pro:  nova versão do modelo de IA do Google.

O Gemini 1.5 Pro, nova versão do modelo de IA do Google, que foi lançada recentemente pela gigante de tecnologia, promete melhorias substanciais na capacidade de processamento, resultando em tempos de resposta mais rápidos e uma precisão ainda maior. Segundo artigo de Harry McCracken, editor de tecnologia da Fast Company baseado em San Francisco, “de acordo com o Google, o Gemini 1.5 Pro supera seu antecessor em eficiência, tanto no treinamento quanto na geração de conteúdo.”

“Além disso, é capaz de lidar com um número maior de tokens – os pontos de dados em que um grande modelo de linguagem divide um conteúdo para processá-lo. Enquanto o Gemini 1.0 conseguia lidar com 32 mil tokens de uma vez, o 1.5 tem uma capacidade padrão de 128 mil tokens, a mesma do modelo GPT-4 Turbo, da OpenAI. Mas a empresa permitirá que alguns clientes experimentem uma versão com capacidade de um milhão de tokens e afirma já ter testado o modelo com 10 milhões deles”, explica McCracken.

Para leigos, como a maioria de nós, comenta o editor, “esses números podem não dizer muita coisa. Mas, no caso do Gemini 1.5 Ultra, isso se traduz em uma hora de vídeo, 11 horas de áudio, textos de mais de 700 mil palavras ou 30 mil linhas de código de programação. Tudo isso permite ao modelo lidar com entradas muito mais complexas do que um simples comando em texto ou uma imagem.”

“Mas por que a empresa optou por lançar primeiro o modelo 1.5 Pro em vez de aprimorar ainda mais o Ultra?”, indaga McCracken. “É que, quanto maior o conjunto de dados de treinamento de um LLM, mais difícil é fazê-lo funcionar de forma satisfatória, o que deu à versão Pro uma vantagem como campo de testes para o Google”, enfatiza.

McCracken ressalta, ainda, que “o Gemini 1.5 Pro pode realizar tarefas altamente sofisticadas de compreensão e raciocínio para diferentes modalidades, incluindo vídeo. Por exemplo, quando recebe um filme mudo de 44 minutos de Buster Keaton, o modelo pode analisar com precisão vários pontos e eventos da trama e até mesmo raciocinar sobre pequenos detalhes do filme que podem facilmente passar despercebidos.”

Segundo informações divulgadas pelo Google, “o  Gemini 1.5 é baseado em nossa pesquisa líder em arquitetura Transformer e MoE . Enquanto um Transformer tradicional funciona como uma grande rede neural, os modelos MoE são divididos em redes neurais ‘especializadas’ menores.”

Ainda de acordo com a gigante de tecnologia, “dependendo do tipo de entrada fornecida, os modelos MoE aprendem a ativar seletivamente apenas as vias especializadas mais relevantes em sua rede neural. Esta especialização aumenta significativamente a eficiência do modelo.”

O Google salienta também que  “foi um dos primeiros a adotar o modelo, além de ter sido pioneiro na técnica MoE para aprendizado profundo por meio de pesquisas como Sparsely-Gated MoE, GShard-Transformer , Switch-Transformer, M4 e muito mais.”

“Nossas mais recentes inovações em arquitetura de modelo permitem que o Gemini 1.5 aprenda tarefas complexas com mais rapidez e mantenha a qualidade, ao mesmo tempo em que é mais eficiente para treinar e servir. Essas novidades estão ajudando nossas equipes a treinar e entregar versões mais avançadas do Gemini com mais rapidez do que nunca”, explica o Google.

“O Gemini 1.5 Pro, destaca a gigante de tecnologia, “apresenta habilidades de ‘aprendizado em contexto’, o que significa que ele pode aprender uma nova habilidade a partir de informações fornecidas em um prompt longo, sem precisar de ajustes adicionais. Testamos essa habilidade no benchmark Machine Translation from One Book (MTOB), que mostra quão bem o modelo aprende com informações nunca vistas antes. Ao receber um manual de gramática de Kalamang, um idioma com menos de 200 falantes em todo o mundo, o modelo aprende a traduzir do inglês para Kalamang em um nível semelhante ao de uma pessoa que compreende o mesmo conteúdo.”

Leia também: Tecnologias capazes de revelar o valor dos dados