
Até 2030, realizar inferências em umLLM com um trilhão de parâmetros terá redução de custos de mais de 90% em relação a 2025 aos provedores de IA Generativa, de acordo com o Gartner, Inc., empresa de insights de negócios e tecnologia.
Os tokens de IA são as unidades de dados que os modelos de IA Generativa processam. Para os fins desta análise, um token corresponde a 3,5 bytes de dados, ou aproximadamente 4 caracteres.
“Essas melhorias de custo serão impulsionadas por uma combinação de avanços na eficiência de semicondutores e infraestrutura, inovações no design de modelos, maior utilização dos chips, aumento do uso de silício especializado para inferência e aplicação de dispositivos de borda (edge) para casos de uso específicos”, afirma Will Sommer, Diretor Analista Sênior do Gartner.
Como resultado dessas tendências, o Gartner prevê que os LLMs em 2030 serão até 100 vezes mais eficientes em termos de custo do que os primeiros modelos de tamanho similar desenvolvidos em 2022.
Os resultados projetados são divididos em dois conjuntos de cenários de semicondutores:
- Cenários de ponta (frontier): o processamento do modelo é baseado em uma representação de chips de ponta.
- Cenários de combinação legada (legacy blend): o processamento do modelo é baseado em uma combinação representativa de semicondutores disponíveis, referenciada às previsões do Gartner.
Os custos modelados nos cenários de previsão de “combinação” são consideravelmente mais elevados do que nos cenários de “ponta”, devido à menor capacidade computacional.
Queda nos custos dos tokens não democratizará a inteligência de ponta
No entanto, a queda nos custos por tokens dos provedores de GenAI não será totalmente repassada aos clientes corporativos. Além disso, a inteligência de ponta exigirá significativamente mais tokens do que as aplicações convencionais atuais. Os modelos agênticos, por exemplo, exigem de 5 a 30 vezes mais tokens por tarefa do que um chatbot de GenAI padrão e podem executar muito mais tarefas do que um humano usando IA Generativa.
Embora a redução dos custos unitários dos tokens possibilite recursos de GenAI mais avançados, essas melhorias impulsionarão uma demanda desproporcionalmente maior por tokens. Como o consumo de tokens cresce mais rápido do que a queda de seus custos, espera-se que os custos gerais de inferência aumentem.
“Os Chief Product Officers (CPOs) não devem confundir a deflação de tokens básicos com a democratização do raciocínio de ponta”, diz Sommer. “À medida que a inteligência comoditizada se aproxima de um custo próximo de zero, a capacidade computacional e os sistemas necessários para suportar o raciocínio avançado permanecem escassos. Os CPOs que mascararem ineficiências arquitetônicas com tokens baratos hoje descobrirão que a escalabilidade agêntica será difícil de alcançar amanhã.”
O valor será gerado pelas plataformas capazes de orquestrar cargas de trabalho em um portfólio diversificado de modelos. Tarefas rotineiras e de alta frequência devem ser direcionadas para modelos de linguagem pequenos e específicos de domínio, que apresentam melhor desempenho do que soluções genéricas por uma fração do custo quando alinhados a fluxos de trabalho especializados. A inferência dispendiosa de modelos de ponta deve ser rigidamente controlada e reservada exclusivamente para tarefas de raciocínio complexas e de alta margem de lucro.
Tópicos como esse e outros relacionados a dados e Inteligência Artificial, incluindo agentes de IA, governança, liderança, ciência de dados e arquitetura de dados, serão destaque durante a Conferência Gartner Data & Analytics, que será realizada nos dias 28 e 29 de abril em São Paulo (SP).