O Ant Group está contando com semicondutores fabricados na China para treinar modelos de inteligência artificial para reduzir custos e diminuir a dependência de tecnologia restrita dos EUA, de acordo com pessoas familiarizadas com o assunto.
A empresa de propriedade do Alibaba utilizou chips de fornecedores nacionais, incluindo aqueles vinculados à sua controladora, Alibaba , e à Huawei Technologies, para treinar grandes modelos de linguagem usando o método Mixture of Experts (MoE). Os resultados foram comparáveis aos produzidos com os chips H800 da Nvidia, segundo fontes. Embora a Ant continue a utilizar chips da Nvidia em parte do seu desenvolvimento de IA, uma fonte afirmou que a empresa está recorrendo cada vez mais a alternativas da AMD e de fabricantes de chips chineses para seus modelos mais recentes.
O desenvolvimento sinaliza o envolvimento mais profundo da Ant na crescente corrida de IA entre empresas de tecnologia chinesas e americanas, especialmente à medida que as empresas buscam maneiras mais econômicas de treinar modelos. A experimentação com hardware doméstico reflete um esforço mais amplo das empresas chinesas para contornar as restrições de exportação que bloqueiam o acesso a chips de ponta como o H800 da Nvidia, que, embora não seja o mais avançado, ainda é uma das GPUs mais potentes disponíveis para organizações chinesas.
A Ant publicou um artigo de pesquisa descrevendo seu trabalho, afirmando que seus modelos, em alguns testes, apresentaram desempenho superior aos desenvolvidos pela Meta. A Bloomberg News , que noticiou o assunto inicialmente, não verificou os resultados da empresa de forma independente. Se os modelos apresentarem o desempenho esperado, os esforços da Ant podem representar um avanço na tentativa da China de reduzir o custo de execução de aplicativos de IA e reduzir a dependência de hardware estrangeiro.
Os modelos MoE dividem tarefas em conjuntos de dados menores, gerenciados por componentes separados, e têm ganhado atenção entre pesquisadores de IA e cientistas de dados. A técnica foi usada pelo Google e pela startup DeepSeek, sediada em Hangzhou. O conceito MoE é semelhante a ter uma equipe de especialistas, cada um lidando com parte de uma tarefa para tornar o processo de produção de modelos mais eficiente. A Ant se recusou a comentar sobre seu trabalho em relação às suas fontes de hardware.
O treinamento de modelos MoE depende de GPUs de alto desempenho, que podem ser muito caras para empresas menores adquirirem ou usarem. A pesquisa da Ant se concentrou em reduzir essa barreira de custo. O título do artigo traz um objetivo claro: Escalar Modelos “sem GPUs premium”. [Nossas aspas]
A direção adotada pela Ant e o uso do MoE para reduzir os custos de treinamento contrastam com a abordagem da Nvidia. O CEO Jensen Huang afirmou que a demanda por poder de computação continuará a crescer, mesmo com o lançamento de modelos mais eficientes como o R1 da DeepSeek. Sua visão é que as empresas buscarão chips mais potentes para impulsionar o crescimento da receita, em vez de buscar cortar custos com alternativas mais baratas. A estratégia da Nvidia continua focada em construir GPUs com mais núcleos, transistores e memória.
De acordo com o artigo do Ant Group, treinar um trilhão de tokens – as unidades básicas de dados que os modelos de IA usam para aprender – custou cerca de 6,35 milhões de yuans (aproximadamente US$ 880.000) usando hardware convencional de alto desempenho. O método de treinamento otimizado da empresa reduziu esse custo para cerca de 5,1 milhões de yuans, utilizando chips de especificações mais baixas.
A Ant afirmou que planeja aplicar seus modelos produzidos dessa forma – Ling-Plus e Ling-Lite – a casos de uso de IA industrial, como saúde e finanças. No início deste ano, a empresa adquiriu a Haodf.com, uma plataforma médica online chinesa, para impulsionar a ambição da Ant de implementar soluções baseadas em IA na área da saúde. A empresa também opera outros serviços de IA, incluindo um aplicativo de assistente virtual chamado Zhixiaobao e uma plataforma de consultoria financeira conhecida como Maxiaocai.
“Se você encontrar um ponto de ataque para vencer o melhor mestre de kung fu do mundo , você ainda pode dizer que o venceu, e é por isso que a aplicação no mundo real é importante”, disse Robin Yu, diretor de tecnologia da empresa de IA sediada em Pequim, Shengshang Tech.
A Ant tornou seus modelos de código aberto. O Ling-Lite possui 16,8 bilhões de parâmetros – configurações que ajudam a determinar como um modelo funciona – enquanto o Ling-Plus possui 290 bilhões. Para efeito de comparação, estimativas sugerem que o GPT-4.5 de código fechado possui cerca de 1,8 trilhão de parâmetros, de acordo com a MIT Technology Review .
Apesar do progresso, o artigo de Ant observou que o treinamento de modelos continua desafiador. Pequenos ajustes no hardware ou na estrutura do modelo durante o treinamento às vezes resultavam em desempenho instável, incluindo picos nas taxas de erro.
(Foto de Unsplash )