Blog

  • Ant Group usa chips nacionais para treinar modelos de IA e cortar custos

    Ant Group usa chips nacionais para treinar modelos de IA e cortar custos

    O Ant Group está contando com semicondutores fabricados na China para treinar modelos de inteligência artificial para reduzir custos e diminuir a dependência de tecnologia restrita dos EUA, de acordo com pessoas familiarizadas com o assunto.

    A empresa de propriedade do Alibaba utilizou chips de fornecedores nacionais, incluindo aqueles vinculados à sua controladora, Alibaba , e à Huawei Technologies, para treinar grandes modelos de linguagem usando o método Mixture of Experts (MoE). Os resultados foram comparáveis ​​aos produzidos com os chips H800 da Nvidia, segundo fontes. Embora a Ant continue a utilizar chips da Nvidia em parte do seu desenvolvimento de IA, uma fonte afirmou que a empresa está recorrendo cada vez mais a alternativas da AMD e de fabricantes de chips chineses para seus modelos mais recentes.

    O desenvolvimento sinaliza o envolvimento mais profundo da Ant na crescente corrida de IA entre empresas de tecnologia chinesas e americanas, especialmente à medida que as empresas buscam maneiras mais econômicas de treinar modelos. A experimentação com hardware doméstico reflete um esforço mais amplo das empresas chinesas para contornar as restrições de exportação que bloqueiam o acesso a chips de ponta como o H800 da Nvidia, que, embora não seja o mais avançado, ainda é uma das GPUs mais potentes disponíveis para organizações chinesas.

    A Ant publicou um artigo de pesquisa descrevendo seu trabalho, afirmando que seus modelos, em alguns testes, apresentaram desempenho superior aos desenvolvidos pela Meta. A Bloomberg News , que noticiou o assunto inicialmente, não verificou os resultados da empresa de forma independente. Se os modelos apresentarem o desempenho esperado, os esforços da Ant podem representar um avanço na tentativa da China de reduzir o custo de execução de aplicativos de IA e reduzir a dependência de hardware estrangeiro.

    Os modelos MoE dividem tarefas em conjuntos de dados menores, gerenciados por componentes separados, e têm ganhado atenção entre pesquisadores de IA e cientistas de dados. A técnica foi usada pelo Google e pela startup DeepSeek, sediada em Hangzhou. O conceito MoE é semelhante a ter uma equipe de especialistas, cada um lidando com parte de uma tarefa para tornar o processo de produção de modelos mais eficiente. A Ant se recusou a comentar sobre seu trabalho em relação às suas fontes de hardware.

    O treinamento de modelos MoE depende de GPUs de alto desempenho, que podem ser muito caras para empresas menores adquirirem ou usarem. A pesquisa da Ant se concentrou em reduzir essa barreira de custo. O título do artigo traz um objetivo claro: Escalar Modelos “sem GPUs premium”. [Nossas aspas]

    A direção adotada pela Ant e o uso do MoE para reduzir os custos de treinamento contrastam com a abordagem da Nvidia. O CEO Jensen Huang afirmou que a demanda por poder de computação continuará a crescer, mesmo com o lançamento de modelos mais eficientes como o R1 da DeepSeek. Sua visão é que as empresas buscarão chips mais potentes para impulsionar o crescimento da receita, em vez de buscar cortar custos com alternativas mais baratas. A estratégia da Nvidia continua focada em construir GPUs com mais núcleos, transistores e memória.

    De acordo com o artigo do Ant Group, treinar um trilhão de tokens – as unidades básicas de dados que os modelos de IA usam para aprender – custou cerca de 6,35 milhões de yuans (aproximadamente US$ 880.000) usando hardware convencional de alto desempenho. O método de treinamento otimizado da empresa reduziu esse custo para cerca de 5,1 milhões de yuans, utilizando chips de especificações mais baixas.

    A Ant afirmou que planeja aplicar seus modelos produzidos dessa forma – Ling-Plus e Ling-Lite – a casos de uso de IA industrial, como saúde e finanças. No início deste ano, a empresa adquiriu a Haodf.com, uma plataforma médica online chinesa, para impulsionar a ambição da Ant de implementar soluções baseadas em IA na área da saúde. A empresa também opera outros serviços de IA, incluindo um aplicativo de assistente virtual chamado Zhixiaobao e uma plataforma de consultoria financeira conhecida como Maxiaocai.

    “Se você encontrar um ponto de ataque para vencer o melhor mestre de kung fu do mundo , você ainda pode dizer que o venceu, e é por isso que a aplicação no mundo real é importante”, disse Robin Yu, diretor de tecnologia da empresa de IA sediada em Pequim, Shengshang Tech.

    A Ant tornou seus modelos de código aberto. O Ling-Lite possui 16,8 bilhões de parâmetros – configurações que ajudam a determinar como um modelo funciona – enquanto o Ling-Plus possui 290 bilhões. Para efeito de comparação, estimativas sugerem que o GPT-4.5 de código fechado possui cerca de 1,8 trilhão de parâmetros, de acordo com a MIT Technology Review .

    Apesar do progresso, o artigo de Ant observou que o treinamento de modelos continua desafiador. Pequenos ajustes no hardware ou na estrutura do modelo durante o treinamento às vezes resultavam em desempenho instável, incluindo picos nas taxas de erro.

    (Foto de Unsplash )

  • A IA da Apple enfatiza a privacidade com dados sintéticos e anonimizados

    A IA da Apple enfatiza a privacidade com dados sintéticos e anonimizados

    A Apple está adotando uma nova abordagem para treinar seus modelos de IA, que evita coletar ou copiar conteúdo do usuário de iPhones ou Macs.

    De acordo com uma postagem recente no blog , a empresa planeja continuar a contar com dados sintéticos (dados construídos que são usados ​​para imitar o comportamento do usuário) e privacidade diferencial para melhorar recursos como resumos de e-mail, sem obter acesso a e-mails ou mensagens pessoais.

    Para usuários que optarem pelo programa Device Analytics da Apple, os modelos de IA da empresa compararão mensagens sintéticas, semelhantes a e-mails, com uma pequena amostra de conteúdo de um usuário real, armazenada localmente no dispositivo. O dispositivo então identifica qual das mensagens sintéticas mais se aproxima da sua amostra de usuários e envia informações sobre a correspondência selecionada de volta para a Apple. Nenhum dado real do usuário sai do dispositivo, e a Apple afirma receber apenas informações agregadas.

    A técnica permitirá que a Apple aprimore seus modelos para tarefas de geração de texto mais longo sem coletar conteúdo real do usuário. É uma extensão do uso de longa data da privacidade diferencial pela empresa, que introduz dados aleatórios em conjuntos de dados mais amplos para ajudar a proteger identidades individuais. A Apple utiliza esse método desde 2016 para entender padrões de uso, em linha com as políticas de proteção da empresa.

    Melhorando o Genmoji e outros recursos do Apple Intelligence

    A empresa já utiliza privacidade diferencial para aprimorar recursos como o Genmoji, que coleta tendências gerais sobre quais lembretes são mais populares sem vincular nenhum lembrete a um usuário ou dispositivo específico. Em lançamentos futuros, a Apple planeja aplicar métodos semelhantes a outros recursos do Apple Intelligence, incluindo o Image Playground, o Image Wand, a Criação de Memórias e as Ferramentas de Escrita.

    No Genmoji, a empresa realiza pesquisas anônimas nos dispositivos participantes para determinar se fragmentos específicos de prompts foram vistos. Cada dispositivo responde com um sinal sonoro – algumas respostas refletem o uso real, enquanto outras são aleatórias. A abordagem garante que apenas termos amplamente utilizados sejam visíveis para a Apple, e nenhuma resposta individual possa ser rastreada até um usuário ou dispositivo, afirma a empresa.

    Curadoria de dados sintéticos para melhores resumos de e-mail

    Embora o método acima tenha funcionado bem com prompts curtos, a Apple precisava de uma nova abordagem para tarefas mais complexas, como resumir e-mails. Para isso, a Apple gera milhares de mensagens de amostra, e essas mensagens sintéticas são convertidas em representações numéricas, ou “embeddings”, com base no idioma, tom e tópico. Os dispositivos dos usuários participantes então comparam os embeddings com amostras armazenadas localmente. Novamente, apenas a correspondência selecionada é compartilhada, não o conteúdo em si.

    A Apple coleta os embeddings sintéticos mais frequentemente selecionados dos dispositivos participantes e os utiliza para refinar seus dados de treinamento. Com o tempo, esse processo permite que o sistema gere e-mails sintéticos mais relevantes e realistas, ajudando a Apple a aprimorar seus resultados de IA para resumos e geração de texto sem comprometer a privacidade do usuário.

    Disponível em beta

    A Apple está lançando o sistema em versões beta do iOS 18.5, iPadOS 18.5 e macOS 15.5. De acordo com Mark Gurman, da Bloomberg, a Apple está tentando lidar com os desafios do desenvolvimento de IA dessa forma, problemas que incluem atrasos no lançamento de recursos e as consequências das mudanças de liderança na equipe da Siri.

    Ainda não se sabe se sua abordagem produzirá resultados de IA mais úteis na prática, mas ela sinaliza um claro esforço público para equilibrar a privacidade do usuário com o desempenho do modelo.

    (Foto de Unsplash )

  • Meta FAIR avança IA semelhante à humana com cinco lançamentos importantes

    Meta FAIR avança IA semelhante à humana com cinco lançamentos importantes

    A equipe de Pesquisa Fundamental de IA (FAIR) da Meta anunciou cinco projetos que impulsionam a busca da empresa por inteligência de máquina avançada (AMI).

    Os últimos lançamentos da Meta se concentram fortemente em aprimorar a percepção da IA ​​— a capacidade das máquinas de processar e interpretar informações sensoriais — juntamente com avanços em modelagem de linguagem, robótica e agentes de IA colaborativa.

    A Meta declarou que seu objetivo envolve criar máquinas “que sejam capazes de adquirir, processar e interpretar informações sensoriais sobre o mundo ao nosso redor e que sejam capazes de usar essas informações para tomar decisões com inteligência e velocidade semelhantes às humanas”.

    Os cinco novos lançamentos representam esforços diversos, mas interconectados, para atingir essa meta ambiciosa.

    Codificador de Percepção: Meta aguça a ‘visão’ da IA

    No centro dos novos lançamentos está o Perception Encoder, descrito como um codificador de visão em larga escala projetado para se destacar em diversas tarefas de imagem e vídeo.

    Os codificadores de visão funcionam como os “olhos” dos sistemas de IA, permitindo que eles entendam dados visuais.

    Meta destaca o desafio crescente de criar codificadores que atendam às demandas de IA avançada, exigindo recursos que unam visão e linguagem, lidem com imagens e vídeos de forma eficaz e permaneçam robustos sob condições desafiadoras, incluindo potenciais ataques adversários.

    O codificador ideal, de acordo com Meta, deve reconhecer uma ampla gama de conceitos e, ao mesmo tempo, distinguir detalhes sutis — citando exemplos como avistar “uma arraia enterrada no fundo do mar, identificar um pequeno pintassilgo no fundo de uma imagem ou capturar uma cutia correndo em uma câmera de vida selvagem com visão noturna”.

    A Meta afirma que o Perception Encoder alcança “desempenho excepcional na classificação e recuperação de imagens e vídeos de disparo zero, superando todos os modelos proprietários e de código aberto existentes para tais tarefas”.

    Além disso, seus pontos fortes perceptivos supostamente se traduzem bem em tarefas de linguagem. 

    Quando alinhado a um modelo de linguagem de grande porte (LLM), o codificador supera outros codificadores de visão em áreas como resposta visual a perguntas (VQA), legendagem, compreensão de documentos e aterramento (vinculação de texto a regiões específicas da imagem). Ele também supostamente melhora o desempenho em tarefas tradicionalmente difíceis para LLMs, como a compreensão de relações espaciais (por exemplo, “se um objeto está atrás de outro”) ou o movimento da câmera em relação a um objeto.

    “À medida que o Perception Encoder começa a ser integrado a novas aplicações, estamos animados para ver como seus recursos avançados de visão permitirão sistemas de IA ainda mais capazes”, disse Meta.

    Modelo de Linguagem de Percepção (PLM): Pesquisa aberta em linguagem de visão

    Complementando o codificador está o Modelo de Linguagem de Percepção (PLM), um modelo de visão-linguagem aberto e reproduzível voltado para tarefas complexas de reconhecimento visual. 

    O PLM foi treinado usando dados sintéticos em larga escala combinados com conjuntos de dados de linguagem de visão aberta, explicitamente sem destilar conhecimento de modelos proprietários externos.

    Reconhecendo lacunas nos dados existentes de compreensão de vídeo, a equipe do FAIR coletou 2,5 milhões de novas amostras rotuladas por humanos, com foco em respostas a perguntas em vídeo de granularidade fina e legendas espaço-temporais. A Meta afirma que este é o “maior conjunto de dados desse tipo até o momento”.

    O PLM é oferecido em versões de 1, 3 e 8 bilhões de parâmetros, atendendo às necessidades de pesquisa acadêmica que exigem transparência.

    Junto com os modelos, a Meta está lançando o PLM-VideoBench, um novo benchmark projetado especificamente para testar capacidades frequentemente ignoradas pelos benchmarks existentes, ou seja, “compreensão de atividade de granularidade fina e raciocínio baseado no espaço-tempo”.

    A Meta espera que a combinação de modelos abertos, o grande conjunto de dados e o benchmark desafiador fortaleçam a comunidade de código aberto.

    Meta Locate 3D: Dando aos robôs consciência situacional

    O Meta Locate 3D preenche a lacuna entre os comandos de linguagem e a ação física. Este modelo completo visa permitir que robôs localizem objetos com precisão em um ambiente 3D com base em consultas em linguagem natural de vocabulário aberto.

    O Meta Locate 3D processa nuvens de pontos 3D diretamente de sensores RGB-D (como os encontrados em alguns robôs ou câmeras com sensor de profundidade). Dado um prompt textual, como “vaso de flores perto do console da TV”, o sistema considera as relações espaciais e o contexto para identificar a instância correta do objeto, distinguindo-o de, digamos, um “vaso sobre a mesa”.

    O sistema é composto por três partes principais: uma etapa de pré-processamento que converte recursos 2D em nuvens de pontos com recursos 3D; o codificador 3D-JEPA (um modelo pré-treinado que cria uma representação contextualizada do mundo 3D); e o decodificador Locate 3D, que usa a representação 3D e a consulta de linguagem para gerar caixas delimitadoras e máscaras para os objetos especificados.

    Juntamente com o modelo, a Meta está lançando um novo conjunto de dados substancial para localização de objetos com base em expressões de referência. Ele inclui 130.000 anotações de linguagem em 1.346 cenas dos conjuntos de dados ARKitScenes, ScanNet e ScanNet++, dobrando efetivamente os dados anotados existentes nessa área.

    A Meta vê essa tecnologia como crucial para o desenvolvimento de sistemas robóticos mais capazes, incluindo seu próprio projeto de robô PARTNR, permitindo interação e colaboração mais naturais entre humanos e robôs.

    Transformador latente de bytes dinâmico: modelagem de linguagem eficiente e robusta

    Após a pesquisa publicada no final de 2024, a Meta está divulgando os pesos do modelo para seu Transformador Latente de Bytes Dinâmicos de 8 bilhões de parâmetros.

    Essa arquitetura representa uma mudança em relação aos modelos tradicionais de linguagem baseados em tokenização, operando em nível de bytes. A Meta afirma que essa abordagem alcança desempenho comparável em escala, ao mesmo tempo em que oferece melhorias significativas em eficiência e robustez de inferência.

    Os LLMs tradicionais dividem o texto em “tokens”, que podem apresentar dificuldades com erros ortográficos, palavras novas ou entradas antagônicas. Os modelos em nível de byte processam bytes brutos, potencialmente oferecendo maior resiliência.

    A Meta relata que o Dynamic Byte Latent Transformer “supera os modelos baseados em tokenizadores em várias tarefas, com uma vantagem média de robustez de +7 pontos (no HellaSwag perturbado) e chegando a +55 pontos em tarefas do benchmark de compreensão de tokens CUTE”.

    Ao liberar os pesos juntamente com a base de código compartilhada anteriormente, o Meta incentiva a comunidade de pesquisa a explorar essa abordagem alternativa para modelagem de linguagem.

    Raciocinador colaborativo: Meta promove agentes de IA socialmente inteligentes

    A versão final, Collaborative Reasoner, aborda o desafio complexo de criar agentes de IA que possam colaborar efetivamente com humanos ou outras IAs.

    A Meta observa que a colaboração humana geralmente produz resultados superiores e visa dotar a IA de capacidades semelhantes para tarefas como ajudar com o dever de casa ou preparar-se para entrevistas de emprego.

    Essa colaboração requer não apenas resolução de problemas, mas também habilidades sociais como comunicação, empatia, fornecimento de feedback e compreensão dos estados mentais dos outros (teoria da mente), muitas vezes se desenvolvendo em múltiplas conversas.

    Os métodos atuais de treinamento e avaliação de LLM frequentemente negligenciam esses aspectos sociais e colaborativos. Além disso, coletar dados conversacionais relevantes é caro e difícil.

    O Collaborative Reasoner fornece uma estrutura para avaliar e aprimorar essas habilidades. Inclui tarefas orientadas a objetivos que exigem raciocínio em várias etapas, obtido por meio de conversas entre dois agentes. A estrutura testa habilidades como discordar construtivamente, persuadir um parceiro e chegar a uma melhor solução compartilhada.

    As avaliações da Meta revelaram que os modelos atuais têm dificuldade em alavancar consistentemente a colaboração para obter melhores resultados. Para resolver esse problema, eles propõem uma técnica de autoaperfeiçoamento usando dados de interação sintéticos, na qual um agente de LLM colabora consigo mesmo.

    A geração desses dados em escala é possibilitada por um novo mecanismo de serviço de modelos de alto desempenho chamado Matrix. O uso dessa abordagem em tarefas de raciocínio matemático, científico e social gerou melhorias de até 29,4% em comparação com o desempenho padrão de “cadeia de pensamento” de um único LLM.

    Ao tornar público o pipeline de geração e modelagem de dados, a Meta visa fomentar mais pesquisas para criar verdadeiros “agentes sociais que podem fazer parceria com humanos e outros agentes”.

    Esses cinco lançamentos ressaltam coletivamente o investimento pesado e contínuo da Meta em pesquisa fundamental de IA, com foco especial na construção de blocos para máquinas que podem perceber, entender e interagir com o mundo de maneiras mais humanas.