A equipe de Pesquisa Fundamental de IA (FAIR) da Meta anunciou cinco projetos que impulsionam a busca da empresa por inteligência de máquina avançada (AMI).
Os últimos lançamentos da Meta se concentram fortemente em aprimorar a percepção da IA — a capacidade das máquinas de processar e interpretar informações sensoriais — juntamente com avanços em modelagem de linguagem, robótica e agentes de IA colaborativa.
A Meta declarou que seu objetivo envolve criar máquinas “que sejam capazes de adquirir, processar e interpretar informações sensoriais sobre o mundo ao nosso redor e que sejam capazes de usar essas informações para tomar decisões com inteligência e velocidade semelhantes às humanas”.
Os cinco novos lançamentos representam esforços diversos, mas interconectados, para atingir essa meta ambiciosa.
Codificador de Percepção: Meta aguça a ‘visão’ da IA
No centro dos novos lançamentos está o Perception Encoder, descrito como um codificador de visão em larga escala projetado para se destacar em diversas tarefas de imagem e vídeo.
Os codificadores de visão funcionam como os “olhos” dos sistemas de IA, permitindo que eles entendam dados visuais.
Meta destaca o desafio crescente de criar codificadores que atendam às demandas de IA avançada, exigindo recursos que unam visão e linguagem, lidem com imagens e vídeos de forma eficaz e permaneçam robustos sob condições desafiadoras, incluindo potenciais ataques adversários.
O codificador ideal, de acordo com Meta, deve reconhecer uma ampla gama de conceitos e, ao mesmo tempo, distinguir detalhes sutis — citando exemplos como avistar “uma arraia enterrada no fundo do mar, identificar um pequeno pintassilgo no fundo de uma imagem ou capturar uma cutia correndo em uma câmera de vida selvagem com visão noturna”.
A Meta afirma que o Perception Encoder alcança “desempenho excepcional na classificação e recuperação de imagens e vídeos de disparo zero, superando todos os modelos proprietários e de código aberto existentes para tais tarefas”.
Além disso, seus pontos fortes perceptivos supostamente se traduzem bem em tarefas de linguagem.
Quando alinhado a um modelo de linguagem de grande porte (LLM), o codificador supera outros codificadores de visão em áreas como resposta visual a perguntas (VQA), legendagem, compreensão de documentos e aterramento (vinculação de texto a regiões específicas da imagem). Ele também supostamente melhora o desempenho em tarefas tradicionalmente difíceis para LLMs, como a compreensão de relações espaciais (por exemplo, “se um objeto está atrás de outro”) ou o movimento da câmera em relação a um objeto.
“À medida que o Perception Encoder começa a ser integrado a novas aplicações, estamos animados para ver como seus recursos avançados de visão permitirão sistemas de IA ainda mais capazes”, disse Meta.
Modelo de Linguagem de Percepção (PLM): Pesquisa aberta em linguagem de visão
Complementando o codificador está o Modelo de Linguagem de Percepção (PLM), um modelo de visão-linguagem aberto e reproduzível voltado para tarefas complexas de reconhecimento visual.
O PLM foi treinado usando dados sintéticos em larga escala combinados com conjuntos de dados de linguagem de visão aberta, explicitamente sem destilar conhecimento de modelos proprietários externos.
Reconhecendo lacunas nos dados existentes de compreensão de vídeo, a equipe do FAIR coletou 2,5 milhões de novas amostras rotuladas por humanos, com foco em respostas a perguntas em vídeo de granularidade fina e legendas espaço-temporais. A Meta afirma que este é o “maior conjunto de dados desse tipo até o momento”.
O PLM é oferecido em versões de 1, 3 e 8 bilhões de parâmetros, atendendo às necessidades de pesquisa acadêmica que exigem transparência.
Junto com os modelos, a Meta está lançando o PLM-VideoBench, um novo benchmark projetado especificamente para testar capacidades frequentemente ignoradas pelos benchmarks existentes, ou seja, “compreensão de atividade de granularidade fina e raciocínio baseado no espaço-tempo”.
A Meta espera que a combinação de modelos abertos, o grande conjunto de dados e o benchmark desafiador fortaleçam a comunidade de código aberto.
Meta Locate 3D: Dando aos robôs consciência situacional
O Meta Locate 3D preenche a lacuna entre os comandos de linguagem e a ação física. Este modelo completo visa permitir que robôs localizem objetos com precisão em um ambiente 3D com base em consultas em linguagem natural de vocabulário aberto.
O Meta Locate 3D processa nuvens de pontos 3D diretamente de sensores RGB-D (como os encontrados em alguns robôs ou câmeras com sensor de profundidade). Dado um prompt textual, como “vaso de flores perto do console da TV”, o sistema considera as relações espaciais e o contexto para identificar a instância correta do objeto, distinguindo-o de, digamos, um “vaso sobre a mesa”.
O sistema é composto por três partes principais: uma etapa de pré-processamento que converte recursos 2D em nuvens de pontos com recursos 3D; o codificador 3D-JEPA (um modelo pré-treinado que cria uma representação contextualizada do mundo 3D); e o decodificador Locate 3D, que usa a representação 3D e a consulta de linguagem para gerar caixas delimitadoras e máscaras para os objetos especificados.
Juntamente com o modelo, a Meta está lançando um novo conjunto de dados substancial para localização de objetos com base em expressões de referência. Ele inclui 130.000 anotações de linguagem em 1.346 cenas dos conjuntos de dados ARKitScenes, ScanNet e ScanNet++, dobrando efetivamente os dados anotados existentes nessa área.
A Meta vê essa tecnologia como crucial para o desenvolvimento de sistemas robóticos mais capazes, incluindo seu próprio projeto de robô PARTNR, permitindo interação e colaboração mais naturais entre humanos e robôs.
Transformador latente de bytes dinâmico: modelagem de linguagem eficiente e robusta
Após a pesquisa publicada no final de 2024, a Meta está divulgando os pesos do modelo para seu Transformador Latente de Bytes Dinâmicos de 8 bilhões de parâmetros.
Essa arquitetura representa uma mudança em relação aos modelos tradicionais de linguagem baseados em tokenização, operando em nível de bytes. A Meta afirma que essa abordagem alcança desempenho comparável em escala, ao mesmo tempo em que oferece melhorias significativas em eficiência e robustez de inferência.
Os LLMs tradicionais dividem o texto em “tokens”, que podem apresentar dificuldades com erros ortográficos, palavras novas ou entradas antagônicas. Os modelos em nível de byte processam bytes brutos, potencialmente oferecendo maior resiliência.
A Meta relata que o Dynamic Byte Latent Transformer “supera os modelos baseados em tokenizadores em várias tarefas, com uma vantagem média de robustez de +7 pontos (no HellaSwag perturbado) e chegando a +55 pontos em tarefas do benchmark de compreensão de tokens CUTE”.
Ao liberar os pesos juntamente com a base de código compartilhada anteriormente, o Meta incentiva a comunidade de pesquisa a explorar essa abordagem alternativa para modelagem de linguagem.
Raciocinador colaborativo: Meta promove agentes de IA socialmente inteligentes
A versão final, Collaborative Reasoner, aborda o desafio complexo de criar agentes de IA que possam colaborar efetivamente com humanos ou outras IAs.
A Meta observa que a colaboração humana geralmente produz resultados superiores e visa dotar a IA de capacidades semelhantes para tarefas como ajudar com o dever de casa ou preparar-se para entrevistas de emprego.
Essa colaboração requer não apenas resolução de problemas, mas também habilidades sociais como comunicação, empatia, fornecimento de feedback e compreensão dos estados mentais dos outros (teoria da mente), muitas vezes se desenvolvendo em múltiplas conversas.
Os métodos atuais de treinamento e avaliação de LLM frequentemente negligenciam esses aspectos sociais e colaborativos. Além disso, coletar dados conversacionais relevantes é caro e difícil.
O Collaborative Reasoner fornece uma estrutura para avaliar e aprimorar essas habilidades. Inclui tarefas orientadas a objetivos que exigem raciocínio em várias etapas, obtido por meio de conversas entre dois agentes. A estrutura testa habilidades como discordar construtivamente, persuadir um parceiro e chegar a uma melhor solução compartilhada.
As avaliações da Meta revelaram que os modelos atuais têm dificuldade em alavancar consistentemente a colaboração para obter melhores resultados. Para resolver esse problema, eles propõem uma técnica de autoaperfeiçoamento usando dados de interação sintéticos, na qual um agente de LLM colabora consigo mesmo.
A geração desses dados em escala é possibilitada por um novo mecanismo de serviço de modelos de alto desempenho chamado Matrix. O uso dessa abordagem em tarefas de raciocínio matemático, científico e social gerou melhorias de até 29,4% em comparação com o desempenho padrão de “cadeia de pensamento” de um único LLM.
Ao tornar público o pipeline de geração e modelagem de dados, a Meta visa fomentar mais pesquisas para criar verdadeiros “agentes sociais que podem fazer parceria com humanos e outros agentes”.
Esses cinco lançamentos ressaltam coletivamente o investimento pesado e contínuo da Meta em pesquisa fundamental de IA, com foco especial na construção de blocos para máquinas que podem perceber, entender e interagir com o mundo de maneiras mais humanas.
Deixe um comentário