A IA da Apple enfatiza a privacidade com dados sintéticos e anonimizados

A Apple está adotando uma nova abordagem para treinar seus modelos de IA, que evita coletar ou copiar conteúdo do usuário de iPhones ou Macs.

De acordo com uma postagem recente no blog , a empresa planeja continuar a contar com dados sintéticos (dados construídos que são usados ​​para imitar o comportamento do usuário) e privacidade diferencial para melhorar recursos como resumos de e-mail, sem obter acesso a e-mails ou mensagens pessoais.

Para usuários que optarem pelo programa Device Analytics da Apple, os modelos de IA da empresa compararão mensagens sintéticas, semelhantes a e-mails, com uma pequena amostra de conteúdo de um usuário real, armazenada localmente no dispositivo. O dispositivo então identifica qual das mensagens sintéticas mais se aproxima da sua amostra de usuários e envia informações sobre a correspondência selecionada de volta para a Apple. Nenhum dado real do usuário sai do dispositivo, e a Apple afirma receber apenas informações agregadas.

A técnica permitirá que a Apple aprimore seus modelos para tarefas de geração de texto mais longo sem coletar conteúdo real do usuário. É uma extensão do uso de longa data da privacidade diferencial pela empresa, que introduz dados aleatórios em conjuntos de dados mais amplos para ajudar a proteger identidades individuais. A Apple utiliza esse método desde 2016 para entender padrões de uso, em linha com as políticas de proteção da empresa.

Melhorando o Genmoji e outros recursos do Apple Intelligence

A empresa já utiliza privacidade diferencial para aprimorar recursos como o Genmoji, que coleta tendências gerais sobre quais lembretes são mais populares sem vincular nenhum lembrete a um usuário ou dispositivo específico. Em lançamentos futuros, a Apple planeja aplicar métodos semelhantes a outros recursos do Apple Intelligence, incluindo o Image Playground, o Image Wand, a Criação de Memórias e as Ferramentas de Escrita.

No Genmoji, a empresa realiza pesquisas anônimas nos dispositivos participantes para determinar se fragmentos específicos de prompts foram vistos. Cada dispositivo responde com um sinal sonoro – algumas respostas refletem o uso real, enquanto outras são aleatórias. A abordagem garante que apenas termos amplamente utilizados sejam visíveis para a Apple, e nenhuma resposta individual possa ser rastreada até um usuário ou dispositivo, afirma a empresa.

Curadoria de dados sintéticos para melhores resumos de e-mail

Embora o método acima tenha funcionado bem com prompts curtos, a Apple precisava de uma nova abordagem para tarefas mais complexas, como resumir e-mails. Para isso, a Apple gera milhares de mensagens de amostra, e essas mensagens sintéticas são convertidas em representações numéricas, ou “embeddings”, com base no idioma, tom e tópico. Os dispositivos dos usuários participantes então comparam os embeddings com amostras armazenadas localmente. Novamente, apenas a correspondência selecionada é compartilhada, não o conteúdo em si.

A Apple coleta os embeddings sintéticos mais frequentemente selecionados dos dispositivos participantes e os utiliza para refinar seus dados de treinamento. Com o tempo, esse processo permite que o sistema gere e-mails sintéticos mais relevantes e realistas, ajudando a Apple a aprimorar seus resultados de IA para resumos e geração de texto sem comprometer a privacidade do usuário.

Disponível em beta

A Apple está lançando o sistema em versões beta do iOS 18.5, iPadOS 18.5 e macOS 15.5. De acordo com Mark Gurman, da Bloomberg, a Apple está tentando lidar com os desafios do desenvolvimento de IA dessa forma, problemas que incluem atrasos no lançamento de recursos e as consequências das mudanças de liderança na equipe da Siri.

Ainda não se sabe se sua abordagem produzirá resultados de IA mais úteis na prática, mas ela sinaliza um claro esforço público para equilibrar a privacidade do usuário com o desempenho do modelo.

(Foto de Unsplash )

Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *