3 dicas para utilizar o Machine Learning sem comprometer os dados dos usuários

3 dicas para utilizar o Machine Learning sem comprometer os dados dos usuários

Empresas adotam cada vez mais Machine Learning para desenvolver produtos personalizados aos clientes, mas é preciso pensar na privacidade dos usuários.

Quando olhamos para o Machine Learning (ML), as companhias investem nesta tecnologia emergente por vários motivos. Destacamos três deles:

  • Desenvolver novos produtos e serviços aos clientes;
  • Oferecer esses produtos e serviços de forma personalizada;
  • Trazer experiências únicas ao consumidor.

Mas para garantir essa experiência ao consumidor, projetos de ML precisam ser treinados. E este treinamento só é possível com o uso de um grande volume de dados.

E quando falamos em dados, devemos falar também da privacidade desses dados.

Esse assunto sempre vai ser uma preocupação para as empresas, já que muitas se apoiam em tecnologias para remodelar os seus negócios.

Além disso, legislações como a LGPD e a preocupação dos consumidores com o uso dos dados mostram que a segurança deve ser prioridade.

Então, um grande dilema surge: como aumentar a privacidade do usuário enquanto o Machine Learning ajuda a desenvolver novos produtos?

LEIA TAMBÉM: Veja como vazamento de dados pode destruir a reputação da sua empresa

Os tomadores de decisão de TI das empresas precisam ter uma certeza: privacidade não é coletar os dados, usá-los ou descarta-los achando que os usuários estarão seguros e não identificáveis por ter esgotado a fonte de treinamento do ML.

Hoje, já existem métodos que garantem uma maior privacidade dos clientes, enquanto eles mantêm a precisão dos projetos de Machine Learning. O Google, por exemplo, utiliza algumas técnicas, entre elas a generalização dos dados (que explicaremos mais abaixo).

Tendo isso em mente, confira a seguir três práticas que CIOs podem adotar para aumentar a privacidade do usuário ao mesmo tempo em que a performance de soluções de ML pode ser melhorada. As dicas foram publicadas em um artigo assinado por Catherine Nelson, cientista de dados da empresa Concur Labs, no site InformationWeek:

1. Limite os dados pessoais que sua empresa coleta

É uma das recomendações básicas para aumentar a privacidade dos usuários. Quando sua empresa limita a quantidade de dados pessoais coletados, isso permite usar apenas o necessário para garantir a disponibilidade da solução de Machine Learning.

Uma sugestão trazida pela especialista é criar uma “discagem de privacidade” (basta imaginar um telefone antigo) para que usuários tenham o poder de decidir quais informações as empresas podem coletar — acompanhadas, preferencialmente, de uma explicação dos benefícios que cada informação compartilhada pode trazer para a sua experiência.

Segundo Nelson, isso dará ao usuário um melhor conhecimento e controle daquilo que ele irá fornecer.

Essa “discagem de privacidade” é feita em uma escala de um a 10:

  1. Número de documentos, como o CPF
  2. Nome e sobrenome
  3. Endereço de e-mail
  4. Número de telefone
  5. Endereço residencial (Rua/Avenida/etc e número da residência)
  6. CEP
  7. Nome próprio (grupo de pessoas com nome João, por exemplo)
  8. Dados de geolocalização (aplicativos e navegador, por exemplo)
  9. Empresa
  10. Todos os nomes

Nos números menores, os dados pessoais que podem identificar uma pessoa são removidos. À medida que a escala se aproxima de 10, os dados excluídos não podem ser usados para tornar um usuário identificável.

Mas isso não significa que a empresa não vá conseguir treinar o Machine Learning. Pelo contrário, ela ainda vai ter outras informações adicionais, sem identificar o usuário, para desenvolver uma solução.

Outra sugestão é o aprendizado federado, que consiste no treinamento do ML dentro do próprio dispositivo do usuário (um exemplo é quando você conversa com o Google Assistente ou Siri da Apple). Após isso, toda a informação coletada é enviada para a nuvem ou data center da empresa.

Embora seja uma técnica mais complexa, o aprendizado federado mantém os dados brutos no dispositivo do consumidor. Assim, a empresa consegue limitar a coleta de dados, mas sem abrir mão da alta precisão de treinamento.

2. Use apenas um subconjunto de dados

Também é possível aumentar a privacidade do usuário em um estágio mais inicial de aprendizado: quando a empresa vai selecionar quais dados vão treinar o modelo de Machine Learning. Um exemplo é a generalização dos dados, utilizado pelo Google.

– Generalização dos dados:
A generalização dos dados é um modelo que remove parte dos dados ou substitui parte deles por um valor comum, conhecido como k-anonimato.

K-anonimato é uma técnica que vai esconder a identidade de um usuário dentro de um grupo de indivíduos com características semelhantes.

Para ilustrar a técnica, pense o seguinte: o tamanho de um grupo de pessoas vai ser representado por um número (k). Como explica o Google, o k-anonimato é alcançado quando há, pelo menos, k-1 indivíduos com as mesmas propriedades.

No exemplo dado pelo Google, se k é igual a 50 e a propriedade seja o CEP, haverá 49 outros usuários com o mesmo código de endereçamento. Assim é praticamente impossível identificar qualquer pessoa nesse grupo.

3. Evite vazamento de dados nas previsões de um modelo de Machine Learning

Modelos de Machine Learning podem expor alguns dados de treinamento durante o desenvolvimento dos algoritmos. Entretanto, a privacidade diferencial é uma técnica que pode impedir a quebra de privacidade dos usuários.

Essa técnica é uma definição matemática que utiliza um mecanismo de ruído para que os dados de um usuário não o identifiquem quando eles estiverem em um conjunto maior de dados.

Seria como criar uma anomalia para que o indivíduo seja mascarado durante o treinamento do Machine Learning. Mesmo assim, outras informações mais “superficiais” seriam capazes de garantir o resultado esperado pela empresa.

Sua empresa só ganha com Machine Learning e privacidade

Investir em Machine Learning não impede a sua empresa de garantir a segurança dos usuários. Quando você consegue ser transparente sobre como os dados dos clientes são usados, eles confiam e se aproximam mais da sua marca.

Mas é preciso um trabalho de transformação e ele deve começar internamente. Os CIOs devem expandir a visão sobre privacidade para orientar desenvolvedores de produtos e cientistas de dados a garantir as melhores práticas no treinamento de um algoritmo.

Principais destaques desta matéria:

  • Cresce a adoção de Machine Learning (ML) nos projetos das empresas;
  • Porém, o algoritmo precisa de muitos dados para ser treinado. Isso abre discussão sobre a privacidade dos usuários;
  • Confira 3 dicas para equilibrar o desenvolvimento de ML e garantir o uso seguro dos dados.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *