Aprendizagem Federada e os Custos de Transação no Compartilhamento de Dados.

19 de out. de 2020
4 min de leitura

Por Tárik César Modelos de Aprendizado de Máquina tem forte propensão ao uso extensivo de dados para seu treinamento e funcionamento. E não só grandes quantidades de dados, mas igualmente uma grande variedades destes. Esta fome por dados que modelos de Inteligência Artificial possuem é uma natural fonte de atrito com as diversas leis de proteção de dados, tanto a brasileira quando a estrangeira. Isso porque estas, ao criar direitos e deveres na relação com dados, tornam o seu uso invariavelmente mais restrito ou no mínimo mais delicado e com maiores custos.

Podemos ver o exemplo da Lei Geral de Proteção de Dados brasileira Lei 13.709/2018. Ela engloba o tratamento de dados pessoais. O conceito de tratamento é definido no artigo 5º, inciso X que afirma que: tratamento é toda operação realizada com dados pessoais, como as que se referem a coleta, produção, recepção, classificação, utilização, acesso, reprodução, transmissão, distribuição, processamento, arquivamento, armazenamento, eliminação, avaliação ou controle da informação, modificação, comunicação, transferência, difusão ou extração. Para tratar os dados, o artigo 7º da mesma lei estabelece dez bases legais distintas para o tratamento de tais dados como consentimento, cumprimento de obrigação legal ou regulatória, legitimo interesse entre outras.

Estes tipos de limites e pré-requisitos não são exclusividade da Lei brasileira. Legislações em vários países tem gerado pré-requisitos e limites que tornam todo o processo de coleta, compartilhamento e o tratamento – em sentido estrito – mais complicado e custoso, com os agentes de tratamento devendo adotar medidas técnicas e de governança de proteção de dados pessoais de forma a evitar acessos não autorizados ou outras situações ilícitas de tratamento de dados, tornam o seu uso invariavelmente mais restrito ou no mínimo mais delicado e com maiores custos.

Um dos aspectos mais afetados é o compartilhamento de dados entre diferentes organizações. Sejam instituições estatais ou privadas eles possuem grandes riquezas de bancos de dados contendo milhares de registros ou até imagens, em grande medida ainda pouco explorados por métodos de Ciência de Dados. Como já dito acima a criação de poderosos algorítimos de Aprendizado de Máquina capazes de oferecer produtos e serviços de maior qualidade demandam quantidades enormes de dados, assim como diversidade destes dados. E a obtenção destes dados de forma robusta muitas vezes passam pela colaboração através do compartilhamento de dados entre organizações. Assim, embora haja claras ameaças ao bem estar social relacionado com o compartilhamento de dados que são o responsável pela emergência de leis de proteção de dados, também há grande benefício em termos de bem estar para a sociedade e para as instituições se estas se engajarem em formas de compartilhamento. Esse engajamento de forma positiva, contudo, é particularmente difícil. Envolve-se aqui alinhar métodos e formas de governança de dados e a manutenção da confiança necessária inter agentes de que estes não estão usando dados de forma ilícita ou não desejada. Os custos de transação para se engajar em tais formas positivas de compartilhamento, já naturalmente altos se tornam ainda mais altos com a legislação. Sobretudo para pequenas e médias organizações.

Não há panaceias que resolvam esta contradição. Ela sempre estará lá atuando como fonte de tensão entre aplicação da automação e os direitos relacionados a dados. Tão pouco pode-se, em sã consciência, argumentar que deve-se simplesmente livrar-se das leis de proteção de dados em nome da melhor eficiência alocativa diminuído a proteção aos indivíduos ou ainda a proibição total do compartilhamento com tais fins. Todavia há diversas formas de diminuir esse atrito. O design das leis proteção de dados levar em conta tais fatores por exemplo. Outra forma de melhoria pode ser por novos meios técnicos. É neste segundo tipo de mecanismo que o desenvolvimento de métodos de Aprendizagem Federada ou Descentralizada se encaixam.

O que é Aprendizagem Federada?

Em termos simples e direitos o Aprendizado Federado descentraliza o Aprendizado de Máquina. Via de regra tais sistemas centralizam os dados em uma plataforma na nuvem. Os dados são trazidos ao local onde o modelo se encontra. O Aprendizado Federado põe de cabeça para baixo ao levar o modelo a fonte dos dados, eliminando a necessidade de agrupar dados em um único local, como é o modo tradicional. O modelo é treinado em diferentes lugares.

Um exemplo seria três escritórios decidiram se unir e construir um Algoritmo de Aprendizado de Máquina para criar contratos. Se decidirem trabalhar com uma abordagem federada, um servidor centralizado, que continua existindo, mantêm a rede neural profunda global e cada escritório receberia uma copia para treinar em seu próprio conjunto de dados. Então o modelo seria treinado localmente em algumas iterações. O escritório enviaria a versão atualizada do modelo de volta ao servidor centralizado, mantendo os seus dados em sua própria infraestrutura segura e privativa. O servidor central então agrega as contribuições de todos os participantes. Os parâmetros atualizados no servidor central, então são compartilhados com os escritórios participantes, para que possam dar continuidade ao treinamento local.

Se um escritório quiser sair do acordo, isso não gerará problemas ao treinamento do modelo, uma vez que ele não depende de nenhum dado específico deste escritório. Se um escritório novo quiser se juntar ao projeto, em princípio não há problema algum.

Por que aprendizagem federada?

O Aprendizado Federado claramente não exclui os diversos ditames das leis de proteção de dados. Mas ele tem o potencial de diminuir os custos de transação na cooperação entre instituições. Ao invés de incorrer numa muito mais custoso e problemático compartilhamento e agrupamento de dados num único servidor, instituições utilizando Aprendizagem Federada não precisam compartilhar seus dados que podem, assim, ser mantidos nas medidas de segurança de cada instituição. Cada participante mantém o controle de seus próprios dados pessoais. Como qualquer ferramenta, ela tem seus limites. É um campo na infância e tem suas limitações no campo de atuação como maior tempo desprendido no treinamento dos modelos. Em termos de estratégia, se antes haveria o problema de alinhar o design de política de dados entre instituições, agora deve-se alinhar a rotulagem e padronização de dados, o que embora seja mais fácil, nem de longe é trivial. Contudo essa nova metodologia abre a possibilidade para melhorar a cooperação inter-organizações no desenvolvimento do Aprendizado de Máquina que melhore o bem estar social mantendo padrões necessários à proteção de dados. Referencias 1- WILLIAMSON, Oliver. TADELIS, Steven. Transaction Cost Economics. Berkeley, University of California. 2012. Acessado <https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2020176> dia 18/10/2020.

2-Anuncío do Google sobre o trabalho deles com Aprendizado Federado.

https://ai.googleblog.com/2017/04/federated-learning-collaborative.html

3 - Métodos de Aprendizado Federado. https://arxiv.org/abs/1602.05629 4 - Lei 13.709/2018 - Lei Geral de Proteção de Dados http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/Lei/L13709.htm

Aprendizagem Federada e os Custos de Transação no Compartilhamento de Dados.

Posts recentes

Comentários