Dados são a Nova Areia: Introduzindo Engenharia de Dados

Por Tárik César




O blog está de volta depois de um tempo com uma metáfora. Dados São a Nova Areia parece uma metáfora estranha, uma imitação tosca e com menos apelo da famosa e, de certo modo, controversa, “Dados são o Novo Petróleo”. Porém eu acredito que esta metáfora é mais útil. De fato eu gosto tanto dela que gostaria de clamar propriedade, mas ela é de Tim O'Reilly.


A razão da utilidade da metáfora é bem descrita por ele como:

"Nossos dados individuais não são tão valiosos. Os dados não são o novo petróleo. É a nova areia. Como o silício, que constitui 28% da crosta terrestre, ele é onipresente e só se torna valioso por um enorme conjunto de processos em escala industrial.” [1]

A razão de apresentar esta metáfora é apresentar de forma resumida como funciona esse processo industrial. A crescente importância da economia digital e as novas formas de sociabilidade de fato geraram alerta no Direito para esse novo mundo digital levando a formação de leis gerais de proteção de dados, por exemplo. Porém ainda se está nos primeiros passos para se entender o trabalho com dados no Direito.


Muito do entendimento jurídico relacionado a economia digital normalmente se fia no aspecto mais bruto da cadeia de produção, o dado, tendo apenas abstrações como proxies de entendimento do processo. Essas abstrações costumam beber na fonte na definição de tratamento como o dado pela redação do Art. 5, inciso X da LGPD:

“Toda operação realizada com dados pessoais, como as que se referem a coleta, produção, recepção, classificação, utilização, acesso, reprodução, transmissão, distribuição, processamento, arquivamento, armazenamento, eliminação, avaliação ou controle da informação, modificação, comunicação, transferência, difusão ou extração” [2];

O problema de se ter a noção apenas da abstração do processo é que muitas das atividades de adequação em ambientes de alta tecnologia demandam uma compreensão maior do trabalho do Engenheiro de Dados que a abstração do par: coleta e armazenagem. Entendendo que tais ambientes de mercado de alta tecnologia estão em crescimento, se torna útil apresentar alguns aspectos básicos de Engenharia de Dados para o público jurídico.


Também fica o aviso que o CREA ainda não reconheceu a profissão de Engenheiro de Dados. Isso não tem impedido até agora o mercado de utilizar o termo e com o reconhecimento da profissão de Engenheiro de Software pelo CREA, é provável que seja questão de tempo que a Engenharia de Dados também seja reconhecida. Este artigo utiliza essa versão corrente de mercado.


Engenharia de Dados e Ciência de Dados


Quando se pensa em profissionais da nova economia digital, normalmente a primeira imagem mental que se tem é a do Cientista de Dados, a famosa profissão mais Sexy do século XXI. Ele utiliza ferramentas de Aprendizado de Máquina e Mineração de Dados para gerar inteligência e formas automatizadas de análise de dados. Para isso ele utiliza bases de dados limpas e organizadas. Mas não é a função dele criar essas bases, mas sim o Engenheiro de Dados que é o responsável por criar um pipeline de dados trabalhando na coleta e limpeza de dados, tornando-os disponíveis para análise.


Para isso ele deve lidar com várias ferramentas e conceitos de computação. Além claro de programação como Python ou Scala, há ferramentas mais específicas como, por exemplo métodos de ETL (Extract Transform Load). Estes são um conjunto de técnicas para mover dados entre sistemas, com formas de transformar e limpar dados. Por exemplo podemos ver um processo de ETL extrair o valor Nome de um campo num dado formulário e armazená-lo num novo campo de database tornando mais simples de ser usado para análise. SQL e NoSQL também. São linguagens específicas de bancos de dados. SQL é uma linguagem padrão de consulta de bancos de dados relacionais. Tendo diversos softwares como o Postgre e MYSQL. Dados não relacionais utiliza-se a linguagem NoSQL em softwares como o MongoDB. Lidando com Big Data, ferramentas como o Spark e o Hadoop também são utilizados. Eles permitem o trabalho de vários computadores em paralelo em bases de dados demasiado grandes para caber num único computador.


A confusão entre Cientista de Dados e Engenheiro de Dados tem sido um dos gargalos da adoção da dataficação em empresas. Várias empresas, buscando vantagens na dataficação contrataram Cientistas de Dados, mas o operacional do Cientista de Dados demanda já uma cultura de trabalho com dados pronta. É o engenheiro de dados que é a base do trabalho utilizando dados, o que tem sido retificado nos últimos anos. Também é salutar lembrar que a separação entre o processos de Ciência de Dados e Engenharia de Dados dependem do tamanho da empresa e divisão do trabalho. Algumas vezes um realiza o processo que o outro normalmente faz.


E o Direito?


Vimos o que é o trabalho de Engenharia de Dados e o básico de algumas das funções e tecnologias que ele utiliza. Mas qual é a razão pela qual advogados e juristas devem ter uma concepção mais aprofundada deste processo?


Podemos pensar nas seguintes atividades de Engenharia de Dados: I) Produz-se análise de requisitos de dados como quanto tempo os dados devem ser armazenados ou quais sistemas serão usados. II) Manter metadados sobre os dados, qual tecnologia gerencia os dados, qual Schema, tamanho, segurança dos dados, origem, proprietário final dos dados. III) Mecanismos de segurança e governança de dados, como Controles centralizados, criptografia, auditoria de dados. IV) Coletar e armazenar os dados em banco de dados relacional ou utilizando métodos NoSQL.


Várias destas atividades tem forte conexão com a disciplina de proteção de dados. Lidar com privacidade e proteção de dados demandam soluções, ferramentas e políticas de vários tipos, mas, sobretudo, soluções de sistema, e os engenheiros de dados que constroem tais sistemas. Situações como como lidar com um produto de dados da empresa após uma requisição, pelo titular de dados, de remoção do dado da base de dados ou como traduzir regulações em políticas de coleta e armazenagem demandam trabalho em conjunto do setor jurídico e do Engenheiro de Dados. Mas o jurídico de empresas com tais sistemas deve ser capaz de interpretar se o pipeline está em conformidade com a proteção de dados.



Referencia

[1] https://www.theinformation.com/articles/data-is-the-new-sand

[2] LGPD http://www.planalto.gov.br/ccivil_03/_ato2015-2018/2018/Lei/L13709.htm