Perspectivas do Big Data (parte 1)

Guilherme Mesquita Estêves



Benefícios de sua utilização e riscos à privacidade


A tecnologia do big data proporciona relevante implementação na funcionalidade de produtos e serviços na era digital e, por outro lado, mostra-se como grave ameaça à privacidade dos usuários.


O termo big data surgiu no início do século XXI, com utilização inicial por astrônomos e geneticistas em um momento em que a capacidade de armazenamento dos computadores não era capaz de acompanhar toda a quantidade de informação disponível, o que os obrigou a pensar em novas formas e instrumentos para análise desses grandes bancos de dados.


Apesar da ampla difusão do termo, não há uma definição uníssona quanto a seu conceito. A fim de elucidar aquela que serve de orientação ao presente artigo, tem-se a ideia de que o big data se refere à possibilidade de extração de padrões e predições a partir de uma grande quantidade de dados; tratam-se de operações que podem ser feitas em larga escala e não o podem em uma escala menor, e possibilitam extrair novos insights ou criar formas de valor, de formas a alterar mercados, organizações e a relação entre cidadãos e governos (MAYER-SCHONBERGER; CUKIER, 2013).


Trata-se de tecnologia que permite a estruturação e a análise de um volume massivo de dados para uma gama indeterminada de finalidades. O big data é comumente associado a três “Vs”: volume, velocidade e variedade (LANEY, 2001). O volume refere-se à quantidade da dados, a velocidade diz respeito àquela em que as informações são captadas e transmitidas – muitas vezes em tempo real e ininterruptamente, e variedade seria a multiplicidade de tipos de dados e fontes (GOMES, 2017). Em suma, verifica-se que

a emergente era do big data implica, por sua própria natureza, uma falta de controle, dado que o volume de dados é sem precedentes, diversificado e move-se a uma velocidade que está cada vez mais se aproximando de tempo real. (GOMES, 2017, p. 20).

O big data excede a capacidade das tecnologias “tradicionais” de processamento, o que a torna capaz de organizar quantidades outrora tidas como inimagináveis de dados – dos bits aos yottabytes1 – e em diversos formatos, como textos, fotos, vídeos e áudios; tudo isso em alta velocidade (BIONI, 2018). A evolução pode ser imputada a uma diferença crucial entre o big data e outras metodologias de processamento de dados, que é o fato da prescindibilidade de os dados estarem previamente estruturados para o seu tratamento (BIONI, 2018). Isso significa ser desnecessário relacionar os dados em entidades e atributos para processá-los, o que cria um novo tipo de linguagem para o big data que é o NoSQL (not only structured query language) em comparação ao SQL (structured query language)2.


É justamente a eliminação da etapa de estruturação dos dados que proporciona os caracteres marcantes do big data (os 3 Vs):

Isso porque tal etapa onera e demanda maiores esforços por parte de quem manuseia uma base de dados. Na medida em que se aumenta o volume, aumenta-se o tempo para estruturar os dados. Da mesma forma, na medida em que se aumentam os tipos (variedade) de dados, demanda-se mais tempo para organizá-los. Diz respeito, enfim, a uma cadeia de fatores interligados que se influenciam reciprocamente, ante a necessidade da etapa prévia de estruturação dos dados, que é descartada pelo Big Data. (BIONI, 2018, p. 41).

Com a nova possibilidade aberta pelo big data, os dados não mais são analisados em pequenas quantidades ou por amostras, mas sim em toda a sua extensão. Isso possibilita a extração de novos insights e novas formas de valor desses dados, de forma a modificar mercados, organizações e o relacionamento de pessoas entre si e com o governo (MAYER-SCHONEBERGER; CUKIER, 2013). O salto no volume de dados também possibilita correlacionar uma série de fatos (dados) e estabelecer relações entre eles para desvendar padrões, o que possibilita, inclusive, inferir a probabilidade de acontecimentos futuros (BIONI, 2018).


O big data consiste em uma metologia de processamento e organização de dados para inferir a (re)ocorrência de acontecimentos, o que possibilita, por exemplo, constatar a gravidez de uma cliente em uma farmácia a partir de sua lista de produtos recorrentemente adquirida.3


Em suma, o big data não se presta a verificar a causalidade de um evento, mas sim a probabilidade de sua ocorrência. Em vez de questionar por que algo acontece, procura-se diagnosticar o que está acontecendo. Não há preocupação com a análise das razões que geram uma cadeia de eventos, mas tão somente com o seu desencadeamento (BIONI, 2018).


O núcleo duro do big data é a predição: apesar de ser descrito como um branch da ciência da computação e da inteligência artificial, e mais especificamente, da área denominada machine learning, essa caracterização é enganosa (MAYER-SCHONEBERGER; CUKIER, 2013). Big data não se trata de tentar “ensinar” um computador a “pensar” como humanos. Na verdade, é sobre a aplicação da matemática à grandes quantidades de dados para a inferir probabilidades: a probabilidade de que um e-mail é spam, a probabilidade de que a digitação de “isos” deveria ser “isso”, que a trajetória e velocidade de uma pessoa que atravessa uma rua movimentada significa que ela provavelmente chegará do outro lado da rua em tempo – o carro auto-guiado pode reduzir sua velocidade apenas levemente, e não frear totalmente. Esse tipo de sistema funciona bem porque eles são alimentados com uma quantidade vasta de dados para a realização dessas predições. Ademais, os sistemas são construídos para se implementarem automaticamente ao longo do tempo, com observância de quais são os melhores padrões e sinais para verificar à medida que mais dados são alimentados (MAYER-SCHONEBERGER; CUKIER, 2013).


Dessa feita, assim como a internet mudou radicalmente o mundo quando possibilitou a comunicação de computadores, também o big data poderá mudar aspectos fundamentais das relações humanas com o fornecimento de uma dimensão quantitativa nunca antes experimentada. Predições mais acuradas, melhores decisões e intervenções mais precisas, tudo isso em uma escala ilimitada, ilustram o poder dessa tecnologia.


O termo “datificação” auxilia na compreensão do fenômeno do big data: ele se refere à coleta de informações sobre toda e qualquer coisa imaginável, com a transformação dos dados coletados em um formato “quantificável”, o que permite o uso dessas informações de novas formas, como em análises preditivas, e resulta no acesso ao valor latente implícito da informação (MAYER-SCHONEBERGER; CUKIER, 2013). A mudança de perspectiva consiste no fato de que

Enquanto humanos, fomos condicionados a buscar por causas, mesmo que a busca por causalidade seja comumente difícil e possa nos levar a caminhos equivocados. Em contraste, em um mundo com big data nós não temos que ser fixados em causalidades; ao revés, podemos descobrir padrões e correlações nos dados que nos ofereçam novos e valiosos insights. As correlações podem não dizer precisamente porque algo está ocorrendo, mas podem nos alertar que esse algo está ocorrendo. (MAYER-SCHONEBERGER; CUKIER, 2013).

A utilização do big data traz à tona uma série de benefícios. Um deles diz respeito à funcionalidade de aplicativos, que é otimizada quando há interação com o universo do big data. Como exemplo, as pesquisas realizadas no Google se tornam mais eficientes e rápidas com a utilização dessa tecnologia, inclusive com sugestão de termos em tempo real enquanto o usuário digita, o que é denominado “preenchimento automático”;4[1] o algoritmo do motor de pesquisa se baseia em bilhões5[2] de informações pesquisadas por outros usuários, que são filtradas e adaptadas às especifidades daquele usuário (GOMES, 2017).


Outro exemplo de benefício do big data é no combate aos spams,6 que tem sido feito de forma mais eficiente graças ao desenvolvimento de ferramentas eletrônicas que se alimentam de grande quantidade de dados, com captação e análise em tempo real, de forma a filtrar mensagens indesejadas. O spam, conhecido dos usuários de correio eletrônico, culmina em perda de produtividade, incômodos, congestionamento de servidores e, não raro, em danos causados ao destinatário da mensagem, inclusive com violação da privacidade:

Os transtornos ocasionados não passam despercebidos pelos juristas, sendo certo que apesar de sua etimologia cômica, o spam consiste em um dos mais sérios inconvenientes da comunicação virtual […]. Mesmo diante da ausência, no Brasil, de Lei específica que impeça de maneira expressa o spam, a tecnologia, através do desenvolvimento de sofisticados algoritmos que utilizam o big data como forma primordial de operação, tem se incumbido de impedir, muitas vezes com sucesso, o recebimento de mensagens indesejadas e consequentemente aumentando a produtividade e até impedindo violações de direitos da personalidade. (GOMES, 2017, p. 26-27).

No setor de saúde o big data também aparenta trazer benefícios, como aumento de eficiência no salvamento de vidas e economia de recursos. Isso porque esse setor historicamente produz vasta quantidade de dados, o que o torna propício para aplicação da nova tecnologia.


Como exemplo tem-se uma parceria entre a IBM e o sistema público de saúde do Canadá; foram compilados milhões de dados armazenados, obtidos de aparelhos que monitoram os sinais vitais de bebês em unidades de terapia intensiva neonatal, com captação e análise de mais de 1.256 informações por segundo, 24 horas por dia (GOMES, 2017, p. 29).


REFERÊNCIA BIBLIOGRÁFICA


[1] O yottabyte é um múltiplo da unidade “byte” usada para informações digitais. O prefixo yotta indica multiplicação pela oitava potência de 1000 ou 1024 no Sistema Internacional de Unidades (SI), de forma que um yottabyte se refere a um septilhão de bytes. O símbolo da unidade yottabyte é YB (WIKIPEDIA).

[2] “Então, qual a diferença entre dados relacionais e não relacionais – ou SQL e NoSQL (Aka NewSQL)? Os dados relacionais são definidos no nível básico por uma série de entidades tabela que contêm colunas e linhas, ligadas a outras entidades de mesa por atributos comuns. Assim, por exemplo, como o proprietário de um pequeno negócio online você pode ter um banco de dados MySQL por trás de seu site com uma mesa de gravação do nome e endereço de e-mail de seus clientes. Outra tabela pode gravar os seus nomes de produtos e seus preços. A terceira tabela pode ligar os dois, registrando os clientes que compraram produtos, com informações adicionais, como a data da compra e se ou não qualquer desconto foi aplicado. (…) Os dados não relacionais, no entanto, não são (em geral) armazenados nas tabelas. Muitas vezes chamados de ‘dados não estruturados’, esses dados consistem de registros separados com atributos que variam, muitas vezes, por registro” (SAMPAIO, 2013).

[3] Um exemplo que ilustra o big data é o da ação por parte da rede de farmácias americana Target. A gravidez é uma fase da vida na qual tais consumidoras consomem uma infinidade de produtos, sendo que tal informação se torna estratégica para as empresas. A equipe de análise da Target conseguiu verificar que tal perfil de consumidoras adquiria uma determinada lista de produtos. Isso permitiu não só prever o estado de gravidez, mas também o período de gestação, para então haver direcionamento de produtos de acordo com a respectiva fase da gravidez. Dessa forma, os algoritmos dos bancos de dados foram programados para estabelecer tal correlação, segmentando, dentre as milhares de consumidoras, aquelas com tal perfil para fins de ação publicitária. A eficiência do big data foi comprovada quando um pai furioso entrou no estabelecimento comercial de tal empresa, acusando-a de incentivar a filha adolescente a engravidar Passados alguns dias, o gerente da loja, preocupado em perder o cliente, ligou para o pai, e esse informou do outro lado da linha que tinha tomado conhecimento do fato de a sua filha estar grávida, desculpando-se pelo ocorrido (BIONI, 2018).

[4] “As previsões de pesquisa vêm de: Termos que você está digitando. Aquilo que outras pessoas estão pesquisando, incluindo as tendências em pesquisas, que são histórias conhecidas na sua área mudam ao longo do dia. As tendências em pesquisas não têm relações com seu histórico de pesquisa. Pesquisas relevantes que você fez no passado (se estiver conectado à sua Conta do Google e se a Atividade na Web e de apps estiver ativada).” (GOOGLE, s.d.).

[5] O Google recebe 40.000 pesquisas por segundo, ou 3.5 bilhões por dia (INTERNET LIVESTATS).

[6] “O termo ‘spam’ é um neologismo surgido na esteira da popularização da internet. Originalmente, refere-se a uma determinada marca de alimento enlatado. Não é possível precisar quando foi empregado pela primeira vez no contexto que agora examinamos: talvez em meados da década de 1980, quando um usuário de um sistema informatizado causou problemas técnicos com a repetição automática da palavra “spam” em um ambiente multi-usuário; ou então, na mesma época, alguns grupos de discussão da USENET começavam a enfrentar mensagens enviadas em massa. O que parece certo é que o termo foi inspirado em um célebre quadro do grupo humorístico Monty Python.” (LEMOS et al; 2015).

BIONI, Bruno Ricardo. Proteção de dados pessoais – a função e os limites do consentimento. Rio de Janeiro: Forense, 2018.

FOOD AND DRUG ADMINISTRATION. The future of food and agriculture – trends and challenges. Roma, 2017. Disponível em: <http://www.fao.org/3/a-i6583e.pdf>. Acesso em: 03 set. 2019.

GOMES, Rodrigo Dias de Pinho. Big data, desafios à tutela da pessoa humana na sociedade da informação. Rio de Janeiro: Lumen Juris, 2017.

HIJMANS, Hielke. The European Union as Guardian of Internet Privacy: True Story of Art 16 TFEU. Bruxelas: Springer International Publishing, 2016.

INTERNET LIVESTATS. Google Search Statistics. Disponível em: <https://www.internetlivestats.com/google-search-statistics/>. Acesso em: 23 ago. 2019.

LANEY, Doug. 3D Data Management: Controlling Data Volume, Velocity and Variety. In: Blog Gartner, 2001. Disponível em: <https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf>. Acesso em: 20 ago. 2019.

Centro DTIBR - Direito, Tecnologia e Inovação

Avenida João Pinheiro, 146, 10º andar, Lourdes

Belo Horizonte/MG, Brasil

CEP 30.130-927

CNPJ 32.727.924/0001-80

Clique aqui para nossa localização