Ata de Reunião: Big Data - Parte 1

16 de jun. de 2019
8 min de leitura

Atualizado: 30 de jul. de 2019

Grupo de estudos em Direito, Tecnologia e Inovação - DTI

Tema: Big Data

Relatores: Ana Luiza Marques e Matheus Felipe

WEAPONS OF MATH DESTRUCTION

Cathy O'Neil

A autora inicia seu texto expondo os problemas da “big data economy”, em que, mediante a utilização da matemática aliada com a tecnologia, passou-se a utilizar dados extraídos das mídias sociais ou de sites de e-commerce, para analisar o comportamento dos seres humanos (desejos, ações e poder aquisitivo).

Contudo, malgrado a análise feita por programas de computador seja considerada, por muitos, como justa e objetiva, os modelos matemáticos são baseados em escolhas tomadas por humanos, e podem, portanto, conter preconceitos, equívocos e vieses. Além disso, os modelos são opacos, pois o seu modo de funcionamento não é acessível a todos, mas somente aos especialistas na área (matemáticos e cientistas da computação). Por conseguinte, os resultados obtidos por estes sistemas não podem ser impugnados por grande parte da população.

Estes modelos são chamados pela autora de Weapons of Math Destruction – WMD’s (armas de destruição matemática). Um dos exemplos mencionados no texto foi o sistema utilizado na cidade de Washington para avaliação do desempenho dos professores das escolas públicas, denominado IMPACT.

Neste sistema, os professores eram avaliados com base no desempenho de seus alunos em provas anuais. Ademais, eram levados em consideração outros fatores que poderiam afetar o desempenho dos estudantes, como o contexto socioeconômico e a existência de transtornos de aprendizagem. O sistema ensejou a demissão de 206 professores do distrito.

Cathy O’Neil aponta, então, alguns dos problemas do sistema. O primeiro mencionado pela autora foi a quantidade de dado disponível para a análise dos professores. Isso porque existem inúmeros fatores que podem influenciar o ensino e o aprendizado e utilizar como base o desempenho de 25 ou 30 estudantes para a análise não é suficiente. Em razão do número de fatores a serem levados em consideração, uma ferramenta com rigor estatístico deveria ser testada em milhares de estudantes selecionados de forma aleatória, uma vez que os estatísticos dependem de grande quantidade de dados para averiguar exceções ou anomalias.

Em segundo lugar, a autora citou o problema de feedback. Com efeito, sistemas estatísticos dependem do feedback, para a verificação da apuração do modelo, pois os erros do sistema são utilizados para a sua aprimoração. Sem o feedback, o sistema pode continuar a fazer uma análise ruim ou equivocada, sem que aprenda com seus resultados. No caso do sistema IMPACT, os professores que obtiveram pontuações ruins foram demitidos, sem que houvesse análise posterior do acerto dos resultados.

Desta forma, a qualidade do professor correspondia àquela apontada pelo algoritmo, que passou a ser alimentado por seus próprios resultados, caracterizando o que a autora denomina de feedback loop.

Cathy O’Neil destacou, ainda, a opacidade do modelo, porquanto os professores demitidos em virtude da avaliação não conseguiam compreender quais os critérios que determinaram sua baixa pontuação.

Ao final, a autora encerra a introdução afirmando que o livro será focado nos problemas das WMDs e nas injustiças por elas perpetuadas.

O que é um modelo?

Partindo do exemplo dos modelos utilizados no baseball – considerados pela autora como um exemplo de modelo saudável – Cathy O’Neil expõe o que é um modelo, como eles são construídos e o modo como funcionam.

Conforme ensina a autora, os modelos são uma forma abstrata de representação de um processo, que utiliza o que conhecemos para prever respostas em situações variadas. Assim sendo, os modelos são, por sua própria natureza, simplificações, que não podem conter toda a complexidade do mundo real, tampouco as nuances da comunicação humana.

Inevitavelmente, algumas informações importantes não são incluídas, uma vez que, ao criar um modelo, devese escolher quais informações são relevantes e deverão ser incluídas. Desta forma, sempre existirão erros, provenientes destes “pontos cegos” (blindspots). Os blindspots refletem as prioridades dos criadores do modelo e podem ou não impactar no resultado alcançado.

Constata-se, portanto, que, apesar de reputados imparciais, os modelos refletem os objetivos e a prioridade de seus criadores. Por este motivo, a análise do sucesso de um modelo também é subjetiva, pois depende dos objetivos visados. A autora menciona, ainda, algumas características que diferenciam um modelo saudável de uma WMD. O sistema utilizado no baseball, por exemplo, conta com dados extremamente relevantes para os resultados que buscam prever.

Por outro lado, nas WMD’s, faltam dados sobre os comportamentos de interesse, de forma que são feitas correlações (utiliza-se, por exemplo, o endereço de uma pessoa ou o seu padrão de linguagem para determinar o potencial de pagamento de empréstimo ou de capacidade para um trabalho).

Do mesmo modo, modelos saudáveis são transparentes e constantemente atualizados, por meio de um feedback adequado. No caso do baseball, os resultados das partidas são comparados com as previsões do modelo, para avaliar se este estava correto ou não e para realizar as adequações necessárias.

Ademais, em modelos saudáveis, as pessoas analisadas compreendem o processo e compartilham de seu objetivo. Os WMDs, por sua vez, são opacos e, em algumas situações, invisíveis, sendo uma das justificativas para tanto a proteção da propriedade intelectual.

Outrossim, os participantes não sabem que estão sendo analisados, tampouco a função do modelo. Ainda, deve-se destacar o feedback loop, pois, em um WMD, o próprio modelo ajuda a criar o ambiente que justifica as suas suposições.

Por fim, a autora aponta que as armas de destruição matemática possuem a capacidade de crescer exponencialmente, afetando diversas esferas da vida em uma grande dimensão espacial. Em conclusão, as características das WMDs podem ser sintetizadas da seguinte forma: opacidade, escala e dano.

BIG DATA: A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE, WORK, AND THINK

Viktor Mayers-Schönberger; Kenneth Cukier

No primeiro capítulo, os autores traçam os contornos do conceito de Big Data. O termo foi cunhado, em um primeiro momento, para representar o fenômeno de crescimento exacerbado da quantidade de dados, que não eram mais comportados dentro do sistema operacional dos computadores da época, impondo aos engenheiros a renovação das ferramentas de análise.

Já atualmente, Big Data se refere a possibilidade de extrair insights e criar formas de valor a partir de uma larga quantidade de dados, modificando mercados, organizações, relações entre os cidadãos e o governo, entre outros.

Para os autores, Big Data está intrinsecamente relacionado com predição e, como consequência, com o ramo da ciência da computação denominado inteligência artificial e, mais especificamente, aprendizado de máquina.

Os autores ressalvam que não se trata, por outro lado, de tentar ensinar os computadores a pensarem como humanos e sim de aplicar matemática a uma gama de dados de modo a inferir certas probabilidades. O valor estaria agregado não às máquinas capazes de calcular os dados e sim aos próprios dados, que, devido ao crescimento exponencial, possibilitaram probabilidades cada vez mais acuradas.

Nesse sentido, os autores apontam que o crescimento de dados armazenados tem crescido quatro vezes mais rápido que a economia mundial, enquanto a capacidade de processamento dos computadores tem crescido cerca de nove vezes mais rápido.

O fenômeno do Big Data, dada a possibilidade de extração de insights a partir das informações coletadas e armazenadas, faz com que os dados se tornem matéria-prima de diversos negócios, criando formas de valor e serviços moveis, que eram inimagináveis em um contexto de escassez de dados, tornando-se, dessa forma, fonte de valor e inovação.

Com o intuito de exemplificar o Big Data e a sua influência em nossa sociedade, os autores citam o caso envolvendo o artigo publicado por engenheiros do Google no jornal Científico Nature, explicando como a empresa poderia mapear os pontos de contagio do vírus da Gripe H1N1 de modo mais célere do que os Centros de Controle de Doença e Prevenção (CDC) dos Estados Unidos.

Isso porque, enquanto os centros levavam cerca de duas semanas para conseguir obter as informações necessárias para mapear as zonas de surto do vírus, os engenheiros do Google, ao analisar os termos de busca utilizados pelos usuários na plataforma em surtos de gripe anteriores, conseguiram extrair padrões de comportamento que permitiram inferir probabilidades acerca das áreas de surto dos Estados Unidos.

Segundo os autores, o Google obteve êxito em sua análise, diferentemente de outras plataformas que tentaram a mesma estratégia no passado, devido à enorme quantidade de dados armazenados.

No segundo capítulo, os autores tratam, primariamente, da noção ainda arraigada em nossa sociedade de se trabalhar de modo eficiente com a menor quantidade de dados possíveis, em razão da dificuldade que se tinha no passado na coleta, armazenamento e utilização de dados em grande quantidade.

Todavia, apesar de ainda possuirmos limitações quanto ao manejo dos dados, as ferramentas atuais são bem mais eficientes do que as passadas. Ao traçar esse paralelo histórico, os autores enunciam que devido às dificuldades de se tratar uma enorme quantidade de dados, o método estatístico de análises a partir de amostras aleatórias se tornou bastante popular, permitindo a extração de inferências sobre determinada população mesmo com um reduzido número de dados.

Contudo, esse método contém uma série de fraquezas, considerando que depende da aleatoriedade da coleta das amostras de dados para se obter resultados acurados, o que é bastante desafiador, tendo em vista que enviesamentos estruturais na coleta das amostras podem ocasionar em resultados equivocados.

O método de amostras aleatórias, que pode ter resultados relevantes em uma análise macro, é insuficiente quanto se quer analisar profundamente um tema, em um espectro micro, já que a coleta de amostras funciona, em regra, no âmbito de categoriais, padecendo de exatidão quando se parte para uma análise de subcategorias, isto é, pormenorizada.

Em determinadas hipóteses, para se ter resultados efetivos, a utilização de amostras, devido às suas fragilidades, não é possível, de modo que se torna necessário analisar todos os dados, o que não é necessariamente uma tarefa complexa, pois Big Data não precisa ser compreendido tão somente como grande em termos absolutos, apesar de ser na maioria dos casos.

O que caracteriza Big Data é a utilização de todos os dados ao invés de, como medida intermediária, tratar apenas os dados de determinada amostra. Os autores apontam, no entanto, que não é necessário o descarte por completo da utilização de amostras aleatórias para a realização de inferências, haja vista as limitações que ainda possuímos no tratamento de dados, que impedem em determinadas hipóteses a análise de todos os dados de determinada população estatística.

No capítulo três, os autores tratam da desorganização que permeia o Big Data, o que pode gerar certas inexatidões. Diferentemente do período de intensa utilização do método de inferências por amostragem, em que havia uma obsessão pela exatidão, ao se analisar uma grande quantidade de dados inevitavelmente as chances de erro serão maiores, reduzindo a exatidão dos resultados gerais.

Todavia, apesar de se ampliar a possibilidade de erros, mesmo não estando a informação completamente acurada, o grande volume de dados pode compensar e possibilitar insights que não seriam possíveis se prezada uma exatidão estrita. Como retorno da aceitação da desorganização dos dados (que pode se dar devido ao cruzamento de dados diferentes, a desorganização inicial em sua coleta, bem como em razão de seu tratamento), pode gerar diversos serviços de alto valor que não seriam possíveis se adotados métodos e ferramentas tradicionais. É o que se verifica, por exemplo, no caso do Google Tradutor.

No capítulo quatro, os autores tratam da correlação, adentrando no tema pela história da Amazon que, em um primeiro momento, ao coletar os dados dos usuários da plataforma, utilizou técnicas de amostragem aleatória, que foram ineficazes, haja vista a realização pela empresa de comparação de usuário para usuário. Ao se utilizar todos os dados disponíveis, a Amazon começou a utilizar comparações não mais entre os usuários e sim entre os produtos, de modo que um terço de todas as vendas da empresa passaram a decorrer de sistemas de recomendação e personalização.

A correlação (compreendida como a quantificação da probabilidade estatística da relação entre dois valores de dados), ocupa um papel extremamente relevante no Big Data, considerando que possibilita insights de modo mais fácil, rápido e claro do que no passado. Quando se trata de uma correlação forte, a mudança em um valor de dado implica na mudança do outro com o qual está correlacionado. As predições baseadas em correlações são o ponto central do Big Data.

Por fim, no capítulo cinco, os autores tratam de datafication, que é o fenômeno de se transformar em dados informações às quais não se enxerga, em regra, valor, colocando em um formato quantitativo para a tabulação e análise. No datafication se transforma em dados informações que sequer poderiam ser imaginadas como tal, como a localização de pessoas e as vibrações de um motor, possibilitando o uso dessas informações de novos modos, como análises preditivas.

REFERÊNCIA BIBLIOGRÁFICA

MAYER-SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big Data. 2. ed. Boston/New York: Eamon Dolan/Houghton Mifflin Harcourt, 2014.

O´NEIL, Cathy. Weapons of Math Destruction. New York: Crown, 2016.

Ata de Reunião: Big Data - Parte 1

Posts recentes

Comentários