top of page

Discriminação Algorítmica: Origens, Conceitos e Perspectivas Regulatórias (Parte 1)

Atualizado: 20 de jul. de 2020

Gustavo Schainberg S. Babo


Introdução Um algoritmo é apenas um conjunto de instruções sobre como realizar uma tarefa. Eles variam de simples programas de computador, definidos e implementados por seres humanos, a sistemas de inteligência artificial muito mais complexos, treinados com terabytes de dados.

Os governos e as empresas cada vez mais utilizam algoritmos para aumentar a consistência das decisões, economizar dinheiro ou apenas gerenciar processos complicados. As decisões baseadas no aprendizado de máquina podem ser incrivelmente úteis e tem um impacto profundo em nossas vidas.

A confiança e a responsabilidade são conceitos necessários que devem existir entre essas diversas aplicações dos algoritmos na sociedade. Para isso, vários debates são movimentados sobre ética, automação e futurismo, para que os pontos positivos dos algoritmos sejam explorados ao máximo.

Contudo, os temores sobre os impactos da Inteligência Artificial no futuro estão distraindo os pesquisadores dos riscos reais dos sistemas implantados, como os vieses discriminatórios dos algoritmos utilizados. A natureza onipresente desse problema significa que precisamos de soluções sistemáticas urgentes.

O artigo pretende defender que tornar um algoritmo justo pode ser difícil ou impossível. No entanto, pode ser muito mais fácil identificar e consertar as discriminações algorítmicas do que as discriminações somente entre os seres humanos. Assim sendo, o uso da tecnologia com responsabilidade pode ser um avanço muito positivo para sociedade.

Dessa forma, vamos primeiramente entender as diferentes maneiras que um viés algorítmico pode ser gerado, distinguindo cada possibilidade de discriminação. Observa-se que, por mais complexo que seja o tema, as soluções são mais simples do que muitos entusiastas acreditam. Afinal, descobrir uma discriminação algorítmica pode ser um exercício estatístico fácil, como ao perguntar centenas de milhares de vezes à tecnologia “o que você faria nesse caso?” e mapear as diferenças relacionadas à dados sensíveis dos resultados.

Ademais, trataremos também da necessidade da elaboração de regulamentações adequadas e específicas para o tema. A Lei Geral de Proteção de Dados (LGPD) retoma o princípio da não discriminação (art. 6º, IX) para o tratamento de dados pessoais. Contudo, ainda é preciso uma posição mais detalhada para estruturar e organizar os modelos das ferramentas de auditoria, as consequências das irresponsabilidades e equívocos cometidos, as formas viáveis que os algoritmos devem ser construídos para que evitem discriminações e, por fim, definir qual o nível de equidade que queremos nos modelos de IA.

Outrossim, uma regulamentação ainda mais específica garante segurança jurídica e pode ser muito positiva ao estabelecer padrões e transmitir orientações de forma transversal e multissetorial. Assim sendo, se as discussões forem realizadas levando em conta os interesses de todos os stakeholders, o resultado pode ser muito benéfico para a sociedade, para os governos e para as empresas. 1) Discriminação na sociedade Primeiramente, vamos entender como funciona a didática do preconceito e da discriminação da nossa sociedade. O filósofo Gadamer faz uma interessante conceituação, pois para ele, “preconceito”, é entendido como pré-conceitos às ideias que tecem nossa compreensão e essas pré-compreensões subjazem à prova da experiência. Isso significa que, nas incertezas e no desconhecido, geramos pré-compreensões para tentar imaginar uma verdade.

Por conseguinte, para Gadamer: É impossível estarmos isentos de quaisquer preconceitos diante da nossa capacidade de especulação; são também eles que nos impulsionam a ir ao encontro do que seja verdadeiro. Não longe disso, a falta de fundamentação poderia acarretar num descrédito daquilo a que se faz alusão."

Nesse sentido, o preconceito é uma posição que tomamos ante o que se nos apresenta, podendo assumir um juízo positivo ou negativo. Além disso, o preconceito é um mecanismo importante na sociedade, inclusive para o desenvolvimento da ciência. Isso porque os questionamentos e hipóteses (pré-compreensões) acabam sendo os primeiros passos para chegar à verdade e são elementos antecessores do resultado.



Todavia, quando o preconceito é negativo, podemos caracterizá-lo como discriminatório, ou seja, uma pré compreensão que transgrediu os direitos de uma pessoa. Esse escopo certamente merece uma análise muito mais cautelosa em relação às consequências das transgressões, que serão analisadas posteriormente em outra publicação, pois estamos focados agora em entender como essa discriminação pode acontecer dentro das novas tecnologias e em defender que algoritmos podem sim ser escolhas melhores.

Concomitantemente, nos modelos que fazem predições baseadas em dados de entrada, ocorre a mesma situação: as suposições que a tecnologia faz sem conhecer o que verdadeiramente se apresenta são o caminho para o conhecimento ou o resultado, e elas também podem conter discriminações, afinal, como destaca Solon Barocas, pesquisador da Cornell University: Como a mineração de dados se baseia em dados de treinamento como verdade básica, quando essas entradas são distorcidas por preconceito ou desatenção, o sistema resultante produzirá, na melhor das hipóteses, resultados não confiáveis e na pior das hipóteses, discriminações. Assim sendo, o resultado de um algoritmo também pode assumir um juízo positivo ou negativo dependendo dos dados de entrada (pré-compreensões). Contudo, diferentemente das relações humanas, os algoritmos podem chegar à juízos negativos não só pela entrada de dados discriminatórios e geração de resultados negativos, como também pela estruturação equivocada de códigos, erros estatísticos, herança dos desenvolvedores e outros ajustes técnicos ocasionais que vamos entender em seguida como ocorrem. 2) Discriminação nos algoritmos a) Base de dados tendenciosa A intenção dos algoritmos é, na maioria das vezes, tomar decisões sobre o futuro baseados em estatísticas do passado, realizando a predição de uma situação. Todavia, usar dados históricos para treinar algoritmos pode significar a reprodução de erros do passado pelas próprias máquinas. Com isso, a tecnologia pode agravar a discriminação nas tomadas de decisões ao utilizar dados tendenciosos ou que contenham preconceitos institucionalizados. Esse é a primeira possibilidade para o desenvolvimento de um algoritmo discriminatório que analisaremos.

São vários os exemplos de vieses ocasionados pelas bases de dados tendenciosas, como o uso de algoritmos para realizar contratações de emprego que, ao utilizar os bancos de dados nos quais as mulheres ocupavam menos cargos no mercado de trabalho, fez com que a tecnologia valorizasse mais o gênero masculino para uma contratação.

Ademais, até os preconceitos mais subjetivos na sociedade também podem ser acentuados com o uso dessas bases pelos algoritmos, como por exemplo, o fato que recrutadores selecionam mais candidatos com nomes que soam com brancos do que nomes que soam com negros. Portanto, um algoritmo também pode ser discriminatório ao utilizar esse tipo de dado com viés racista e subjetivo para seu aprendizado, assim como se o modelo for treinado com uma base de dados que possui um histórico de várias decisões distorcidas por vieses inconscientes desses recrutadores.

Dessa forma, é possível entender que não criar um viés algorítmico é uma tarefa muito difícil, pois quase sempre estaremos reproduzindo os preconceitos estruturais da sociedade. Nesse caso, a revisão ou verificação constante das decisões automatizadas e a avaliação da base de informações e da estrutura de dados utilizada demonstram ser fundamentais, pois na maioria das vezes, o processo de “desenviesamento” é um ajuste relativamente simples.

Como mencionado, essa é a forma de viés mais comum e existem centenas de outros exemplos dessas discriminações, como na concessão de crédito, nas publicidades direcionadas racistas ou até em decisões judiciais. Um outro exemplo notório é o caso do algoritmo COMPAS , utilizado no sistema judiciário americano. Essa ferramenta tratava dados dos réus para classificá-los em relação à possibilidade de reincidência, auxiliando juízes a determinarem sentenças.

Na teoria, eram vários benefícios do algoritmo que prometiam prever o comportamento criminoso, gerando análises para alocar recursos mais assertivamente. A tecnologia poderia até evitar decisões com vieses inconscientes dos próprios juízes, situação que pode acontecer por diversos motivos, como o horário de uma sentença ou a rotina de alimentação dos magistrados. Todavia, a teoria não se concretizou e os resultados dos algoritmos foram muito prejudiciais.


Diferenças discriminatórias na pontuação de reincidência violenta.

Nesse caso, os dados históricos do sistema criminal americano representavam uma sociedade preconceituosa e ao utilizá-los o algoritmo ampliou e perpetuou os vieses nas decisões judiciais e reproduziu o racismo. Isso acontece porque a inteligência artificial usa estatística para encontrar padrões nos dados massivos. Todavia, esses padrões estatísticos são correlações e não causalidades lógicas. Observe a explicação de uma publicação do MIT Technology Review sobre o caso: "Se um algoritmo descobriu, por exemplo, que a baixa renda estava correlacionada com a alta reincidência, não ficaria mais claro se a baixa renda realmente causava o crime. Mas é precisamente isso que as ferramentas de avaliação de risco fazem: elas transformam insights correlativos em mecanismos de pontuação causal."


Os problemas da discriminação algorítmica pelo uso de bases de dados tendenciosas podem ter origens ainda na coleta de dados, uma vez que os modelos de previsão na justiça criminal utilizam dados de diversas fontes. As bases de dados criminais, por exemplo, já possuem diversos preconceitos institucionais da sociedade. Além disso, o próprio histórico de decisões do judiciário americano também é uma base tendenciosa, seja pela herança dos preconceitos dos magistrados ou pelos vieses cognitivos e inconscientes deles. Com isso, o algoritmo gerou correlações que foram consideradas causalidades e os resultados apresentados por ele eram discriminatórios.


Ademais, o problema do preconceito também vai muito além do judiciário. Na verdade, seria necessário repensar como as agências policiais coletam e analisam dados, e como eles treinam sua equipe para usar os dados no trabalho. Isso porque os dados da polícia também não são coletados uniformemente. Ou seja, apenas ajustes estatísticos e tecnológicos nas bases de dados já existentes utilizadas pelo COMPAS não resolvem o caso completamente, uma vez que é preciso desestruturar a discriminação também em outras instituições e na ação da polícia na sociedade.


Todavia, mudar algoritmos ainda é mais fácil do que mudar pessoas. Seria muito mais simples pensar em soluções técnicas e estatísticas dos modelos de forma transversal do que combater o preconceito estruturado na própria sociedade.


Será tema para um próximo texto avaliar as soluções técnicas para a discriminação algorítmica. Nesse momento, vamos continuar entendendo como identificar esse viés algorítmico e como eles podem ser relativamente simples, além de debater a necessidade de uma regulamentação mais adequada para ajudar a construir algoritmos melhores e garantir tratamento equitativo em nossa sociedade.


b) Representação



Um desses processos que ainda está relacionados à base de dados, mas não necessariamente aos preconceitos históricos, é a problemática da subrepresentação ou da sobrepresentação de grupos específicos no algoritmo. Ou seja, quando partes da sociedade estão diferentemente contidas no volume de dados que será processado em relação à realidade, excluindo ou não certos grupos.


Para entender melhor os vieses possíveis pela diferença de representação, vamos analisar o caso do aplicativo Street Bump, utilizado em Boston para detectar quando motoristas andam sobre buracos, através de acelerômetros embutidos em smartphones. Como destaca a professora do MIT, Kate Crawford, essa criativa solução de uma cidade inteligente pode ser desastrosa: "Diferenças sistemáticas na propriedade de smartphones provavelmente resultarão na subnotificação de problemas de estradas nas comunidades mais pobres, onde grupos estão desproporcionalmente desconectados. Se a cidade confiasse nestes dados para determinar para onde deveria direcionar recursos, aumentaria a desigualdade. A cidade discriminaria aqueles que não têm a capacidade de relatar problemas de forma eficaz como residentes mais ricos com smartphones mais avançados."


Assim sendo, se cuidados não forem tomados, vários danos relacionados à representação desproporcional de grupos podem acontecer. Nesse caso, relacionado à subrepresentação de uma parte da sociedade. Como mencionado, se a cidade de Boston confiasse nesses dados, aumentaria os problemas das comunidades mais pobres que não

estariam presentes no banco de dados para o aprendizado dos algoritmos, por possuírem aparelhos celulares menos tecnológicos e com menos recursos.


Além disso, a discriminação também pode acontecer em uma situação inversa a essa, que seria justamente a sobrepresentação de um grupo. Esse seria o caso da utilização de dados pela polícia de Chicago para saber em quais bairros acontecem mais chamadas policiais, a fim de elaborar estratégias e alocar recursos para combater o crime.


Contudo, os bairros com muitas ligações policiais n ão são necessariamente os mesmos lugares em que mais crimes estão acontecendo. E sim, onde está a maior atenção da polícia. Ademais, o local onde essa atenção se concentra pode ser influenciado por fatores de gênero e raça, ou seja, os preconceitos históricos da sociedade - item a - também se relacionam com esse exemplo.


Por fim, verifica-se que concertos técnicos e estatísticos também são possíveis para ajustar esses vieses oriundos de diferenças de representação da sociedade em uma base. Dessa forma, começamos a entender a necessidade de uma solução mais transversal, que contemple todas as possibilidades da construção de um viés.


Há também o fator precisão, mas continuaremos na próxima semana.



bottom of page