[ editar artigo]

A inevitabilidade dos dados: ética e dados

A inevitabilidade dos dados: ética e dados

Propósito

De uma maneira muito direta, e talvez atrevida, podemos dizer que o que as pessoas buscam na relação com os dados é justiça, responsabilidade, responsabilização, segurança, privacidade, respeito pelos direitos humanos, e eficácia. É a ética que serve como conduíte para essas relações.

Se um ativo, digital ou não, tem um potencial transformador expressivo, provavelmente questões éticas surgirão em seguida. Aconteceu com a medicina, as guerras e a proliferação nuclear. A utilização dos dados, bem como sua expressão no zênite da inteligência artificial estão passando pelo mesmo processo.

A ética associada ao uso de dados é um assunto merecedor de uma antologia vasta construída após muito estudo, discussão, debate e prática. Dito isso, esse artigo não pretende realizar uma abordagem definitiva ou holística. Contudo visa, humildemente, dar algumas contribuições à reflexão sobre o tema que historicamente tende a acumular mais questionamentos do que conclusões.  No momento em que estamos iniciando a quarta revolução, presenciando mudanças em metodologias e tecnologias, a preocupação ética sobre os dados é outra consequência da geração e a capacidade de processamento de grandes quantidades de dados.

Normalmente quando se discute ética, logo vêm os exemplos de ética aplicada apresentando cenários e situações, muitas vezes dilemáticas, a nos fazer ponderar as possibilidades. Desviando da discussão filosófica metaética, a definição da ética normativa seria a chave para planejamos e acionarmos em campo o uso de dados de forma ética. O intuito é ter um guia pronto a ser seguido, no lugar de ser reativo a cada caso. No entanto, uma lista como essa, com as práticas recomendadas e objetivas está longe de ser unanimidade ou realidade. No entanto, continuamos evoluindo, um dilema após o outro.

Embora alguns delitos éticos sobre dados, como vazamentos e manipulações já ativam ações legais diretas, governos e entidades ainda elaborando regulações. Alguns exemplos incluem a Lei Geral de Proteção a Dados (LGPD) no Brasil, o Regulamento Geral de Proteção de Dados da União Europeia (GDPR), além da Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA) e a Lei de Direitos Educacionais e Privacidade da Família (FERPA) ambas dos EUA, bem como a Lei de Privacidade do Consumidor da Califórnia.

Em escopo ainda mais resoluto, há coletivos se reunindo para delinear conjuntos de diretrizes. Por exemplo, Bloomberg, BrightHive e Data for Democracy estão desenvolvendo um código de ética de dados denominado Princípios da comunidade sobre compartilhamento ético de dados (CPEDS) para codificar a ética de dados para cientistas de dados. Cinco gigantes da tecnologia, Google, Facebook, IBM, Microsoft e Amazon fundaram o projeto “Partnership on AI”, para estabelecer as melhores práticas para a inteligência artificial e discutir as influências da tecnologia na sociedade.

Com tantos participantes e esferas diferentes é um desafio orientar os interesses. Por isso é importante manter o foco no que subjaz a ética, como mencionado na introdução desse texto, e passível de repetição ad nauseam: justiça, responsabilidade, responsabilização, segurança, privacidade, respeito pelos direitos humanos, e eficácia.

Em outras palavras, o que se deve buscar é conseguir que se garanta o uso de dados justo e razoável, que se prove que algoritmos são confiáveis e que se minimize vieses, preconceitos e desigualdades sociais.

Uma abordagem racional e sadia

Se governos e empresas procuram uma linha de conduta para nortear-se. A academia tem sido uma fonte confiável e neutra para tal. Daqui devem surgir o denso da antologia sobre o assunto.
Por exemplo, em sua reconhecida publicação “What is data ethics?” os pesquisadores Luciano Floridi e Mariarosaria Taddeo introduzem o assunto como um possível novo ramo da ética, e dividem o assunto em três campos de aplicação:

  1. Manuseio de dados (geração, guarda, curadoria, processamento, compartilhamento e uso)
  2. Algoritmos (inteligência artificial e agentes)
  3. Práticas acessórias (inovação responsável, programação, hacking e regulamentação)

De um lado separam as tarefas sobre o dado in natura, de outro traçam uma fronteira com as práticas externas que também influenciam no trato do dado, informação, conhecimento, mas que também devem ser avaliadas. No entanto, ali, bem no centro de tudo está destacado motor que transforma essa matéria prima, os algoritmos.

O dado em si não é bom ou mal e portanto a discussão ética deve ser levada a essas outras derivadas. No extremo, para fazer processamento massivo, precisamos de sistemas algorítmicos que dão sentido aos dados. E é sobre os algoritmos que a discussão amplia notadamente seu sentido.
No mesmo texto, os pesquisadores apontam para a possibilidade de identificação de indivíduos mesmo que não sejam disponibilizados seus dados sensíveis.

Ao agrupar indivíduos em conjuntos com as mesmas características, ou inferir informação sobre dados plausivelmente inocentes, pode-se tirar conclusões sobre quem é o indivíduo ou quais são suas preferências. Isso pode suscitar uma quebra de privacidade ou tratamento discriminatório, mesmo que se tenha evidências conclusivas e fundamentadas, já que as conclusões são baseadas em atributos de proxy como comportamento coletivo, associações e postagens espontâneas, em vez de atributos legalmente protegidos, como etnia, religião ou gênero. Em outras palavras, é o equivalente digital de “diga-me com quem andas e eu te direi quem és”.

Pessoas são semelhantes entre si. Ao se comportarem de uma determinada maneira, podem afetar-se mutuamente. Por exemplo, se um indivíduo for colocado em um grupo de pessoas e então todos naquele grupo ficam porventura inadimplentes, isso provavelmente afetará a taxa na qual aquele sujeito obteria um empréstimo futuro.

Essencialmente o que temos são grupos que não existem realmente nominalmente. Os membros não vão necessariamente perceber que são parte de um grupo, ou quem são os outros integrantes como em um sindicato ou clube, os quais podem contar com algumas proteções. Mas existem com propósito específico de tomar uma decisão e serão baseados nesses vínculos muito tênues entre as pessoas conhecidos apenas pelos algoritmos.

Não fica claro com se pode proteger a privacidade desse tipo de grupos cujas características são induzidas e que existem apenas dentro de um contexto muito particular, ou dentro de um sistema particular. Há inclusive de se indagar em quais situação precisam ter a privacidade e individualidade protegidas e em quais contexto isso não se faz necessário.

Ainda assim, as recomendações desse sistema podem ter efeitos significativos, inclusive positivamente, sobre os membros do grupo.
Fica então a dúvida não resolvida de onde traçar a fronteira ética da busca desses achados, que só ficarão cada vez mais acessíveis com a evolução dos métodos e poder computacional.

O território inexplorado, o ineditismo de façanhas como a descrita acima, e até então impossíveis, são atrativos muito tentadores a alguns praticantes da ciência de dados e podem ser fontes de problemas não apenas no espaço da ética, mas também em qualquer abordagem para regulamentar a coleta e análise de dados.

Autômatos

Outro ponto a ser discutido tem a ver com a automatização do uso de dados que potencializa ainda mais o surgimento de novos dados.
Há de se decidir quais seriam as regras de tomada de decisão ética para agentes artificiais, sejam eles assistentes, robôs, ou bots de software limitados a pequenas tarefas.

Aqui vale um esclarecimento para o leitor menos atento. Estamos nos atendo aos sistemas fruto da inteligência artificial estreita que é possível de ser implementada e é utilizada nos dias de hoje. Não nos referimos aqui aos sistemas com inteligência comparável à humana, à inteligência artificial geral ou à superinteligência. Esses últimos, por serem apenas teóricos, requeririam de um debate especulativo muito mais amplo. Mas para ser justo, fica um comentário: em contrapartida talvez sejam necessários para chegarmos, um dia, à um modelo universal de ética sobre dados.

Nesse momento, precisamos afunilar a discussão sobre agentes artificiais que podem interagir uns com os outros e com pessoas realizando tarefas específicas. O exemplo clássico é o do carro autônomo que tem que decidir sobre um acidente inevitável. É necessário decidir quem é que está realmente fazendo essa escolha, decidindo quais são as regras apropriadas e incorrer em uma possível responsabilização se esse for o caso. Já houve propostas nas quais o motorista ou proprietário do veículo autônomo detenha o controle. Então há um questionário onde esse indivíduo define cada situação.

Por exemplo, há uma seleção que afirma que não há problema em matar o motorista se estiver prestes a colidir em algo ou atropelar os pedestres, ou, vice‑versa, se prioriza sua vida a todo custo. É uma possibilidade dentro do arcabouço da ética aplicada.

No entanto, essa abordagem necessita que todas as possibilidades sejam previstas. Deixa de ser uma situação baseada em reflexos e reações instintivas, para ser deflagrada sob decisões premeditadas e longamente avaliadas. E quando a decisão precisar sofrer alteração, seja por atualização de regras ou simplesmente bom senso, por vezes intempestivamente, pode acabar como normas essencialmente éticas sendo congeladas em sistemas.

Por fim, podemos chegar a ter diversos sistemas, cada um com sua própria denotação moral ou uma versão embutida do que é eticamente aceitável. Nesse exemplo, é muito natural entender como essa noção do que é bom ou certo se expressa. Mas no caso de outros tipos de sistemas analíticos, nos quais os efeitos não são particularmente imperceptíveis para os humanos, pode ser impossível calibrar e medir seus reais efeitos.

Desvios

Se falamos de ética em dados, não podemos deixar de falar em vieses.
Modelos são imaginados, criados e treinados por humanos, a partir do nosso ponto de vista e de nossa compreensão do mundo. São decisões humanas, com perspectiva própria que carregam consigo bagagem cultural, concepções pessoais, vícios e crenças.

Mesmo com a mais vigilante cautela podemos estar introduzindo inadvertidamente nossos preconceitos em algoritmos. Não é à toa que uma das características que nos diferencia das máquinas é justamente termos motivações complexas, por vezes tendenciosas e admiravelmente ilógicas.

Errar é humano e estamos emprestando essa qualidade às máquinas quando as criamos. Contudo, depois que entalhamos nossos algoritmos nas máquinas, passamos a confiar neles como se estivessem sido esterilizados.

Ainda assim, mesmo que atinjamos o nirvana de um algoritmo infalível, canônico e íntegro, ainda assim resta a dado, seu combustível. Os luminares cientistas de dados usam uma expressão muito ilustrativa sobre essa situação, especialmente ao mencionar a alimentação de dados a um algoritmo de aprendizagem de máquina: “se é lixo que entra, é lixo que sai”.

Portanto, há uma dependência direta sobre a qualidade de dados, tema que foi coberto nos artigos anteriores dessa série. A partir de muito recentemente, esse cuidado está sendo tomado e esperamos que novas fontes de dados devem apresentar menos enviesamento. Mesmo assim, ao usarmos dados históricos, carregamos com eles uma representação da sociedade e do contexto no qual foram criados.

Convicções, crenças, comportamentos, cultura. Usando um exemplo recorrente, uma corte moderna que tenha adotado aquele algoritmo impecável baseado em aprendizado de máquina vai alimentá-lo com as decisões de cortes anteriores. Se esses dados não forem tratados, discriminados, sanitizados e desenviesados, as novas cortes tenderão a perpetuar as sentenças baseadas nas características avaliadas e proferidas por seus antecessores, condenando e absolvendo certos grupos com a mesma frequência.

Como em uma soma vetorial, algoritmos e dados se combinam para dar uma direção e uma magnitude, se apontarem ou pesarem de forma equivocada o resultado pode ser perverso. É preciso, de alguma forma, gerenciar preconceitos digitalmente. Esse é um dos papeis do praticante da ciência de dados, quem detém o conhecimento e poder para aplicar as escolhas corretas. E, já foi dito, com grandes poderes vêm grandes responsabilidades.

No fim das contas, não é a ciência de dados ou a inteligência artificial que deve carregar toda a culpa dos vieses que podem derivar em faltas ética. Os sistemas também são contaminados pela falibilidade humana das tomadas de decisão.

Como abordado, dados refletem a sociedade, se queremos resultados algorítmico éticos, precisamos partir de uma sociedade ética. Se chegarmos ao estado proverbial de um sistema digital totalmente ético, provavelmente algum viés de sentido e magnitude contrário aos existentes deva ter sido introduzido para distorcer e reequilibrar os resultados. Nesse caso, poderia ser um viés benéfico. Mas sempre resta a referência ao poeta romano Juvenal para perguntarmos quem vigia os vigias.

Muito dessa percepção tem a ver com o fato da IA ser, por vezes, opaca.
Uma tendência que tem evoluído é introduzir em regulamentações que se exija a explicabilidade dos algoritmos, e assim, desnudar a ética por traz dos sistemas.

A intenção e louvável, até porque direciona a pesquisa para um espaço que de outra forma provavelmente não seria explorado. Contudo, hoje, nem sempre conseguimos extrair de um algoritmo os passos e os métodos que foram usados para chegar em uma determinada conclusão. Em algoritmos mais profundos, uma inteligência artificial explicável é ainda menos alcançável.

No lugar disso, pesquisadores propõem que se encontrem os vieses antiéticos nos dados e usar um segundo sistema de IA para encontrá-los usando técnicas como proximidade e paralelismo. É, sem dúvida, uma aproximação da IA ​​explicável tornando-a uma IA ​​transparente, expondo as entranhas de suas tendências nos dados.

O intuito é que um indivíduo que se sinta injustiçado, ou curioso, possa requisitar ao detentor de um algoritmo que descreva o processo que a máquina levou para chegar a tal conclusão.

Pode ser que o processo seja explicado por casos similares, como faz a medicina por exemplo. Ou pode ser que sejam construídos sistemas com comportamento análogo, mas menos complexos e que sejam passíveis de auditoria. Resta saber se a ética normativa concordaria com tais saídas.

Efeito do Observador

Por fim, gostaria de contribuir com uma última questão sobre a qual a ética em dados deveria de debruçar. A teoria quântica reza que o observador influencia naquilo que está sendo observado. Um efeito similar se dá ao tentarmos introduzir artificialidades como a explicabilidade de algoritmos, se a cruzarmos com a teoria ética do utilitarismo. Essa, sustenta que a escolha mais ética é aquela que resulta no maior bem para o maior número de indivíduos.

O conceito é que, para tornar um certo algoritmo explicável ou transparente, alguma instrumentação e pontos de medição devem ser adicionados. Então, duas situações podem manchar a regra utilitarista. Além de introduzirmos uma carga extra que incorrerá em maior ineficiência, é possível que o próprio algoritmo adquira um comportamento diferente do ótimo, seja por acomodação do modelo com ou introdução de vieses não intencionais.

Cabe à ética decidir até que ponto, ou em que situações, será necessária essa camada proteção, e em que outras deverá ser permitido trocar risco por plenitude, como em laboratórios e sandboxes controlados. Afinal, nas palavras de Lauren Bacall: “ficar parado é a maneira mais rápida de se mover para trás em um mundo que muda rapidamente”.

Fim

Escolhi, propositalmente, encerrar essa série de artigos com o tema ética. Além de fascinante,  um assunto que dará abertura para continuidade e discussão ainda por muito tempo.

Também é intencional a incontinência do termo “dado” nessa série. Foram 137 menções, constituindo 2,50% do conteúdo. Espero que essa repetição, muito mais do que redundante, sirva como reforço para a importância de entendimento desse conceito e adoção dessa cultura, afinal a evolução na utilização de dados é inevitável (opa! 138!)

Leia todos os artigos da série "A inevitabilidade dos dados":

1) A inevitabilidade dos dados: da carência ao diferencial

2) A inevitabilidade dos dados: organizações e dados organizados

3) A inevitabilidade dos dados: desvendando o valor dos dados

4) A inevitabilidade dos dados: ética e dados

Governança & Nova Economia
Marcelo Câmara
Marcelo Câmara Seguir

Ler conteúdo completo
Indicados para você