Open Data: dados pessoais

Coisas que a era Big Data não inventou

Em 1985, foi publicado nos Cadernos de Saúde Pública (Fundação Oswaldo Cruz, RJ) um artigo sobre a turbeculose no Brasil. O trabalho relacionava a condição social e econômica de uma população com a incidência de casos e mortes pela doença.

O resultado da pesquisa não interessa aqui. Aliás, a informação do parágrafo acima que mais interessa aqui é que a pesquisa foi feita em 1985, antes da popularizaçao da internet, porque só vou utilizá-la para ilustrar algumas observações muito simples e óbvias que podem nos ajudar a organizar nossas ideias a respeito de Big Data.

Talvez a maior utilidade do Big Data seja a elaboração de modelos preditivos efetivos e com certeza essa aplicação é a mais polêmica também. Questiona-se não apenas a ameaça à privacidade, mas também a própria pretensão de se prever o futuro.

As questões são pertinentes e nunca existirá consenso, mas desde quando impossibilidade de convergência nos impede de discutir? Então vamos lá.

Usando a pesquisa citada como exemplo, vejamos o que a era Big Data NÃO inventou:

Utilização de dados pessoais: A pesquisa sobre tuberculose informou a incidência de mais de 650 mil casos entre 1973 e 1983. Todos os dados foram retirados de relatórios de notificação da doença feitos pelos hospitais.

Ameaça à privacidade: Dados pessoais foram utilizados sem que nenhuma informação que identificasse os pacientes fosse divulgada, embora os hospitais tivessem todas elas registradas.

Correlação de dados: Os pesquisadores procuraram relacionar turbeculose com dados socioeconômicos na tentativa de identificar condições para a incidência da doença.

Utilização de dados públicos: Os dados sociais e econômicos foram retirados de pesquisas demográficas oficiais e qualquer um pode usar.

Modelos preditivos: A pesquisa também utiliza dados de uma ferramenta chamada “inquérito de prevalência” que calcula a probabilidade de um indivíduo contrair determinada doença. A partir daí foi construído um modelo preditivo para a população por região.

Utilização de modelos preditivos: a Fundação Oswaldo Cruz tem o objetivo de promover a saúde e o desenvolvimento social, portanto os modelos preditivos gerados fundamentam elaboração de planos de ação para reverter a previsão feita.

Importância da dinâmica nos estudos complexos: a pesquisa reconhece a impossibilidade de atribuir apenas uma causa à transmissão e distribuição da doença e busca correlação com dados dinâmicos (sociais).

O que muda com Big Data então?

A primeira resposta que vem para essa pergunta está no próprio nome Big Data. A pesquisa da Fundação Oswaldo Cruz destaca que a amostra utilizada (toda informação que existia) não é representativa da população e o curto período de tempo que ela cobre dificulta um calculo de tendência. Esses dois problemas são resolvidos quando os dados utilizados são resultado de uma ampla e longa utilização de processos digitais (o universo de dados passa a ter escala web).

Também podemos afirmar que a correlação proposta pelos pesquisadores entre tuberculose e condição socioeconômica foi um insight possível dada a existência de dados dos dois sistemas. Correlações inusitadas podem surgir quando o banco de dados utilizado inclui dados de natureza bastante diversificada como Big Data.

Ainda em relação à correlação de dados, se em pesquisas amostrais o objetivo é explicar um fenômeno, na era Big Data a ideia principal é apontar tendências. Em muitas situações saber que uma coisa acontece, mesmo sem saber o porquê, é suficiente para tomar uma decisão.

Dados sociais coletados periodicamente através de pesquisas qualitativas levam a mais duas limitações de utilização: por serem periódicos, ficam estáticos no período entre as coletas que, quando acontece, revela uma dinâmica de degraus, incompatível com um sistema real; e pesquisas qualitativas apresentam um viés considerável que pode comprometer a veracidade dos dados. Dados sociais digitais podem ser analisados dinamicamente e têm maior potencial de veracidade porque são coletados a partir de utilização da rede por seus usuários.

Propositadamente utilizei uma pesquisa cientifica como base de comparação porque, por ter uma causa nobre, facilita a aceitação dos argumentos.

No entanto, pode transportar todo o raciocínio para pesquisas de marketing, por exemplo. Quer a causa seja nobre ou não, quer você queira ou não aceitar que dados pessoais possam ser usados para desenvolvimento de produtos e direcionamento de propagandas e promoções, o fato é que isso sempre foi feito.

Portanto, no que diz respeito à privacidade e à utilização de modelos preditivos, o que diferencia e qualifica o que chamamos de Big Data, é a possibilidade de fazer com mais eficiência e eficácia o que sempre foi feito.

Acredito que o que o Big Data traz de inovação e os verdadeiros impactos em nossas vidas estão em outras questões. Você pode antecipar o que pensa comentando esse texto, ou falamos sobre isso depois.

Open Data

sábado, 27 de abril de 2013

Coisas que a era Big Data não inventou