Coisas que a era Big Data não inventou
Em 1985, foi publicado nos
Cadernos de Saúde Pública (Fundação Oswaldo Cruz, RJ) um artigo sobre a
turbeculose no Brasil. O trabalho relacionava a condição social e econômica de
uma população com a incidência de casos e mortes pela doença.
O resultado da pesquisa não
interessa aqui. Aliás, a informação do parágrafo acima que mais interessa aqui é
que a pesquisa foi feita em 1985, antes da popularizaçao da internet, porque só
vou utilizá-la para ilustrar algumas observações muito simples e óbvias que
podem nos ajudar a organizar nossas ideias a respeito de Big Data.
Talvez a maior utilidade do Big
Data seja a elaboração de modelos preditivos efetivos e com certeza essa
aplicação é a mais polêmica também. Questiona-se não apenas a ameaça à
privacidade, mas também a própria pretensão de se prever o futuro.
As questões são pertinentes e
nunca existirá consenso, mas desde quando impossibilidade de convergência nos impede
de discutir? Então vamos lá.
Usando a pesquisa citada como exemplo,
vejamos o que a era Big Data NÃO inventou:
Utilização de dados pessoais:
A pesquisa sobre tuberculose informou a incidência de mais de 650 mil casos entre
1973 e 1983. Todos os dados foram retirados de relatórios de notificação da
doença feitos pelos hospitais.
Ameaça à privacidade: Dados
pessoais foram utilizados sem que nenhuma informação que identificasse os
pacientes fosse divulgada, embora os hospitais tivessem todas elas registradas.
Correlação de dados: Os
pesquisadores procuraram relacionar turbeculose com dados socioeconômicos na
tentativa de identificar condições para a incidência da doença.
Utilização de dados públicos:
Os dados sociais e econômicos foram retirados de pesquisas demográficas
oficiais e qualquer um pode usar.
Modelos preditivos: A pesquisa
também utiliza dados de uma ferramenta chamada “inquérito de prevalência” que
calcula a probabilidade de um indivíduo contrair determinada doença. A partir daí
foi construído um modelo preditivo para a população por região.
Utilização de modelos
preditivos: a Fundação Oswaldo Cruz tem o objetivo de promover a saúde e o
desenvolvimento social, portanto os modelos preditivos gerados fundamentam elaboração
de planos de ação para reverter a previsão feita.
Importância da dinâmica nos
estudos complexos: a pesquisa reconhece a impossibilidade de atribuir
apenas uma causa à transmissão e distribuição da doença e busca correlação com dados
dinâmicos (sociais).
O que muda com Big Data então?
A primeira resposta que vem para
essa pergunta está no próprio nome Big Data. A pesquisa da Fundação Oswaldo
Cruz destaca que a amostra utilizada (toda informação que existia) não é
representativa da população e o curto período de tempo que ela cobre dificulta
um calculo de tendência. Esses dois problemas são resolvidos quando os dados
utilizados são resultado de uma ampla e longa utilização de processos digitais
(o universo de dados passa a ter escala web).
Também podemos afirmar que a
correlação proposta pelos pesquisadores entre tuberculose e condição socioeconômica
foi um insight possível dada a existência de dados dos dois sistemas. Correlações
inusitadas podem surgir quando o banco de dados utilizado inclui dados de
natureza bastante diversificada como Big Data.
Ainda em relação à correlação de
dados, se em pesquisas amostrais o objetivo é explicar um fenômeno, na era
Big Data a ideia principal é apontar tendências. Em muitas situações saber
que uma coisa acontece, mesmo sem saber o porquê, é suficiente para tomar uma decisão.
Dados sociais coletados
periodicamente através de pesquisas qualitativas levam a mais duas limitações de
utilização: por serem periódicos, ficam estáticos no período entre as coletas
que, quando acontece, revela uma dinâmica de degraus, incompatível com um
sistema real; e pesquisas qualitativas apresentam um viés considerável que pode
comprometer a veracidade dos dados. Dados sociais digitais podem ser analisados dinamicamente e têm maior potencial de veracidade porque são
coletados a partir de utilização da rede por seus usuários.
Propositadamente utilizei uma
pesquisa cientifica como base de comparação porque, por ter uma causa nobre,
facilita a aceitação dos argumentos.
No entanto, pode transportar todo
o raciocínio para pesquisas de marketing, por exemplo. Quer a causa seja nobre
ou não, quer você queira ou não aceitar que dados pessoais possam ser usados
para desenvolvimento de produtos e direcionamento de propagandas e promoções, o
fato é que isso sempre foi feito.
Portanto, no que diz respeito à
privacidade e à utilização de modelos preditivos, o que diferencia e qualifica
o que chamamos de Big Data, é a possibilidade de fazer com mais eficiência e
eficácia o que sempre foi feito.
Acredito que o que o Big Data traz de inovação e os verdadeiros impactos em nossas vidas estão em outras questões. Você pode antecipar o
que pensa comentando esse texto, ou falamos sobre isso depois.