sábado, 27 de abril de 2013

Coisas que a era Big Data não inventou


Coisas que a era Big Data não inventou

Em 1985, foi publicado nos Cadernos de Saúde Pública (Fundação Oswaldo Cruz, RJ) um artigo sobre a turbeculose no Brasil. O trabalho relacionava a condição social e econômica de uma população com a incidência de casos e mortes pela doença.

O resultado da pesquisa não interessa aqui. Aliás, a informação do parágrafo acima que mais interessa aqui é que a pesquisa foi feita em 1985, antes da popularizaçao da internet, porque só vou utilizá-la para ilustrar algumas observações muito simples e óbvias que podem nos ajudar a organizar nossas ideias a respeito de Big Data.

Talvez a maior utilidade do Big Data seja a elaboração de modelos preditivos efetivos e com certeza essa aplicação é a mais polêmica também. Questiona-se não apenas a ameaça à privacidade, mas também a própria pretensão de se prever o futuro.

As questões são pertinentes e nunca existirá consenso, mas desde quando impossibilidade de convergência nos impede de discutir? Então vamos lá.

Usando a pesquisa citada como exemplo, vejamos o que a era Big Data NÃO inventou:

Utilização de dados pessoais: A pesquisa sobre tuberculose informou a incidência de mais de 650 mil casos entre 1973 e 1983. Todos os dados foram retirados de relatórios de notificação da doença feitos pelos hospitais.

Ameaça à privacidade: Dados pessoais foram utilizados sem que nenhuma informação que identificasse os pacientes fosse divulgada, embora os hospitais tivessem todas elas registradas.

Correlação de dados: Os pesquisadores procuraram relacionar turbeculose com dados socioeconômicos na tentativa de identificar condições para a incidência da doença.

Utilização de dados públicos: Os dados sociais e econômicos foram retirados de pesquisas demográficas oficiais e qualquer um pode usar.

Modelos preditivos: A pesquisa também utiliza dados de uma ferramenta chamada “inquérito de prevalência” que calcula a probabilidade de um indivíduo contrair determinada doença. A partir daí foi construído um modelo preditivo para a população por região.

Utilização de modelos preditivos: a Fundação Oswaldo Cruz tem o objetivo de promover a saúde e o desenvolvimento social, portanto os modelos preditivos gerados fundamentam elaboração de planos de ação para reverter a previsão feita.

Importância da dinâmica nos estudos complexos: a pesquisa reconhece a impossibilidade de atribuir apenas uma causa à transmissão e distribuição da doença e busca correlação com dados dinâmicos (sociais).

O que muda com Big Data então?

A primeira resposta que vem para essa pergunta está no próprio nome Big Data. A pesquisa da Fundação Oswaldo Cruz destaca que a amostra utilizada (toda informação que existia) não é representativa da população e o curto período de tempo que ela cobre dificulta um calculo de tendência. Esses dois problemas são resolvidos quando os dados utilizados são resultado de uma ampla e longa utilização de processos digitais (o universo de dados passa a ter escala web).

Também podemos afirmar que a correlação proposta pelos pesquisadores entre tuberculose e condição socioeconômica foi um insight possível dada a existência de dados dos dois sistemas. Correlações inusitadas podem surgir quando o banco de dados utilizado inclui dados de natureza bastante diversificada como Big Data.

Ainda em relação à correlação de dados, se em pesquisas amostrais o objetivo é explicar um fenômeno, na era Big Data a ideia principal é apontar tendências. Em muitas situações saber que uma coisa acontece, mesmo sem saber o porquê, é suficiente para tomar uma decisão.

Dados sociais coletados periodicamente através de pesquisas qualitativas levam a mais duas limitações de utilização: por serem periódicos, ficam estáticos no período entre as coletas que, quando acontece, revela uma dinâmica de degraus, incompatível com um sistema real;  e pesquisas qualitativas apresentam um viés considerável que pode comprometer a veracidade dos dados. Dados sociais digitais podem ser analisados dinamicamente e têm maior potencial de veracidade porque são coletados a partir de utilização da rede por seus usuários.

Propositadamente utilizei uma pesquisa cientifica como base de comparação porque, por ter uma causa nobre, facilita a aceitação dos argumentos.

No entanto, pode transportar todo o raciocínio para pesquisas de marketing, por exemplo. Quer a causa seja nobre ou não, quer você queira ou não aceitar que dados pessoais possam ser usados para desenvolvimento de produtos e direcionamento de propagandas e promoções, o fato é que isso sempre foi feito.

Portanto, no que diz respeito à privacidade e à utilização de modelos preditivos, o que diferencia e qualifica o que chamamos de Big Data, é a possibilidade de fazer com mais eficiência e eficácia o que sempre foi feito.

Acredito que o que o Big Data traz de inovação e os verdadeiros impactos em nossas vidas estão em outras questões. Você pode antecipar o que pensa comentando esse texto, ou falamos sobre isso depois.

4 comentários:

  1. Ao contrário do que pensa o senso comum, o futuro não está escrito nas estrelas... Nem na nuvem! Será o resultado do que fizermos com ele. O Big Data pode nos abrir novas possibilidades, novos caminhos, mas não é, por si só, capaz de nos levar ao céu ou ao inferno. Muita gente vai querer "demonizar" o big data, esquecendo - como mostra o post - que muitas das coisas que tememos que aconteçam por causa do big data, na realidade, já acontecem.

    ResponderExcluir
    Respostas
    1. É bom pensar assim: Big Data é um campo de estudo cientifico e cientistas nao acreditam em demônios... Vão encarar de frente. Quanto ao resto da sociedade, terá que decidir o melhor modelo para se apropriar do valor gerado. Porque se nao escolher o melhor modelo, vai pelo pior mesmo. É o famoso point of no return.

      Excluir
  2. Já li alguns artigos e assisti palestras sobre o tema, porém ainda nao ficou claro se o termo Bigdata está associado à conjuntura, que é a explosão do dado/informação a partir das tecnologias de comunicação ou se trata-se de uma tecnologia mais sofisticada que permite processar grandes volumes de dados/informação com resultados analíticos e estratégicos.É um feômeno, é uma metodologia ou uma tecnologia?

    ResponderExcluir
    Respostas
    1. Renate, obrigada pelo comentário. Por tudo que já estudei sobre o assunto, gosto de definir Big Data como o campo empírico da Ciencia das Redes. Voce leu o segundo post, sobre isso? Se quiser se aprofundar mais, leia Albert Laszlo Barabasi. Qualquer artigo introduzindo a Ciência das Redes, ou o livro Linked, dele tambem, já publicado no Brasil em português. Voce nao so vai entender como passamos a enxergar valor no dados digitais gerados pelo uso da rede, como tambem seus impactos, possibilidades, limitações, ameaças etc. Se tiver que escolher entre as 3 opções que voce me deu, Big Data é um fenômeno (substantivo e adjetivo!). O terceiro post, que fala sobre o valor dos dados digitais, dá a ideia de que é preciso muita inteligência para transformar Big Data em valor. Portanto nao é metodologia nem tecnologia (que já sao inteligência em ação). Será que respondi sua pergunta? Voce concorda comigo?

      Excluir