Mostrando postagens com marcador modelos preditivos. Mostrar todas as postagens
Mostrando postagens com marcador modelos preditivos. Mostrar todas as postagens

quinta-feira, 20 de junho de 2013

Como captar "mudanças de ventos"

Como captar "mudanças de ventos"

Em sua coluna para o jornal O Globo ontem (19/06/13), o jornalista Merval Pereira destaca uma coisa importante em relação aos protestos recentes no Brasil, iniciados a partir do aumento tarifas de transportes públicos: ...é impressionante que o imenso aparato de informações de que cada governo dispõe, especialmente a presidência da República, e as pesquisas de opinião não detectaram essa indignação que explodiu nas ruas.

É realmente impressionante, mas não inexplicável. O próprio jornalista fornece a pista dessa explicação em outra parte do texto: “O dono de um desses institutos de opinião chegou a ironizar as oposições e analistas que criticavam o governo, afirmando que viviam em uma realidade paralela, que nada tinha a ver com a vida do cidadão comum, que estava muito satisfeito. Segundo ele, não havia sinal de mudança de ventos que suas pesquisas pudessem captar.

Pronto. Está tudo dito. Pesquisas de opinião não captam sinais de problemas complexos. Por que?

Porque uma pesquisa de opinião é a resposta para uma pergunta que é feita. Um problema complexo é o somatório de milhares de respostas às perguntas que ninguém fez.

Quando se elabora uma pesquisa de opinião, perguntas preconcebidas só dão conta de questões previstas e recebem respostas previamente pensadas.

As manifestações desta semana no Brasil são, em seu conjunto, um fenômeno complexo desencadeado por um conjunto de fatores que não estão diretamente ligados com o problema, portanto uma pesquisa de opinião jamais poderia contemplá-los em suas perguntas. Sim, isso era um caso para a analítica preditiva feita a partir de dados que não foram coletados para nenhum fim específico (Big Data).

Antecipar a ocorrência de uma manifestação justa como a que está ocorrendo, pode não ser o melhor exemplo da utilidade da tecnologia preditiva, mas é um ótimo exemplo da diferença entre o poder de previsão de uma pesquisa de opinião e o poder de uma analítica preditiva em Big Data.

Para entender a limitação de atuação de cada tecnologia, é preciso saber a diferença conceitual e metodológica entre previsão (forecast) e analítica preditiva (predictive analytics).

PREVISÃO (forecast)

A previsão é feita a partir da utilização de grande quantidades de dados de mesma natureza. A metodologia consiste em uma projeção, em que os dados viajam para dimensões maiores de tempo ou espaço.

O exemplo mais conhecido disso é a previsão do tempo. Dados de um mesmo domínio, que têm uma relação direta de causa e efeito com o fenômeno, são transferidos para o futuro (viagem no tempo) gerando um resultado com grau de incerteza conhecido.

Outro exemplo é a pesquisa de opinião. Dados de uma mesma natureza, coletados em uma amostra, são transferidos para o total da população (viagem no espaço) gerando também um resultado confiável.

O resultado de uma previsão é uma estimativa e a ciência que a fundamenta a metodologia é a Estatística.

ANALÍTICA PREDITIVA (predictive analytics)

A predição é feita a partir de uma grande quantidade de dados de domínios diferentes, aquilo que já se convencionou chamar de Big Data. A metodologia é um julgamento baseado na experiência e no aprendizado que se dá quando dados de um domínio do conhecimento viaja para outros domínios.

Em 2008, por exemplo, o Google conseguiu antecipar em 7 a 10 dias, a dinâmica da contaminação pelo vírus da gripe H1N1, baseado nos dados de utilização da ferramenta de busca dos seus usuários. Rastreando o conteúdo das buscas, a empresa conseguiu identificar correlações inusitadas entre as pesquisas e a contração da doença em um determinado grupo social. É importante entender que o modelo antecipava não apenas a quantidade de casos, mas também o deslocamento do vírus. O modelo foi tão bem sucedido que fundamentou as ações preventivas do governo americano para impedir uma pandemia da doença.

O resultado de uma analítica preditiva é um insight e a ciência que fundamenta a metodologia é a Ciência das Redes. Para saber o que é isso leia esse post aqui.

Diferente da previsão, a analítica preditiva é capaz de antecipar as mudanças nas tendências porque considera fatores que não têm uma relação causa-efeito imediata com o fenômeno.

Voltando às manifestações recentes no Brasil, por que as pesquisas de opinião não captaram um evento tão grande, tão generalizado e tão intenso?

Primeiro é importante ressaltar que a última pesquisa CNI/IBOPE apontou uma queda de 8% na aprovação da atuação do Governo Federal. Além disso, a área de atuação que mais colaborou para a queda do índice geral foi o controle da inflação cuja aprovação caiu 10% em relação à pesquisa anterior. Observando esses números agora, podemos dizer que se tivessem sido olhados com mais atenção, seria possível prever as manifestações contra o aumento das tarifas do transporte público? A resposta é não.

Os manifestantes podem nem saber, mas quando escrevem nos cartazes “não é por 20 centavos”, estão dizendo que a sociedade é um sistema extremamente complexo e não é possível fazer previsões a partir de uma relação causa-efeito linear.

Predizer as manifestações dos últimos dias significava ter o insight rapidamente a partir de milhares de informações como: em que nível estava a tolerância dos 41% que desaprovam o governo? O que os 55% que consideram a atuação ótima não poderiam tolerar? O que transporte significa além de mobilidade? O quanto de confiança na democracia gera de sensação de segurança suficiente para sair às ruas? O que significa no momento atual ir às ruas, além de conseguir uma redução nas tarifas? As pessoas têm sede de quê? O quanto é vital essa sede? Que assuntos as pessoas deixaram de falar para começar a falar de ir às ruas? Qual foi o trade off?

A má notícia é que numa rede complexa é humanamente impossível encontrar e correlacionar todos esses fatores. A boa é que a rede complexa chamada sociedade está digitalizada. Os dados gerados nesse contexto chamam-se Big Data. A tecnologia de geração de conhecimento a partir desses dados existe. E a necessidade de sua utilização, não precisa dizer, é latente.

A vantagem de ter um vislumbre do futuro é que isso nos dá opções. 

Agora se você me perguntar se analítica preditiva pode ser utilizada para tomar decisões ruins, a resposta é sim. Mas isso já não é mais uma questão de tecnologia.

sábado, 27 de abril de 2013

Coisas que a era Big Data não inventou


Coisas que a era Big Data não inventou

Em 1985, foi publicado nos Cadernos de Saúde Pública (Fundação Oswaldo Cruz, RJ) um artigo sobre a turbeculose no Brasil. O trabalho relacionava a condição social e econômica de uma população com a incidência de casos e mortes pela doença.

O resultado da pesquisa não interessa aqui. Aliás, a informação do parágrafo acima que mais interessa aqui é que a pesquisa foi feita em 1985, antes da popularizaçao da internet, porque só vou utilizá-la para ilustrar algumas observações muito simples e óbvias que podem nos ajudar a organizar nossas ideias a respeito de Big Data.

Talvez a maior utilidade do Big Data seja a elaboração de modelos preditivos efetivos e com certeza essa aplicação é a mais polêmica também. Questiona-se não apenas a ameaça à privacidade, mas também a própria pretensão de se prever o futuro.

As questões são pertinentes e nunca existirá consenso, mas desde quando impossibilidade de convergência nos impede de discutir? Então vamos lá.

Usando a pesquisa citada como exemplo, vejamos o que a era Big Data NÃO inventou:

Utilização de dados pessoais: A pesquisa sobre tuberculose informou a incidência de mais de 650 mil casos entre 1973 e 1983. Todos os dados foram retirados de relatórios de notificação da doença feitos pelos hospitais.

Ameaça à privacidade: Dados pessoais foram utilizados sem que nenhuma informação que identificasse os pacientes fosse divulgada, embora os hospitais tivessem todas elas registradas.

Correlação de dados: Os pesquisadores procuraram relacionar turbeculose com dados socioeconômicos na tentativa de identificar condições para a incidência da doença.

Utilização de dados públicos: Os dados sociais e econômicos foram retirados de pesquisas demográficas oficiais e qualquer um pode usar.

Modelos preditivos: A pesquisa também utiliza dados de uma ferramenta chamada “inquérito de prevalência” que calcula a probabilidade de um indivíduo contrair determinada doença. A partir daí foi construído um modelo preditivo para a população por região.

Utilização de modelos preditivos: a Fundação Oswaldo Cruz tem o objetivo de promover a saúde e o desenvolvimento social, portanto os modelos preditivos gerados fundamentam elaboração de planos de ação para reverter a previsão feita.

Importância da dinâmica nos estudos complexos: a pesquisa reconhece a impossibilidade de atribuir apenas uma causa à transmissão e distribuição da doença e busca correlação com dados dinâmicos (sociais).

O que muda com Big Data então?

A primeira resposta que vem para essa pergunta está no próprio nome Big Data. A pesquisa da Fundação Oswaldo Cruz destaca que a amostra utilizada (toda informação que existia) não é representativa da população e o curto período de tempo que ela cobre dificulta um calculo de tendência. Esses dois problemas são resolvidos quando os dados utilizados são resultado de uma ampla e longa utilização de processos digitais (o universo de dados passa a ter escala web).

Também podemos afirmar que a correlação proposta pelos pesquisadores entre tuberculose e condição socioeconômica foi um insight possível dada a existência de dados dos dois sistemas. Correlações inusitadas podem surgir quando o banco de dados utilizado inclui dados de natureza bastante diversificada como Big Data.

Ainda em relação à correlação de dados, se em pesquisas amostrais o objetivo é explicar um fenômeno, na era Big Data a ideia principal é apontar tendências. Em muitas situações saber que uma coisa acontece, mesmo sem saber o porquê, é suficiente para tomar uma decisão.

Dados sociais coletados periodicamente através de pesquisas qualitativas levam a mais duas limitações de utilização: por serem periódicos, ficam estáticos no período entre as coletas que, quando acontece, revela uma dinâmica de degraus, incompatível com um sistema real;  e pesquisas qualitativas apresentam um viés considerável que pode comprometer a veracidade dos dados. Dados sociais digitais podem ser analisados dinamicamente e têm maior potencial de veracidade porque são coletados a partir de utilização da rede por seus usuários.

Propositadamente utilizei uma pesquisa cientifica como base de comparação porque, por ter uma causa nobre, facilita a aceitação dos argumentos.

No entanto, pode transportar todo o raciocínio para pesquisas de marketing, por exemplo. Quer a causa seja nobre ou não, quer você queira ou não aceitar que dados pessoais possam ser usados para desenvolvimento de produtos e direcionamento de propagandas e promoções, o fato é que isso sempre foi feito.

Portanto, no que diz respeito à privacidade e à utilização de modelos preditivos, o que diferencia e qualifica o que chamamos de Big Data, é a possibilidade de fazer com mais eficiência e eficácia o que sempre foi feito.

Acredito que o que o Big Data traz de inovação e os verdadeiros impactos em nossas vidas estão em outras questões. Você pode antecipar o que pensa comentando esse texto, ou falamos sobre isso depois.

sexta-feira, 19 de abril de 2013

Quer vender dados? Pense de novo


Quer vender dados? Pense de novo.


Novo petróleo, é uma das expressões que se usa quando tentamos convencer alguém do valor do Big Data.

Qual a maneira certa de entender a comparação?

Quando Clive Humby usou a metáfora “novo petróleo” em 2006 para se referir ao Big Data, sem querer reforçou a crença de que os dados têm valor apenas pelo seu volume. Digo reforçou, porque isso aconteceria de qualquer modo, mesmo sem a ajuda de Humby. Na ânsia de conhecer a nossa riqueza, colocamos rapidamente etiquetas de valores em nossos ativos tangíveis, que podem ser vistos e contados, e muitas vezes esquecemos os intangíveis. Ver e avaliar ativos intangíveis ainda são competências raras.

Dados digitais podem ser contados e, embora não sejam tão concretos assim, é normal que qualquer um que administre um grande banco de dados, quando ouve falar que Big Data tem um valor inestimável, inicialmente se imagine sentado em cima de uma reserva de petróleo: perfurou, jorrou, vendeu, ficou rico.

É certo que o petróleo também não tem valor intrínseco, mas faz parte de cadeias produtivas que geram ativos tangíveis numa relação direta entre volumes. Portanto é fácil valorar o petróleo pelo valor dos produtos gerados.

Só que dados fazem parte da cadeia que gera um ativo intangível, o conhecimento, e não existe relação direta entre os volumes dessa cadeia. Uma grande quantidade de dados não gera necessariamente uma grande quantidade de conhecimento, simplesmente porque conhecimento não é valorado por quantidade.

Um ativo tangível aumenta seu valor quando é acumulado e poupado e para garantir que não vamos perdê-lo, o trancamos e protegemos. Um ativo intangível aumenta seu valor quando é distribuído e usado e para garantir que não vamos perdê-lo, o expomos e deixamos compartilhar.

Você até pode colocar cifrões em dados digitais, mas saiba que esses cifrões aumentam conforme eles passam por uma cadeia de agregação de valor que está de modo resumido na figura ao lado.    
         
Se você precificar os seus dados digitais brutos com o intuito de ficar rico, não vai encontrar interessados. Se você organizá-los e indexá-los, vai encontrar muitos interessados, mas ninguém que queira pagar para você enriquecer. Então você aplica modelos estatísticos e algoritmos para identificar padrões e correlações entre seus dados e começa a encontrar bons compradores, mas quem vai ficar rico são eles, se depois que comprarem suas informações conseguirem passar para a última fase da figura.

Como dá pra saber tudo isso? Pense por um momento na internet. Lembra que para encontrar alguma coisa na rede precisávamos do endereço completo? Lembra que as pessoas ditavam os endereços enfatizando coisas do tipo: “www” ou “educação sem cedilha e sem til” ou “Hotel Copacabana Palace tudo em minúsculo sem espaço". Que valor teria um monte de dados acumulados se só comandos muito específicos pudessem encontrá-los? Então apareceu o Google que fez um trabalho incrível indexando os dados e otimizando as buscas. Agora você pode escrever um endereço sem www, sem saber a grafia perfeita e usando maiúsculos ou minúsculos. O Google acha. Todo mundo adorou! Quanto você paga por isso? Nada. Quem paga por isso? Ninguém. E se você disser que o anunciante paga, eu lhe digo que não. O anunciante paga para vender para você. Se isso não acontecer ele deixa de pagar.

Atualmente o Google administra e controla (não possui!) uma quantidade incontável de dados que apresenta uma taxa de crescimento assustadora. Eles não podem vender os dados que administram porque não são proprietários deles. Mas eles não se importam. Se os dados tivessem valor intrínseco, já estaríamos vendo a empresa engajada numa batalha judicial pela posse deles. Mas o que vemos? O Google protegendo a “privacidade” de seus usuários. No entanto, pelo acordo que faz com seus clientes, a empresa pode usar os dados para criar novos produtos e serviços (leia-se criar algoritmos e fazer correlações entre os dados). Tudo leva a crer que os conhecimentos gerados pela análise desses dados geram renda à empresa.

Antes que pensem que estou recriminando o Google, quero afirmar que não vejo nada de errado nisso. Até onde sei, a empresa trabalha dentro da lei e de um código ético estabelecido e aceito por toda a sociedade. Além disso, acredito que todo trabalho de inteligência deve ser remunerado. Sabe-se, por exemplo, que em 2008 o Google utilizou dados de busca de seus usuários para construir um modelo preditivo que ajudou o governo americano a desenvolver um plano de ação para controlar a disseminação da gripe suína antes que ela se transformasse em pandemia. Imagino que o governo americano tenha sabido valorizar e remunerar esse trabalho.

Se você duvida que modelos preditivos feitos dessa maneira sejam confiáveis, veja o gráfico abaixo sobre casos de dengue no Brasil. A linha azul é a previsão do Google feita a partir de determinados termos consultados (por exemplo: febre, dengue, dor no corpo etc). A linha amarela representa os dados oficiais do Ministério da Saúde. Excelente modelo preditivo. Quanto vale? E tornar o modelo acionável, quanto valeria?


Portanto, precisamos resistir à tentação de colocar cifrões grandes demais nos dados. O que Humby quis dizer com a metáfora novo petróleo foi que, se no século XX a economia mundial não pôde prescindir do petróleo para crescer, no século XXI não poderemos ignorar o Big Data. Só isso. Nem de longe o modelo de negocio de um se assemelha ao do outro.