Mostrando postagens com marcador Ciência das Redes. Mostrar todas as postagens
Mostrando postagens com marcador Ciência das Redes. Mostrar todas as postagens

quinta-feira, 14 de maio de 2015

Network Thinking, Ciência das Redes e Big Data

Network Thinking, Ciência das Redes e Big Data

Em 2014 o Centro de Referência em Inteligência Empresarial (CRIE) da Coppe/UFRJ, lançou um curso para colocar Big Data na agenda estratégica dos gestores brasileiros. O curso é denominado WIDA (Web Intelligence & Digital Analytics), tem uma peculiaridade digna de destaque: a determinação em fazer com que os alunos desenvolvam o network thinking, ou seja, a percepção de que os problemas que eles desejam resolver com os dados digitais são resultantes da interação de agentes de um sistema complexo. O curso apresenta a Ciência das Redes como mind set essencial para a gestão do ambiente digital. De fato, pensar em termos de rede é competência fundamental para quem deseja gerar valor a partir de dados digitais.

Você sabe o que Ciência das Redes tem a ver com Big Data?

A Ciência das Redes, como chamamos aqui no Brasil, é o campo que busca conhecer as leis que governam os sistemas complexos. Cientistas acreditam que modelar matematicamente a complexidade é o único caminho para o desenvolvimento da tão sonhada Inteligência Artificial (AI).

Falando de modo simplificado, sistemas complexos são formados por um grande número de componentes relativamente simples (também chamados de nós) e funcionam sem um comando central porque esses nós têm comportamento autônomo e emergente. São sistemas complexos, entre outros, o cérebro, o código genético, uma colônia de formigas, a world Wide Web e a sociedade. 

Como a www é um sistema complexo totalmente digital, tem sido usado como campo empírico para a modelagem matemática desses sistemas. 

Segundo Barabasi, um dos cientistas mais atuantes e reconhecidos nesse campo, com dados suficientes um sistema complexo pode modelado matemáticamente e desse modo ser compreendido para ser antecipado e controlado. Médicos querem controlar a disseminação de um vírus, empresas querem antecipar o comportamento do consumidor, o mercado deseja controlar preços, os governos, evitar crises financeiras, as seguradoras, antecipar sinistros e controlar as fraudes e etc.

Pronto. Essa é a maneira mais objetiva de associar Ciência das Redes a Big Data. 

Para começar a desenvolver seu network thinking, comece lendo uma conversation Albert-László Barabasi no site edg.org. Intitulado Thinking in Network Terms (clique no título), o texto é a transcrição de uma conversa que o cientista teve em 2012 com John Brockman, editor do site, sobre a importância dos dados digitais para o estudo da complexidade. Além de ser uma simples e excelente introdução á Ciência das Redes, o texto é uma bela defesa da cultura open data, quase um manifesto pelo livre compartilhamento de dados em benefício da ciência.

Que saber mais? Pergunte!

quinta-feira, 20 de junho de 2013

Como captar "mudanças de ventos"

Como captar "mudanças de ventos"

Em sua coluna para o jornal O Globo ontem (19/06/13), o jornalista Merval Pereira destaca uma coisa importante em relação aos protestos recentes no Brasil, iniciados a partir do aumento tarifas de transportes públicos: ...é impressionante que o imenso aparato de informações de que cada governo dispõe, especialmente a presidência da República, e as pesquisas de opinião não detectaram essa indignação que explodiu nas ruas.

É realmente impressionante, mas não inexplicável. O próprio jornalista fornece a pista dessa explicação em outra parte do texto: “O dono de um desses institutos de opinião chegou a ironizar as oposições e analistas que criticavam o governo, afirmando que viviam em uma realidade paralela, que nada tinha a ver com a vida do cidadão comum, que estava muito satisfeito. Segundo ele, não havia sinal de mudança de ventos que suas pesquisas pudessem captar.

Pronto. Está tudo dito. Pesquisas de opinião não captam sinais de problemas complexos. Por que?

Porque uma pesquisa de opinião é a resposta para uma pergunta que é feita. Um problema complexo é o somatório de milhares de respostas às perguntas que ninguém fez.

Quando se elabora uma pesquisa de opinião, perguntas preconcebidas só dão conta de questões previstas e recebem respostas previamente pensadas.

As manifestações desta semana no Brasil são, em seu conjunto, um fenômeno complexo desencadeado por um conjunto de fatores que não estão diretamente ligados com o problema, portanto uma pesquisa de opinião jamais poderia contemplá-los em suas perguntas. Sim, isso era um caso para a analítica preditiva feita a partir de dados que não foram coletados para nenhum fim específico (Big Data).

Antecipar a ocorrência de uma manifestação justa como a que está ocorrendo, pode não ser o melhor exemplo da utilidade da tecnologia preditiva, mas é um ótimo exemplo da diferença entre o poder de previsão de uma pesquisa de opinião e o poder de uma analítica preditiva em Big Data.

Para entender a limitação de atuação de cada tecnologia, é preciso saber a diferença conceitual e metodológica entre previsão (forecast) e analítica preditiva (predictive analytics).

PREVISÃO (forecast)

A previsão é feita a partir da utilização de grande quantidades de dados de mesma natureza. A metodologia consiste em uma projeção, em que os dados viajam para dimensões maiores de tempo ou espaço.

O exemplo mais conhecido disso é a previsão do tempo. Dados de um mesmo domínio, que têm uma relação direta de causa e efeito com o fenômeno, são transferidos para o futuro (viagem no tempo) gerando um resultado com grau de incerteza conhecido.

Outro exemplo é a pesquisa de opinião. Dados de uma mesma natureza, coletados em uma amostra, são transferidos para o total da população (viagem no espaço) gerando também um resultado confiável.

O resultado de uma previsão é uma estimativa e a ciência que a fundamenta a metodologia é a Estatística.

ANALÍTICA PREDITIVA (predictive analytics)

A predição é feita a partir de uma grande quantidade de dados de domínios diferentes, aquilo que já se convencionou chamar de Big Data. A metodologia é um julgamento baseado na experiência e no aprendizado que se dá quando dados de um domínio do conhecimento viaja para outros domínios.

Em 2008, por exemplo, o Google conseguiu antecipar em 7 a 10 dias, a dinâmica da contaminação pelo vírus da gripe H1N1, baseado nos dados de utilização da ferramenta de busca dos seus usuários. Rastreando o conteúdo das buscas, a empresa conseguiu identificar correlações inusitadas entre as pesquisas e a contração da doença em um determinado grupo social. É importante entender que o modelo antecipava não apenas a quantidade de casos, mas também o deslocamento do vírus. O modelo foi tão bem sucedido que fundamentou as ações preventivas do governo americano para impedir uma pandemia da doença.

O resultado de uma analítica preditiva é um insight e a ciência que fundamenta a metodologia é a Ciência das Redes. Para saber o que é isso leia esse post aqui.

Diferente da previsão, a analítica preditiva é capaz de antecipar as mudanças nas tendências porque considera fatores que não têm uma relação causa-efeito imediata com o fenômeno.

Voltando às manifestações recentes no Brasil, por que as pesquisas de opinião não captaram um evento tão grande, tão generalizado e tão intenso?

Primeiro é importante ressaltar que a última pesquisa CNI/IBOPE apontou uma queda de 8% na aprovação da atuação do Governo Federal. Além disso, a área de atuação que mais colaborou para a queda do índice geral foi o controle da inflação cuja aprovação caiu 10% em relação à pesquisa anterior. Observando esses números agora, podemos dizer que se tivessem sido olhados com mais atenção, seria possível prever as manifestações contra o aumento das tarifas do transporte público? A resposta é não.

Os manifestantes podem nem saber, mas quando escrevem nos cartazes “não é por 20 centavos”, estão dizendo que a sociedade é um sistema extremamente complexo e não é possível fazer previsões a partir de uma relação causa-efeito linear.

Predizer as manifestações dos últimos dias significava ter o insight rapidamente a partir de milhares de informações como: em que nível estava a tolerância dos 41% que desaprovam o governo? O que os 55% que consideram a atuação ótima não poderiam tolerar? O que transporte significa além de mobilidade? O quanto de confiança na democracia gera de sensação de segurança suficiente para sair às ruas? O que significa no momento atual ir às ruas, além de conseguir uma redução nas tarifas? As pessoas têm sede de quê? O quanto é vital essa sede? Que assuntos as pessoas deixaram de falar para começar a falar de ir às ruas? Qual foi o trade off?

A má notícia é que numa rede complexa é humanamente impossível encontrar e correlacionar todos esses fatores. A boa é que a rede complexa chamada sociedade está digitalizada. Os dados gerados nesse contexto chamam-se Big Data. A tecnologia de geração de conhecimento a partir desses dados existe. E a necessidade de sua utilização, não precisa dizer, é latente.

A vantagem de ter um vislumbre do futuro é que isso nos dá opções. 

Agora se você me perguntar se analítica preditiva pode ser utilizada para tomar decisões ruins, a resposta é sim. Mas isso já não é mais uma questão de tecnologia.

sexta-feira, 12 de abril de 2013

Big Data e a Ciência das Redes

Big Data e a Ciência das Redes


Não tem como definir. O potencial revolucionário do Big Data é a sua própria definição.

A incrível quantidade de dados digitais que a internet produz está prestes a causar uma revolução em todas as áreas do conhecimento humano.

A última vez que uma tecnologia causou tamanho impacto foi no século XV com a invenção da prensa tipográfica por Gutenberg.

Por que um banco de dados teria esse poder? Porque dados são a matéria prima do conhecimento que, por sua vez, é a única forma de garantir a sobrevivência. Você pode ter se esquecido disso, mas aprendemos para sobreviver às ameaças do ambiente.

Imagine a quantidade de dados que você utiliza para decidir se pode atravessar uma rua com segurança: dados já armazenados de experiências anteriores e dados que você recolhe naquele momento como a velocidade do carro, a distância que ele está de você e a distância para o outro lado da rua.

Todas as espécies fazem isso, mas a humana é a única que além de se adaptar, faz previsões e tenta controlar seu ambiente.

Captamos dados do mundo através dos nossos sensores chamados de sentidos, acumulamos, relacionamos com outros dados, formulamos hipóteses, testamos a sua eficácia no controle de certos eventos e começamos tudo de novo em novas bases. Quanto maior a quantidade e variedade dos dados que analisamos e quanto maior a sua confiabilidade, maiores as nossas chances de sucesso.

Agora voltemos à internet. A grande quantidade de dados certamente é uma condição necessária para a revolução Big Data, mas não é suficiente. É preciso que eles sejam diversificados e confiáveis.

No que diz respeito à variedade, não há o que discutir. Hoje é difícil imaginar uma atividade que não seja feita através, ou com o auxílio, da internet. Isso gera uma diversidade sem precedentes em um único banco de dados digital.

A pressuposição da veracidade tem fundamentos sólidos. Mais da metade dos dados digitais tem origem em rastros de navegação (pegadas que deixamos cada vez que acionamos o mouse) e sensores de todo tipo (como o GPS). Ou seja, a maior parte dos dados digitais é fornecida de modo involuntário, portanto livre de erros de registro e interpretação e de ruídos na comunicação, tão comuns em dados captados de outro modo. Outra grande parte é fornecida de modo voluntário em transações comerciais e financeiras, consulta em sites de busca e troca de mensagens, gerando dados igualmente autênticos.

Volume, variedade e veracidade são três dos quatro “V”s que indicam o potencial revolucionário do Big Data. Mas o melhor está por vir: a internet é a única rede artificial que se comporta como uma rede natural (ecossistema, código genético ou a sociedade, por exemplo) e por isso possui propriedades de um sistema vivo.

Os teóricos do assunto escolheram a palavra “velocidade” para denominar essa dimensão, talvez porque comece com “V” e combine com as demais já citadas, mas a escolha é inadequada. Velocidade está mais associada à rapidez e não é disso que estamos falando. A palavra técnica adequada é “stream”, que significa fluxo. Eu prefiro a palavra “dinâmica”, a terminologia das Ciências das Redes.

A novíssima Ciência das Redes, que surgiu há pouco mais de 10 anos para estudar redes complexas, afirma que a dinâmica dos dados da internet (Big Data) permite a compreensão do funcionamento das redes naturais.

Agora você pode estar se perguntando: E por que usar os dados da internet e não os dados dos próprios sistemas a serem compreendidos? Porque por ser digital, diferente dos sistemas naturais, o Big Data pode ser analisado precisamente nas relações que suas partes (dados) estabelecem entre si (links e logs). Ou seja, o Big Data pode ser analisado de modo sistêmico e dinâmico.

Conhecer as partes de um sistema é competência específica das ciências do século XX. Tem o seu valor e sua importância, mas se mostra ineficaz para resolver aqueles problemas que não se apresentam nas partes de um sistema, e sim em suas relações.

O melhor exemplo disso é o Projeto Genoma que reduziu o DNA humano às suas partes sem causar o impacto que se imaginava em novos tratamentos para doenças. Mas em ciência até resultados decepcionantes a impulsionam. Se identificar o gene que carrega um fator indesejado nem sempre traz a solução para o problema, os cientistas já buscam novos caminhos. Será preciso colocar as partes do sistema juntas de novo e observá-las em funcionamento com as outras partes e com outros sistemas.

Steve Jobs
Steve Jobs, lendário criador da Apple, teve todo o seu código genético mapeado para ser submetido a um tratamento personalizado contra um câncer de pâncreas. Em sua lucidez, reconhecendo o momento de revolução em que nos encontramos, afirmou: “Eu serei um dos primeiros a conseguir sobreviver a um câncer desse tipo, ou um dos últimos a morrer disso”. Como se sabe, conhecer cada gene de Jobs não levou os médicos à sua cura. As causas da doença não estavam em nenhuma parte conhecida. Estavam nas relações que elas estabeleciam com as outras partes e isso ainda é uma coisa desconhecida da medicina.

A Ciência das Redes afirma que a dimensão dinâmica da internet, aliada às características de volume, variedade e veracidade dos dados, permitirá a criação de modelos prescritivos para a solução desse e de outros problemas complexos cujos impactos conhecemos tão bem, como aquecimento global, epidemias, ataques terroristas, crises financeiras globais, desastres naturais etc.

Nesse caso, Steve Jobs estará mais uma vez certo: foi um dos últimos a morrer de câncer de pâncreas.

Agora precisamos saber se a ciência tem acesso aos dados que precisa. Falaremos sobre isso em outra publicação.

quinta-feira, 4 de abril de 2013

Big Data. Isso lhe interessa?


Big Data. Isso lhe interessa?



Em setembro de 2012 li um artigo sobre ciência das redes publicado no site Edge.org. O texto era do cientista Albert-Lazló Barabási, professor e diretor do Centro de Pesquisas em Redes Complexas da Universidade de Northeastern, em Boston.

Intitulado Thinking in network terms, o texto explicava em linhas gerais a importância dos dados digitais e o impacto que eles teriam nas ciências.

O objetivo do autor era alertar para a necessidade urgente de se discutir a questão da propriedade dos dados digitais e privacidade na rede, sob pena de perder a oportunidade de dar um grande passo na direção de compreender os sistemas onde vivemos e encontrar soluções para os problemas complexos que neles se apresentam.

Entusiasta do movimento Open Data, Barabási afirma em seu texto que os dados coletados por sites como Facebook e Google têm grande valor para a comunidade científica e que isso já justificaria uma revisão dos modelos de acordos de privacidade atuais.

Até então, tudo o que eu havia lido sobre open data era baseado em argumentos da filosofia Mertoniana que afirma que dados e informações coletados na sociedade são valores gerados coletivamente, portanto impossível de se atribuir propriedade.

Barabási colocou open data em outros termos, e minimizou a polêmica questão da privacidade de modo muito simples, mostrando em retrospectiva a evolução das redes sociais. 

O MySpace, primeiro site popular desse tipo, era completmente anônimo e privado. Poucas pessoas compartilhavam suas informações e quando faziam era para um grupo seleto de familiares e amigos muito próximos. Era como aquele mural de cortiça antigo na parede do quarto onde quase ninguém tinha acesso. O Facebook tirou o anonimato do modelo. Os usuários se cadastram com seus nomes e outras informações reais. Existem ferramentas de restrição de acesso ao conteúdo, mais isso vira quase uma lenda porque, sabendo que as redes sociais são altamente interconectadas, é impossível garantir que uma determinada informação postada nunca será acessada por um usuário indesejado. E então surge o Twitter, onde tudo que é postado é compartilhado por toda a rede indiscriminadamente.

Os usuários da internet estão evoluindo para um modo menos privado de vida. Não seria absurdo afirmar que a humanidade está  evoluindo para um modo menos privado de vida. Na internet postamos fotos, publicamos nossas inclinações religiosas, sexuais e políticas, damos nossa opinião sobre fatos relevantes e polêmicos e fazemos checkin nos lugares que frequentamos. No mundo não virtual, aceitamos ser filmados por câmeras de seguranças ou de TVs e ser rastreados por GPS de seguradoras de automóveis.

Mas isso não quer dizer que a questão da privacidade na rede não será a celeuma que todos imaginam. Digo isso porque as informações que colocamos voluntáriamente na internet são apenas a ponta do iceberg Big Data. O valor do Big Data está no que ainda é desconhecido da maioria. A celeuma provavelmente acontecerá porque a minoria que já enxergou esse valor não abrirá mão do controle sobre esses dados. Pelo menos não facilmente. Com certeza o respeito à privacidade será alegado, mas os motivos verdadeiros para justificar mecanismos restritivos de compartilhamento serão econômicos afinal, não é difícil imaginar que dados digitais tenha valor para além da comunidade científica.

Em 2006, Clive Humby usou a metáfora "novo petróleo" para se referir a dados digitais. Para ele, os dados digitais são para o século XXI o que o petróleo foi para o século XX.

A privacidade na rede foi a porta de entrada para o meu interesse em Big Data. Mas claro que seria inevitável esbarrar em diversas outras questões relevantes como, ética na utilização de modelos preditivos, lei de patentes, segurança da rede, armazenagem, governança de dados, riscos de uma economia dataficada, empoderamento individual, novos modelos de negócio, novas competências etc.

A proposta desse blog é trocar conhecimento sobre esse assunto  tão emergente e tão impactante, para o qual não podemos mais fechar os olhos.

Francis Maude, chefe de gabinete do governo britânico, afirmou recentemente que discutir a livre utilização de dados na internet é desconfortável e estranho, principalmente para os governos, mas chegamos num ponto de onde não é mais possível voltar.

Se o assunto lhe interessa sob qualquer perspectiva, inclusive contrária às coisas que serão publicadas aqui, eu quero muito saber o que você pensa. 

Todo conteúdo desse blog é livre para utilização e compartilhamento, desde que seja citada a fonte, como orienta a ética do open knowledge.