sexta-feira, 12 de abril de 2013

Big Data e a Ciência das Redes

Big Data e a Ciência das Redes


Não tem como definir. O potencial revolucionário do Big Data é a sua própria definição.

A incrível quantidade de dados digitais que a internet produz está prestes a causar uma revolução em todas as áreas do conhecimento humano.

A última vez que uma tecnologia causou tamanho impacto foi no século XV com a invenção da prensa tipográfica por Gutenberg.

Por que um banco de dados teria esse poder? Porque dados são a matéria prima do conhecimento que, por sua vez, é a única forma de garantir a sobrevivência. Você pode ter se esquecido disso, mas aprendemos para sobreviver às ameaças do ambiente.

Imagine a quantidade de dados que você utiliza para decidir se pode atravessar uma rua com segurança: dados já armazenados de experiências anteriores e dados que você recolhe naquele momento como a velocidade do carro, a distância que ele está de você e a distância para o outro lado da rua.

Todas as espécies fazem isso, mas a humana é a única que além de se adaptar, faz previsões e tenta controlar seu ambiente.

Captamos dados do mundo através dos nossos sensores chamados de sentidos, acumulamos, relacionamos com outros dados, formulamos hipóteses, testamos a sua eficácia no controle de certos eventos e começamos tudo de novo em novas bases. Quanto maior a quantidade e variedade dos dados que analisamos e quanto maior a sua confiabilidade, maiores as nossas chances de sucesso.

Agora voltemos à internet. A grande quantidade de dados certamente é uma condição necessária para a revolução Big Data, mas não é suficiente. É preciso que eles sejam diversificados e confiáveis.

No que diz respeito à variedade, não há o que discutir. Hoje é difícil imaginar uma atividade que não seja feita através, ou com o auxílio, da internet. Isso gera uma diversidade sem precedentes em um único banco de dados digital.

A pressuposição da veracidade tem fundamentos sólidos. Mais da metade dos dados digitais tem origem em rastros de navegação (pegadas que deixamos cada vez que acionamos o mouse) e sensores de todo tipo (como o GPS). Ou seja, a maior parte dos dados digitais é fornecida de modo involuntário, portanto livre de erros de registro e interpretação e de ruídos na comunicação, tão comuns em dados captados de outro modo. Outra grande parte é fornecida de modo voluntário em transações comerciais e financeiras, consulta em sites de busca e troca de mensagens, gerando dados igualmente autênticos.

Volume, variedade e veracidade são três dos quatro “V”s que indicam o potencial revolucionário do Big Data. Mas o melhor está por vir: a internet é a única rede artificial que se comporta como uma rede natural (ecossistema, código genético ou a sociedade, por exemplo) e por isso possui propriedades de um sistema vivo.

Os teóricos do assunto escolheram a palavra “velocidade” para denominar essa dimensão, talvez porque comece com “V” e combine com as demais já citadas, mas a escolha é inadequada. Velocidade está mais associada à rapidez e não é disso que estamos falando. A palavra técnica adequada é “stream”, que significa fluxo. Eu prefiro a palavra “dinâmica”, a terminologia das Ciências das Redes.

A novíssima Ciência das Redes, que surgiu há pouco mais de 10 anos para estudar redes complexas, afirma que a dinâmica dos dados da internet (Big Data) permite a compreensão do funcionamento das redes naturais.

Agora você pode estar se perguntando: E por que usar os dados da internet e não os dados dos próprios sistemas a serem compreendidos? Porque por ser digital, diferente dos sistemas naturais, o Big Data pode ser analisado precisamente nas relações que suas partes (dados) estabelecem entre si (links e logs). Ou seja, o Big Data pode ser analisado de modo sistêmico e dinâmico.

Conhecer as partes de um sistema é competência específica das ciências do século XX. Tem o seu valor e sua importância, mas se mostra ineficaz para resolver aqueles problemas que não se apresentam nas partes de um sistema, e sim em suas relações.

O melhor exemplo disso é o Projeto Genoma que reduziu o DNA humano às suas partes sem causar o impacto que se imaginava em novos tratamentos para doenças. Mas em ciência até resultados decepcionantes a impulsionam. Se identificar o gene que carrega um fator indesejado nem sempre traz a solução para o problema, os cientistas já buscam novos caminhos. Será preciso colocar as partes do sistema juntas de novo e observá-las em funcionamento com as outras partes e com outros sistemas.

Steve Jobs
Steve Jobs, lendário criador da Apple, teve todo o seu código genético mapeado para ser submetido a um tratamento personalizado contra um câncer de pâncreas. Em sua lucidez, reconhecendo o momento de revolução em que nos encontramos, afirmou: “Eu serei um dos primeiros a conseguir sobreviver a um câncer desse tipo, ou um dos últimos a morrer disso”. Como se sabe, conhecer cada gene de Jobs não levou os médicos à sua cura. As causas da doença não estavam em nenhuma parte conhecida. Estavam nas relações que elas estabeleciam com as outras partes e isso ainda é uma coisa desconhecida da medicina.

A Ciência das Redes afirma que a dimensão dinâmica da internet, aliada às características de volume, variedade e veracidade dos dados, permitirá a criação de modelos prescritivos para a solução desse e de outros problemas complexos cujos impactos conhecemos tão bem, como aquecimento global, epidemias, ataques terroristas, crises financeiras globais, desastres naturais etc.

Nesse caso, Steve Jobs estará mais uma vez certo: foi um dos últimos a morrer de câncer de pâncreas.

Agora precisamos saber se a ciência tem acesso aos dados que precisa. Falaremos sobre isso em outra publicação.

2 comentários:

  1. Primeiro queria te parabenizar pela maneira clara, transparente, e elucidativa com que você trata de assuntos que erroneamente algumas pessoas julgam “exatos”, numéricos, inacessíveis, “bicho de sete-cabeças”. Elogios à parte, queria compartilhar contigo da preocupação e do estudo com esses movimentos que ora vivemos aos quais chamamos de “mudanças de paradigmas”, “era tecnológica”, “geração Y”, “gestão 3.0” etc. Tenho acompanhado de perto esses movimentos e tentado concatenar as idéias de forma a entendê-los melhor, para melhor entender o ser humano, suas novas relações interpessoais, sua interação com o mundo moderno, suas formas de adaptação ao novo cenário que se apresenta, como se sente e de quais mecanismos precisa para se adaptar. Estou acompanhando seus posts e aprendendo muito. Grande abraço, Luciana Sodré.

    ResponderExcluir
  2. Obrigada, Teresa. Sabe o que eu acho? Nossa geração vai se debruçar muito sobre isso e a próxima vai passear no assunto. Leia um texto do Silvio Meira que o Marcos Cavalcanti compartilhou no FB dele sobre a necessidade de saber programar. Ainda vou escrever sobre isso porque, na minha opnião, para a nossa geração aprender a programar só se aparecer uma interface revolucionaria nos próximos 2 anos. Para a próxima geração, se a escola nao atrapalhar (nao precisa nem ajudar) programar vai ser mais uma linguagem usada como a falada, escrita, a matemática... Apesar de eu achar que esta mais para arte mesmo!

    ResponderExcluir