Mostrando postagens com marcador Big Data. Mostrar todas as postagens
Mostrando postagens com marcador Big Data. Mostrar todas as postagens

terça-feira, 15 de setembro de 2020

Doação de dados: você está preparado para essa conversa?


Existe um grande debate em torno do monopólio dos gigantes (Big Techs) da plataforma digital que conhecemos como WWW ou Web. Oferecendo produtos e serviços que atendem muito bem as necessidades das pessoas, essas empresas conquistam e concentram o mercado. Definido como uma situação particular de concorrência imperfeita, o monopólio não surge apenas da coerção, feita por governos através de leis que visam proteger um único agente. Existem setores que apresentam uma barreira de entrada natural tão grande, que geram monopólios espontâneos. Também tem aquele caso onde os concorrentes apresentam produtos e serviços tão diferentes, que de fato não fazem concorrência uns com os outros e formam a concorrência monopolística.

Então? Em qual desses casos de monopólio se encaixam as Big Tech? Nenhum. Alphabet (Google), Facebook, Apple, Microsoft e Amazon, não são beneficiadas por nenhuma reserva de mercado. Todas essas empresas têm concorrentes. Podemos pensar numa concorrência monopolística? Strava, por exemplo, é uma rede social que oferece a oportunidade de conhecer e interagir com praticantes de esportes do mundo inteiro. Um produto excepcional que, no entanto, não oferece concorrência ao Facebook. Usuários do Facebook não querem saber se seu “treino está pago”, e o Facebook não oferece ao atleta o que Strava oferece. O mesmo acontece com Facebook e Linkedin. Temos contas em diversas redes sociais porque, embora parecidas (perfil, posts, feed, like, comentários, amigos, etc), elas são substancialmente diferentes. A barreira de entrada para esses negócios é baixíssima! Quem nunca ouviu dizer “começou numa garagem”? Por que, embora tenha concorrentes, o público se concentra em uma ou outra plataforma?

O monopólio das Big Tech tem suas peculiaridades.Você pode comprar roupas numa loja com mais alguns milhares de desconhecidos enquanto seus amigos se espalham comprando em centenas de lojas que você nem sabe que existem. Tá tudo bem. No entanto, ninguém quer ficar numa rede social onde os amigos, ou aqueles com quem se deseja se relacionar, não estejam. Também não queremos comprar onde existam poucas avaliações e recomendações. Além de oferecerem boas soluções para seus usuários, os produtos das Big Tech se beneficiam do atributo REDE. Nós nos aglomeramos voluntariamente em torno delas e involuntariamente somos agentes dessa concentração. Tente imaginar o que aconteceria se a gente conseguisse deletar todas as redes sociais tipo Facebook, e começar de novo, com centenas de pequenos concorrentes, todos oferecendo serviços absolutamente iguais, numa concorrência perfeita! (Por favor, não deixe de me mandar comentários dizendo o que você acha que aconteceria!).

Outra peculiaridade dos monopólios digitais é que eles não são temidos por porque têm poder e controle sobre o mercado. Eles são temidos porque têm poder e controle sobre os dados. Talvez acabe sendo a mesma coisa porque o mercado das Big Techs na verdade, são os dados... 

Dito tudo isso, podemos afirmar que temos uma boa visão sobre problema do monopólio das Big Tech. Por que não conseguimos enfrentá-los? Porque, embora estejamos vendo bem, não estamos enxergando direito. Só existe uma maneira de regular a concentração de poder que tanto tememos: a velha, temida e injustiçada abordagem dos dados abertos.

Toda empresa que coleta dados, tem a obrigação de dar a governança e o direito de utilizá-los (tudo previsto em acordos sociais conhecidos). A cessão dos direitos de uso é condicional, portanto temporária. Só quem tem direitos permanentes sobre o uso dos dados, são os agentes de onde eles foram extraídos. Em palavras simples, seus dados, sobre você, seus hábitos, ações e relações (seus “não dados” inclusive), pertencem a você e a você é assegurado o direito de fazer o que quiser com eles. Você vai me perguntar: se eu posso fazer o que eu quiser com eles, por que não posso impedir que essas empresas usem meus dados? Porque você assinou um contrato quando começou a usar os serviços dela: serviço de graça (ou por um valor X) e, em troca, todos os seus dados poderão ser usados “na melhoria dos serviços prestados”. Não é só isso. A empresa disse também pra você não se preocupar porque ela não vai “compartilhar seus dados com ninguém”. Pronto. Você cedeu os dados, aceitou que fossem usados e garantiu o monopólio de uso para essa empresa.

E agora? Agora você exerce o poder de fato (você já tem por direito) e torna-se um doador de dados. Voluntariamente, declare que seus dados devem ficar disponíveis para que uma plataforma de dados pública1 os colete e disponibilize a serviço da inovação. Não, isso ainda não existe, mas deveria existir. 

Uma plataforma pública de dados seria um lugar onde os dados proprietários voluntariamente cedidos, ficariam disponíveis e acessíveis para todos2. Há muito o que se pensar para um modelo de negócio desse tipo, até porque existem parâmetros e inspirações para ele, mas não precedentes. Poderia se exigir, por exemplo, que aqueles que desejem usar os dados dessa plataforma pública, sejam doadores de dados. Pode-se exigir das plataformas sociais privadas que anonimizem os dados e disponibilizem, através de APIs, aqueles que fossem doados pelos seus verdadeiros proprietários.

Permita-se um tempo para pensar na ideia. Com o tempo você vai entender e aceitar que dados compartilhados estão muito mais protegidos do que dados aprisionados. O seus dados já são usados de qualquer maneira, mas estão gerando valor exclusivamente para um agente desse ecossistema.

Dados digitais são imprescindíveis para a visualização e abordagem de problemas complexos. Sabe o que são problemas complexos? Aqueles com uma infinidade de causas, correlacionados com outra infinidade de fenômenos e que, para completar, são dinâmicos por natureza. Um problema complexo nunca acorda do mesmo jeito que dormiu, porque a rede que o sustenta é formada por agentes vivos, autônomos, que fazem escolhas e emitem informações o tempo todo. Exemplos? Violência. Educação. Pandemia. Terrorismo. Pobreza. Todos esses problemas são complexos e por definição não possuem soluções. O máximo que conseguimos fazer com problemas complexos, é controlá-los o tempo todo e para sempre.

Todo mundo conhece a fórmula de sucesso do controle de algo: conhecer. Quanto mais informações temos sobre um problema, melhores as chances de controlá-lo. É preciso mapear e gerenciar, o tempo todo e para sempre, o máximo de informações possiveis. Sabe onde estão os dados que podem ajudar nesse processo? Em mãos privadas. Precisamos de acordos sociais que garantam o acesso coletivo a dados coletados de indivíduos. Essa necessidade é tão humana e tão premente, que podemos apostar que uma solução desse tipo, certamente está a caminho. Claro que uma boa regulamentação para proteção de privacidade se aplicará à uma plataforma pública. Se você confia em um acordo social feito com uma empresa para a proteção de seus dados, não tem porque não acreditar que o mesmo acordo pode ser feito para uma plataforma pública . Se não confia, melhor excluir todas as suas contas do Google, Amazon, Facebook, Linkedin, Apple, Microsoft e etc.

Existem várias maneiras de fazer uma plataforma pública de dados digitais doados tornar-se um excelente modelo de negócio para todos os envolvidos (stakeholders, se você preferir). Se a gente abraçar a ideia, as soluções chegam.

Você já doa seu tempo como voluntário em uma causa que defende, mesmo que seja apenas escrevendo um texto e publicando ou debatendo nas redes sociais. Talvez até doe dinheiro. Muitos são doadores de sangue e órgãos. Doamos o que temos sobrando e não nos faz falta, e mesmo que faça, é muito pouco em comparação com o benefício que pode gerar na causa que recebe. A próxima vez que pensar em doar algo para uma causa nobre, considere a doação de dados.

Você está preparado para essa conversa?


1 Pública não é sinônimo de estatal
2 Aí também poderiam ficar os dados abertos por default (os chamados dados públicos, que já são abertos por natureza), mas para esses ao menos já existem acordos sociais para compartilhamento.

quinta-feira, 14 de janeiro de 2016

Mind the gap


MIND THE GAP

Quem já andou no metrô de Londres sabe que mind the gap é uma recomendação quase obsessiva da TFL (Transport for London, empresa que faz a gestão da mobilidade da cidade). A expressão que significa “cuidado com o vão” alerta para o risco do passageiro de introduzir o pé no vão que existe entre a plataforma e o vagão do trem. O que está implícito na mensagem é que o gap existe e que o risco é grande: se você não sabe que ele está lá, ou negligencia sua existência, vai acabar metendo o pé naquele vazio e as consequências podem ser desde um simples contratempo, até um transtorno maior com perdas inestimáveis ou irreversíveis. 

Opa! Tá aí uma boa metáfora para quem quer embarcar na era do big data.

Vamos por partes. Primeiro a plataforma. Depois o trem. Finalmente o gap

O QUE É BIG DATA?
Big Data é a maior plataforma de geração de conhecimento e inovação do século XXI. Dados digitais são a matéria prima para informações sobre as pessoas e sobre como as pessoas se relacionam entre si, com a natureza e com os objetos que estão à sua volta.
QUAL O VALOR PRÁTICO DISSO?
Esses dados nos ajudam a ver, caracterizar e compreender coisas que antes nem sabíamos que existiam. Também nos ajudam a descobrir causas e consequências de determinados problemas. Possibilitam ainda prever determinados acontecimentos a partir de padrões ou correlações entre fenômenos. O impacto de tudo isso é um empoderamento da nossa capacidade de fazer melhores escolhas. Onde quer que haja um ser humano tomando uma decisão, desde a mais simples até a mais complexa, lá estarão os dados digitais facilitando esse processo. Um bom processo de tomada de decisão é o trem onde todos querem embarcar.
O QUE NOS IMPEDE DE IR MAIS ADIANTE?
O gap. O vão. O vazio.

A visão que se tem sobre qualquer coisa pode ser uma barreira ou uma alavanca para nossos objetivos. A maioria das pessoas, especialistas ou novatos no tema, têm a seguinte visão sobre big data:
É assunto para a tecnologia da informação; é restrito a quem possui como ativo grande quantidade de dados; exige um alto investimento; é algo que ameaça a privacidade das pessoas.
Com essa visão só nos resta esperar um ambiente restritivo ao uso de dados, onde cabe um papel ativo aos afortunados, passivo aos não favorecidos e reativo às vítimas que tentam proteger suas informações pessoais.
MIND THE GAP
Big Data é assunto para de tomador de decisão. Qualquer pessoa que precise fazer escolhas deve se interessar pelo tema, porque dados digitais ajudam a reduzir o erro nas escolhas e, numa época de grande propósitos e recursos limitados, a tolerância por erros será cada vez menor.
Não queremos errar, por exemplo, quando procuramos o melhor preço para o produto que queremos comprar, escolhemos o melhor trajeto para um deslocamento ou o melhor tratamento para uma doença. As empresas também não querem errar quando configuram um produto ou serviço, ou quando se comunicam com seu publico alvo. Gestores públicos têm cada vez menos margem de manobra para lidar com o caos urbano e os problemas para a saúde e segurança públicas.
Essa visão de que big data está relacionado com ação e sucesso, muda radicalmente o nosso posicionamento em relação ao assunto. Primeiro, porque transforma todos em atores e beneficiários do ambiente digital. Segundo, porque transforma dados digitais em ativo pelo seu uso e não pela sua posse.
A partir daí, criaremos um ambiente para trabalhar dados digitais como algo que diz respeito ao conhecimento e não apenas à tecnologia. Isso tem grandes implicações nas estratégias que estabeleceremos nas empresas e nos órgãos públicos, nos novos modelos de negócio e na regulamentação do ambiente digital.
Certamente os sensores, a comunicação móvel, a analítica digital e a computação em nuvem são os elementos que constituem o fenômeno big data. No entanto, nenhum valor será tirado daí se não compreendermos e soubermos utilizar bem outros conceitos que ultrapassam a fronteira tecnológica como:  complexidade, dinâmica social, engenharia da sociedade, smart cities, open data, colaboração, crowdsourcing, idlesourcing, gamificação, pensamento exponencial, design thinking, data driven decision, rastros digitais, ética, ativos e outputs intangíveis, entre tantos outros.

O gap existe e está lá ameaçando qualquer um que venha desavisado e ansioso para embarcar no trem. Enfiar o pé no gap significa fazer altos investimentos em tecnologia para analítica, sem ter ajustado a estratégia, processos e competências para uma cultura data driven. Mind the gap

quinta-feira, 14 de maio de 2015

Network Thinking, Ciência das Redes e Big Data

Network Thinking, Ciência das Redes e Big Data

Em 2014 o Centro de Referência em Inteligência Empresarial (CRIE) da Coppe/UFRJ, lançou um curso para colocar Big Data na agenda estratégica dos gestores brasileiros. O curso é denominado WIDA (Web Intelligence & Digital Analytics), tem uma peculiaridade digna de destaque: a determinação em fazer com que os alunos desenvolvam o network thinking, ou seja, a percepção de que os problemas que eles desejam resolver com os dados digitais são resultantes da interação de agentes de um sistema complexo. O curso apresenta a Ciência das Redes como mind set essencial para a gestão do ambiente digital. De fato, pensar em termos de rede é competência fundamental para quem deseja gerar valor a partir de dados digitais.

Você sabe o que Ciência das Redes tem a ver com Big Data?

A Ciência das Redes, como chamamos aqui no Brasil, é o campo que busca conhecer as leis que governam os sistemas complexos. Cientistas acreditam que modelar matematicamente a complexidade é o único caminho para o desenvolvimento da tão sonhada Inteligência Artificial (AI).

Falando de modo simplificado, sistemas complexos são formados por um grande número de componentes relativamente simples (também chamados de nós) e funcionam sem um comando central porque esses nós têm comportamento autônomo e emergente. São sistemas complexos, entre outros, o cérebro, o código genético, uma colônia de formigas, a world Wide Web e a sociedade. 

Como a www é um sistema complexo totalmente digital, tem sido usado como campo empírico para a modelagem matemática desses sistemas. 

Segundo Barabasi, um dos cientistas mais atuantes e reconhecidos nesse campo, com dados suficientes um sistema complexo pode modelado matemáticamente e desse modo ser compreendido para ser antecipado e controlado. Médicos querem controlar a disseminação de um vírus, empresas querem antecipar o comportamento do consumidor, o mercado deseja controlar preços, os governos, evitar crises financeiras, as seguradoras, antecipar sinistros e controlar as fraudes e etc.

Pronto. Essa é a maneira mais objetiva de associar Ciência das Redes a Big Data. 

Para começar a desenvolver seu network thinking, comece lendo uma conversation Albert-László Barabasi no site edg.org. Intitulado Thinking in Network Terms (clique no título), o texto é a transcrição de uma conversa que o cientista teve em 2012 com John Brockman, editor do site, sobre a importância dos dados digitais para o estudo da complexidade. Além de ser uma simples e excelente introdução á Ciência das Redes, o texto é uma bela defesa da cultura open data, quase um manifesto pelo livre compartilhamento de dados em benefício da ciência.

Que saber mais? Pergunte!

terça-feira, 1 de julho de 2014

O Facebook pisou na bola?

O Facebook pisou na bola?

Algumas pessoas me perguntaram o que eu penso sobre a divulgação da experiência que o Facebook fez recentemente para entender como as emoções dos seus usuários variam de acordo com as notícias que lêem. Vamos por partes:

1. A quem pertencem os dados gerados pelo uso da internet?

Ao sujeito do fato gerador. Nesse caso, cada um de nós.

2. Quem pode usar esses dados?

A regra e clara: além do proprietário, quem cuida da governança (captura, codificação, armazenagem, cópia, segurança etc) pode usar os dados para melhorar seus produtos ou desenvolver novos, desde que não signifique uma ameaça ao anonimato das pessoas. Na prática apenas as empresas que fazem a governança usam os dados porque só elas têm a capacidade analítica (humana, técnica e tecnológica) para fazê-lo (Isso está com os dias contados. Em breve cada um de nós terá essa capacidade). Em resumo, o Facebook pode usar os dados, sim!

3. O provedor da plataforma digital pode usar seus serviços para fazer experiências?

Isso é que foi novo para os usuários... É compreensível a indignação dos usuários, assim como penso que seria legítima uma retaliação dos usuários, mas... o Facebook não fez nada errado. Ele NÃO manipulou as informações, NÃO manipulou você. Manipulou os feeds e isso diz respeito à gestão do site. O que o Facebook fez pode ser considerado no máximo amoral. A brecha está na definição do serviço que a empresa se propôs a prestar. Vá lá, leia e se surpreenda. O que esperamos do Facebook não está escrito em lugar nenhum. A nossa indignação é porque inferimos coisas sobre o serviço que não nos foram garantidas.

O Facebook é uma praça pública. Mas eles não prometeram dar os recados dos seus amigos, ser imparciais na priorização do conteúdo, distribuir os seus panfletos e suas ideias para todos que frequentam a praça... Pois é. Entra e sai quem quer. Fala-se o que quer. A praça é pública. Mas a gestão, os interesses e os lucros são privados.

4. A solução?

Como trata-se de um problema complexo, não existe solução, mas podemos gerenciá-lo. Algumas sugestões: Se isso é tão devastador para você, não participe, ninguém é obrigado; Lute por uma filosofia Open Data; Seja doador de dados; Prefira plataformas e softwares com códigos abertos, onde o desenvolvimento e a gestão têm mais chances de atender à uma expectativa pública; Acima de tudo: mantenha sempre uma postura crítica! A comunicação é o link que sustenta o sistema social, portanto, qualquer serviço que minimamente toque nesse assunto tem um poder incrível de controle, interferência e direção. Para o bem e para o mal!

Comentários, argumentos, críticas, complementos, correções etc, são muito bem vindos.

terça-feira, 18 de fevereiro de 2014

Marco Civil da Internet e Inovação

Marco Civil da Internet e Inovação

Quatro traços da cultura brasileira que nos impedem de inovar


Amanhã, 19/02/14, o congresso brasileiro deve começar a votar o marco civil da internet. Trata-se de um projeto de lei que "visa consolidar direitos, deveres e princípios para utilização e desenvolvimento da Internet no Brasil". 

A definição acima é do Comitê Gestor da Internet no Brasil (CGI) criado em 1995 para coordenar as iniciativas de serviços de Internet no Brasil. O projeto de lei foi elaborado em um processo colaborativo coordenado pela Secretaria de Assuntos Legislativos do Ministério da Justiça em parceria com a FGV Rio e segue os "Principios para governança e uso da Internet" estabelecidos em 2009 pelo CGI.

O CGI é formado por membros do governo, empresários e representantes do terceiro setor e da comunidade acadêmica. São aproximadamente 20 pessoas representando esses setores de modo a garantir diversidade de entendimento e de interesses.

Além disso, o projeto foi submetido diversas vezes à consulta pública desde que foi iniciada sua discussão ainda no ano de 2009.

Tudo isso colocou o Brasil em destaque no que diz respeito a definição de um marco regulatório para utilização da Internet.

No entanto, algumas coisas me preocupam. Não pretendo fazer críticas nem dar palpites no projeto, primeiro porque não sou especialista em leis e depois porque, para criticar e dar palpites vários canais foram abertos como já citado acima.

Queria apenas pontuar algumas coisas que sublinham fortemente cinco traços da cultura brasileira que gritam no texto do Marco Civil, como que implorando por reflexões...

1. Comecemos obsessão reduntante por novas regras e leis. Vejamos dois quesitos do projeto que tratam  da privacidade e da guarda de registro. 

Os itens que garantem os direito à intimidade e à vida privada  (capítulo II, art 7, item I)são importantes, mas na minha opinião já estavam garantidos em outras leis. Do mesmo modo o direito à inviolabilidade da comunicação privada, salvo por ordem judicial (capítulo II, art 7, item III) , também já é garantido em nosso país.

Aqui aparece o primeiro traço da nossa cultura que eu gostaria de mencionar: quando nos deparamos com algo novo, acreditamos ser necessária uma legislação específica para regulá-lo. Assim, leis já existentes e abrangentes o suficiente para lidar com as novas questões não são aproveitadas gerando um aporte desproporcional de recursos para criar uma nova lei, em grande parte de sua extensão, dispensável.

2. Quando fala da inviolabilidade do fluxo das comunicações (capítulo II, art 7, item II), o texto começa a mostrar o desconhecimento sobre redes, a importãncia de estudá-las e o papel dos dados digitais nesses estudos. A maioria das pessoas que já tiveram contato com esse assunto o conhecem pelo nome de big data. Nesse projeto, pelo menos até a versão de hoje, não há uma única pista de que os legisladores estejam atentos à importância dos dados digitais para a ciência e para a inovação.

O fluxo de comunicações entre as pessoas nos permite elaborar um mapa do sistema complexo chamado sociedade e esse mapa pode nos levar à compreensão de fenômenos ainda não explicados e consequentemente não resolvidos pela ciencia. E isto não inclui apenas fenômenos sociais. Está comprovado que a comunicação, o principal link que conecta pessoas, forma uma rede que sustenta também fenômenos como a disseminação de doenças, a propagação de vírus eletrônico ou as crises finaceiras. 

O texto também parece desconhecer as propriedades das redes complexas que garantem por exemplo que os conhecimentos acima podem ser obtido sem a utilização do conteúdo da comunicação e sem a identificação nominal das pessoas envolvidas.

É como se existisse uma lei que proibisse a utilização das informações do fluxo de correspondencias controlado pelos correios para entender a movimentação de volumes no país. Ou que proibisse a analise do fluxo de passageiros de companhias aéreas para estudar a mobilidade das pessoas. Ou o fluxo das transações financeiras e assim por diante.

Aqui estaria um segundo traço da nossa cultura: temos uma grande inércia para inovação. Apesar de todo acesso que temos à informação temos dificuldades em identificar pontos de inflexão no cenário internacional e mais dificuldade ainda em incorporá-los em nosso contexto. A comunidade cientifica americana estuda Ciencia das Redes e big data há mais de 10 anos. Em 2012 o conselho nacional de pesquisa americano recomendou o assunto big data ao governo americano e em poucos meses o presidente Obama anunciou o Big Data Research and Development Initiative liberando recursos para pesquisas, para premiar iniciativas que aumentassem a capacidade analítica do país e assumindo compromissos para alavancar a utilização de dados digitais priorizando as áreas de saúde, defesa, energia e estudos geológicos.

3. Outro ponto sintomático do texto é o que fala sobre a utilização de dados pessoais (capítulo II, art. 7, item VIII). Primeiro porque não faz distinção entre dado e informação. Acredito que o legislador se refere a informações quando diz que "dados pessoais só poderão ser usados para as finalidades que justificaram sua coleta." No entanto, do jeito que está o texto, todos os dados são pessoais porque são registros digitais da nossa utilização da rede. Além disso, a esmagadora maioria deles não foi coletado para finalidade nenhuma. São os rastros de navegação que deixamos ao usar a Internet que também têm valor inestimável como já explicado em outros posts desse blog. 

Em outra parte do texto (capitulo III, sessão II, parágrafo 1), que fala da proteção dos registros de navegação, é sutilmente reconhecida a existência dos rastros digitais. No entanto, ao mesmo tempo que diz expressamente que o responsável pelos dados só pode disponibilizá-los mediante ordem judicial (paragrafo 2), o texto se omite quanto à utilização desses dados pelo próprio responsável que certamente os utilizará, como tem sido feito até então. Se você já leu a política de privacidade do Google ou Facebook, por exemplo, já viu que, sob pretexto de preservar sua privacidade, prometem não compartilhar seus dados de navegação, mas a mesma política diz que pode eles poderão utilizá-los para melhorar seus serviços ou lançar serviços novos. O parágrafo 3 dessa mesma sessão garante também acesso aos dados por parte de autoridades administrativas... Ou seja uns poderão ter acesso e utilizar os dados, outros não.

Essas restrições reforçam o terceiro traço cultural, que é uma das coisas mais perversas para a sociedade como um todo: uma forte inclinação para reforçar a assimetria de informação. Sem querer entrar em questões de poder, vou apenas mencionar que a assimetria de informação é uma das principais responsáveis pelo refreamento da inovação, assim como são, em certo sentido, as patentes. Para mudar esse contexto desfavorável, existe um movimento chamado open data e você pode ler mais sobre isso em outro post desse blog (clique aqui) ou  no site do Open Data Institute.

4. Outra coisa interessante aparece fora do texto do projeto, mas é dirigida a ele. Em carta aberta ao deputado ralator do projeto Alessandro Molon, encaminhada no dia 10/02/14, diversas entidades da sociedade civil ameaçaram retirar o apoio que davam ao projeto. Embora tenham razão em alguns dos questionamentos, chama atenção a justificativa que deram para não concordar com a obrigação de guardar os registros de navegação (acesso às aplicações): segundo eles, a guarda desses dados para uso eventual da justiça "amplia a possibilidade de espionagem" e funciona como "uma espécie de grampo compulsório (...) invertendo o princípio constitucional da presunção de inocência". 

Me parece que, à luz da importância dos dados digitais para a inovação, uma legislação altamente restritiva à sua utilização faz exatamente isso: inverte o principio constitucional da presunção de inocência. Não guardamos os dados porque eles podem ser usados para espionagem.

Esse seria o quarto traço cultural a ser destacado: embora a presunção da inocência seja um direito constitucional, nossas leis são desenvolvidas baseadas no contrário, criando uma burocracia que nos impede de inovar, ou limita essa possibilidade a poucos que conseguem custear ou contornar esses obstáculos.

5. A carta ressalta ainda que a obrigação de guardar os dados no Brasil poderá estimular as empresas a comercializar esses dados para compensar os custos da sua governança. 

Claro que não devemos exigir guarda de dados no Brasil, mas não pelo motivo alegado! Esse argumento aponta o quinto e ultimo traço cultural que o marco civil da internet nos obriga a enxergar em nosso país:  temos um desprezo generalizado pela ética. Um ponto específico de uma lei não é adimitido porque pode incitar uma prática que a mesma lei proibe. É assustador. Em nosso país a ética talvez seja a palavra que guarde menor relação entre sua aparição em discursos e sua utilização na prática.

E assim estamos prestes a aprovar uma lei que já nasce caduca porque despreza a parte mais importante daquilo que está legislando. E tudo perfeitamente justificável por traços culturais que além de guiar nossas leis, nos impedem de inovar.






terça-feira, 9 de julho de 2013

O nome do jogo é Open Data

O nome do jogo é Open Data

Recentemente a mídia comum, ou a mídia de massa, tem abordado bastante o tema Big Data.

O que acontece quando um tema, que até bem pouco tempo circulava apenas nos ambientes científicos (Sim, big data é ciência! Leia aqui), passa a circular livremente pelo cidadão que não domina profundamente o assunto?

Acontecem coisas maravilhosas!

O mais importante é que tudo o que foi estudado, teorizado, metodologizado e ferramentado é colocado sob consulta para os comentários da peça mais importante do sistema de geração do conhecimento: o cidadão que usará os produtos e serviços gerados, pagará por eles (diretamente ou através de impostos) e receberá os impactos  das mudanças (os bons e os ruins).

Ou seja, Big Data agora é tema de conversas pessoais e profissionais, gerando uma quantidade grande de informações, que devem retroalimentar o ecossistema. Como a discussão está acessível a todos, as contribuições vêm das mais diferentes origens filosóficas, comportamentais, geográficas e de expertise. Essa diversidade enriquece muito o debate do novo assunto.

Podem ter certeza de que os sensores da ciência, organizações e governos estão atentos a todas as manifestações sejam as que rejeitam, as que são indiferentes ou as mais entusiasmadas.

Vou chamar todo esse processo de meta big data. Vamos usar todos os dados disponíveis para fazer analítica descritiva, diagnóstica, preditiva e prescritiva do próprio big data.

Se você já está familiarizado com o conceito, sabe que quanto maior o volume de dados e quanto mais diversificado eles forem, melhor o modelo preditivo e consequentemente as ações desencadeadas.

Pois bem, onde quero chegar? Todo meta big data aponta para uma tendência muito clara de aceitação cada vez maior do conceito open data, a ideia de que todos os dados devem estar livremente disponíveis para a utilização de todos.

Não usei nenhum algoritmo especial para ver open data como uma tendência. Usei meu personal predictive analytics toolkit (nosso cérebro faz isso muito bem!). Por isso, se alguém quiser fazer a analítica por algoritmos e encontrar outra tendência, será de grande utilidade para essa discussão. 

Eu já havia comentado aqui sobre essa tendência de aceitação do open data, e usei como argumentos a inovação (leia aqui) e a economia (leia aqui).

Desde que o assunto big data chegou ao público comum, a esmagadora maioria dos comentários tem sido em relação à invasão de privacidade. Todos se preocupam com o que o Facebook, Twitter, Google, Amazon, Americanas.com e todos os demais sites que administram uma quantidade gigantesca e crescente de dados digitais sobre as pessoas, estão fazendo ou podem fazer com tudo isso.

Para aumentarem as preocupações, notícias recentes afirmam que governos estão espionando dados digitais de pessoas comuns.

Então resolvi rever meu modelo preditivo. Acrescentei a ele essa reação pública, esse temor pela perda da privacidade, e o modelo ficou bem melhor! Agora a tendência ao open data é muito mais evidente!

Sei que a afirmação parece paradoxal: se as pessoas reclamam da invasão de privacidade elas deveriam ser contra o livre compartilhamento de dados para todos.

O paradoxo é só aparente. Vou argumentar em itens para facilitar:

  • A invasão de privacidade só pode acontecer no que está privado. Se estiver público, não há invasão de privacidade;
  • A espionagem só acontece no que está escondido. Se nada estiver escondido, não haverá o que espionar;
  • A descoberta das espionagens que tanto abalaram a opinião pública só foi possível por causa de outras espionagens, que também quebraram os acordos de privacidade e confidencialidade, e mesmo assim nós aplaudimos (por isso Assange e Snowden são mais vistos como heróis que vilões);
  • O que as pessoas temem com a utilização de dados digitais é que eles sejam usados para o mal. Se fosse possível garantir que tudo seria usado com bom senso e para o bem, ninguém reclamaria. Mas o que é o mal? O que é o bem? Quem seria o dono do “bom senso”? Se os dados estiverem ao alcance de todos, esse problema não se resolverá. Mas eles estarão ao alcance de todos e não apenas de um grupo com um determinado tipo de “bom senso”.

As pessoas ainda nãos sabem, mas open data não é perda de privacidade, e isso um dia a mídia comum vai dizer, e então elas vão saber.

Se alguém também usar seu personal kit e chegar a uma conclusão diferente, ela  será muito bem vinda nos comentários deste post.





segunda-feira, 24 de junho de 2013

Follow us! Monitorar a internet ameaça ou fortalece a democracia?

Follow us!
Monitorar a internet ameaça ou fortalece a democracia?


Na ultima publicação que fiz (leia aqui), deixei a frase final para servir de gancho para um novo post que pretendia escrever. Não precisava. Assim que publiquei o texto, vi no Facebook o link para uma nota no site do Jornal Estadão:


O texto que eu pretendia escrever era sobre os indicadores de sucesso de um modelo preditivo. A ideia central é que a avaliação de um modelo preditivo é feita pelas ações que se tomam a partir do conhecimento que ele gerou.

Digamos que um modelo preditivo indique que algo não desejado vai acontecer. A partir daí ações são tomadas e evitam o acontecimento. O modelo não comprovou sua predição. Então o modelo não foi bem sucedido, certo? Errado. 

O objetivo de um modelo preditivo, diferente do que o nome pode sugerir, não é adivinhar o futuro. É desencadear ações. Então é através do sucesso delas que o modelo deve ser avaliado.

O fenômeno não desejado que não ocorreu chama-se não evento e  tem um valor importante e difícil de ser avaliado.

Volto a falar sobre esse assunto em outro post. Quero falar sobre a notícia do monitoramento da internet pela Abin e para isso as noções acima já são suficientes.

A nota citada no jornal diz que a Abin “avalia que as tradicionais pastas do governo que tratavam de articulação com a sociedade civil perderam a interlocução com as lideranças sociais”

Ela tem razão. As novas lideranças sociais são todos os cidadãos brasileiros que estão de alguma forma conectados à rede opinando, criticando, dando notícias que a imprensa tradicional não quer ou não tem capacidade para cobrir, cooperando, fazendo o país andar para um lado que as tradicionais pastas do governo não conseguem captar.

Se o governo (não a Abin) estivesse monitorando devidamente as redes teria antecipado as insatisfações populares? Sim. Teria evitado as manifestações? Sim. Isso é Big Brother, censura, invasão de privacidade, autoritarismo ou algo do gênero? Não.

Permitam-me dizer que vejo o monitoramento das redes sociais por uma agência de inteligência (não a Abin), como o suprassumo da democracia.

Nas redes sociais, cada cidadão se manifesta individualmente, livremente e espontaneamente. O Twitter é uma ferramenta especialmente importante porque quem utiliza está disposto a ser lido por qualquer um, mas qualquer outra interface que uma pessoa faz na rede deixa importantes rastros da dinâmica de uma população.

Se o governo (não a Abin) estivesse monitorando DEVIDAMENTE as redes, teria um modelo preditivo sobre a sociedade que adiministra. Teria percebido há muito tempo que a população não estava tolerando os desvios de dinheiro, as mordomias dos políticos, os financiamentos de campanha, os fisiologismos, a falta de investimento em saúde, educação e infraestrutura e outras demandas que surgiram nos cartazes dos protestos, afinal, “não é por 20 centavos”.

Se o governo (não a Abin) tivesse feito DEVIDAMENTE um modelo preditivo a partir do monitoramento que fizesse das redes, teria um bom plano de ação. Já teria feito a reforma fiscal e política. Já teria investido em educação e saúde. Já teria uma política de intolerância à corrupção e não lhe passaria pela cabeça algo parecido com a PEC 37.

Se o plano de ação acima tivesse sido ativado, o governo (não a Abin) teria transformado as manifestações dos últimos dias em um não evento. O modelo não confirmaria sua predição e teria sido um sucesso.

Monitorar a rede, ao contrário do que muitos pensam, pode ser a solução para o nosso falido modelo de democracia.

O modelo democrático representativo já foi a solução perfeita quando a população cresceu a ponto de não haver mais condições de ouvir a todos individualmente. Hoje ele precisa ser repensado porque, com a internet, cada um de nós pode representar a si mesmo.

Por último quero explicar porque insisti tanto em dizer que monitoramento da internet pelo governo não é tarefa da Abin.

A Abin é uma agência de estado e não de governo e, até onde sei, tem o objetivo de identificar ameaças ao estado de direito e à soberania nacional. Portanto, os objetivos dela monitorando uma rede podem até ser legítimos, mas não são os mesmos objetivos de um governo.

Por último: esse texto é sobre Big Data e não sobre política.


quinta-feira, 20 de junho de 2013

Como captar "mudanças de ventos"

Como captar "mudanças de ventos"

Em sua coluna para o jornal O Globo ontem (19/06/13), o jornalista Merval Pereira destaca uma coisa importante em relação aos protestos recentes no Brasil, iniciados a partir do aumento tarifas de transportes públicos: ...é impressionante que o imenso aparato de informações de que cada governo dispõe, especialmente a presidência da República, e as pesquisas de opinião não detectaram essa indignação que explodiu nas ruas.

É realmente impressionante, mas não inexplicável. O próprio jornalista fornece a pista dessa explicação em outra parte do texto: “O dono de um desses institutos de opinião chegou a ironizar as oposições e analistas que criticavam o governo, afirmando que viviam em uma realidade paralela, que nada tinha a ver com a vida do cidadão comum, que estava muito satisfeito. Segundo ele, não havia sinal de mudança de ventos que suas pesquisas pudessem captar.

Pronto. Está tudo dito. Pesquisas de opinião não captam sinais de problemas complexos. Por que?

Porque uma pesquisa de opinião é a resposta para uma pergunta que é feita. Um problema complexo é o somatório de milhares de respostas às perguntas que ninguém fez.

Quando se elabora uma pesquisa de opinião, perguntas preconcebidas só dão conta de questões previstas e recebem respostas previamente pensadas.

As manifestações desta semana no Brasil são, em seu conjunto, um fenômeno complexo desencadeado por um conjunto de fatores que não estão diretamente ligados com o problema, portanto uma pesquisa de opinião jamais poderia contemplá-los em suas perguntas. Sim, isso era um caso para a analítica preditiva feita a partir de dados que não foram coletados para nenhum fim específico (Big Data).

Antecipar a ocorrência de uma manifestação justa como a que está ocorrendo, pode não ser o melhor exemplo da utilidade da tecnologia preditiva, mas é um ótimo exemplo da diferença entre o poder de previsão de uma pesquisa de opinião e o poder de uma analítica preditiva em Big Data.

Para entender a limitação de atuação de cada tecnologia, é preciso saber a diferença conceitual e metodológica entre previsão (forecast) e analítica preditiva (predictive analytics).

PREVISÃO (forecast)

A previsão é feita a partir da utilização de grande quantidades de dados de mesma natureza. A metodologia consiste em uma projeção, em que os dados viajam para dimensões maiores de tempo ou espaço.

O exemplo mais conhecido disso é a previsão do tempo. Dados de um mesmo domínio, que têm uma relação direta de causa e efeito com o fenômeno, são transferidos para o futuro (viagem no tempo) gerando um resultado com grau de incerteza conhecido.

Outro exemplo é a pesquisa de opinião. Dados de uma mesma natureza, coletados em uma amostra, são transferidos para o total da população (viagem no espaço) gerando também um resultado confiável.

O resultado de uma previsão é uma estimativa e a ciência que a fundamenta a metodologia é a Estatística.

ANALÍTICA PREDITIVA (predictive analytics)

A predição é feita a partir de uma grande quantidade de dados de domínios diferentes, aquilo que já se convencionou chamar de Big Data. A metodologia é um julgamento baseado na experiência e no aprendizado que se dá quando dados de um domínio do conhecimento viaja para outros domínios.

Em 2008, por exemplo, o Google conseguiu antecipar em 7 a 10 dias, a dinâmica da contaminação pelo vírus da gripe H1N1, baseado nos dados de utilização da ferramenta de busca dos seus usuários. Rastreando o conteúdo das buscas, a empresa conseguiu identificar correlações inusitadas entre as pesquisas e a contração da doença em um determinado grupo social. É importante entender que o modelo antecipava não apenas a quantidade de casos, mas também o deslocamento do vírus. O modelo foi tão bem sucedido que fundamentou as ações preventivas do governo americano para impedir uma pandemia da doença.

O resultado de uma analítica preditiva é um insight e a ciência que fundamenta a metodologia é a Ciência das Redes. Para saber o que é isso leia esse post aqui.

Diferente da previsão, a analítica preditiva é capaz de antecipar as mudanças nas tendências porque considera fatores que não têm uma relação causa-efeito imediata com o fenômeno.

Voltando às manifestações recentes no Brasil, por que as pesquisas de opinião não captaram um evento tão grande, tão generalizado e tão intenso?

Primeiro é importante ressaltar que a última pesquisa CNI/IBOPE apontou uma queda de 8% na aprovação da atuação do Governo Federal. Além disso, a área de atuação que mais colaborou para a queda do índice geral foi o controle da inflação cuja aprovação caiu 10% em relação à pesquisa anterior. Observando esses números agora, podemos dizer que se tivessem sido olhados com mais atenção, seria possível prever as manifestações contra o aumento das tarifas do transporte público? A resposta é não.

Os manifestantes podem nem saber, mas quando escrevem nos cartazes “não é por 20 centavos”, estão dizendo que a sociedade é um sistema extremamente complexo e não é possível fazer previsões a partir de uma relação causa-efeito linear.

Predizer as manifestações dos últimos dias significava ter o insight rapidamente a partir de milhares de informações como: em que nível estava a tolerância dos 41% que desaprovam o governo? O que os 55% que consideram a atuação ótima não poderiam tolerar? O que transporte significa além de mobilidade? O quanto de confiança na democracia gera de sensação de segurança suficiente para sair às ruas? O que significa no momento atual ir às ruas, além de conseguir uma redução nas tarifas? As pessoas têm sede de quê? O quanto é vital essa sede? Que assuntos as pessoas deixaram de falar para começar a falar de ir às ruas? Qual foi o trade off?

A má notícia é que numa rede complexa é humanamente impossível encontrar e correlacionar todos esses fatores. A boa é que a rede complexa chamada sociedade está digitalizada. Os dados gerados nesse contexto chamam-se Big Data. A tecnologia de geração de conhecimento a partir desses dados existe. E a necessidade de sua utilização, não precisa dizer, é latente.

A vantagem de ter um vislumbre do futuro é que isso nos dá opções. 

Agora se você me perguntar se analítica preditiva pode ser utilizada para tomar decisões ruins, a resposta é sim. Mas isso já não é mais uma questão de tecnologia.