Mostrando postagens com marcador modelo preditivo. Mostrar todas as postagens
Mostrando postagens com marcador modelo preditivo. Mostrar todas as postagens

sexta-feira, 15 de junho de 2018

Então a Espanha será a campeã do mundo


Gosta de futebol? Gosta de Copa do Mundo? Gosta de big data? Você pode gostar disso também: o jornal Financial Times analisou alguns dados para apontar o melhor time desse mundial (France, Germany, Brazil, Spain: who has the best World Cup squad?). Como você deve ler essa matéria?

Lembre-se que DADOS NÃO FALAM! Se você pegar um data set, mesmo que completo, limpo, estruturado, todo bonitinho, ainda assim ele não falará nada. Falar é comunicar e para isso é preciso haver uma mensagem. Toda mensagem é fruto de um somatório de vieses e isso é inevitável! Isso quer dizer que, com o mesmo dataset, diferentes analistas entregariam diferentes informações.

Um viés já aparece quando se formula a pergunta, mas vamos imaginar que a pergunta seja a mesma para todos, portanto que não houve escolha nessa etapa. A pergunta que o FT se fez foi: Que país tem o melhor time na Copa?
O que significa ter o melhor time da Copa? Não há consenso sobre isso. O FT optou por considerar o “somatório” da qualidade e experiência dos jogadores. Uau! Aqui já temos um grande viés! E vai piorar! Esse processo de definir o que responde à pergunta feita, chamamos de DATAFICAÇÃO. Você nem percebe, mas nesse momento esta´definindo que dados responderão à sua pergunta.

E agora vamos enviesar mais. Vamos montar o algoritmo: o que é qualidade e experiência? Para o FT, qualidade é ter jogado nos times melhores. Experiência é a soma dos minutos jogados em competições de elite. Para não complicar muito, nem vou entrar no detalhe de que ‘melhores times’ e ‘competições de elite’, já são um poço de vieses!

Pronto. Agora sim alguém falou alguma coisa (e não foram os dados, heim?): A Espanha tem o melhor time. Seguido pela Alemanha, França e Brasil. A Itália ficou bem perto, mas nem se classificou para a Copa... No final das contas, o melhor time mesmo será o que levar a taçã para casa! A conferir!

Não existe certo ou errado nas escolha de um processo analítico. Só temos que saber que são escolhas e quais foram elas (tudo a ver com a discussão sobre transparência de algoritmos). Nas escolhas do FT foram desconsiderados quantas Copas o país participou, quantos minutos os jogadores jogaram juntos, o histórico do técnico e muitos outros atributos importantes e às vezes não relacionados com futebol. Mas, escolhas são escolhas e eles deixaram as deles bem claras!

Agora um detalhe final: uma parte muito importante da mensagem data driven é como você entrega o resultado da sua analítica, processo mais conhecido como VISUALIZAÇÃO DE DADOS (nome bem equivocado, mas deixa assim...) Diga aí, o que você achou dessa? Uma boa visualização de dados mostra claramente a sua resposta para a pergunta feita. Se alguém precisar tomar uma decisão baseada nisso, que seja rápida e inequívoca. Se entregar essa analítica para um bom designer especializado em visualização de dados, o FT consegue coisa bem melhor!

Para descontrair: boa visualização de dados mesmo está no mapa que o jornal espanhol usa para falar da previsão do tempo no país. Numa feliz sacada o FT comenta: a Espanha ignora solenemente Portugal, e não somente no esporte! As duas seleçoes estreiam hoje se enfrentando. Imperdível!

OBS: Todas as fotos são da matéria do FT

segunda-feira, 24 de junho de 2013

Follow us! Monitorar a internet ameaça ou fortalece a democracia?

Follow us!
Monitorar a internet ameaça ou fortalece a democracia?


Na ultima publicação que fiz (leia aqui), deixei a frase final para servir de gancho para um novo post que pretendia escrever. Não precisava. Assim que publiquei o texto, vi no Facebook o link para uma nota no site do Jornal Estadão:


O texto que eu pretendia escrever era sobre os indicadores de sucesso de um modelo preditivo. A ideia central é que a avaliação de um modelo preditivo é feita pelas ações que se tomam a partir do conhecimento que ele gerou.

Digamos que um modelo preditivo indique que algo não desejado vai acontecer. A partir daí ações são tomadas e evitam o acontecimento. O modelo não comprovou sua predição. Então o modelo não foi bem sucedido, certo? Errado. 

O objetivo de um modelo preditivo, diferente do que o nome pode sugerir, não é adivinhar o futuro. É desencadear ações. Então é através do sucesso delas que o modelo deve ser avaliado.

O fenômeno não desejado que não ocorreu chama-se não evento e  tem um valor importante e difícil de ser avaliado.

Volto a falar sobre esse assunto em outro post. Quero falar sobre a notícia do monitoramento da internet pela Abin e para isso as noções acima já são suficientes.

A nota citada no jornal diz que a Abin “avalia que as tradicionais pastas do governo que tratavam de articulação com a sociedade civil perderam a interlocução com as lideranças sociais”

Ela tem razão. As novas lideranças sociais são todos os cidadãos brasileiros que estão de alguma forma conectados à rede opinando, criticando, dando notícias que a imprensa tradicional não quer ou não tem capacidade para cobrir, cooperando, fazendo o país andar para um lado que as tradicionais pastas do governo não conseguem captar.

Se o governo (não a Abin) estivesse monitorando devidamente as redes teria antecipado as insatisfações populares? Sim. Teria evitado as manifestações? Sim. Isso é Big Brother, censura, invasão de privacidade, autoritarismo ou algo do gênero? Não.

Permitam-me dizer que vejo o monitoramento das redes sociais por uma agência de inteligência (não a Abin), como o suprassumo da democracia.

Nas redes sociais, cada cidadão se manifesta individualmente, livremente e espontaneamente. O Twitter é uma ferramenta especialmente importante porque quem utiliza está disposto a ser lido por qualquer um, mas qualquer outra interface que uma pessoa faz na rede deixa importantes rastros da dinâmica de uma população.

Se o governo (não a Abin) estivesse monitorando DEVIDAMENTE as redes, teria um modelo preditivo sobre a sociedade que adiministra. Teria percebido há muito tempo que a população não estava tolerando os desvios de dinheiro, as mordomias dos políticos, os financiamentos de campanha, os fisiologismos, a falta de investimento em saúde, educação e infraestrutura e outras demandas que surgiram nos cartazes dos protestos, afinal, “não é por 20 centavos”.

Se o governo (não a Abin) tivesse feito DEVIDAMENTE um modelo preditivo a partir do monitoramento que fizesse das redes, teria um bom plano de ação. Já teria feito a reforma fiscal e política. Já teria investido em educação e saúde. Já teria uma política de intolerância à corrupção e não lhe passaria pela cabeça algo parecido com a PEC 37.

Se o plano de ação acima tivesse sido ativado, o governo (não a Abin) teria transformado as manifestações dos últimos dias em um não evento. O modelo não confirmaria sua predição e teria sido um sucesso.

Monitorar a rede, ao contrário do que muitos pensam, pode ser a solução para o nosso falido modelo de democracia.

O modelo democrático representativo já foi a solução perfeita quando a população cresceu a ponto de não haver mais condições de ouvir a todos individualmente. Hoje ele precisa ser repensado porque, com a internet, cada um de nós pode representar a si mesmo.

Por último quero explicar porque insisti tanto em dizer que monitoramento da internet pelo governo não é tarefa da Abin.

A Abin é uma agência de estado e não de governo e, até onde sei, tem o objetivo de identificar ameaças ao estado de direito e à soberania nacional. Portanto, os objetivos dela monitorando uma rede podem até ser legítimos, mas não são os mesmos objetivos de um governo.

Por último: esse texto é sobre Big Data e não sobre política.