Gosta de futebol? Gosta de
Copa do Mundo? Gosta de big data? Você pode gostar disso também: o jornal
Financial Times analisou alguns dados para apontar o melhor time desse mundial (France, Germany, Brazil, Spain: who has the best World Cup squad?). Como você deve ler essa matéria?
Lembre-se que DADOS NÃO
FALAM! Se você pegar um data set, mesmo que completo, limpo, estruturado, todo
bonitinho, ainda assim ele não falará nada. Falar é comunicar e para isso é
preciso haver uma mensagem. Toda mensagem é fruto de um somatório de vieses e
isso é inevitável! Isso quer dizer que, com o mesmo dataset, diferentes
analistas entregariam diferentes informações.
Um viés já aparece quando
se formula a pergunta, mas vamos imaginar que a pergunta seja a mesma para
todos, portanto que não houve escolha nessa etapa. A pergunta que o FT se fez
foi: Que país tem o melhor time na Copa?
O que significa ter o
melhor time da Copa? Não há consenso sobre isso. O FT optou por considerar o “somatório”
da qualidade e experiência dos jogadores. Uau! Aqui já temos um grande viés! E vai
piorar! Esse processo de definir o que responde à pergunta feita, chamamos de
DATAFICAÇÃO. Você nem percebe, mas nesse momento esta´definindo que dados
responderão à sua pergunta.
E agora vamos enviesar
mais. Vamos montar o algoritmo: o que é qualidade e experiência? Para o FT,
qualidade é ter jogado nos times melhores. Experiência é a soma dos minutos
jogados em competições de elite. Para não complicar muito, nem vou entrar no
detalhe de que ‘melhores times’ e ‘competições de elite’, já são um poço de
vieses!
Pronto. Agora sim alguém
falou alguma coisa (e não foram os dados, heim?): A Espanha tem o melhor time. Seguido
pela Alemanha, França e Brasil. A Itália ficou bem perto, mas nem se
classificou para a Copa... No final das contas, o melhor time mesmo será o que levar a taçã para casa! A conferir!
Não existe certo ou errado nas escolha de um processo analítico. Só temos que saber que são escolhas e quais foram elas (tudo a ver com a discussão sobre transparência de algoritmos). Nas escolhas do FT foram desconsiderados quantas Copas o país participou, quantos minutos os jogadores jogaram juntos, o histórico do técnico e muitos outros atributos importantes e às vezes não relacionados com futebol. Mas, escolhas são escolhas e eles deixaram as deles bem claras!
Agora um detalhe final: uma parte muito importante da mensagem data driven é como você entrega o resultado da sua analítica, processo mais conhecido como VISUALIZAÇÃO DE DADOS (nome bem equivocado, mas deixa assim...) Diga aí, o que você achou dessa? Uma boa visualização de dados mostra claramente a sua resposta para a pergunta feita. Se alguém precisar tomar uma decisão baseada nisso, que seja rápida e inequívoca. Se entregar essa analítica para um bom designer especializado em visualização de dados, o FT consegue coisa bem melhor!
Para descontrair: boa visualização de dados
mesmo está no mapa que o jornal espanhol usa para falar da previsão do tempo no
país. Numa feliz sacada o FT comenta: a Espanha ignora solenemente Portugal, e
não somente no esporte! As duas seleçoes estreiam
hoje se enfrentando. Imperdível!
OBS: Todas as fotos são da matéria do FT
Nenhum comentário:
Postar um comentário