8 erros comuns ao lidar com dados e estatísticas, na gestão e na política
Generalizar experiências individuais, ignorar correlações, não entender probabilidade, e torturar dados, são erros comuns em discussões sobre estatísticas, principalmente se o assunto for política ou gestão pública.
Trabalhando há anos com análise de dados e lidando com centenas de milhares de seguidores, percebi que, com conhecimento, disciplina e honestidade, podemos elevar o nível das conversas e decisões, melhorando portanto a gestão das nossas carreiras, empresas e sociedade.
Veja neste artigo alguns dos erros que mais me chamam a atenção ao discutir e tomar decisões usando dados:
Considerar alguma experiência individual como algo generalizado
Uma experiência individual não necessariamente representa um cenário médio. O teste que o Felipe fez não tem a menor relevância frente à média nacional de velocidade de conexão.
Quando uma pessoa está num carro sem cinto de segurança, é ejetada para fora do carro durante um capotamento, o carro é esmagado e, aparentemente, estar sem cinto salva sua vida, isso não quer dizer que todo mundo deva passar a não usar cinto. A estatística de vidas salvas pelo cinto de segurança permanece favorável ao uso do dispositivo de segurança, mesmo que uma, duas ou dez pessoas tenham sobrevivido por estarem sem cinto.
É sempre bom lembrar deste já clássico exemplo dado por João Dória, prefeito de São Paulo:
Tentando explicar o aumento de mortes nas marginais de SP, Doria diz que haveria um aumento de 15% no fluxo de veículos nas principais vias; quando questionado da fonte, João afirma sem sentir qualquer embaraço: os dados são da impressão dele.
Ou no caso deste não-eleitor do Bolsonaro, tentando refutar pesquisa Datafolha de abril de 2017:
Perceba que o Ricardo comete o erro de achar que, por conhecer uma pessoa homossexual e negra que alega votar no Bolsonaro, a estatística de característica média de seus eleitores estaria errada. Neste caso aí, um caso específico de eleitor negro e homossexual não vai alterar significativamente a definição média de quem apoia Bolsonaro, seria preciso uma multidão para esta proporção ser afetada.
Achar que correlação implicaria causalidade
No gráfico abaixo, a linha vermelha é a quantidade de piratas desde o início do séc. 19, a linha azul é a temperatura média global.
Perceba que, conforme o número de piratas diminui, a temperatura média da Terra sobe. Isso quer dizer que, para resfriar a terra, deveríamos incentivar pirataria? Claro que não. Há uma correlação negativa entre o número de piratas e o aquecimento global, mas uma coisa não é causada pela outra. Aumentar o número de piratas não vai esfriar a terra, esquentar a terra não vai reduzir o número de piratas (a não ser que todos morram torrados no calor, mas enfim).
Se uma pessoa com câncer começa a tomar suco de limão e seu câncer entra em remissão, isso não implica necessariamente que a melhora na saúde do doente foi causada pelo suco de limão matinal.
Inclusive, há uma correlação entre mortes por afogamento e filmes com Nicholas Cage, mas eliminar filmes com Nicholas Cage não vai combater mortes por afogamento.
Veja outras correlações curiosas neste site: http://www.tylervigen.com/spurious-correlations
Não usar a correlação – independente de causalidade – a seu favor nas análises e predições
Este é um ponto polêmico e pouco-científico no sentido acadêmico, mas útil no sentido comercial e mercadológico: Saber uma correlação, mesmo sem ter certeza da causalidade, pode ter valor na gestão de projetos e negócios.
Se você descobriu uma correlação entre o volume nacional de vendas de sorvete e o faturamento da sua marca de sabão em pó, pode ser interessante usar este dado para gestão de seu negócio, mesmo sem ter certeza da causalidade: será que estão usando mais sabão para limpar sujeira de sorvete? Não sei, mas se a correlação existe, podemos usar mesmo sem saber a causalidade.
Considerar que subgrupos contaminados com tendências representam o todo
Muitos anos atrás eu vi uma palestra do Marcelo Tas num evento, provavelmente era a Campus Party. Ele falava de como as pessoas comentavam ativamente sobre o CQC no Twitter, onde o programa pautava discussões e frequentemente colocava termos e hashtags nos trending topics.
Alguém da plateia perguntou ao Tas se ele considerava as opiniões lidas no Twitter para conduzir o programa, alterar quadros e modificar pautas; o apresentador foi muito preciso e comedido, disse que não podia considerar as opiniões que ele lia no Twitter como representativas da opinião pública sobre o CQC. Que lição! Não é porque 150 pessoas reclamaram de um certo quadro do programa que isso representa a opinião dos outros milhões de telespectadores, é preciso coletar estatísticas confiáveis para saber a opinião de um grupo.
Ignorar os dados só porque você não gosta deles
Numa conversa sobre a idade da terra, apareceu um seguidor defendendo que a terra teria 6 mil anos:
Existem fatos demonstrando que a terra tem (muito) mais de 6 mil anos, mas o Eduardo escolhe ignorar tais dados, pois eles não dizem o que Eduardo quer ouvir.
Outro exemplo: analisando a política nos EUA desde 1968 – data escolhida para contemplar a última grande mudança de posicionamento dos partidos Republicano e Democrata, que se mantém até hoje –, há muito mais condenações e prisões no executivo quando o poder está com os republicanos.
Desde 1968 os Democratas ficaram 20 anos no poder e houve 1 prisão. Os Republicanos ficaram 28 anos no poder e houve 34 prisões.
Fonte: Comparing presidential administrations by arrests and convictions: A warning for Trump appointees
Se você é simpatizante do partido Republicano, você pode não gostar destes dados, você pode até tentar explicar de maneira criativa este desequilíbrio todo, mas você não deve, jamais, ignorar os dados só porque você não gosta deles.
Torturar os dados até eles dizerem o que você quer que eles digam
Primeiro você coleta os dados, depois você aplica sua narrativa preferida sobre os dados que coletou, independente do que os dados estejam demonstrando.
Recentemente tem feito sucesso nas redes sociais este gráfico, supostamente demonstrando que o bitcoin seria uma bolha:
Perceba que o gráfico superior traz a cotação em Euro, o que é, no mínimo, incomum. Além disso, usa a cotação de apenas uma das várias bolsas de bitcoin existentes. Outro detalhe importante é que o tal “padrão”, com dois picos seguidos, aconteceu também quando o bitcoin estava custando €6 mil, veja:
E mesmo com estes dois picos fazendo exatamente o padrão que o gráfico inferior (Stages of a Financial Bubble) denuncia, o bitcoin continuou subindo de €6 mil até €16 mil, o que não quer dizer que a criptomoeda vá continuar subindo, mas o argumento do gráfico é desmentido no próprio gráfico.
Usar dados manipulados para mentir deliberadamente
Se você usar dados para mentir, pode ser que a conta chegue quando você menos espera:
Em probabilidade, confundir “chance” com “certeza”
Antes das eleições presidenciais americanas de 2016, Donald Trump contra Hillary Clinton, o New York Times publicou o seguinte tweet:
Após a vitória de Trump, o post acima foi prontamente usado nas redes sociais para, supostamente, “comprovar” a ineficiência da mídia tradicional, e denunciar a “mentira” e “imprecisão” dos institutos de pesquisa. Detratores traziam os mais variados tipos de acusações recheadas de ignorância, de não entendimento do método de amostragem à pura e simples trollagem. Muitas demonstrações de ignorância ainda podem ser vistos como respostas ao post do NYTimes.
Para entender por que é uma ignorância, veja o que publiquei no próprio twitter em relação a este post do New York Times:
Sabiam que o post do NYTimes não tem nada de errado? Muitos acham que a vitória de Trump invalidaria este post do NYT. Mas não necessariamente.
O post diz que, a cada 100 eleições exatamente iguais àquela, D. Trump venceria 8 e H. Clinton 92. Calhou de 2016 ser uma das 8 de Trump.
Fazer piada com este post do NYTimes é na verdade um recibo do piadista, no topo tem escrito “eu não sei estatística de ensino fundamental”.
Fonte: @marcogomes no twitter
Pensa comigo: qual a chance de uma vira-latas nascida na rua, no Gama, cidade na periferia do Distrito Federal, vir morar em Nova York? É assim que probabilidade funciona.
Sobre o autor
Marco Gomes trabalha com Estratégia de Implantação de Data Science em New York, USA. Profissional reconhecido em 2014 pela revista Forbes como um dos 30 jovens com menos 30 anos mais promissores do país; premiado como O Melhor Profissional de Tecnologias de Marketing do Mundo pela World Technology Network; fundador da boo-box, apontada como uma das empresas de publicidade mais inovadoras do mundo pelas revistas Fast Company e Forbes, vendida em 2015 para a FTPI Digital; e co-fundador do Heartbit / Mova Mais, app de saúde listado pela revista Consumidor Moderno como uma das 100 empresas mais inovadoras do Brasil. Marco fez educação executiva em Gerenciamento de Marketing Estratégico na Universidade de Stanford, Califórnia, e já palestrou na sede da ONU, em Nova York, sobre Economia Criativa e Liberdade de Expressão na Internet.
Muito bom Marcos Gomes!!
Bem explicadinho com exemplos rápidos e práticos. Depois de eu ler Nate Silver e Philip Tetlock (autores de Sinal e Ruído e Superperpevisões, respectivamente) melhorei, e muito, a forma de ler, interpretar, discutir e analisar dados. E hoje vejo muitos se iludindo e cometendo erros crassos na hora de estabelecer uma meta pro time comercial, e até quando querem implementar uma funcionalidade nova no sistema da firma onde trabalho baseado em experiencia própria ou de amigos ahhaha…
Show!! Abrços
Muito bom!
https://xkcd.com/552/
No caso da eleição americana, me parece que a críticas é valida para o modelo estatística e os dados usados. Claramente havia algo de errado com eles. Também a crítica é valida, pois, eles podem ter selecionado propositadamente os dados para apresentar o resultado mais favorável a candidata que apoiavam, Hilary.
Muito interessante seu texto, gostei
Muito bom, ótimo artigo parabéns.
A Bíblia não apoia a idéia de que tudo foi criado em 6 dias literais, mas do resto gostei muito!
A Bíblia não é sobre 6 dias literais, mas muitos cristãos insistem que seriam 6 dias literais, e há 6 mil anos, não mais que 6 mil anos, muito menos bilhões, como a ciência nos diz que é.
Parabéns pelo conteúdo! Foi uma das coisas mais inteligentes que li neste ano!
Cara, esses exemplos citados sobre o Doria e o Bolsonaro foram sensacionais. De fato há muita experiência individual querendo combater eventos generalizados, mas como citado, não é bem assim.
Está super claro esse post. Embora eu acredite que as pessoas preferem o que preferem e ponto final.
Tenho um amigo que vai votar no Bolsonaro, só que ele vai votar no Bolso do sei imaginário, no Bolso que ele idealizou na cabeça dele, no salvador da pátria e não nesse Zé ruela que profere atrocidades baseado em porr4 nenhuma.
Se o cara quer acreditar que deus é bom, mas por vaidade, matou trocentas pessoas no Titanic, quando ele podia ter só dado um ACV no blasfemador, então ele vai acreditar.
Se o cara quer acreditar que Jesus fez um tang e não vinho, reconhecendo que houve um erro de tradução, mas não admitindo que este não é o único ou que todo resto é fidedigno ao original(…), então ele vai acreditar.
Se por um lado eu fico mensurando mentalmente o quão desgastante é para você escrever todo um artigo “””por nada””” (e não pra nada!), por outro lado, tenho um puta orgulho de te ver quase sempre parcial, defendendo causas justa — no seu ponto de vista e de muitos —, não estando em cima do muro por ser um mega empresario, como é de costume de boa parte. Não se posicionam por medo das consequências. Enfim.
Meus parachoques!
Marco que artigo perfeito e minucioso, parabens!
Algo a se questionar sobre o caso de Trump é o fato de a divulgação da pesquisa já faz com que a opinião pública e a eleição mudem, ao encorajar e desencorajar os possíveis eleitores. Meio como aquele ditado: ‘O homem não toca duas vezes no mesmo rio’.
I am in fact delighted to glance at this website posts which includes lots of valuable data, thanks for providing these
kinds of information.