Marco Gomes

Geek, imigrante, nerd, cristão, biker. Founder da boo-box (vendida) e do Heartbit. Consigliere do JovemNerd

8 erros comuns ao lidar com dados e estatísticas, na gestão e na política

Publicado em 2018-01-27

Generalizar experiências individuais, ignorar correlações, não entender probabilidade, e torturar dados, são erros comuns em discussões sobre estatísticas, principalmente se o assunto for política ou gestão pública.

An activist of the environmental protection organization 'Greenpeace' holds a protest poster in front of a factory gate of the German car manufacturer Volkswagen in Wolfsburg, Germany, Friday, Sept. 25, 2015. (AP Photo/Michael Sohn)

Trabalhando há anos com análise de dados e lidando com centenas de milhares de seguidores, percebi que, com conhecimento, disciplina e honestidade, podemos elevar o nível das conversas e decisões, melhorando portanto a gestão das nossas carreiras, empresas e sociedade.

Veja neste artigo alguns dos erros que mais me chamam a atenção ao discutir e tomar decisões usando dados:

Considerar alguma experiência individual como algo generalizado

"O 3G na Alemanha é 48 vezes mais rápido que o do Brasil e 3,1 vezes mais rápido que o nosso 4G." resposta de @felipecn: "tem um quê de síndrome de vira lata. Acabei de testar o 4G aqui: Download 38 Mbps, upload 8 Mbps.Tela do speedtest com a velocidade de conexão, download 38 Mbps, upload 8 Mbps.

Uma experiência individual não necessariamente representa um cenário médio. O teste que o Felipe fez não tem a menor relevância frente à média nacional de velocidade de conexão.

Quando uma pessoa está num carro sem cinto de segurança, é ejetada para fora do carro durante um capotamento, o carro é esmagado e, aparentemente, estar sem cinto salva sua vida, isso não quer dizer que todo mundo deva passar a não usar cinto. A estatística de vidas salvas pelo cinto de segurança permanece favorável ao uso do dispositivo de segurança, mesmo que uma, duas ou dez pessoas tenham sobrevivido por estarem sem cinto.

É sempre bom lembrar deste já clássico exemplo dado por João Dória, prefeito de São Paulo:

Tentando explicar o aumento de mortes nas marginais de SP, Doria diz que haveria um aumento de 15% no fluxo de veículos nas principais vias; quando questionado da fonte, João afirma sem sentir qualquer embaraço: os dados são da impressão dele.

"No meio do ano, Doria chegou a dizer que as mortes acompanhavam um aumento, segundo ele, de 15% no fluxo de veículos nas principais vias. Dados que a CET não tem. Questionado sobre isso, o prefeito afirmou que esses dados vêm da impressão dele."

Piccard fazendo facepalm.

Ou no caso deste não-eleitor do Bolsonaro, tentando refutar pesquisa Datafolha de abril de 2017:

Tweet: "Eleitor de Bolsonaro é (em média) homem, pós-adolescente, formado no ensino superior e rico. Isso mesmo que você leu."

Tweet de @acciolyr: "Piada ! Não sou eleitor do Bolsonaro e tenho vários que são e nenhum é rico e muitos não são graduados ! Conheço homo e negro que votam nele"

Perceba que o Ricardo comete o erro de achar que, por conhecer uma pessoa homossexual e negra que alega votar no Bolsonaro, a estatística de característica média de seus eleitores estaria errada. Neste caso aí, um caso específico de eleitor negro e homossexual não vai alterar significativamente a definição média de quem apoia Bolsonaro, seria preciso uma multidão para esta proporção ser afetada.

Achar que correlação implicaria causalidade

No gráfico abaixo, a linha vermelha é a quantidade de piratas desde o início do séc. 19, a linha azul é a temperatura média global.

Gráfico com duas linhas. A vermelha representa o número de piratas nos mares desde 1820, e a linha desce, o número de piratas tem caído; a linha azul representa a temperatura média global desde 1820, a linha sobe, a temperatura média tem subido.

Perceba que, conforme o número de piratas diminui, a temperatura média da Terra sobe. Isso quer dizer que, para resfriar a terra, deveríamos incentivar pirataria? Claro que não. Há uma correlação negativa entre o número de piratas e o aquecimento global, mas uma coisa não é causada pela outra. Aumentar o número de piratas não vai esfriar a terra, esquentar a terra não vai reduzir o número de piratas (a não ser que todos morram torrados no calor, mas enfim).

Se uma pessoa com câncer começa a tomar suco de limão e seu câncer entra em remissão, isso não implica necessariamente que a melhora na saúde do doente foi causada pelo suco de limão matinal.

Inclusive, há uma correlação entre mortes por afogamento e filmes com Nicholas Cage, mas eliminar filmes com Nicholas Cage não vai combater mortes por afogamento.

Number of people who drowned by falling into a pool correlates with Films Nicolas Cage appeared in Correlation: 66.6% (r=0.666004)

Veja outras correlações curiosas neste site: http://www.tylervigen.com/spurious-correlations

Não usar a correlação – independente de causalidade – a seu favor nas análises e predições

Este é um ponto polêmico e pouco-científico no sentido acadêmico, mas útil no sentido comercial e mercadológico: Saber uma correlação, mesmo sem ter certeza da causalidade, pode ter valor na gestão de projetos e negócios.

Se você descobriu uma correlação entre o volume nacional de vendas de sorvete e o faturamento da sua marca de sabão em pó, pode ser interessante usar este dado para gestão de seu negócio, mesmo sem ter certeza da causalidade: será que estão usando mais sabão para limpar sujeira de sorvete? Não sei, mas se a correlação existe, podemos usar mesmo sem saber a causalidade.

Considerar que subgrupos contaminados com tendências representam o todo

Muitos anos atrás eu vi uma palestra do Marcelo Tas num evento, provavelmente era a Campus Party. Ele falava de como as pessoas comentavam ativamente sobre o CQC no Twitter, onde o programa pautava discussões e frequentemente colocava termos e hashtags nos trending topics.

Alguém da plateia perguntou ao Tas se ele considerava as opiniões lidas no Twitter para conduzir o programa, alterar quadros e modificar pautas; o apresentador foi muito preciso e comedido, disse que não podia considerar as opiniões que ele lia no Twitter como representativas da opinião pública sobre o CQC. Que lição! Não é porque 150 pessoas reclamaram de um certo quadro do programa que isso representa a opinião dos outros milhões de telespectadores, é preciso coletar estatísticas confiáveis para saber a opinião de um grupo.

Ignorar os dados só porque você não gosta deles

Numa conversa sobre a idade da terra, apareceu um seguidor defendendo que a terra teria 6 mil anos:

Conversa entre @marcogomes e @kaduassel, siga o link para ler a conversa completa.

Existem fatos demonstrando que a terra tem (muito) mais de 6 mil anos, mas o Eduardo escolhe ignorar tais dados, pois eles não dizem o que Eduardo quer ouvir.

Outro exemplo: analisando a política nos EUA desde 1968 – data escolhida para contemplar a última grande mudança de posicionamento dos partidos Republicano e Democrata, que se mantém até hoje –, há muito mais condenações e prisões no executivo quando o poder está com os republicanos.

Desde 1968 os Democratas ficaram 20 anos no poder e houve 1 prisão. Os Republicanos ficaram 28 anos no poder e houve 34 prisões.

EXECUTIVE BRANCH CRIMINAL ACTIVITIES BY PARTY SINCE 1968. Follow the link to get the data.

Fonte: Comparing presidential administrations by arrests and convictions: A warning for Trump appointees

Se você é simpatizante do partido Republicano, você pode não gostar destes dados, você pode até tentar explicar de maneira criativa este desequilíbrio todo, mas você não deve, jamais, ignorar os dados só porque você não gosta deles.

Torturar os dados até eles dizerem o que você quer que eles digam

Primeiro você coleta os dados, depois você aplica sua narrativa preferida sobre os dados que coletou, independente do que os dados estejam demonstrando.

Recentemente tem feito sucesso nas redes sociais este gráfico, supostamente demonstrando que o bitcoin seria uma bolha:

Gráfico comparando bitcoin a uma bolha.

Perceba que o gráfico superior traz a cotação em Euro, o que é, no mínimo, incomum. Além disso, usa a cotação de apenas uma das várias bolsas de bitcoin existentes. Outro detalhe importante é que o tal “padrão”, com dois picos seguidos, aconteceu também quando o bitcoin estava custando €6 mil, veja:

Trecho do gráfico anterior, demonstrando que o mesmo "padrão de bolha" aconteceu quando o bitcoin valia €6 mil, mas a criptomoeda não caiu (conforme o gráfico de bolha previa) e continuou subindo até €16 mil.

E mesmo com estes dois picos fazendo exatamente o padrão que o gráfico inferior (Stages of a Financial Bubble) denuncia, o bitcoin continuou subindo de €6 mil até €16 mil, o que não quer dizer que a criptomoeda vá continuar subindo, mas o argumento do gráfico é desmentido no próprio gráfico.

Usar dados manipulados para mentir deliberadamente

Se você usar dados para mentir, pode ser que a conta chegue quando você menos espera:

"Volkswagen Engineer Gets Prison in Diesel Cheating Case"

Em probabilidade, confundir “chance” com “certeza”

Antes das eleições presidenciais americanas de 2016, Donald Trump contra Hillary Clinton, o New York Times publicou o seguinte tweet:

Our presidential forecast, updated. Chance of Winning: H. Clinton 92%; D. Trump 8%.
Após a vitória de Trump, o post acima foi prontamente usado nas redes sociais para, supostamente, “comprovar” a ineficiência da mídia tradicional, e denunciar a “mentira” e “imprecisão” dos institutos de pesquisa. Detratores traziam os mais variados tipos de acusações recheadas de ignorância, de não entendimento do método de amostragem à pura e simples trollagem. Muitas demonstrações de ignorância ainda podem ser vistos como respostas ao post do NYTimes.

Para entender por que é uma ignorância, veja o que publiquei no próprio twitter em relação a este post do New York Times:

Sabiam que o post do NYTimes não tem nada de errado? Muitos acham que a vitória de Trump invalidaria este post do NYT. Mas não necessariamente.

O post diz que, a cada 100 eleições exatamente iguais àquela, D. Trump venceria 8 e H. Clinton 92. Calhou de 2016 ser uma das 8 de Trump.

Fazer piada com este post do NYTimes é na verdade um recibo do piadista, no topo tem escrito “eu não sei estatística de ensino fundamental”.

Fonte: @marcogomes no twitter

Pensa comigo: qual a chance de uma vira-latas nascida na rua, no Gama, cidade na periferia do Distrito Federal, vir morar em Nova York? É assim que probabilidade funciona.

Este slideshow necessita de JavaScript.

Sobre o autor

Marco Gomes trabalha com Estratégia de Implantação de Data Science em New York, USA. Profissional reconhecido em 2014 pela revista Forbes como um dos 30 jovens com menos 30 anos mais promissores do país; premiado como O Melhor Profissional de Tecnologias de Marketing do Mundo pela World Technology Network; fundador da boo-box, apontada como uma das empresas de publicidade mais inovadoras do mundo pelas revistas Fast Company e Forbes, vendida em 2015 para a FTPI Digital; e co-fundador do Heartbit / Mova Mais, app de saúde listado pela revista Consumidor Moderno como uma das 100 empresas mais inovadoras do Brasil. Marco fez educação executiva em Gerenciamento de Marketing Estratégico na Universidade de Stanford, Califórnia, e já palestrou na sede da ONU, em Nova York, sobre Economia Criativa e Liberdade de Expressão na Internet.

Textos relacionados:

Deixe sua opinião

8 comentários

  1. Fábio Ismerim comentou:

    Muito bom Marcos Gomes!!

    Bem explicadinho com exemplos rápidos e práticos. Depois de eu ler Nate Silver e Philip Tetlock (autores de Sinal e Ruído e Superperpevisões, respectivamente) melhorei, e muito, a forma de ler, interpretar, discutir e analisar dados. E hoje vejo muitos se iludindo e cometendo erros crassos na hora de estabelecer uma meta pro time comercial, e até quando querem implementar uma funcionalidade nova no sistema da firma onde trabalho baseado em experiencia própria ou de amigos ahhaha…

    Show!! Abrços

  2. Moyses Souza comentou:

    Muito bom!

  3. J. Kosofis comentou:

    No caso da eleição americana, me parece que a críticas é valida para o modelo estatística e os dados usados. Claramente havia algo de errado com eles. Também a crítica é valida, pois, eles podem ter selecionado propositadamente os dados para apresentar o resultado mais favorável a candidata que apoiavam, Hilary.

  4. Bryan comentou:

    Muito interessante seu texto, gostei

  5. Carol Capel comentou:

    Muito bom, ótimo artigo parabéns.

  6. Denilson Estarseg comentou:

    A Bíblia não apoia a idéia de que tudo foi criado em 6 dias literais, mas do resto gostei muito!

  7. Marco Gomes comentou:

    A Bíblia não é sobre 6 dias literais, mas muitos cristãos insistem que seriam 6 dias literais, e há 6 mil anos, não mais que 6 mil anos, muito menos bilhões, como a ciência nos diz que é.