Monday, February 29, 2016

Probabilidade Incondicional e uma errata

Na semana passada recebi um email de um usuário (André) do site PollingData, afirmando que as probabilidades de vitória (incondicionais) na eleição Geral dos candidatos a presidência dos EUA estavam erradas. Claramente eu não quero que o site esteja errado, então apesar de ter bastante confiança de que as probabilidades estavam sendo calculadas da maneira correta, resolvi refazer os cálculos. Nesse post, vou explicar com mais detalhes como essas probabilidades são calculadas.

Antes de dar mais detalhes sobre o questionamento do André, vou explicar rapidinho porque as probabilidades de vitória nas eleições gerais são denominadas incondicionais. Nos EUA, ao invés de haver Primeiro e Segundo como no Brasil, existem as eleições Primárias e a Geral. Apesar de todo o processo ser bastante diferente, para calcular as probabilidades de vitória dos candidatos a similaridade é grande: vão disputar as eleições Gerais apenas os candidatos que ganharem as eleições Primárias.


As pesquisas divulgadas são para as Primárias, ou então para os cenários mais prováveis para a eleição Geral. Isso quer dizer que as probabilidades de vitória na Geral são condicionais ao cenário sendo considerado. Mas a probabilidade que queremos encontrar é a probabilidade de vitória na eleição Geral, independente do cenário. Essa probabilidade é denominada Incondicional, pois não está condicionada ao cenário.

Para encontrar o probabilidade Incondicional é necessário levar em conta a probabilidade de cada cenário ocorrer e também as probabilidades condicionais de vitória em cada cenário. Esse cálculo não é muito complicado, mas é necessário tomar cuidado pois existem muitos cenários para os quais não foram realizadas pesquisas ou então que não são acompanhados pelo PollingData.

Voltando ao questionamento do André, a probabilidade que chamou a sua atenção era a de vitória incondicional do Bernie Sanders. Para ele, não fazia sentido o Sanders, que tinha apenas 20% de chance de ganhar as primárias, ter uma probabilidade incondicional de vitória de 31%, bem maior do que a chance do Trump vencer (15%) sendo que ele tinha 86% de probabilidade de vitória nas Primárias.

De fato, essa é uma inversão grande, o que a torna suspeita. Antes de publicar o resultado no site, eu também havia me questionado sobre isso. Porém percebi que o Sanders era quem tinha a maior probabilidade condicional de vitória sobre o Trump, chegando a quase 75%. Para contraste, a probabilidade condicional de vitória da Clinton sobre o Trump é de 60%. Esse fato me pareceu suficiente para justificar essa inversão nas probabilidades, então publiquei o resultado.

Mas o André foi bem insistente que havia algo errado. Expliquei para ele o parágrafo  anterior, mas ele não concordou que pudesse haver uma inversão. Com razão.  Nas palavras dele: 

O que é logicamente impossível é o Bernie ter uma probabilidade de ser eleito presidente maior que a de ele mesmo ser nomeado. É o velho problema da Linda, testado pelo Kahneman e o Tversky. O resultado que estava lá era logicamente impossível, não apenas surpreendente

Decidi re-calcular explicitamente todas as probabilidades para mostrar pra ele minhas contas. E ao fazer isso, descobri que havia um erro!!! Não do cálculo das probabilidades, mas os labels estavam trocado. A probabilidade do Trump era a do Sanders, e vice-versa.

Trabalhei muito tempo com uma pessoa extremamente insightful, que sempre teve um feeling “estatístico” muito bom , sobre resultados de modelos , tabulações, probabilidades – tudo! Ele sempre sabia quando havia um erro, mesmo quando era imperceptível para mim. Muitas vezes o erro não era exatamente o que ele imaginava, mas de fato, quase sempre havia um erro. Ele é dessas pessoas que não têm dificuldades em “elicitar prioris subjetivas”.  O André me lembrou dele!

Gostaria de agradecer ao André pelo email, e principalmente por se preocupar. De fato, além de ajudar a melhorar o meu site, tivemos uma troca interessante de emails!

No comments:

Post a Comment