Monday, February 29, 2016

Probabilidade Incondicional e uma errata

Na semana passada recebi um email de um usuário (André) do site PollingData, afirmando que as probabilidades de vitória (incondicionais) na eleição Geral dos candidatos a presidência dos EUA estavam erradas. Claramente eu não quero que o site esteja errado, então apesar de ter bastante confiança de que as probabilidades estavam sendo calculadas da maneira correta, resolvi refazer os cálculos. Nesse post, vou explicar com mais detalhes como essas probabilidades são calculadas.

Antes de dar mais detalhes sobre o questionamento do André, vou explicar rapidinho porque as probabilidades de vitória nas eleições gerais são denominadas incondicionais. Nos EUA, ao invés de haver Primeiro e Segundo como no Brasil, existem as eleições Primárias e a Geral. Apesar de todo o processo ser bastante diferente, para calcular as probabilidades de vitória dos candidatos a similaridade é grande: vão disputar as eleições Gerais apenas os candidatos que ganharem as eleições Primárias.


As pesquisas divulgadas são para as Primárias, ou então para os cenários mais prováveis para a eleição Geral. Isso quer dizer que as probabilidades de vitória na Geral são condicionais ao cenário sendo considerado. Mas a probabilidade que queremos encontrar é a probabilidade de vitória na eleição Geral, independente do cenário. Essa probabilidade é denominada Incondicional, pois não está condicionada ao cenário.

Para encontrar o probabilidade Incondicional é necessário levar em conta a probabilidade de cada cenário ocorrer e também as probabilidades condicionais de vitória em cada cenário. Esse cálculo não é muito complicado, mas é necessário tomar cuidado pois existem muitos cenários para os quais não foram realizadas pesquisas ou então que não são acompanhados pelo PollingData.

Voltando ao questionamento do André, a probabilidade que chamou a sua atenção era a de vitória incondicional do Bernie Sanders. Para ele, não fazia sentido o Sanders, que tinha apenas 20% de chance de ganhar as primárias, ter uma probabilidade incondicional de vitória de 31%, bem maior do que a chance do Trump vencer (15%) sendo que ele tinha 86% de probabilidade de vitória nas Primárias.

De fato, essa é uma inversão grande, o que a torna suspeita. Antes de publicar o resultado no site, eu também havia me questionado sobre isso. Porém percebi que o Sanders era quem tinha a maior probabilidade condicional de vitória sobre o Trump, chegando a quase 75%. Para contraste, a probabilidade condicional de vitória da Clinton sobre o Trump é de 60%. Esse fato me pareceu suficiente para justificar essa inversão nas probabilidades, então publiquei o resultado.

Mas o André foi bem insistente que havia algo errado. Expliquei para ele o parágrafo  anterior, mas ele não concordou que pudesse haver uma inversão. Com razão.  Nas palavras dele: 

O que é logicamente impossível é o Bernie ter uma probabilidade de ser eleito presidente maior que a de ele mesmo ser nomeado. É o velho problema da Linda, testado pelo Kahneman e o Tversky. O resultado que estava lá era logicamente impossível, não apenas surpreendente

Decidi re-calcular explicitamente todas as probabilidades para mostrar pra ele minhas contas. E ao fazer isso, descobri que havia um erro!!! Não do cálculo das probabilidades, mas os labels estavam trocado. A probabilidade do Trump era a do Sanders, e vice-versa.

Trabalhei muito tempo com uma pessoa extremamente insightful, que sempre teve um feeling “estatístico” muito bom , sobre resultados de modelos , tabulações, probabilidades – tudo! Ele sempre sabia quando havia um erro, mesmo quando era imperceptível para mim. Muitas vezes o erro não era exatamente o que ele imaginava, mas de fato, quase sempre havia um erro. Ele é dessas pessoas que não têm dificuldades em “elicitar prioris subjetivas”.  O André me lembrou dele!

Gostaria de agradecer ao André pelo email, e principalmente por se preocupar. De fato, além de ajudar a melhorar o meu site, tivemos uma troca interessante de emails!

Friday, February 5, 2016

Carnaval + Primárias de New Hampshire?

O  site PollingData (http://www.pollingdata.com.br/) está acompanhando as eleições primárias americanas no estado de New Hampshire.  Acesse o site durante o carnaval para se manter atualizado.  A eleição será na terça-feira de Carnaval, dia 9 de fevereiro. 
Agora você pode acessar as diferentes abas do site usando links específicos. Os gráficos com as pesquisas se encontram nos links Democratas e Republicanos. As probabilidades de vitória de cada candidato estão no Dashboard.
Bom carnaval a todos!

Tuesday, February 2, 2016

Prevendo o resultado das eleições primárias americanas

Ontem foi realizada a primeira eleição primária americana de 2016, no estado de Iowa. O PollingData acompanhou essa eleição. A projeção feita pelo site não foi muito boa: na primária Democrata, acertamos o vencedor, porém com uma margem maior do que de fato ocorreu; nas primárias Republicanas, o candidato Cruz  que estava em segundo lugar com uma estimativa de 23 % acabou ganhando com 27,7% dos votos, enquanto o Trump que liderava com 27% perdeu com 24,3%.

Para visualizar melhor como foram essas corridas, acesse o site, e no menu principal selecione Eleições 2016 >> Estados Unidos >> Primarias. Lá apresentamos um gráfico de tendências que mostra toda a dinâmica eleitoral de acordo com as pesquisas, e também o resultado final da eleição. É  um ótimo retrato do que ocorreu!

Nesse post não vamos discutir a performance do PollingData e das pesquisas eleitorais. O objetivo é discutir sobre as principais dificuldades que existem para prever o resultado das eleições primárias americanas. Em alguns aspectos, as primárias são similares ao primeiro turno das eleições brasileiras. Muitos eleitores desconhecem os candidatos e apenas se decidem na véspera da eleição, fazendo com que grandes variações entre os resultados das pesquisas na véspera do pleito e o resultado da eleição sejam comuns.

Porém existe uma diferença muito grande. O voto nas eleições primárias não é obrigatório. E o percentual de pessoas elegíveis que de fato votam é muito pequeno, tipicamente variando entre 10% e 20%. Esse ano em Iowa, por exemplo, o percentual de pessoas que votaram foi de 15,7%, um recorde positivo. Na eleição anterior havia sido de apenas 6,5%.

Qual a relevância desse percentual de voto baixo?  Enorme! Para se fazer uma previsão sobre o resultado da eleição, é necessário antes prever quais respondentes irão votar. Eleitores que votam frequentemente usualmente votam de forma diferente daqueles que têm poucas chances de votar. E no caso das primárias, essas diferenças usualmente são maiores ainda.

O problema é importante para as pesquisas de opinião porque é comum pessoas que declararam ter uma grande chance de votar não votarem. E quando isso ocorre, o erro de previsão das pesquisas aumenta. Por isso os institutos desenvolveram, ao longo das últimos décadas, diversos modelos para prever a chance de voto de cada respondente da pesquisa. Esses modelos são chamados de “Likely Voter Models”. Para quem quer entendê-los melhor, recomendo esse link, que discute tanto os modelos quanto os erros cometidos por eles.

Uma etapa essencial na construção desses modelos é definir qual será o ponto de corte a partir do qual o respondente é classificado como “provável eleitor”. Nas eleições primárias,  muitas vezes não é possível encontrar um bom corte. Isso ocorre porque é comum ocorrerem grandes concentrações de respondentes nos extremos da escala de probabilidade de voto. Para uma discussão sobre tema, veja esse link. Além disso, por causa da baixa incidência de voto nas primárias, usualmente o estatístico/analista têm que descartar uma grande parte da amostra retirando quem têm pouca chance de votar, tornando as pesquisas para essas eleições mais caras e com um grau de precisão baixo.


Apesar das dificuldades, o PollingData continuará acompanhando as eleições primárias. Estamos testando diferentes formulações do nosso modelo para tentar prever as oscilações esperadas entre as pesquisas na véspera das eleições e o resultado final. Mais sobre isso num próximo post.