Tuesday, September 2, 2014

Cenário "atual" versus cenário "dia da eleição"

Depois da divulgação do pollingdata.com.br, algumas pessoas manifestaram dificuldades em distinguir as diferenças entre os cenários “atual” e “dia da eleição”, e também de entender como foram calculadas as probabilidades divulgadas no site. Nesse post, vamos explicar com um pouco mais de detalhes essas questões, e sem recorrer a matemática ;)

No pollingdata.com.br estamos usando um modelo estatístico. O objetivo desse modelo é determinar qual é a intenção de voto mais provável (para cada candidato) dados os resultados das pesquisas eleitorais divulgadas. Por exemplo, num cenário simples sem viés metodologico dos institutos, vamos imaginar que em um mesmo dia 2 pesquisas eleitorais são divulgadas. Uma tem Marina com 41% das intenções de voto, e outra tem Marina com 35%. O mais provavel é que a "real intenção de voto" seja um valor intermediário, digamos 38. Esse é o valor que o modelo iria prever para a intenção de voto na Marina naquele dia.

Apesar dessa ser a intenção de voto mais provável, existem várias outras possibilidades. Voltando ao exemplo, se a intenção de voto na Marina fosse na verdade 40%, também seria possível de ocorrer os resultados das duas pesquisas divulgadas (41% e 35%). Ou seja, 40% de voto na Marina também é uma estimativa provável. Em contraste, é mais dificil de acreditar que a intenção de voto na Marina seja na verdade 30%, dado as 2 pesquisas divulgadas. Ou seja, essa estimativa seria bem menos provável, pois  seria mais difícil as 2 pesquisas terem obtido aqueles resultados se a Marina tem apenas 30% das intenções de voto.

Pra obter as probabilidades estimadas na aba “dashboard”, fazemos mais de 15 mil simulações do modelo, com o objetivo de calcular todas as possíveis "intenções de voto" considerando as pesquisas publicadas. Se uma estimativa é muito rara, ela ocorrerá muitas poucas vezes nessas simulações. Se uma estimativa é bem provável, ela ocorrerá muitas vezes. Assim, pra calcular essas probabilidades, contamos quantas vezes cada evento ocorreu durante as simulações. Por exemplo, se a probabilidade da Dilma ganhar é de X%, quer dizer que em X% das simulações ela ganhou as eleições.

O modelo faz essas contas para todos os dias, desde a primeira pesquisa publicada até o dia da eleição. Ou seja, cada dia do ciclo eleitoral é simulado mais de 15 mil vezes pelo modelo. A diferença entre os dois cenários é essencialmente determinada pelo dia escolhido para contar quantas vezes cada evento ocorreu. No cenário "atual" as contas são feitas olhando apenas a data de hoje. No cenário "dia da eleição", são feitas considerando apenas o dia da eleição. 

Finalmente, uma diferença importante entre os 2 cenários: no cenário atual, leva-se em conta apenas as pesquisas publicadas.  Já no cenário "dia da eleição", também leva-se em conta o que ocorreu em mais de 130 eleicoes em 17 paises. Ou seja, considera-se a probabilidade de um candidato do partido no governo, concorrendo a re-eleição, com aprovacao de 44%, ganhar a eleição. Historicamente, essa probabilidade é de +/- 75%. Conforme nos aproximamos da eleição, as probabilidades do cenário "dia da eleição" serão cada vez mais influenciadas pelas pesquisas divulgadas, pois cada vez mais aumenta nossa confiança de que as pesquisas retratam a realidade no dia da eleição. Ou seja, chega um momento em que não importa mais o que aconteceu em outras eleições similares, apenas o que está acontecendo nesse ciclo eleitoral.

O modelo que eu estou utilizando é razoavelmente complexo, e neste post eu estou simplificando como ele funciona pra não ter que recorrer a matemática. Apenas para ressaltar esse fato, o modelo realmente utilizado tem que, ao mesmo tempo, considerar diversos fatores. Entre eles estão: 1-identificar qual parte da variação dos resultados das pesquisas é proveniente de viés metodológico e qual parte é de variação amostral; 2- levar em consideração que em dias consecutivos a opinião pública usualmente não se altera bruscamente; 3- as pesquisas devem ter um peso maior para estimar a intenção de voto em dias próximos a sua divulgação; 4- Pesquisas com tamanho de amostra maior são mais informativas; 5- Quanto mais próximo das eleições, mais peso as pesquisas devem ter para determinar o resultado do cenário “dia das eleições”. Outro detalhe importante: estamos simulando o primeiro turno, e também os possíveis segundos turnos. Para calcular algumas das probabilidades exibidas no pollingdata.com.br, é necessário levar em conta todos os turnos simultanêamente.

Deu pra entender melhor como estamos fazendo nossas previsões?



No comments:

Post a Comment