Depois da divulgação do pollingdata.com.br,
algumas pessoas manifestaram dificuldades em distinguir as diferenças entre os cenários “atual” e “dia da eleição”, e também de entender como foram calculadas
as probabilidades divulgadas no site. Nesse post, vamos explicar com um pouco
mais de detalhes essas questões, e sem recorrer a matemática ;)
No pollingdata.com.br estamos usando um
modelo estatístico. O objetivo desse modelo é determinar qual é a intenção de
voto mais provável (para cada candidato) dados os resultados das pesquisas
eleitorais divulgadas. Por exemplo, num cenário simples sem viés metodologico
dos institutos, vamos imaginar que em um mesmo dia 2 pesquisas eleitorais são
divulgadas. Uma tem Marina com 41% das intenções de voto, e outra tem Marina
com 35%. O mais provavel é que a "real intenção de voto" seja um
valor intermediário, digamos 38. Esse é o valor que o modelo iria prever para a
intenção de voto na Marina naquele dia.
Apesar dessa ser a intenção de voto
mais provável, existem várias outras possibilidades. Voltando ao exemplo, se a intenção
de voto na Marina fosse na verdade 40%, também seria possível de ocorrer os
resultados das duas pesquisas divulgadas (41% e 35%). Ou seja, 40% de voto na
Marina também é uma estimativa provável. Em contraste, é mais dificil de
acreditar que a intenção de voto na Marina seja na verdade 30%, dado as 2
pesquisas divulgadas. Ou seja, essa estimativa seria bem menos provável, pois seria
mais difícil as 2 pesquisas terem obtido aqueles resultados se a Marina tem
apenas 30% das intenções de voto.
Pra obter as probabilidades estimadas na
aba “dashboard”, fazemos mais de 15 mil simulações do modelo, com o objetivo de
calcular todas as possíveis "intenções de voto" considerando as
pesquisas publicadas. Se uma estimativa é muito rara, ela ocorrerá muitas
poucas vezes nessas simulações. Se uma estimativa é bem provável, ela ocorrerá
muitas vezes. Assim, pra calcular essas probabilidades, contamos quantas vezes
cada evento ocorreu durante as simulações. Por exemplo, se a probabilidade da
Dilma ganhar é de X%, quer dizer que em X% das simulações ela ganhou as eleições.
O modelo faz essas contas para todos os
dias, desde a primeira pesquisa publicada até o dia da eleição. Ou seja, cada
dia do ciclo eleitoral é simulado mais de 15 mil vezes pelo modelo. A diferença
entre os dois cenários é essencialmente determinada pelo dia escolhido para
contar quantas vezes cada evento ocorreu. No cenário "atual" as
contas são feitas olhando apenas a data de hoje. No cenário "dia da eleição",
são feitas considerando apenas o dia da eleição.
Finalmente, uma diferença importante
entre os 2 cenários: no cenário atual, leva-se em conta apenas as pesquisas
publicadas. Já no cenário "dia da eleição", também leva-se em
conta o que ocorreu em mais de 130 eleicoes em 17 paises. Ou seja, considera-se
a probabilidade de um candidato do partido no governo, concorrendo a re-eleição,
com aprovacao de 44%, ganhar a eleição. Historicamente, essa probabilidade é de
+/- 75%. Conforme nos aproximamos da eleição, as probabilidades do cenário
"dia da eleição" serão cada vez mais influenciadas pelas pesquisas
divulgadas, pois cada vez mais aumenta nossa confiança de que as pesquisas
retratam a realidade no dia da eleição. Ou seja, chega um momento em que não
importa mais o que aconteceu em outras eleições similares, apenas o que está
acontecendo nesse ciclo eleitoral.
O modelo que eu estou utilizando é razoavelmente
complexo, e neste post eu estou simplificando como ele funciona pra não ter que
recorrer a matemática. Apenas para ressaltar esse fato, o modelo realmente
utilizado tem que, ao mesmo tempo, considerar diversos fatores. Entre eles
estão: 1-identificar qual parte da variação dos resultados das pesquisas é
proveniente de viés metodológico e qual parte é de variação amostral; 2- levar
em consideração que em dias consecutivos a opinião pública usualmente não se
altera bruscamente; 3- as pesquisas devem ter um peso maior para estimar a intenção
de voto em dias próximos a sua divulgação; 4- Pesquisas com tamanho de amostra
maior são mais informativas; 5- Quanto mais próximo das eleições, mais peso as
pesquisas devem ter para determinar o resultado do cenário “dia das eleições”.
Outro detalhe importante: estamos simulando o primeiro turno, e também os
possíveis segundos turnos. Para calcular algumas das probabilidades exibidas no
pollingdata.com.br, é necessário levar em conta todos os turnos simultanêamente.
Deu pra entender melhor como estamos
fazendo nossas previsões?
No comments:
Post a Comment