Polling Data: Por que as pesquisas eleitorais erraram o resultado do primeiro turno?

Estou reproduzindo aqui um email que eu enviei para a lista da ABE (Associação Brasileira de Estatística). Nesse email, faltou mencionar que não estou olhando pesquisas de boca de urna, pois a metodologia é completamente diferente. Discutirei a metodologia das pesquisas de boca de urna em outro post.

"Todo mundo esta' afirmando que as pesquisas erraram, mas senti falta de algum analise mais aprofundada do tema. Pra ajudar a todos que tem interesse, disponibilizei no link abaixo uma base de dados com as pesquisas publicadas na data mais proxima ao dia da eleicao, para todas as eleicoes de Governador (excecao de RR) e tambem de presidente. Tambem no mesmo arquivo estao os resultados da apuracao pelo TSE. Dessa forma cada um pode analisar o resultados e tirar suas proprias conclusoes. Como me dei ao trabalho de criar essa base, agradeceria se dessem o devido credito ao Pollingdata.com.br ao utiliza-la.

Link Dados: https://drive.google.com/file/d/0B_2va6jxqC4JM1FJRHhzREdGMmM/view?usp=sharing

A minha analise da performance das pesquisas eleitorais segue abaixo junto com alguns comentarios relevantes (longos). Acho que a pergunta que devemos nos fazer nao e' "Se as pesquisas erraram". Pra essa pergunta, a resposta sera sempre a mesma: SIM. Independente se o erro esta dentro da margem de erro ou nao, elas vao sempre errar (estritamente falando). A pergunta que importa, portanto, e' "Porque elas erraram"? Sera' que o erro cometido por elas pode ser inteiramente justificado apenas por questoes metodologicas?

1- Existem varios criterios diferentes para avaliar o erro cometido por uma pesquisa. Criterios baseados na binomial, na multinomial, de dados composicionais, dependentes do numero de candidatos, etc. No artido [ref1] o autor apresenta varios criterios. Na minha tese de doutorado faco um resumo de diversos criterios. Aqui vou utilizar o criterio que acredito ser o mais simples e facil de interpretar: Absolute Average Difference (AAD). Simplesmente a media do erros observados absolutos cometidos por cada pesquisa. Como qualquer criterio, ele pode ser criticado. Por isso inclui a base de dados nesse email, quem nao gostar da minha analise, que faca a sua.

[ref1] - W. J. Mitofsky. Review: Was 1996 a worse year for polls than 1948? The Public Opinion Quarterly,62(2):230{249, 1998.

Link para tese - https://drive.google.com/file/d/0B_2va6jxqC4JcmJBcW9RMlpVRFE/view?usp=sharing

2 - Essas pesquisas sao feitas no mundo real. Pesquisas feitas no mundo real estao sujeitas a varios outros tipos de erro, alem do erro amostral. Esses outro tipos de erro sao ainda mais complexos de se julgar do que o erro amostral, pois nem e' possivel ter uma ideia de quao grandes eles podem ser numa situacao ideal. No artigo citando na [Ref2], o autor discute a importancia de varias outras fontes de erro. Aqui estou mais preocupado com os erros que ocorrem no momento da coleta dos dados.

[ref 2] J. Desart and T. Holbrook. Campaigns, polls, and the states: Assessing the accuracy of statewide presidential trial-heat polls. Political Research Quarterly, 56(4):431{439, 2003

Nao inclui' todas as variaveis listadas nesse artigo na base de dados, mas inclui' "Numero de dias antes da eleicao" e tambem "Percentual de votos nao-validos". Na minha analise vou apenas falar dessas variaveis e tambem do tamanho da amostra. A importancia do percentual de votos nao-validos e' evidente - eles incluem pessoas que dizem Nao Sabe/Nao respondeu/Indecisos (NS/NR/I). E essa possibilidade de resposta nao existe na eleicao. Pesquisas que tem um percentual maior de NS/NR/I tendem a errar mais. Porque? Porque os eleitores estao indecisos, nao sabem em quem votar. E olhar apenas os votos validos nao e' uma boa solucao, pois faz a suposicao "fortissima" de que esses votos serao alocados de forma proporcional ao voto valido. Usualmente, a verdade nao poderia ser mais distante disso. Por exemplo, basta olhar como os eleitores que respondem NS/NR/I no primeiro turno votam no segundo turno. A correlacao entre a AAD e o % de "votos nao-validos" e' de 0,33. Alem disso, os tres estados com maiores erros observados (AAD) sao os que tem o maior % de "votos nao-validos" (PE, MG e BA)

3- Olhar apenas a ultima pesquisa de um ciclo eleitoral, ignora totalmente a questao da dinamica eleitoral, do momentum dos candidatos. Em algum momento do passado, lembro de alguem escrever pra essa lista dizendo que a sua maior preocupacao com relacao as pesquisas eleitorais e' que elas (podem) alteraram a intencao de voto dos eleitores. Eu acho que se esse argumento ja foi usado contra, tambem tem que ser usado a favor. Supondo que essa relacao ocorre, estamos considerando que as pesquisas eleitorais alteram a intencao de voto, a qual por sua vez tambem altera os resultados das pesquisas. No livro "The logic of Survey Analysis" o autor descreve esse tipo de relacao como "Relacao reciproca". Uma causa a outra, e vice-versa. Sob essa suposicao, e' totalmente plausivel que se as pesquisas apontam que um candidato esta crescendo, ele comece a crescer ainda mais rapido. Na vespera da eleicao, mais pesquisas sao divulgadas, e esse efeito e' catalizado ainda mais. Sob essa perspectiva, as pesquisas aceleram a o crescimento/queda de alguns candidatos nas vesperas da eleicao. Outro fator em acao no final da eleicao e' o envolvimento dos eleitores, que parece ocorrer apenas nas vesperas com uma grande parcela do eleitorado em potencial.

Independente de serem esses os motivos ou nao, em algumas das pesquisas mais criticadas por erro, e' evidente que a dinamica da intencao de voto esta se alterando. Especificamente as eleicoes para presidente e para Governador nos estados de RS, PE, RJ e BA. Nessas eleicoes nao ha como afirmar categoricamente que as pesquisas erraram por causa da metodologia. As pesquisas retratam o passado. Olhem as graficos no link abaixo, onde mostro a serie completa desses estados. E' obvio que a dinamica eleitoral e' em grande parte responsavel pelos erros observados. Ainda mais se considerarmos que as proprias pesquisas podem impulsionar esses movimentos como argumentei no paragrafo anterior. Nesses casos, se o objetivo e' fazer uma analise imparcial da performance das pesquisas, claramente nao e' possivel atribuir todo o erro observado a metodologia das pesquisas.

Link para os graficos: https://drive.google.com/file/d/0B_2va6jxqC4JRmNmalZuV2Nsdnc/view?usp=sharing

Em estados onde nao foram feitas pesquisas na vespera da eleicao, e' impossivel dizer se a dinamica eleitoral se alterou ou nao. Por isso uso tambem como indicador o numero de dias antes da eleicao que a pesquisa foi publicada. Quanto mais dias antes, mais facil de da pesquisa errar.

Abaixo inclui' uma tabela com o resumo de todos os resultados. Os resultados estao ordenados da eleicao com a maior diferenca entre erro amostral e erro observado, para a menor diferenca. A ultima coluna tem as observacoes sobre cada eleicao, ressaltando pontos que acho importantes que nao estao relacionados com a metodologida dos institutos. Eu geralmente utilizo um fator de ajuste, aprox. sqrt(1.3), para calcular o erro amostral em funcao do tamanho da amostra, pois sei que utilizam amostragem por conglomerados e nao amostragem aleatoria simples. Mas nao fiz isso aqui pra ninguem dizer que estou tentando favorecer aos institutos.

Meu ponto e': O mundo nao e' preto e branco. O que importa nao e' se as pesquisas erraram, mas se elas erraram por causa da metodologia que elas utilizam. Esse e' o X da questao. Nao acredito que a resposta seja tao obvia quanto todo mundo parece estar afirmando. Pra quem quer equalizar erro observado com erro amostral, pode parecer que sim. Mas o mundo real e' bem mais complexo que isso. Nao acho justo jogar a responsabilidade de absolutamente todos os erros na metodologia dos institutos de pesquisa. Com certeza a metodologia pode ser melhorada, ate porque imagino que para fazer uma pesquisa em 2 dias (com uma pressao enorme), nao e' possivel manter todos os controles de qualidade usualmente utilizados. Mas uma parcela (grande?) dos erros, de fato, nao e' culpa da metodologia utilizada.

Neale

Estado	% de Votos nao-validos	Dias antes da eleicao	Tamanho da amostra	erro amostral (sob AAS)	Erro Medio Observado (AAD)	Diferenca	Observacao
Pernambuco	22%	1	2002	2,2%	6,9%	4,7%	Dinamica mudou
Minas Gerais	24%	1	2002	2,2%	6,9%	4,6%	% alto de Nao validos
Bahia	22%	1	2002	2,2%	6,0%	3,8%	Dinamica mudou
Amazonas	9%	3	1512	2,6%	5,3%	2,7%	3 dias ou mais antes
Brasil	12%	1	3010	1,8%	3,9%	2,1%	Dinamica mudou
Santa Catarina	16%	2	1610	2,5%	4,3%	1,8%
Tocantins	14%	1	812	3,5%	5,3%	1,8%
Rio Grande do Sul	14%	1	1886	2,3%	3,9%	1,6%	Dinamica mudou
Piauí	5%	3	812	3,5%	4,9%	1,4%
Mato Grosso do Sul	15%	10	1008	3,1%	4,3%	1,1%	3 dias ou mais antes
Rio de Janeiro	13%	1	1949	2,3%	3,0%	0,7%	Dinamica mudou
Paraná	13%	1	1512	2,6%	3,2%	0,6%
São Paulo	21%	1	2002	2,2%	2,5%	0,3%	% alto de Nao validos
Maranhão	17%	3	1204	2,9%	3,2%	0,4%	3 dias ou mais antes
Rondônia	10%	3	812	3,5%	3,7%	0,2%	3 dias ou mais antes
Goiás	14%	5	812	3,5%	3,6%	0,1%	3 dias ou mais antes
Acre	6%	3	812	3,5%	3,1%	-0,4%
Amapá	5%	2	812	3,5%	3,0%	-0,5%
Pará	11%	1	812	3,5%	3,0%	-0,5%
Alagoas	15%	3	812	3,5%	3,0%	-0,5%
Distrito Federal	12%	1	1646	2,5%	1,8%	-0,7%
Ceará	17%	1	1610	2,5%	1,8%	-0,7%
Espírito Santo	19%	2	812	3,5%	2,6%	-0,9%
Rio Grande do Norte	21%	2	812	3,5%	2,2%	-1,3%
Mato Grosso	13%	3	812	3,5%	1,4%	-2,1%
Sergipe	16%	1	812	3,5%	1,0%	-2,5%
Paraíba	11%	1	812	3,5%	0,5%	-3,0%"

Polling Data

Wednesday, October 8, 2014

Por que as pesquisas eleitorais erraram o resultado do primeiro turno?

No comments:

Post a Comment

Blog Archive

About Me