Monday, December 21, 2015

Performance do PollingData na Espanha 2015

PollingData está acompanhando as eleições Argentinas desde setembro desse ano, e nesse último domingo os espanhóis foram as urnas. O resultado da eleição pode ser visto nesse link (em espanhol). Na tabela abaixo está o comparativo entre a previsão final do PollingData e a contagem dos votos. O Erro Médio Absoluto  (EMA) foi de 1,7%. 



Por esse critério, a previsão do PollingData teve performance similar ao segundo turno Argentino, que foi de 1,9%. Como o numero de partidos nessas duas eleições é bem diferente, essa comparação não é muito justa, pois usualmente quanto maior o número de candidatos menor é o EMA. Discutiremos mais sobre esse tema em 2016, num outro post. 

Com a finalização das eleições espanholas, o PollingData encerra suas previsões para 2015. Agora iremos nos preparar para 2016, quando teremos as eleições municipais aqui no Brasil. Essas eleições prometem ser um verdadeiro desafio para o site, visto que são centenas de eleições (com pesquisas sendo divulgadas) acontecendo em paralelo. 

Desejamos a todos boas festas e um feliz 2016!

Friday, December 18, 2015

Acervo de pesquisas eleitorais do Polling Data (1989-2015)

Hoje, depois de muito tempo e muito trabalho, consegui publicar o acervo de pesquisas do PollingData.  Esse acervo contém pesquisas eleitorais brasileiras, publicadas na mídia, entre os anos de 1989 a 2014. Além disso também possui pesquisas de eleições estrangeiras que foram acompanhadas pelo PollingData até 2015 (Argentina, EUA, Suíça e Canadá – Espanha só será incluída após as eleições de 20/12/2015).

Esse acervo começou a ser montado em 2006, durante o meu Doutorado, onde o meu objetivo era avaliar a qualidade das pesquisas eleitorais brasileiras – pra quem tiver interesse, segue o link para a minha tese. Naquela época, tive a sorte de ter um amigo trabalhando no CESOP (Centro de Estudos de Opinião Pública) da UNICAMP, que me informou que eles tinham acabado de criar o “Banco de Dados Nacionais de Opinião”, com mais de 2300 pesquisas no acervo.

Conversei com o pessoal do CESOP, os quais me deram acesso a base de dados. De lá extrai aproximadamente 900 pesquisas eleitorais publicadas entre 1989 e 2004 (apenas do Ibope e o Data Folha), as quais foram utilizadas na minha tese de doutorado. Nesse acervo, a base de dados de cada estudo está disponível, então tive tive que escrever um programa que entrava em cada base de dados, ligava o peso, e calculava as estimativas de intenção de voto, além de outras informações relevantes como tamanho da amostra, período de campo, taxa de não-resposta, etc...

Na época, eu acreditava que não havia outra base de dados tão completa no país. Mas alguns anos depois, em 2012, encontrei o Blog do Fernando Rodrigues. A quantidade de pesquisas disponíveis nesse site é impressionante, cobrindo o período de 2000 a 2014. Se eu tivesse encontrado esse site antes, a análise feita na minha tese de doutorado teria sido bem mais completa.

Eu sou muito grato ao jornalista Fernando Rodrigues, acho que ele fez um trabalho incrível. Ele teve uma iniciativa extremamente inovadora em 2000, anos à frente de qualquer outra iniciativa similar. Para mostrar o quão visionário ele foi, basta notar que nos EUA o primeiro site agregador de pesquisas, o RealClearPolitics, foi criado apenas em 2002, alguns anos depois. Não sei muitos detalhes sobre a criação do blog, mas acho que ninguém deu a devida importância ao mesmo, que talvez seja o primeiro site agregador de pesquisas do mundo.

Apesar da enorme quantidade de pesquisas disponíveis no Blog do Fernando Rodrigues, extrair todas as pesquisas para criar um banco de dados limpo, que pode ser utilizado para fazer análises estatísticas, se mostrou um desafio enorme. Fiz duas tentativas de extração dos dados. A primeira, no final de 2013, não deu certo. Eu consegui baixar os dados com um robozinho que eu criei, porém como era a primeira vez que escrevia um código do gênero, não consegui extrair algumas informações essenciais do HTML. A grande dificuldade é que em cada ano/turno, a formatação das tabelas e do site é diferente. Algumas vezes as diferenças são sutis, em outras são enormes. Olhando para trás, percebo que a criação desse acervo de pesquisas foi o meu primeiro contato com Big Data, mas nessa época acho que ainda não tinha esse nome.

Na segunda tentativa, agora no final de 2015, finalmente consegui terminar o trabalho. Fiz diversas validações, e não encontrei erros. Porém são 10.916 pesquisas realizadas em 883 eleições em 5 países ao longo de mais de 25 anos. É muita coisa, e eu não sou ingênuo o suficiente pra acreditar que não existem erros. Com certeza existem erros. Muitas decisões tiveram que ser feitas ao longo do processo, tanto para extração dos dados, quanto para a limpeza e imputação. Apenas para exemplificar o processo, toda tabela de dados de uma eleição passou por pelo menos três processos distintos: limpeza, imputação e agregação de colunas para rodar o modelo do PollingData.

O objetivo da criação desse acervo é similar ao realizado na minha tese de doutorado, porém maior: quero permitir que qualquer pesquisador possa avaliar a qualidade das pesquisas eleitorais brasileiras. Não somente de forma passiva, depois do fato, mas de forma preventiva, garantindo a qualidade/honestidade das pesquisas. Acredito que a melhor forma de conseguir esse feito é avaliando constantemente a performance dos institutos, criando critérios que permitam comparar os institutos de acordo com a sua precisão, e levando em conta também os erros não-amostrais. 

Na minha opinião, essa é uma estratégia muito mais eficaz do que criar leis que de fato não conseguem garantir a qualidade das pesquisas. E muito melhor do que a opção de proibir as pesquisas defendida por alguns. Pesquisas feitas com qualidade são importantes para o processo eleitoral, elas provêm informações relevantes que auxiliam a população a escolher seus representantes, e consequentemente a definir o futuro do país.

Esse acervo publicado hoje é apenas o primeiro passo nessa direção. Outros passos ainda têm que ser dados. O próximo passo será incluir o resultado real das eleições no acervo, permitindo a comparação das previsões com a realidade observada.


O acervo está no item “Acervo/Past Elections”,localizado no menu principal do PollingData.