Hoje, depois de muito tempo e
muito trabalho, consegui publicar o acervo de pesquisas do PollingData. Esse acervo contém pesquisas eleitorais
brasileiras, publicadas na mídia, entre os anos de 1989 a 2014. Além disso
também possui pesquisas de eleições estrangeiras que foram acompanhadas pelo
PollingData até 2015 (Argentina, EUA, Suíça e Canadá – Espanha só será incluída
após as eleições de 20/12/2015).
Esse acervo começou a ser montado
em 2006, durante o meu Doutorado, onde o meu objetivo era avaliar a qualidade
das pesquisas eleitorais brasileiras – pra quem tiver interesse, segue o link
para a minha tese. Naquela
época, tive a sorte de ter um amigo trabalhando no CESOP (Centro de
Estudos de Opinião Pública) da UNICAMP, que me informou que eles tinham acabado
de criar o “Banco de Dados Nacionais de Opinião”, com mais de 2300 pesquisas no
acervo.
Conversei com o pessoal do CESOP,
os quais me deram acesso a base de dados. De lá extrai aproximadamente 900
pesquisas eleitorais publicadas entre 1989 e 2004 (apenas do Ibope e o Data Folha),
as quais foram utilizadas na minha tese de doutorado. Nesse acervo, a base de
dados de cada estudo está disponível, então tive tive que escrever um programa
que entrava em cada base de dados, ligava o peso, e calculava as estimativas de
intenção de voto, além de outras informações relevantes como tamanho da
amostra, período de campo, taxa de não-resposta, etc...
Na época, eu acreditava que não
havia outra base de dados tão completa no país. Mas alguns anos depois, em
2012, encontrei o Blog
do Fernando Rodrigues. A quantidade de pesquisas disponíveis nesse site é
impressionante, cobrindo o período de 2000 a 2014. Se eu tivesse encontrado
esse site antes, a análise feita na minha tese de doutorado teria sido bem mais
completa.
Eu sou muito grato ao jornalista
Fernando Rodrigues, acho que ele fez um trabalho incrível. Ele teve uma
iniciativa extremamente inovadora em 2000, anos à frente de qualquer outra
iniciativa similar. Para mostrar o quão visionário ele foi, basta notar que nos
EUA o primeiro site agregador de pesquisas, o RealClearPolitics, foi criado apenas
em 2002, alguns anos depois. Não sei muitos detalhes sobre a criação do blog,
mas acho que ninguém deu a devida importância ao mesmo, que talvez seja o
primeiro site agregador de pesquisas do mundo.
Apesar da enorme quantidade de
pesquisas disponíveis no Blog do Fernando Rodrigues, extrair todas as pesquisas
para criar um banco de dados limpo, que pode ser utilizado para fazer análises
estatísticas, se mostrou um desafio enorme. Fiz duas tentativas de extração dos
dados. A primeira, no final de 2013, não
deu certo. Eu consegui baixar os dados com um robozinho que eu criei, porém
como era a primeira vez que escrevia um código do gênero, não consegui extrair
algumas informações essenciais do HTML. A grande dificuldade é que em cada ano/turno,
a formatação das tabelas e do site é diferente. Algumas vezes as diferenças são
sutis, em outras são enormes. Olhando para trás, percebo que a criação desse
acervo de pesquisas foi o meu primeiro contato com Big Data, mas nessa época
acho que ainda não tinha esse nome.
Na segunda tentativa, agora no
final de 2015, finalmente consegui terminar o trabalho. Fiz diversas
validações, e não encontrei erros. Porém são 10.916 pesquisas realizadas em 883
eleições em 5 países ao longo de mais de 25 anos. É muita coisa, e eu não sou
ingênuo o suficiente pra acreditar que não existem erros. Com certeza existem
erros. Muitas decisões tiveram que ser feitas ao longo do processo, tanto para
extração dos dados, quanto para a limpeza e imputação. Apenas para exemplificar
o processo, toda tabela de dados de uma eleição passou por pelo menos três
processos distintos: limpeza, imputação e agregação de colunas para rodar o
modelo do PollingData.
O objetivo da criação desse
acervo é similar ao realizado na minha tese de doutorado, porém maior: quero permitir
que qualquer pesquisador possa avaliar a qualidade das pesquisas eleitorais
brasileiras. Não somente de forma passiva, depois do fato, mas de forma
preventiva, garantindo a qualidade/honestidade das pesquisas. Acredito que a
melhor forma de conseguir esse feito é avaliando constantemente a performance
dos institutos, criando critérios que permitam comparar os institutos de acordo
com a sua precisão, e levando em conta também os erros não-amostrais.
Na minha opinião, essa é uma
estratégia muito mais eficaz do que criar leis que de fato não conseguem
garantir a qualidade das pesquisas. E muito melhor do que a opção de proibir as
pesquisas defendida por alguns. Pesquisas feitas com qualidade são importantes
para o processo eleitoral, elas provêm informações relevantes que auxiliam a
população a escolher seus representantes, e consequentemente a definir o futuro
do país.
Esse acervo publicado hoje é
apenas o primeiro passo nessa direção. Outros passos ainda têm que ser dados. O
próximo passo será incluir o resultado real das eleições no acervo, permitindo
a comparação das previsões com a realidade observada.
O acervo está no item “Acervo/Past
Elections”,localizado no menu principal do PollingData.
No comments:
Post a Comment