Monday, December 21, 2015

Performance do PollingData na Espanha 2015

PollingData está acompanhando as eleições Argentinas desde setembro desse ano, e nesse último domingo os espanhóis foram as urnas. O resultado da eleição pode ser visto nesse link (em espanhol). Na tabela abaixo está o comparativo entre a previsão final do PollingData e a contagem dos votos. O Erro Médio Absoluto  (EMA) foi de 1,7%. 



Por esse critério, a previsão do PollingData teve performance similar ao segundo turno Argentino, que foi de 1,9%. Como o numero de partidos nessas duas eleições é bem diferente, essa comparação não é muito justa, pois usualmente quanto maior o número de candidatos menor é o EMA. Discutiremos mais sobre esse tema em 2016, num outro post. 

Com a finalização das eleições espanholas, o PollingData encerra suas previsões para 2015. Agora iremos nos preparar para 2016, quando teremos as eleições municipais aqui no Brasil. Essas eleições prometem ser um verdadeiro desafio para o site, visto que são centenas de eleições (com pesquisas sendo divulgadas) acontecendo em paralelo. 

Desejamos a todos boas festas e um feliz 2016!

Friday, December 18, 2015

Acervo de pesquisas eleitorais do Polling Data (1989-2015)

Hoje, depois de muito tempo e muito trabalho, consegui publicar o acervo de pesquisas do PollingData.  Esse acervo contém pesquisas eleitorais brasileiras, publicadas na mídia, entre os anos de 1989 a 2014. Além disso também possui pesquisas de eleições estrangeiras que foram acompanhadas pelo PollingData até 2015 (Argentina, EUA, Suíça e Canadá – Espanha só será incluída após as eleições de 20/12/2015).

Esse acervo começou a ser montado em 2006, durante o meu Doutorado, onde o meu objetivo era avaliar a qualidade das pesquisas eleitorais brasileiras – pra quem tiver interesse, segue o link para a minha tese. Naquela época, tive a sorte de ter um amigo trabalhando no CESOP (Centro de Estudos de Opinião Pública) da UNICAMP, que me informou que eles tinham acabado de criar o “Banco de Dados Nacionais de Opinião”, com mais de 2300 pesquisas no acervo.

Conversei com o pessoal do CESOP, os quais me deram acesso a base de dados. De lá extrai aproximadamente 900 pesquisas eleitorais publicadas entre 1989 e 2004 (apenas do Ibope e o Data Folha), as quais foram utilizadas na minha tese de doutorado. Nesse acervo, a base de dados de cada estudo está disponível, então tive tive que escrever um programa que entrava em cada base de dados, ligava o peso, e calculava as estimativas de intenção de voto, além de outras informações relevantes como tamanho da amostra, período de campo, taxa de não-resposta, etc...

Na época, eu acreditava que não havia outra base de dados tão completa no país. Mas alguns anos depois, em 2012, encontrei o Blog do Fernando Rodrigues. A quantidade de pesquisas disponíveis nesse site é impressionante, cobrindo o período de 2000 a 2014. Se eu tivesse encontrado esse site antes, a análise feita na minha tese de doutorado teria sido bem mais completa.

Eu sou muito grato ao jornalista Fernando Rodrigues, acho que ele fez um trabalho incrível. Ele teve uma iniciativa extremamente inovadora em 2000, anos à frente de qualquer outra iniciativa similar. Para mostrar o quão visionário ele foi, basta notar que nos EUA o primeiro site agregador de pesquisas, o RealClearPolitics, foi criado apenas em 2002, alguns anos depois. Não sei muitos detalhes sobre a criação do blog, mas acho que ninguém deu a devida importância ao mesmo, que talvez seja o primeiro site agregador de pesquisas do mundo.

Apesar da enorme quantidade de pesquisas disponíveis no Blog do Fernando Rodrigues, extrair todas as pesquisas para criar um banco de dados limpo, que pode ser utilizado para fazer análises estatísticas, se mostrou um desafio enorme. Fiz duas tentativas de extração dos dados. A primeira, no final de 2013, não deu certo. Eu consegui baixar os dados com um robozinho que eu criei, porém como era a primeira vez que escrevia um código do gênero, não consegui extrair algumas informações essenciais do HTML. A grande dificuldade é que em cada ano/turno, a formatação das tabelas e do site é diferente. Algumas vezes as diferenças são sutis, em outras são enormes. Olhando para trás, percebo que a criação desse acervo de pesquisas foi o meu primeiro contato com Big Data, mas nessa época acho que ainda não tinha esse nome.

Na segunda tentativa, agora no final de 2015, finalmente consegui terminar o trabalho. Fiz diversas validações, e não encontrei erros. Porém são 10.916 pesquisas realizadas em 883 eleições em 5 países ao longo de mais de 25 anos. É muita coisa, e eu não sou ingênuo o suficiente pra acreditar que não existem erros. Com certeza existem erros. Muitas decisões tiveram que ser feitas ao longo do processo, tanto para extração dos dados, quanto para a limpeza e imputação. Apenas para exemplificar o processo, toda tabela de dados de uma eleição passou por pelo menos três processos distintos: limpeza, imputação e agregação de colunas para rodar o modelo do PollingData.

O objetivo da criação desse acervo é similar ao realizado na minha tese de doutorado, porém maior: quero permitir que qualquer pesquisador possa avaliar a qualidade das pesquisas eleitorais brasileiras. Não somente de forma passiva, depois do fato, mas de forma preventiva, garantindo a qualidade/honestidade das pesquisas. Acredito que a melhor forma de conseguir esse feito é avaliando constantemente a performance dos institutos, criando critérios que permitam comparar os institutos de acordo com a sua precisão, e levando em conta também os erros não-amostrais. 

Na minha opinião, essa é uma estratégia muito mais eficaz do que criar leis que de fato não conseguem garantir a qualidade das pesquisas. E muito melhor do que a opção de proibir as pesquisas defendida por alguns. Pesquisas feitas com qualidade são importantes para o processo eleitoral, elas provêm informações relevantes que auxiliam a população a escolher seus representantes, e consequentemente a definir o futuro do país.

Esse acervo publicado hoje é apenas o primeiro passo nessa direção. Outros passos ainda têm que ser dados. O próximo passo será incluir o resultado real das eleições no acervo, permitindo a comparação das previsões com a realidade observada.


O acervo está no item “Acervo/Past Elections”,localizado no menu principal do PollingData.

Monday, November 23, 2015

Performance do PollingData na Argentina - Turno 2

PollingData está acompanhando as eleições Argentinas desde agosto desse ano, e nesse último domingo os argentinos foram as urnas pelo segundo turno das eleições presidenciais. O resultado da eleição pode ser visto nesse link (em espanhol). Na tabela abaixo está o comparativo entre a previsão final do PollingData e a contagem dos votos. O Erro Médio Absoluto  (EMA) foi de 1,9%. 


Por esse critério, a previsão do PollingData no segundo turno foi bem melhor do que no primeiro turno (EMA de 2,6%). Essa melhora de performance era esperada. Além de haverem menos candidatos no segundo turno, os eleitores já conhecem os candidatos, o que geralmente resulta na intenção de voto ser menos variável e consequentemente mais previsível.

Como já foi discutido nesse post, as eleições Argentinas de 2015 foram um grande desafio para site por causa do cenário eleitoral instável, da baixa quantidade de pesquisas divulgadas e da falta de informação sobre as pesquisas publicadas. Apesar dessa dificuldades considero que a performance do PollingData foi aceitável. Num futuro próximo divulgaremos um ranking com a performance do PollingData em todas as eleições acompanhadas pelo site. Será interessante verificar o posição das diferentes eleições no ranking.

Nesse ano ainda estamos acompanhando as eleições espanholas, porém a eleição mais importante para o site foi a Argentina. Agora começaremos a nos preparar para as eleições municipais de 2016 no Brasil, e novidades serão apresentadas. Aguardem o PollingDAta versão 2016!

Tuesday, November 17, 2015

Prevendo o resultado da votação do Impeachment

Alguns meses atrás, um parceiro de trabalho teve a ideia de tentar prever o resultado de uma votação do Impeachment. O objetivo era vender esse modelo preditivo, visto que quantificar a chance de ocorrência do Impeachment (se de fato houver uma votação) pode ser bastante rentável para quem souber usar essa informação.

Lamentavelmente, não conseguimos vender o modelo. Ao invés de jogar fora todo esse trabalho, decidi investir um pouco mais de tempo e disponibilizar o modelo no site PollingData. Essa é uma forma de diminuir a frustração de não ter conseguido vender o modelo: pelo menos assim, talvez alguém ainda encontre utilidade para o modelo. Estou dando uma segunda chance ao modelo! Além disso, desenvolvi a interface com o usuário de forma a permitir que o mesmo tenha acesso a informações históricas e pertinentes sobre a votação e presença de cada deputado. Mesmo que o modelo em si não seja utilizado, as informações disponíveis ainda podem ser bastante uteis.

Vamos ao que interessa: é possível prever, de forma efetiva, o resultado de uma potencial votação de Impeachment? Eu acredito que sim, porém provavelmente não com a precisão desejada. Faço essa ressalva porque estamos fazendo, implicitamente, uma suposição (potencialmente) forte: estamos supondo que os deputados manterão seus padrões históricos de votos a favor/contra o governo na votação do Impeachment. Pra quem gosta de inferência Bayesiana: essas votações são permutáveis?

Sabidamente, essa seria uma votação extremamente importante, e não é difícil de imaginar que alguns padrões históricos se alterem: por exemplo, a probabilidade dos deputados estarem presentes nessa seção deve ser bem maior do que os seus históricos apontam! O maior o problema com essa suposição é que não há como avaliar a sua veracidade, só saberemos se de fato houver uma votação.

Por esse motivo, no modelo disponibilizamos duas versões: uma onde o mesmo peso é dado a todas as votações ocorridas em 2015, e outra onde um peso maior é dado a algumas votações que acreditamos terem maior poder preditivo para a votação do Impeachment. Essa avaliação de quais votações podem ser mais importantes foi feita de forma totalmente subjetiva, porém baseado na avaliação de um analista político bastante experiente, que reside em Brasília e acompanha de perto o jogo político da nossa capital.

Em toda votação, existe uma orientação de voto do Governo, da Minoria e de cada partido. Essas orientações geralmente escolhem um lado (SIM ou NÃO), mas também podem ser LIVRES, indicando que cada deputado deve votar como desejar. No caso de haver uma orientação, os deputados não são obrigados a votar de acordo com a ela. Existem deputados que, historicamente, respeitam bastante essas orientações, porém existem outros que as respeitam  com muito menos frequência.

O modelo preditivo é bastante simples. Calculamos as probabilidades de cada deputado votar a favor/contra o governo em duas situações distintas:
  • Governo e o partido têm a mesma orientação: ou seja, qual a chance de votar a favor do Impeachment se a orientação do partido for para NÃO votar a favor.
  • Governo e o partido têm orientações distintas: ou seja, qual a chance de votar a favor do Impeachment se a orientação do partido for SIM, para votar a favor.
 Em ambos os casos, dependendo do partido e do deputado, pode não haver votações suficientes para estimar essas probabilidades. Nesses casos, utilizamos as probabilidades não-condicionais, ou seja, a chance de votar a favor/contra o Governo, independentemente das orientações. Essas probabilidades são utilizadas para fazer milhares de simulações (Monte Carlo) da votação do Impeachment, permitindo que as probabilidades de vitória do Impeachment sejam calculadas. Como referencia, para que o Impeachment seja aprovado, a oposição precisa obter 342 votos na Câmara (2/3 dos 513 deputados, independente do número de presentes na seção). Se for aprovado, ainda tem que ser votado no Senado, onde precisa obter 54 votos (2/3 dos 81 senadores). O modelo apresentado aqui é apenas para a votação na Câmara.

      Nessa versão apresentada no site, o usuário pode escolher a orientação de cada partido, e ver como as probabilidades de vitória da oposição se alteram. O mesmo modelo também pode ser usado para prever qualquer votação na Câmara, talvez até de forma mais eficiente, visto que no geral as votações não são tão high-profile como a do Impeachment. Nesse caso, SIM deve ser interpretado como voto contra o governo, e NÃO como voto a favor do governo.

     O modelo de previsão do Impeachment se encontra no site PollingData, no menu “Modelos/Big Data” > "Impeachment”.



Tuesday, November 10, 2015

Bigdata no PollingData: Tabela FIPE + Webmotors

Algumas semanas atrás tive que comprar um carro. Não sou muito antenado com relação a carros, sei apenas quanto quero gastar e algumas características de interesse como ser um semi-novo, ter um motor potente e uma quilometragem aceitável. Fiquei bastante frustrado quando percebi que a única forma de pesquisar o valor dos carros na tabela da Fipe era selecionando uma Marca/Modelo especifica. Pra mim seria bem mais útil se pudesse selecionar todos os carros numa faixa de preço e/ou até um determinado ano.

Pra solucionar esse problema, acessei a todos os dados da Fipe utilizando uma api bem eficiente que encontrei online. Escrevi um programa no R que baixa a tabela completa da Fipe, converte os dados de JSON para um dataframe, e disponibilizei no PollingData. A interface com o usuário foi feita essencialmente utilizando apenas o DataTables, que é um plug-in para JQuery bastante flexível.

Além disso, também senti muita falta de poder ajustar o preço do carro de acordo com a quilometragem. Acabei comprando o carro sem ter uma estimativa confiável do seu valor em função da sua quilometragem. Depois de comprar o carro, fiquei pensando sobre isso: qual seria um jeito simples porém eficiente de obter essa estimativa? A minha solução envolveu Big Data. Escrevi um outro programa, utilizando técnicas de web scrapping, que acessou todos os veículos anunciados na WebMotors no dia 04/11/2015 (foram mais de 128 mil carros). 

Extrai todas as informações disponíveis na página de busca, principalmente preço, ano carro/modelo e quilometragem. Calculei duas estatísticas que considero importante ter em mente quando for comprar um carro (rule's of thumb):
  • A média de uso dos carros (quilometragem) é aproximadamente de 1000 km/mês.  Com essa   estatística é possível avaliar se um carro é mais/menos utilizado do que o esperado para o seu ano.
  • A quilometragem reduz o preço do carro, na media, em R$1 para cada 5 km rodados. Com essa estatística é possível fazer uma conta simples pra prever o valor do carro a partir dos dados da Fipe.
Focando no objetivo principal, a característica mais importante que observei foi que o impacto da quilometragem no preço não é linear. Esse impacto é muito maior quanto o carro é novo / semi-novo. Quando o carro é mais velho, a redução no preço é bem menos acentuada. Pensando nisso, ajustei um modelo de regressão simples para prever essa redução:
  1.  A variável dependente utilizada foi a variação relativa no preço do carro se comparado com a média dos outros carros de mesma Marca/Modelo.
  2.  Além de incluir quilometragem e idade (+ idade ^2) do carro, inclui outras variáveis dependentes: UF , Tipo de câmbio, Origem do carro na WebMotors (loja, concessionária e particular) e motor.
Ajustei o modelo dessa forma por dois motivos principais: em primeiro lugar, me parece razoável supor que um carro mais caro possa sofrer um impacto maior no seu preço por causa da quilometragem do que um carro mais barato. Em segundo lugar, dessa forma retiro o efeito de variáveis que não serão usadas para escorar a base da Fipe (Motor e cambio poderiam ser utilizadas, porém ainda não estão sendo). 

Claro que existem muitas melhorias possíveis para esse modelo, mas isso requer tempo. Por enquanto, esse modelo é bem parcimonioso e relativamente preciso. Acredito que a melhoria mais importante do modelo seria permitir que carros com uma quilometragem abaixo da média do seu ano pudessem ter um preço mais alto do que a tabela da Fipe. Por enquanto, estou tratando o valor da Fipe como sendo o valor máximo do carro, mas seria mais realista considerá-lo como de fato é: uma média.

Não sei quão útil esse modelo será para as pessoas, acho que muitos escolhem carros com mais emoção do que razão, mas fica aqui uma alternativa para quem quer trocar de carro com menos incerteza. O modelo da Fipe+WebMotos do PollingData está no menu Modelos/Models > FIPE+WebMotors.

Thursday, November 5, 2015

“Versão twitter” da discussão sobre existência de amostragem probabilística


Eu participo do grupo do Facebook “Estatística Brasil”, e um dos posts mais recentes foi um pergunta sobre a metodologia dos institutos de pesquisa não ser probabilística e, consequentemente, a impossibilidade de se calcular intervalos de confiança e margens de erros.

Segue abaixo minha contribuição na discussão, focando principalmente na questão da existência de amostragem probabilística de populações humanas. Resumi muita coisa em alguns parágrafos, por isso chamei de versão twitter ;)

"A distinção entre amostragem probabilística e não-probabilística esta' nos detalhes (ou nas suposições). Para quase qualquer método de amostragem e' possível argumentar que existem probabilidades de inclusão associadas a cada respondente sob alguma suposição (claro que existirão alguns zeros como mencionado acima e em alguns casos as suposições não são realistas). 

Se fizermos qualquer suposição para calcular as probabilidades, então por definição, a amostragem deixa de ser probabilística pois as probabilidades de inclusão são desconhecidas. 

Pensando em amostragem de populações humanas, devido a diversas fontes de erros, como a não-resposta, as probabilidades de inclusão não podem ser calculadas sem suposições. Isso vale mesmo que o desenho amostral utilizado seja inicialmente probabilístico. A amostra nasce probabilística e morre não-probabilística. 

Acho que ponto mais importante e' perceber que não existe amostragem probabilística sem suposições (nesse contexto). Então ao invés de se preocupar com a classificação da metodologia entre prob/não-prob, se preocupe mais com as suposições que estão sendo feitas implicitamente (algo que esta intimamente relacionado com a metodologia utilizada)"

Thursday, October 29, 2015

Performance do PollingData na Argentina - Turno 1

PollingData está acompanhando as eleições Argentinas desde agosto desse ano, e nesse último domingo os argentinos foram as urnas. O resultado da eleição pode ser visto nesse link (em espanhol). Na tabela abaixo está o comparativo entre a previsão final do PollingData e a contagem dos votos. O Erro Absoluto Médio foi de 2,7%. Por esse critério, essa foi a pior previsão do PollingData desde Agosto 2014, quando o site entrou no ar.



Como já foi discutido nesse post, as eleições Argentinas de 2015 são o maior desafio já enfrentado pelo site por causa do cenário eleitoral instável, da baixa quantidade de pesquisas divulgadas e da falta de informação sobre as pesquisas publicadas.


Independentemente desses desafios, o PollingData continuará a acompanhar as eleições Argentinas, que pela primeira vez em sua história serão decididas no segundo turno. Acesse o site PollingData agora para ver as chances de vitória dos dois candidatos que estão no segundo turno!

Tuesday, October 20, 2015

Performance do PollingData nas eleições canadenses

PollingData também estava acompanhando as eleições canadenses, que ocorreram ontem. O resultado da eleição pode ser visto nesse link (em inglês). Na tabela abaixo está o comparativo entre a previsão final do PollingData e a contagem dos votosO Erro Absoluto Médio foi de 1,14%. Por esse critério a previsão não foi tão boa quanto na Suíça 2015 ou no Brasil 2014, porém ainda foi uma ótima previsão.
.

Monday, October 19, 2015

Performance do PollingData na Suiça

O PollingData estava acompanhando as eleições suíças, que ocorreram ontem. O resultado da eleição pode ser visto nesse link (em alemão). Na tabela abaixo está o comparativo entre a previsão final do PollingData e a contagem dos votos. Utilizando qualquer medida de qualidade da previsão, fica evidente que a performance do PollingData foi muito boa, principalmente se considerarmos o número bem reduzido de pesquisas disponíveis. O Erro Absoluto Médio foi de 0,5%, similar ao observado no segundo turno das eleições presidenciais brasileiras em 2015.




Hoje estão sendo realizadas as eleições canadenses, outra eleição sendo acompanhada pelo PollingData. Amanhã divulgaremos o comparativo final também dessa eleição!

Tuesday, October 13, 2015

Fraude nas eleições presidenciais?

Na lista da ABE circulou alguns emails discutindo a possibilidade de fraudar as eleições com o uso das urnas eletrônicas, e também alguns emails discutindo se seria possível detectar essa fraude usando as pesquisas eleitorais como referência. O artigo citado inicialmente como referência sobre as fraudes foi esse. Segue abaixo minha contribuição para a discussão.

Acho que avaliar a existência de fraude nos resultados das eleições presidenciais apenas com dados secundários é bastante difícil. Teríamos que fazer diversas suposições, essencialmente inferindo que diferenças observadas maiores do que as diferenças esperadas são por causa de fraude – e esse é um terreno bem perigoso!

Mas se, apesar dessa ressalva, o meu objetivo fosse avaliar a existência ou não de fraude, eu usaria algum modelo baseado nas pesquisas eleitorais, como o do PollingData, porém também utilizaria outras fontes de informação existentes, como:

1- Votações históricas no nível da zona/seção eleitoral. Essas informações podem ser usadas tanto pra modelar/prever o resultado da eleição em cada unidade geográfica, permitindo avaliar se a votação observada em cada seção está coerente com o esperado. Combinando essas informações com os dados da malha de setores censitários, por exemplo, podemos ter uma modelo bastante interessante para prever o voto que leva em consideração também a renda dos eleitores.

2- Algum model estrutural, como o modelo de aprovação do PollingData. Com esse modelo (que foi estimado utilizando mais de 150 eleições de mais de 20 países), é possível estimar a probabilidade de vitória de um candidato dado a aprovação do atual governante e o tipo do  candidato do governo para a próxima eleição (re-eleição ou sucessão).

3- Também podemos usar a informação de votação em outros cargos políticos por zona/seção eleitoral.  Nesse nível geográfico, deve haver uma correlação alta entre votos pra presidente e outros cargos, que também pode ser bastante informativa para avaliar a existência de fraude na eleição presidencial. Talvez essa seja a informação mais importante se a fraude ocorrer apenas para o cargo para presidente, que parece ser o cenário mais plausível.

4- Além dos modelos espaço e/ou temporais mencionados acima, podemos usar algum modelo do tipo usado pelo Mignon em nesse artigo. As suposições são mais fortes, mas pode ser útil. Talvez esse modelo possa ser generalizado, escolhendo mais de uma zona eleitoral, de forma a representar todos os estados e/ou municípios.

Se todas essas fontes de informação apontarem na mesma direção, seria um forte indício de algo fraudulento. Porém se apenas algumas delas acusarem algo errado, seria difícil fazer um caso a favor de fraude, mesmo que ela existisse.


Friday, October 9, 2015

O site PollingData está de cara nova...

O site PollingData está de cara nova, a interface com o usuário foi totalmente re-modelada. Além disso, agora temos muito mais conteúdo: estamos acompanhando as eleições da Argentina, Suíça, Espanha e Canadá. 

Vale a pena conferir!

Thursday, October 8, 2015

Pesquisas eleitorais e as eleições presidenciais Argentinas de 2015

Em julho desse ano, o PollingData começou a acompanhar as eleições presidenciais Argentinas de 2015. Além da dificuldade com o idioma, existem diversos fatores metodológicos que se mostraram um desafio para acompanhar essas eleições. Nesse post, vou falar sobre esses desafios.

Em primeiro lugar, as eleições Argentinas tem algumas diferenças importantes se comparado ao Brasil. Lá existem eleições primárias, e essas são obrigatórias. Por um lado, as primárias fazem com que os eleitores fiquem mais familiarizados com os candidatos muito cedo no ciclo eleitoral. Por outro lado, acredito que o gasto público com as eleições deve ser enorme, visto que na Argentina também existem primeiro e segundo turnos obrigatórios.

Outra diferença interessante nos dois processos eleitorais é que, na Argentina, existem dois cenários nos quais um candidato pode ganhar as eleições presidenciais no primeiro turno. São eles:  1) se um candidato tiver mais de 45% dos votos válidos e 2) Se o candidato com mais votos tiver pelo menos 40% dos votos válidos e pelo menos 10% de votos a mais que o segundo colocado. Calcular essas probabilidades de vitória foi um desafio interessante.

As outras dificuldades encontradas estão relacionadas a aspectos metodológicos das pesquisas e também a falta de informação. Por exemplo, no site apenas calculamos as probabilidades dos candidatos irem para o segundo turno ou ganharem no primeiro turno. Não conseguimos calcular a probabilidade de vitória (não condicional), pois não parecem existir pesquisas fazendo simulações sobre o segundo turno.

Mas sem sombra de dúvida, a maior dificuldade têm sido encontrar informações mais detalhadas sobre as pesquisas eleitorais. Encontrar pesquisas publicadas já se mostrou um desafio. Tenho recorrido, essencialmente, a três fontes de informação: wikipedia, riojapolitica e ae. Mas mesmo quando encontro quando encontro pesquisas novas, tenho muito dificuldade de descobrir informações básicas sobre a pesquisa, como data de coleta dos dados ou até tamanho da amostra. Como referência, em 43% das pesquisas utilizadas pelo PollingData o tamanho da amostra não é conhecido. Também é muito difícil saber se os resultados das pesquisas se referem a votos válidos ou totais. E essa informação é especialmente importante para calcular as probabilidades de vitória dos candidatos. 

Para muitos, o Brasil já é considerado um país com pouca informação disponível sobre as eleições (poucas pesquisas + poucos institutos + pouco informação metodológica), o que o torna um país onde é difícil prever o resultado das eleições. Essa dificuldade pode ser ainda maior na Argentina, onde existem ainda menos pesquisas e informações metodológicas sobre as mesmas.  Por outro lado, muito mais institutos de pesquisas publicando resultados de pesquisas no nível nacional (22 até o momento). Esse é um fator relevante pois permite que os vieses metodológicos dos institutos sejam estimados com maior precisão (supondo que não são todos na mesma direção – publicarei um post sobre esse tema num futuro próximo).


Agora resta esperar o primeiro turno das eleições para ver a performance das pesquisas e do PollingData na previsão dos resultados.

Wednesday, September 30, 2015

Amostragem Probabilistica existe? Parte IV

O meu post mais recente sobre a existência de amostragem probabilística de populações humanas (link) teve um comentário. Como o cometário é bom, ao invês de apenas respondê-lo no post anterior, resolvi incluí-lo aqui e escrever um novo post.

O comentário foi postado pelo Raphael, que conhece amostragem e sabe muito bem do que está falando. Segue o comentário dele:

Neale, até quando vamos precisar discutir a distinção entre probabilidade de seleção (que é o que realmente define se uma amostra é probabílistica ou não, ver definição em Särdnal et al 1992 ou Cochran 1953) e probabilidade de resposta (associado ao mecanismo de não-resposta)? Eu entendo que seu ponto é mais prático do que teórico, mas se você realmente quer discutir sobre a existência ou não de amostras probabílisticas, você precisa definir o que ela é. Tal definição já existe e está bem definida, como referido acima. E seguindo tal definição, a resposta é bem clara ;)
Agora, quanto ao seu primeiro ponto sobre porque alguns livros teóricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam, talvez Lars Lyberg tenha dado a resposta em uma das seções no TSE Conference. Ele disse que pelo menos nos primórdios da amostragem, quando ainda estavam estabelecendo sua prática e teoria, alguns pesquisadores intencionalmente procuravam não enfatizar outros erros não-amostrais, justamente para tentar estabelecer e disseminar os conceitos de amostragem e erros amostrais. É verdade que esses tempos já passaram e livros mais recentes não tem essa desculpa. Mas acho que a maioria dos livros de amostragem e métodos de pesquisa mais recentes têm feito um bom trabalho com erros não-amostrais.
Ahn, por fim, vale lembrar que a grande maioria de pesquisadores que desenvolveram a teoria de amostragem probabilística era também pessoas que trabalhavam na prática com surveys e que desenvolveram tais metodos justamente para resolver problemas práticos em enfrentavam em seus trabalhos. Logo, acho que não faz muito sentido dizer que existe uma grande diferença entre a teoria e a prática em amostragem, uma vez que sua teoria foi justamente desenvolvida para resolver problemas práticos.

O Raphael faz um ponto importante. Pra entendê-lo corretamente, é preciso olhar a definição de amostragem probabilística:

“Amostragem probabilística é um esquema de amostragem onde todas as unidades populacionais (pessoas nesse caso) têm uma probabilidade conhecida (positiva e calculável) de serem incluídas na amostra”

Nessa definição fica claro que para o processo de seleção da amostra ser classificado como “amostragem probabilística” é  necessário conhecer as probabilidades de inclusão.  Ou seja, se repetirmos o processo de seleção da amostra infinitas vezes, temos que saber entre todas amostras obtidas, exatamente em quantas cada pessoa estará.

Na prática, o problema ocorre porque pessoas não são obrigadas a responder, e se recusam a participar das pesquisas para as quais foram selecionadas. Existem estudos mostrando que, hoje em dia, a taxa de não-resposta (taxa de recusa) chega a mais de 90% (link).

O argumento do Raphael é que temos que separar as duas “etapas”: o mecanismo de seleção da amostra e o mecanismo de resposta são distintos. E pensando assim, você pode afirmar que existe a amostra probabilística (a primeira etapa). Porém, depois de selecionada essa amostra probabilística, o mecanismo de resposta entra em ação, e altera a amostra probabilística. Em resumo, usando uma frase minha que o Raphael não gosta: a amostra nasce probabilística, porém morre não-probabilística....rsrsrs

Na argumentação sobre a existência da amostragem probabilística, eu não faço distinção entre esses dois mecanismos, para mim você pode até planejar a amostra probabilística, porém nunca vai conseguir analisar/observar uma. Entendo que essa distinção ajuda somente para pensar em modelos estatísticos para corrigir a não-resposta, que no final das contas são as suposições que o analista faz. Meu “posicionamento oficial” é de que não existem amostras probabilísticas de populações humanas SEM SUPOSIÇÕES

Acredito que no fundo, o que importa para o Raphael (me corrige se eu estiver errado) é distinguir amostras que ao menos “nascem probabilísticas” daquelas que já nascem “não-probabilísticas”, visto que todas as pesquisas serão afetadas pelo mecanismo de resposta. Implicitamente, ele está afirmando que as primeiras são melhores que as últimas, e merecem ser distinguidas por esse motivo. Eu não tenho problemas com essa distinção, até porque acredito que no caso das primeiras são feitas menos suposições do que no caso das últimas. Porém esse argumento não altera minha posição, ainda é necessário fazer suposições.

Eu e o Raphael já discutimos sobre esse tema diversas vezes (em público e em particular), e ele sempre me fala que o problema com os meus argumentos é que eu estou confundindo os mecanismos de seleção e de não-resposta. Ao escrever esse post, fiquei pensando sobre isso. Será que de fato é possível separar esses dois mecanismos?

Na prática, pensando em amostras de tamanho fixo, quando uma pessoa selecionada para participar da pesquisa se recusa a responder, ela é substituída por outra pessoa. Ou seja, seleciona-se um novo respondente seguindo critérios pré-estabelecidos. Pra facilitar meus argumentos abaixo, vamos pensar a amostra obtida como constituída por dois grupos distintos: aqueles respondentes que foram inicialmente selecionados e que responderam a pesquisa, e todos os outros respondentes que estão na amostra porque substituíram pessoas selecionadas que se recusaram a responder.

Conceitualmente, como um respondente substituto somente participa da pesquisa se houver uma recusa, me parece evidente que as probabilidades de inclusão dessas pessoas dependem explicitamente da probabilidade da pessoa originalmente selecionada responder. Assim, para esse grupo de respondentes, não é possível separar o mecanismo de seleção do mecanismo de resposta. Consequentemente, as probabilidades de inclusão são desconhecidas, e como esse grupo faz parte do universo sendo analisado, nenhuma amostra desse universo pode ser denominada de probabilística.

Mas vamos flexibilizar a definição de amostra probabilística, e supor que só é preciso conhecer a probabilidade de inclusão das pessoas que estão de fato na amostra. Vamos então excluir esse grupo de substitutos da nossa amostra, e trabalhar somente com o outro grupo de respondentes, os que foram inicialmente selecionados e de fato aceitaram participar da pesquisa. Ou seja, na busca de uma amostra de fato probabilística, sem suposições, vamos descartar todos os respondentes que dependeram explicitamente da probabilidade de resposta para estarem na pesquisa.

Apenas para deixar um ponto claro: se o mecanismo de não-resposta for estocástico, essa sub-amostra terá que ter tamanho aleatório. Qualquer sub-amostra de respondentes com tamanho fixo acaba voltando ao caso anterior, com substituições. Enfatizo esse ponto porque podemos alterar o argumento acima, e afirmar que não serão feitas substituições. Ao invés disso, seleciona-se uma amostra maior do que a desejada, de forma que o número esperado de respondentes após a “aplicação” do mecanismo de não-resposta seja o desejado. Tudo bem usar essa argumentação, porém ela só vale se o tamanho da amostra for aleatório. E nesse caso, chegamos no mesmo ponto, da amostra apenas com os respondentes inicialmente selecionados.

Será então, que trabalhando somente com essa sub-amostra, podemos argumentar que as probabilidades de inclusão são conhecidas? Se o mecanismo de não-resposta for estocástico, eu acredito que não. As probabilidades de inclusão foram inicialmente calculadas como sendo a proporção de vezes que cada pessoa pertenceria a amostra se o processo de seleção da amostra fosse repetido infinitas vezes. Porém, trabalhando somente com esse sub-grupo, elas teriam que ser re-calculadas para considerar apenas a amostra dos não-substitutos. E pra re-calcular essas probabilidades, dependemos da probabilidade de resposta, que é desconhecida. Ou seja, mesmo flexibilizando a definição de amostragem probabilística, as mesmas continuam não existindo para populações humanas, sem fazermos algum tipo de suposição sobre o mecanismo de resposta.

Quanto a primeira pergunta do Raphael, sobre quanto tempo discutiremos sobre isso, acredito que a resposta é "para sempre" ;)

Monday, September 14, 2015

Restrição as pesquisas eleitorais

Está tramitando no senado/câmara um projeto de lei que que restringe a contratação de institutos de pesquisa por órgãos de imprensa retira o direito do eleitor de ter informação sobre a disputa eleitoral. Pela proposta, a imprensa fica proibida de contratar institutos de pesquisa que tenham trabalhado para partidos políticos, candidatos ou órgãos públicos no período de um ano antes das eleições. Veja a reportagem da Folha sobre o assunto aqui.

Acho que essa "potencial" lei não ajuda a resolver o problema. Pelo que vi nas eleições de 2014, poucos institutos registram quem "de fato" financiou a pesquisa. Além disso, uma pesquisa não precisa ser contratada por órgãos de imprensa para poder ser divulgada na mídia. Ou seja, essa lei não ajudará a melhorar a qualidade das pesquisas, e punirá institutos que tentam respeitar a lei.

Sobre a questão da qualidade das pesquisas, é difícil dizer como deve ser feito aqui no Brasil. Nos EUA não existe necessidade de registrar a pesquisa com algum orgão oficial. O mercado parece se auto-regular. Existem sites agregadores de pesquisa, como o 538, que têm rankings das empresas, e aquelas que têm um histórico muito ruim são banidas do site (veja aqui).

Existem programas como o “Transparency Initiative”, e empresas que se filiam ao programa comprometem-se a (em inglês):

 “Organizations pledge to abide by AAPOR’s disclosure standards, train their employees by viewing our short, simple educational modules, and document the required understanding for proper disclosure of the surveys they conduct.”

Essas empresas têm o nome divulgado na rede da AAPOR, e é de interesse dos próprios funcionários pressionarem para que sua empresa faça parte da iniciativa (veja aqui).

Também discute-se muito a metodologia em si, que está sempre evoluindo, acompanhando as novas tecnologias – telefônicas, cadastro duplo fixo+celular, online. No Brasil, fazemos pesquisas essencialmente da mesma forma a 35 anos.

Por outro lado, nesse ano serão as eleições presidenciais argentinas, as quais o PollingData está acompanhando. Tenho tido muita dificuldade pra conseguir informações básicas sobre as pesquisas divulgadas na mídia. Muitas vezes não consigo descobrir nem data de realização da pesquisa nem o tamanho da amostra, pior ainda se estou procurando detalhes metodológicos (em breve farei um post sobre essas dificuldades). Desse ponto de vista, acho que o registro obrigatório das pesquisas e a regulamentação sobre como devem ser divulgadas ajudam, mas não acredito que sejam suficientes para estimular a melhoria contínua da qualidade das pesquisas.

Friday, September 11, 2015

Amostragem Probabilistica existe? Parte III

Na semana passada, eu mandei o conteúdo do meu post "Amostragem Probabilistica existe? Parte II" por email para a rede da ABE.  Dois emails foram enviados em resposta.
O primeiro apenas disse que:

Os livros de estatística dizem que existe e dizem também que nem toda a amostra é probabilística. Alertam, porém, que inferência estatística, só nas probabilísticas.”

Como resposta apenas citei o Yogi Berra, que  foi um jogador de beisebol famoso pelas frases de efeito, ao estilo do ex-presidente do Corinthians, o Vicente Matheus. A frase dele abaixo explica bem porque alguns livros teoricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam:

"In theory there is no difference between theory and practice. In practice there is." - Yogi Berra

O segundo email foi ótimo, discutindo de fato o problema levantado pelo artigo do Gelman:

“Se é verdade que a não resposta complica a vida de qualquer amostra, inclusive as probabilísticas, afirmar que amostragem probabilística não existe é negar uma forma de pensar e modelar que é muito bem sucedida em resolver problemas em várias áreas do conhecimento.
O Neale cita um parágrafo em que o autor afirma isso num cenário em que as taxas de resposta são inferiores a 10%.

Em primeiro lugar, há muitas pesquisas por amostragem probabilística em que não ocorre não resposta, pois os pesquisadores simplesmente vão observar ou medir unidades que estão disponíveis, apenas são muito numerosas para se pesquisar por um censo.
Aqui no Brasil, as pesquisas domiciliares do IBGE, por exemplo, costumam ter taxas de resposta superiores a 90%.

Então a afirmação do Gelman não se aplica, e amostragem probabilística poderia existir nesse caso... Como para existir basta um caso, o 'teorema' do Gelman está rejeitado.

É verdade que  tem gente que afirma que não há como fazer inferência com amostras não probabilísticas. O que eu digo é que não vale querer aplicar os métodos desenvolvidos para amostras probabilísticas para amostras que não satisfazem os requisitos destas. O importante em qualquer caso é explicitar o referencial ou modelo que justifica as inferências. Aí tem espaço para todos, sem necessidade de uns ficarem excluindo os outros (modelos, métodos, etc.).”

Segue abaixo a minha resposta:

“A primeira frase do paragrafo e' "In real life there are no probability samples of humans." , ou seja, nesse contexto as unidades geralmente não que estão disponíveis. Mas concordo que em alguns casos de populacoes fechadas talvez seja possivel conseguir uma amostra probabilistica com taxa de nao-resposta de 0% (porem eu nunca vi uma), como por exemplo com funcionarios de uma empresa. Nao e' o caso de pesquisas de opiniao publica.

De fato, o IBGE consegue taxas de resposta bem altas, isso requer bastante tempo, dinheiro e planejamento (e eu acredito que devida a importancia dessas pesquisas, e' um bom investimento). Mas mesmo com uma taxa de ~90%, ainda estamos fazendo suposicoes sobre as probabilidades dos respondentes pertencerem a amostra. Estritamente falando, nao e' uma amostra probabilistica. Claro que as suposicoes e os potenciais impactos da nao-resposta sao menores do que nos casos citados pelo Gelman.

Meu ponto e': nao acredito que a classificacao das amostras em probabilistica / nao-probabilistica seja tao obvia, preto/branco. A maioria delas sao, de fato, cinza. E isso esta diretamente relacionado a escolha do modelo, método, etc como comentou o Pedro no ultimo paragrafo.”
  
Adoro discutir sobre a existência ou não de amostragem probabilística. Acho que aproxima a teoria e a prática,  e é uma forma de diminuir essa diferença que o Yogi Berra descreveu perfeitamente! 


Thursday, September 3, 2015

Oportunidades perdidas

No começo do ano, devido a crise e ao final do ciclo eleitoral, eu tive bastante tempo pra pensar sobre novos projetos, sobre o que fazer com o PollingData em anos sem eleições, etc...

Na mesma época houveram várias discussões sobre o orçamento federal, sobre o tamanho da dívida interna, e assuntos relacionados. Ai tive uma idéia: vou fazer um gráfico, interativo, que permite aos usuários do site entenderem como o nosso dinheiro é gasto pelo governo.

Investi algum tempo nisso. Encontrei o tipo de gráfico ideal, que permite que a hierarquia desses gastos seja explorada, que pode ser customizado para ter uma aparência agradável, e de fácil uso: Zoomable TreeMap. Veja um exemplo aqui.

Encontrei uma biblioteca do R que me permitia fazer esse gráfico (GoogleVis), encontrei os dados de gastos públicos e entendi como estavam estruturados. Encontrei um biblioteca em javascript que formata os gastos corretamente (accounting.js). Só tive um problema para publicar os resultados no site: não consegui trabalhar com as legendas de cada célula do gráfico da forma que eu queria. Nesse gráfico, podemos fazer aparecer mais de um nível da hierárquia ao mesmo tempo, porém eu queria mostrar as legendas somente do primeiro nível, e não do segundo nível.

Nesse impasse, passou-se algum tempo, a quantidade de trabalho aumentou, e eu não consegui mais retomar esse projeto. Na semana passada, assistindo ao programa “Navegador” da GloboNews, descobri que a Diretoria de Análise de Políticas Públicas (DAPP) da FGV havia feito exatamente esse mesmo gráfico, com os labels corretos. Ficou bem legal o que eles fizeram. Segue o link.


Não sei a quanto tempo esse site está no ar, talvez estivesse desde antes da minha idéia. Mas quando você descobre que alguém teve a mesma idéia que você, e que além disso, ela já foi executada (e bem!), a sensação que fica é uma mistura de inveja e de satisfação. Inveja, pois dado que eu também tive essa idéia, gostaria de ter terminado o projeto. Mas vou finalizar o post focando na satisfação: mesmo não sendo a minha versão, é uma ótima sensação saber que eu tive uma boa idéia, e que agora ela estará acessível para todos que quiserem explorar esses dados. Afinal de contas, esse era o objetivo do projeto! Visitem o site da FGV, ele é bem bacana!!!

Tuesday, September 1, 2015

Amostragem Probabilistica existe? Parte II

Não tenho tido muito tempo pra escrever no blog do PollingData. Pra compensar, vou reproduzir parte de um artigo escrito pelo Gelman que foi publicado no Washington Post sobre pesquisas eleitorais. O começo do artigo discute alguns detalhes metodológicos sobre pesquisas telefônicas/online feitas nos EUA. Mas o final vale pra qualquer lugar, qualquer metodologia. Segue um parágrafo que eu gosto bastante, que resume também minha opiniao sobre a existência de amostragem probabilística (em inglês):

"In real life there are no probability samples of humans. With survey response rates below 10 percent, there is no way to know the probability of an individual being included in the sample. You can know the probability that the survey organization will try to reach a person — that’s easy, it just depends on exactly how the address or telephone number or e-mail is sampled from a given list. But it’s impossible to know the probability that this person will actually be included in the sample, as this depends on the probability that the person is reached, multiplied by the probability that he or she agrees to respond, given that he or she is reached. And neither of these two probabilities is ever known"

Link para o artigo:

Friday, August 7, 2015

Modelo Estrutural de Aprovação do PollingData

Na aba "Modelo de Aprovação", o PollingData estamos apresentando um modelo que pode ser utilizado para prever o resultado das eleições tanto no Brasil quanto em outros países. Abaixo segue uma breve explicação de como esse modelo foi construído.

Usualmente, os modelos de previsão eleitoral se dividem em dois tipos: modelos de agregação, os quais agregam pesquisas eleitorais (como os apresentados na aba “Argentina 2015” no PollingData), e os modelos estruturais, os quais incluem como preditoras variáveis econômicas e conjunturais. Esses dois tipos de modelos têm aspectos positivos e negativos bem distintos entre si.  

Modelos de previsão eleitoral tentam prever o resultado de uma eleição. Tais previsões podem ser feitas muito antes da eleição (meses ou anos antes) e muito próximas ao dia da eleição (alguns dias antes). Os modelos de agregação podem ser vistos como dinâmicos, eles são capazes de captar todas as mudanças na intenção de voto que ocorrem durante um ciclo eleitoral. Por outro lado,  os modelos estruturais conseguem utilizar informação histórica e conjuntural sobre as eleições, captando tendências que se repetem em diferentes ciclos eleitorais.

            Um modelo estrutural bastante conhecido é o “time-for-change model”, de Abramowitz [1].  Nesse modelo o autor prevê o percentual de voto no candidato do governo, utilizando como variáveis explicativas o PIB americano no segundo trimestre do ano da eleição, a aprovação do atual presidente (no mês de Junho) e se o candidato do governo é o incumbente ou sucessor. A suposição desse modelo é de que a eleição presidencial é um referendo popular sobre a performance do presidente incumbente.

       Implementar um modelo similar no Brasil é inviável, pois houveram apenas 7 eleições presidenciais democráticas. Como alternativa, foi utilizado um modelo mais genérico, utilizando resultados de 157 eleições realizadas em 17 países, as quais incluem eleições de governadores e de presidentes. Nesse modelo alternativo, a variável dependente utilizada é uma variável indicadora de vitória do candidato do governo.  Foram utilizadas apenas duas variáveis explicativas: a aprovação do atual presidente e se o candidato do governo esta concorrendo a re-eleição (incumbente) ou se é sucessor.

           O modelo de Aprovação do PollingData é um modelo estrutural, ou seja, ele utiliza informação histórica, e pode ser utilizado para prever resultados de eleições anos antes do dia da votação.  A grande vantagem desse modelo é que ele é muito parcimonioso, permitindo que previsões eleitorais sejam feitas em contextos de muito pouca informação, bastando conhecer a aprovação do atual presidente (ou do incumbente do cargo de interesse). Mais detalhes sobre como fazer essas previsões podem ser encontrados na aba "Modelo de Aprovação" do site. Estamos utilizando esse modelo há pelo menos 6 anos, em países como EUA, Brasil, Franca, Venezuela, Inglaterra entre outros, e por enquanto, não erramos nenhuma previsão. 

            Inicialmente utilizamos apenas eleições nos EUA e no Brasil, mas fomos ampliando a base de dado com o passar dos anos. Ano passado fizemos uma ampliação substancial da base de dados, porém detectamos diversos problemas na nova base: a compilação dos resultados teve diversos erros, principalmente nas eleições para governador no Brasil. Por esse motivo, no modelo apresentado no PollingData essas eleições foram retiradas do ajuste do modelo. Assim que o problema for resolvido, a versão completa do modelo de Aprovação será publicada.

Tuesday, July 28, 2015

PollingData 2015 está no ar….

Demorou bastante, mas finalmente o PollingData 2015 está no ar, e tráz algumas novidades:

1-    As abas “Dashboard” e “Argentina 2015” do PollingData podem ser exibidas em diferentes idiomas (Português, Inglês e Espanhol). Para visualizar o idioma de interesse, basta escolher a sub-aba correta. As sub-abas estão identificadas com abreviações dos idiomas e também com bandeiras de países que falam majoritariamente o idioma.

2-      Estaremos acompanhando as eleições presidenciais argentinas de perto. Por enquanto estamos apenas disponibilizando estimativas do primeiro turno, mas futuramente incluiremos previsões para o segundo turno. Detalhes podem sem vistos nas abas “Dashboard” e “Argentina 2015”. Num post futuro discutiremos as particularidades dessa eleição e as dificuldades encontradas para adpatar o modelo do PollingData a essas eleições.

3-      Na aba “Argentina 2015” incluímos um link para donwload de todas as pesquisas utilizadas no modelo do PollingData.  Também incluímos um link para o download do viés estimado de cada instituto de pesquisa. Essa estimativa de viés indica o quanto, em média, cada instituto super-estima ou sub-estima a intenção de voto de cada candidato. Num próximo post, explicaremos essas estimativas mais detalhes.

4-   Voltamos a atualizar regularmente a avaliação da presidente Dilma, que pode ser vista na aba “Avaliação”.

5-      Além de incluir a avaliação atualizada, também estamos disponibilizando um modelo novo, chamado de “modelo de aprovação”, que pode ser utilizado para prever a probabilidade de vitória de um candidato em qualquer eleição, usando como variável preditora apenas a aprovação do político atual- mente no cargo. Esse modelo pode ser visto na aba “Modelo de Aprovação”. Num próximo post, explicaremos esse modelo com mais detalhes.

6-      Estamos também disponibilizando links para versões antigas do site, dessa forma o usuário pode ver quais foram as previsões feitas em 2014. Os links estão na aba “Histórico PollingData”.

7-      Brevemente passaremos a companhar também a eleição espanhola. Fiquem de olho!


Friday, May 29, 2015

Performance das pesquisas eleitorais nas eleições do Reino Unido (UK)


No ultimo dia 7 de maio ocorreram as eleições gerais no Reino Unido. Houve muita controvérsia por causa da diferença entre o resultados das pesquisas e o resultado das eleições. Quase todas as pesquisas divulgadas as vésperas da eleição apontavam para um empate técnico entre o Conservative Party  e o Labour Party, porém o resultado foi uma vantagem de 7 pontos para os conservadores. Devido a essa grande diferença, uma comissão foi criada para analisar quais os motivos dessa diferença sistemática, como pode se visto nesse link.

Nesse post, nosso interesse é avaliar qual teria sido a performance do modelo do PollingData nessas eleições, e avaliar o quão imprevisível era a vitória dos conservadores. Iremos considerar nessa análise apenas o voto popular total. Uma modelo de previsão mais completo, levando em consideração detalhes importantes do processo eleitoral britânico, pode ser visto nesse link1, com os detalhes do modelo explicados nesse link2.  

Vamos utilizar na nossa modelagem as pesquisas eleitorais divulgadas no site Polling Report. Esse site é um agregador de pesquisas como o PollingData, porém não tem um modelo estatístico para prever qual é a real intenção de voto nem as probabilidades de vitória de cada partido.

 Analisando apenas o voto popular,  a tabela abaixo resume a performance do PollingData. Nosso modelo teria acertado o partido vencedor, porém apenas por uma margem mínima (menos de 0,5%).  A média das pesquisas divulgadas entre os dias 30/4 e 5/5 apontavam uma desvantagem de 1% para os conservadores.

Partido
 Intencao de Voto
Probabilidade de Vitoria
(PollingData)
Votos Popular
Pesquisas
 (30/04 a 05/05)
Modelo PollingData
Conservative Party (CON)
37%
33%
34%
57%
Labour Party (LAB)
30%
34%
34%
43%
Liberal Democrats (LD)
8%
9%
10%
0%
UK Independence Party (UKIP)
13%
14%
14%
0%
Green Party of England and Wales (GRN)
4%
5%
6%
0%
Outros
8%
6%
2%
0%


Por outro lado, a probabilidade de vitória do partido conservador era de 57% de cordo com o modelo. Se alguém fosse apostar no vencedor baseado nas nossas previsões, acertaria o vencedor.  Abaixo segue um gráfico com a saída final do modelo, que permite ver a dinâmica dessas eleições.