Thursday, September 25, 2014

Perguntas sobre a Amostragem Probabilística com Cotas (APC)

Como havíamos prometido, seguem abaixo o email com as perguntas que foram feitas com relação a Amostragem Probabilística com Cotas, e as respostas (em azul). 

"Otimas perguntas. Pelo conteudo delas, entendo que nao existe muita preocupacao com a estimativa pontual em si, correto?  Ou seja, o que esta sendo questionado no metodo da APC sao as estimativas da variancia, e nao as estimativas pontuais. Acho que esse ja' e' um ponto muito importante.  

Vamos as perguntas:

1) Se há uma seleção probabilística de unidades em algum(ns) estágio(s) de seleção, então a ponderação consequente com esta parte do processo de amostragem teria que ser feita quando as análises serão realizadas. Nas vezes que vi o método acima ser descrito em aplicações, esta etapa era completamente ignorada e a ponderação era feita apenas considerando a informação das cotas. Além disso, toda a estrutura de estratificação e conglomeração era ignorada nas análises posteriores, o que é incoerente com o plano praticado.

Levar em conta todos os estagios anteriores, sem considerar o ultimo, e' simples. Toda informacao esta' na base de dados, as probabilidades sao conhecidas e temos diversos programas com essa capacidade hoje em dia. Se os institutos de pesquisa fazem isso ou nao, e' uma opcao deles. Pra mim, o importante é que o método permite que isso seja feito - ou seja, se o estatistico quiser fazer inferencia baseada no desenho, ele consegue fazer. Entendo entao que o que precisa ser discutido é o último estágio. 

E nesse ultimo estagio, eu concordo com o Fernando Moura. Mas vou um pouco ale'm, sabemos empiricamente que pessoas residentes no mesmo setor censitario sao muito mais parecidas entre si, do que se comparadas com o resto da populacao. Como referencia, uso o relatorio tecnico que voce e o Fernando escreveram:

[Ref1] P. L. N. Silva and F. A. S. Moura. Efeito da conglomera cao da malha setorial do censo demogr a co
de 1980. Textos para discussao - IBGE, 1(32):001{114, 1990

Nesse relatorio voces mostraram que em todas as 39 vari aveis estudadas, pessoas residentes em um mesmo conglomerado sao mais parecidas entre si. Ou seja, sabemos que do total da variancia, um percentual pequeno e' explicado pelo ultimo estagio. Nao sao muitos estudos que divulgam, junto com os dados, as informacoes necessarias para o calculo das variancias. Quando essas informacoes sao divulgadas, sempre e' feito algum tipo de simplificacao ou aproximacao para o usuario final, seja utilizando estimador de Razao, expansao de Taylor, Bootstrap, Ultimate Cluster, etc...Meu ponto e', seja utilizando essas simplificacoes/aproximacoes mais comuns, seja assumindo amostra aleatoria simples no ultimo estagio da APC, acredito que o erro sendo cometido e' no geral ignoravel. Porem, e' possivel calcular o erro do ultimo estagio na APC com uma suposicao mais simples do que AAS, que discutirei na proxima pergunta.


2) As afirmações sobre margem de erro das estimativas derivadas se baseia inteiramente nas expressões válidas para amostragem aleatória simples. No Brasil, nunca vi um trabalho que descrevesse uma abordagem justificável (mesmo sob um modelo ou suposições) para explicar porque estas expressões podem ou devem ser usadas para amostras coletadas pelo método em questão (APC, como você o chamou).


Lamentavelmente, tal trabalho existe, mas nao foi publicado para que outros possam conhecer. Foi exatamente o que eu fiz na minha tese de doutorado, so que eu nao tenho o perfil de escrever artigos, e pior ainda, a notacao que eu utilizei e' muito ruim, o que dificulta bastante o entendimento. Se eu tivesse percebido isso inicialmente, teria re-feito a notacao, mas enfim....se alguem quiser dar uma olhada, o titulo da minha tese e' : "Avaliacao metodologica das pesquisas eleitorais brasileiras", defendida no IME USP em 2010. So pra contextualizar melhor, inicialmente o titulo da tese ia ser "Uma justificativa teorica para Amostragem Porbabilistica com Cotas".

Vou resumir aqui rapidinho o que importa no contexto sendo discutido aqui. Podemos considerar as cotas no ultimo estagio como uma estratificacao do ultimo estagio da amostra. A suposicao basica que estamos fazendo e' que as probabilidades de resposta das pessoas dentro de um mesmo setor censitario e dentro da mesma cota sao iguais. Com essa suposicao, criei um metodo EM que estima as probabilidades de resposta. Se o trajeto que o entrevistador tem que percorrer dentro de cada setor tem uma ordem pre-determinada, e ele tenta fazer contato com todos os domicilio no seu trajeto, a probabilidade de selecao de cada pessoa e' inversamente proporcional ao numero de moradores dentro do domicilio que estao na mesma cota.  Ou seja, temos as probabilidades. Na minhas simulacoes, nao houve ganho ao utilizar as probabilidades de resposta estimadas. Nao ha muito vicio para reduzir. 

Outro detalhe importante, como a cota no ultimo estagio e' uma estratificacao, a APC tem menor EQM do que a amostragem probabilistica (aquela da pratica) quando as probabilidades de resposta sao diferentes em cada cota. Isso ocorre porque na amostragem probabilistica na pratica, o entrevistador tenta fazer contato ate C vezes com cada pessoa selecionada. Se ele nao consegue fazer contato, ele seleciona outra pessoa e tenta novamente. Procedendo dessa forma, vc acaba entrevistando mais pessoas da cota que tem uma probabilidade de resposta maior. Ja isso nao ocorre com a APC. Claro, alem dos ganhos conhecidos da estratificacao.



3) O terceiro defeito é a dificuldade (ou impossibilidade) de replicar o processo de amostragem por cotas. Se o entrevistador é quem toma decisão sobre quem entrevistar, esta dificuldade é severa. Replicabilidade é um dos pilares do método científico. Outros pesquisadores teriam que poder usar o mesmo método, mas este não é replicável porque outros pesquisadores não poderão usar os mesmos entrevistadores, etc. 


Do jeito que eu estou descrevendo a APC aqui (domiciliar), acho que o processo e' replicavel. O entrevistador tenta fazer contato com todos os domicilios do setor, em uma ordem pre-especificada, iniciando de um ponto tambem pre-determinado. Se ele nao encontra ninguem que se encaixe nas cotas no Dimicilio 1, ele vai para o 2, e assim sucessivamente. Se ele nao completar as entrevistas ao encerrar o setor, ele comeca outra volta no mesmo setor. E assim vai, ate terminar as entrevistas daquele setor. O entrevistador nao tem flexibilidade. A diferenca basica e' que com a APC, o entrevistador entrevista quem esta em casa, disponivel, ja com a amostra probabilistica, quem nao esta em casa tambem pode ser selecionado. Por isso e' importante determinar cotas associadas com a probabilidade de resposta, pois vc diminue bastante o problema, sendo possivel ate eliminar o vies potencial. Por exemplo, com cotas de PEA/ Nao-PEA voce garante que trabalhadores estarao na amostra.  Nao esquecendo que o horario da entrevista tambem e' importante. Facilita o campo e e' uma forma de se prevenir contra ma-especificacao do modelo de resposta.



Abraco Neale"

Wednesday, September 24, 2014

Estatística Bayesiana

Um reporter da Veja procurou o Polling Data para entender qual metodologia é aplicada e fazer algumas previsões. Em um dos muitos emails trocados, o reporter fez a seguinte pergunta (notem os risos no final da pergunta):

Consegue resumir bem resumido o que seria a teoria bayesiana?rsrs

Segue a minha resposta abaixo. Tenho a sensação que fracassei. Não consegui nem “resumir bem resumido”, e nem fazer jus a Estatística Bayesiana L. Prometo fazer melhor da próxima vez. Sugestões são muito bem vindas.

Resposta ao reporter:

“Estatística Bayesiana é uma forma de combinar duas fontes de informação: os dados de uma pesquisa e o conhecimento do pesquisador. É subjetiva porque diferentes pesquisadores podem chegar a conclusões diferentes ao analizar os mesmos dados. A primeira vista essa característica parece ser ruim, pois implica que os dados não serão analisados de forma imparcial. Porém essa subjetividade é a maior força da Estatística Bayesiana, pois apesar de ser uma ciência exata, ela é otimizada pelo experiência (know-how) do pesquisador.”

Depois enviei esse adendo pra não parecer que ao utilizar Bayesiana, o pesquisador faz o que quiser:


“Novas pesquisas/dados atualizam o conhecimento do pesquisador. A atualização desse conhecimento é feita de forma sistemática, e depende da confiança do pesquisador nos novos dados.

Amostragem probabilística existe?

Em algum post passado, mencionamos que faríamos alguns posts sobre amostragem. Esse será o primeiro deles. Primeiramente, vamos definir o que é amostragem probabilistica no contexto de pesquisas de opinião pública: “Amostragem probabilística é um método de amostragem onde todas as pessoas têm uma probabilidade positiva e conhecida de pertencer a amostra”. Essa difinição vem de livros teóricos de amostragem. Ela implica que para fazer amostragem exatamente como a teoria diz, seria necessário que toda a população de interesse pudesse ser encontrada e estivesse totalmente disposta a responder a pesquisa. E além disso, seria necessário tempo e dinheiro ilimitados.

Recentemente saiu na mídia a seguinte reportagem nesse link.  A conclusão principal do estatístico entrevistado é de que: 

‘as pesquisas eleitorais contém “problemas sérios”, em grande parte por causa da margem de erro, e, por isso, deveriam ser "vetadas"’. 

O argumento principal para que as pesquisas sejam banidas é: 

que os institutos se valem de uma “amostragem não probabilística", ou seja, a maneira pela qual os entrevistados são encontrados recai sob o julgamento do pesquisador, e não sob uma forma totalmente aleatória. Isso ocorre porque é mais rápido, barato e fácil do que realizar uma“amostragem probabilística”, na qual cada eleitor teria a mesma probabilidade de ser selecionado.

Ou seja, argumentação é a seguinte: os institutos de pesquisa não fazem pesquisa como está escrito nos livros (teóricos) porque é muito mais conveniente fazer um tipo de amostragem chamada de amostragem por cotas (em ponto de fluxo). Nessa metodologia os entrevistadores fazem suas entrevistas em locais onde há um grande fluxo de pessoas (terminais metropolitanos, centros comercias, etc).

Eu discordo desses argumentos. Em primeiro lugar, não é possível fazer amostragem de populações humanas como está descrito nos livros. Não é uma opção, é uma impossibilidade. Existem várias dificuldades de implementar esse tipo de metodologia: pessoas se recusam a participar, pessoas não são encontradas, não sabemos onde todas as pessoas residem etc… Em segundo lugar, a maioria dos institutos não utilizam esse tipo de amostragem sugerida na reportagem. Utilizam um outro tipo denominado Amostragem Probabilistica com Cotas (APC), que descreveremos mais adiante.

Enviaram para a lista de emails da ABE (Associação Brasileira de Estatística) o link com essa reportagem citada acima. Segue abaixo o email que enviamos para a lista para discutir o tema.  A discussão está interessante. Foram mencionadas 3 críticas relevantes a APC. Quando eu enviar minhas respostas para a lista, também colocarei as perguntas e as respostas num post aqui.

Email enviado para a ABE (foi enviado assim mesmo, sem acento):

Esse email passou em branco quando o Luis enviou, mas eu gostaria de fazer 2 comentarios. O email vai ser um pouco longo, mas eu acredito que esse tema merece ;) 

Primeiramente, segue o link para um relatorio da associacao americana de pesquisa de opiniao publica.  Acho que quem se coloca tanto a favor como contra as pesquisas eleitorais deveria ler o relatorio. Tem muitas referencias, de academicos e pesquisadores, de estatisticos e cientistas sociais, e e' uma discussao seria e interessante. Melhor de tudo e' atual, de 2013:

[Ref1]REPORT OF THE AAPOR TASK FORCE ON NON-PROBABILITY SAMPLING

1- Amostragem Probabilistica -  No contexto de amostragem de populacoes humanas (nao estou falando de populacoes fechadas, como funcionarios de uma empresa), nao existe amostragem probabilistica estritamente falando. Nao estou preocupado aqui em distinguir entre probabilidade de selecao ou probabilidade de resposta. Simplesmente as probabilidades de todos os respondentes na sua "base de dados" nunca sao conhecidas sem suposicoes. Nem o IBGE consegue tal feito, mesmo a populacao sendo obrigada por lei a responder ao questionario e tendo uma infinidade de $$$ se comparado a qualquer instituto de pesquisa particular. Ou seja, se o criterio a ser adotado para que uma pesquisa seja "vetada" e' simplesmente ela nao ser (estritamente) probabilistica, nao sao somente pesquisas eleitorais que devem ser eliminadas, sao absolutamente todas (inclusive as do IBGE). 

Alguem na lista conhece um contra-exemplo - uma amostra de alguma populacao humana onde os dados podem ser analisados sem se fazer uma unica suposicao? Fazer suposicoes/modelos esta em tudo que fazemos como estatisticos. Se vc utiliza uma base de dados sem se preocupar com como ela foi obtida, voce nao esta fazendo seu trabalho direito. Mas isso e' bem diferente de proibir que as pesquisas eleitorais sejam feitas.

2- Amostragem Probabilistica com Cotas - Nao acho que podemos colocar todas as amostras ditas "nao-probabilisticas" no mesmo saco. Claramente algumas sao bem melhores do que as outras.  Se em uma pesquisa existe a preocupacao em reduzir possiveis vicios antes e depois da selecao da amostra, essa pesquisa e' provavelmente melhor do que uma pesquisa que nao se preocupa com isso, por exemplo. A maioria dos institutos de pesquisa que eu conheco NAO utilizam amostragem em ponto de fluxo, pelo menos nao para pesquisas eleitorais/Opiniao publica (com excecao do Datafolha, que eu acho que faz dentro de algumas cidades). A maioria utiliza o que eu chamo de amostragem probabilistica com cotas (APC), onde os primeiros estagios sao probabilisticos, e apenas o ultimo estagio tem cotas (dentro do setor censitario). Nesse ultimo estagio impoem-se restricoes sobre como o entrevistador pode selecionar o respondente. Essa metodologia de pesquisa e' muito bem descrita em: 

[Ref2]Probability SampIing with Quotas: An Experiment (C. BRUCE STEPHENSON)

 onde ale'm de tudo, e' feita uma comparacao minuciosa com  amostragem probabilistica (aquela da pratica, cheia de suposicoes). Esse relatorio mostra que foram observadas bem poucas diferencas com qualquer relevancia pratica. Essencialmente, a maior preocupacao e' que com a APC o tamanho medio dos domicilios e' usualmente maior, algo facilmente corrigido com uma simples ponderacao (e, e' claro, uma suposicao!). Meu ponto e', faz muito mais sentido usar esse artigo [Ref2] e esse tipo de amostragem como referencia para criticas/sugestoes, do que a amostragem por cotas (em ponto de fluxo) que usualmente nao e' utilizada no Brasil. A amostragem por cotas (em ponto de fluxo)  e' comparada com a amostragem probabilistica (aquela da pratica, cheia de suposicoes) nesse artigo abaixo:   

[Ref3]An experimental study of quota sampling (C. A. Moser and A. Stuart)

Coloquei esse artigo [Ref3] para quem tem interesse poder compara-lo com o artigo [Ref2] e ver como as metodologias (e as criticas) sao muito diferentes.

Enfim, eu acho que a distincao entre amostragem probabilistica e nao-probabilistica, em muitos casos e' bem mais sutil do que parece. Vale a pena ler com cuidado a metodologia de qualquer pesquisa, independente desse rotulo. Assim voce ja comeca a formular um modelo para ser utilizado com os dados, e entende melhor quais podem ser o problemas em potencial ao analisar os resultados.

Abraco Neale


Probabilidade Condicional

Probabilidade condicional deve ser um dos temas da estatística que mais causam confusão nas pessoas. Nem sempre é fácil perceber se a probabilidade é (ou deveria ser) condicional. Acredito que até profissionais experientes se atrapalham algumas vezes.

Vamos falar de assunto aqui pra explicar as probabilidades utilizadas no Pooling Data. A probabilidade condicional é definida como a probabilidade de um evento A ocorrer, dado que um evento B já ocorreu. Assim P(A) é a probabilidade do evento A ocorrer independente de B (sem saber se B ocorreu ou não). E P(A/B) é a probabilidade do evento A ocorrer dado que sabemos que o evento B já ocorreu.

Por exemplo, se você é uma pai sortudo, a probabilidade do seu filho de 2 anos acordar no meio da noite é de apenas 5%, ou seja, P(acordar)=0,05. Porém, se você sabe que seu filho está com dor de ouvido, a probabilidade do seu filho acordar passa a ser de 70% (até mais, eu acredito). Ou seja, P(acordar/”dor de ouvido”) = 0,70.

Claramente, dependendo do evento que ocorreu, as probabilidades podem se alterar profundamente. No caso do Pooling Data o fato da probabilidade ser condicional é bastante relevante, principalmente por causa da existência do segundo turno. Com exceção da probabilidade de ocorrência do segundo turno (que não é condicionada a ocorrência do Segundo turno), todas as outras probabilidades calculadas no site poderiam ser condicionais ou não. E não é uma questão de certo ou errado, ambas as probabilidades existem e têm interpretações totalmente coerentes. Está mais relacionado com quais probabilidades nós achamos serem as mais interessantes para o nosso público.

No caso das probabilidades dos candidatos irem para o segundo turno, estamos considerando probabilidade condicionais. Ou seja, elas devem ser lidas da seguinte forma: Se houver segundo turno, a probabilidade do candidato X ir para o segundo turno é de Y%. Escolhemos apresentar as probabilidades dessa forma porque para nós, a resposta da pergunta “quem vai para o segundo turno?” é mais interessante condicionada a ocorrência do mesmo.  Porém, quem olhar as probabilidades de ir para o segundo turno dos candidatos a governador de SP e de MG pode estranhar o fato de que a probabilidade de ocorrência do segundo turno é essencialmente 0%, porém algums candidatos têm probabilidade 100% de ir para o segundo turno. Enão não se confundam, esses resultados aparentemente incoerentes ocorrem porque estamos usando probabilidades condicionais.


Já no caso das probabilidades dos candidatos vencerem as eleições, NÃO estamos considerando probabilidade condicionais. Ou seja, elas devem ser lidas da seguinte forma: A probabilidade do candidato X ganhar as eleições é de Y%. Escolhemos apresentar as probabilidades dessa forma porque para nós, a resposta da pergunta “quem vai ganhar as eleições?” é mais interessante independentemente da ocorrência do segundo turno.  

Friday, September 19, 2014

Acompanhando a mídia social

Acabamos de incluir uma nova fonte de informação no dashboard do PollingData: posts oficiais dos três principais candidatos no facebook. O objetivo é permitir que os usuários do site tenham uma visão mais geral do que ocorre nas eleições. A idéia é que o site disponibilize três tipos de informação:

      1.   Pesquisas Eleitorais: medir quais são as chances de vitória de cada candidato.
      2.  “Curtidas” no facebook: medir quanto os eleitores gostam do que os candidatos dizem.
      3.       Núvens de palavras: resumir de forma simples o que os candidatos têm publicado no Facebook.

Ou seja, basta checar o dashboard pra ter uma visão geral do cenário politico atual.  Numa única página, o usuário entende quem vai ganhar, porque  e quão popular suas idéias são. Ou pelo menos essa era a intenção inicial….

Depois de analisar com algum detalhe os posts dos candidatos e as nuvens de palavras, ficou claro que eles são utilizados primariamente como um outlet de divulgação das campanhas e das agendas dos candidatos. Se o nosso objetivo é mostrar aos nossos usuários um resumo informativo das plataformas de governo e de discussões relacionadas, teremos que utilizar outras fonte de informação.


Nos próximos dias vamos explorar os comentarios dos posts do facebook, as mensagens postadas no twitter e reportagens sobre as plataformas de governo de cada candidato. Dessa forma esperamos ter uma visão mais pautada nas propostas dos candidatos, mais de acordo com nosso plano original. 

Tuesday, September 9, 2014

Agora também temos pesquisas para governador!!!

Agora que o Polling Data está no ar há mais de uma semana, estamos tentando melhorar o site, e incluir mais pesquisas.  Até o final da semana já contaremos com estimativas para mais três eleições: Governador do RJ, de MG e de SP.

Decidimos adicionar inicialmente esses três estados pois são os 3 mais populosos do pais, representando mais de 40% da população.  Mas o estado que merece mais atenção é o RJ, apesar de ser o menor dos 3. A corrida para governador do RJ está muito acirrada, com 4 candidatos com chances reais de irem para o Segundo turno. Vale a pena acompanhar….

Num futuro próximo, quem sabe até na semana que vem, iremos incluir as pesquisas da eleição presidencial abertas por Região. Também incluiremos outro tipo de conteúdo nesse mesmo prazo. Mas esse é surpresa…continuem acessando o site pra descobrir qual será o novo conteúdo. 

Thursday, September 4, 2014

Todos os modelos estão errados, porém alguns são úteis....mas nem sempre!

Não faz nem uma semana que lançamos o PollingData e já faremos uma alteração significativa no conteúdo do site. Nesses poucos dias ficou evidente que incluirmos as probabilidades de vitória dos candidatos em dois cenários diferentes (‘atual’ e ‘no dia da eleição’) acabou gerando muitas dúvidas nos nossos visitantes.

Tentamos explicar as diferenças em alguns posts, mas a dúvida continua lá. Pra acabar com a confusão de vez, vamos seguir o princípio de Ockham: viva a parcimônia! Com o objetivo de simplificar o site e a interpretação das probabilidades, a partir de hoje iremos manter apenas um único cenário.

Também não iremos mais levar em conta os resultados de eleições passadas nos cálculos das probabilidades de ocorrência dos eventos. Porquê? Dois motivos principais:

  1. Novamente, para simplificar a interpretação das probabilidades.
  2. Porque acreditamos que, para essa eleição específica, as eleições passadas não são muito informativas. 

O segundo ponto merece uma explicação mais detalhada. Como a história da democracia no Brasil é relativamente nova, não tivemos muitas eleições. Por esse motivo, para construir um modelo baseado em eleições passadas, tivemos que recorrer a eleições de outros países. Por um lado aumentamos bastante a base de eleições, tornando o modelo resultante mais robusto. Por outro lado, reduzimos muito as opções de variáveis que podem ser usadas, pois cada país utiliza diferentes indicadores.  

O ponto é: utilizamos a aprovação do candidato do governo no modelo, porém a variável que realmente importa é o “desejo de mudança” da população. Essas variáveis são altamente correlacionadas, “caminham juntas” no geral. Porém nesse ano, no Brasil, não é o que estamos vendo. A aprovação da Dilma tem se mantido razoavelmente estável , porém o desejo de mudança tem aumentado. Ou seja, ao utilizar aprovação acreditamos que estamos super-estimando a probabilidade de vitória da Dilma. Citando George Box (um estátistico bem famoso): “todos os modelos estão errados, porém alguns são úteis”. O modelo que estávamos utilizando já se mostrou útil em diversas eleições mundo afora (Nigéria, Venezuela, Estados Unidos, França e Brasil pra citar alguns países) , porém não acreditamos que seja tão confiável para a eleição presidencial brasileira de 2014.

Além disso, claramente essa eleição é atípica, principalmente por causa da morte do candidato Eduardo Campos. Nesse ciclo eleitoral, consideramos que seja melhor utilizar apenas as pesquisas divulgadas na mídia para calcular as chances de vitória de cada candidato.


Tuesday, September 2, 2014

Cenário "atual" versus cenário "dia da eleição"

Depois da divulgação do pollingdata.com.br, algumas pessoas manifestaram dificuldades em distinguir as diferenças entre os cenários “atual” e “dia da eleição”, e também de entender como foram calculadas as probabilidades divulgadas no site. Nesse post, vamos explicar com um pouco mais de detalhes essas questões, e sem recorrer a matemática ;)

No pollingdata.com.br estamos usando um modelo estatístico. O objetivo desse modelo é determinar qual é a intenção de voto mais provável (para cada candidato) dados os resultados das pesquisas eleitorais divulgadas. Por exemplo, num cenário simples sem viés metodologico dos institutos, vamos imaginar que em um mesmo dia 2 pesquisas eleitorais são divulgadas. Uma tem Marina com 41% das intenções de voto, e outra tem Marina com 35%. O mais provavel é que a "real intenção de voto" seja um valor intermediário, digamos 38. Esse é o valor que o modelo iria prever para a intenção de voto na Marina naquele dia.

Apesar dessa ser a intenção de voto mais provável, existem várias outras possibilidades. Voltando ao exemplo, se a intenção de voto na Marina fosse na verdade 40%, também seria possível de ocorrer os resultados das duas pesquisas divulgadas (41% e 35%). Ou seja, 40% de voto na Marina também é uma estimativa provável. Em contraste, é mais dificil de acreditar que a intenção de voto na Marina seja na verdade 30%, dado as 2 pesquisas divulgadas. Ou seja, essa estimativa seria bem menos provável, pois  seria mais difícil as 2 pesquisas terem obtido aqueles resultados se a Marina tem apenas 30% das intenções de voto.

Pra obter as probabilidades estimadas na aba “dashboard”, fazemos mais de 15 mil simulações do modelo, com o objetivo de calcular todas as possíveis "intenções de voto" considerando as pesquisas publicadas. Se uma estimativa é muito rara, ela ocorrerá muitas poucas vezes nessas simulações. Se uma estimativa é bem provável, ela ocorrerá muitas vezes. Assim, pra calcular essas probabilidades, contamos quantas vezes cada evento ocorreu durante as simulações. Por exemplo, se a probabilidade da Dilma ganhar é de X%, quer dizer que em X% das simulações ela ganhou as eleições.

O modelo faz essas contas para todos os dias, desde a primeira pesquisa publicada até o dia da eleição. Ou seja, cada dia do ciclo eleitoral é simulado mais de 15 mil vezes pelo modelo. A diferença entre os dois cenários é essencialmente determinada pelo dia escolhido para contar quantas vezes cada evento ocorreu. No cenário "atual" as contas são feitas olhando apenas a data de hoje. No cenário "dia da eleição", são feitas considerando apenas o dia da eleição. 

Finalmente, uma diferença importante entre os 2 cenários: no cenário atual, leva-se em conta apenas as pesquisas publicadas.  Já no cenário "dia da eleição", também leva-se em conta o que ocorreu em mais de 130 eleicoes em 17 paises. Ou seja, considera-se a probabilidade de um candidato do partido no governo, concorrendo a re-eleição, com aprovacao de 44%, ganhar a eleição. Historicamente, essa probabilidade é de +/- 75%. Conforme nos aproximamos da eleição, as probabilidades do cenário "dia da eleição" serão cada vez mais influenciadas pelas pesquisas divulgadas, pois cada vez mais aumenta nossa confiança de que as pesquisas retratam a realidade no dia da eleição. Ou seja, chega um momento em que não importa mais o que aconteceu em outras eleições similares, apenas o que está acontecendo nesse ciclo eleitoral.

O modelo que eu estou utilizando é razoavelmente complexo, e neste post eu estou simplificando como ele funciona pra não ter que recorrer a matemática. Apenas para ressaltar esse fato, o modelo realmente utilizado tem que, ao mesmo tempo, considerar diversos fatores. Entre eles estão: 1-identificar qual parte da variação dos resultados das pesquisas é proveniente de viés metodológico e qual parte é de variação amostral; 2- levar em consideração que em dias consecutivos a opinião pública usualmente não se altera bruscamente; 3- as pesquisas devem ter um peso maior para estimar a intenção de voto em dias próximos a sua divulgação; 4- Pesquisas com tamanho de amostra maior são mais informativas; 5- Quanto mais próximo das eleições, mais peso as pesquisas devem ter para determinar o resultado do cenário “dia das eleições”. Outro detalhe importante: estamos simulando o primeiro turno, e também os possíveis segundos turnos. Para calcular algumas das probabilidades exibidas no pollingdata.com.br, é necessário levar em conta todos os turnos simultanêamente.

Deu pra entender melhor como estamos fazendo nossas previsões?