Polling Data: September 2015

Wednesday, September 30, 2015

Amostragem Probabilistica existe? Parte IV

O meu post mais recente sobre a existência de amostragem probabilística de populações humanas (link) teve um comentário. Como o cometário é bom, ao invês de apenas respondê-lo no post anterior, resolvi incluí-lo aqui e escrever um novo post.

O comentário foi postado pelo Raphael, que conhece amostragem e sabe muito bem do que está falando. Segue o comentário dele:

“Neale, até quando vamos precisar discutir a distinção entre probabilidade de seleção (que é o que realmente define se uma amostra é probabílistica ou não, ver definição em Särdnal et al 1992 ou Cochran 1953) e probabilidade de resposta (associado ao mecanismo de não-resposta)? Eu entendo que seu ponto é mais prático do que teórico, mas se você realmente quer discutir sobre a existência ou não de amostras probabílisticas, você precisa definir o que ela é. Tal definição já existe e está bem definida, como referido acima. E seguindo tal definição, a resposta é bem clara ;)

Agora, quanto ao seu primeiro ponto sobre porque alguns livros teóricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam, talvez Lars Lyberg tenha dado a resposta em uma das seções no TSE Conference. Ele disse que pelo menos nos primórdios da amostragem, quando ainda estavam estabelecendo sua prática e teoria, alguns pesquisadores intencionalmente procuravam não enfatizar outros erros não-amostrais, justamente para tentar estabelecer e disseminar os conceitos de amostragem e erros amostrais. É verdade que esses tempos já passaram e livros mais recentes não tem essa desculpa. Mas acho que a maioria dos livros de amostragem e métodos de pesquisa mais recentes têm feito um bom trabalho com erros não-amostrais.

Ahn, por fim, vale lembrar que a grande maioria de pesquisadores que desenvolveram a teoria de amostragem probabilística era também pessoas que trabalhavam na prática com surveys e que desenvolveram tais metodos justamente para resolver problemas práticos em enfrentavam em seus trabalhos. Logo, acho que não faz muito sentido dizer que existe uma grande diferença entre a teoria e a prática em amostragem, uma vez que sua teoria foi justamente desenvolvida para resolver problemas práticos.”

O Raphael faz um ponto importante. Pra entendê-lo corretamente, é preciso olhar a definição de amostragem probabilística:

“Amostragem probabilística é um esquema de amostragem onde todas as unidades populacionais (pessoas nesse caso) têm uma probabilidade conhecida (positiva e calculável) de serem incluídas na amostra”

Nessa definição fica claro que para o processo de seleção da amostra ser classificado como “amostragem probabilística” é necessário conhecer as probabilidades de inclusão. Ou seja, se repetirmos o processo de seleção da amostra infinitas vezes, temos que saber entre todas amostras obtidas, exatamente em quantas cada pessoa estará.

Na prática, o problema ocorre porque pessoas não são obrigadas a responder, e se recusam a participar das pesquisas para as quais foram selecionadas. Existem estudos mostrando que, hoje em dia, a taxa de não-resposta (taxa de recusa) chega a mais de 90% (link).

O argumento do Raphael é que temos que separar as duas “etapas”: o mecanismo de seleção da amostra e o mecanismo de resposta são distintos. E pensando assim, você pode afirmar que existe a amostra probabilística (a primeira etapa). Porém, depois de selecionada essa amostra probabilística, o mecanismo de resposta entra em ação, e altera a amostra probabilística. Em resumo, usando uma frase minha que o Raphael não gosta: a amostra nasce probabilística, porém morre não-probabilística....rsrsrs

Na argumentação sobre a existência da amostragem probabilística, eu não faço distinção entre esses dois mecanismos, para mim você pode até planejar a amostra probabilística, porém nunca vai conseguir analisar/observar uma. Entendo que essa distinção ajuda somente para pensar em modelos estatísticos para corrigir a não-resposta, que no final das contas são as suposições que o analista faz. Meu “posicionamento oficial” é de que não existem amostras probabilísticas de populações humanas SEM SUPOSIÇÕES.

Acredito que no fundo, o que importa para o Raphael (me corrige se eu estiver errado) é distinguir amostras que ao menos “nascem probabilísticas” daquelas que já nascem “não-probabilísticas”, visto que todas as pesquisas serão afetadas pelo mecanismo de resposta. Implicitamente, ele está afirmando que as primeiras são melhores que as últimas, e merecem ser distinguidas por esse motivo. Eu não tenho problemas com essa distinção, até porque acredito que no caso das primeiras são feitas menos suposições do que no caso das últimas. Porém esse argumento não altera minha posição, ainda é necessário fazer suposições.

Eu e o Raphael já discutimos sobre esse tema diversas vezes (em público e em particular), e ele sempre me fala que o problema com os meus argumentos é que eu estou confundindo os mecanismos de seleção e de não-resposta. Ao escrever esse post, fiquei pensando sobre isso. Será que de fato é possível separar esses dois mecanismos?

Na prática, pensando em amostras de tamanho fixo, quando uma pessoa selecionada para participar da pesquisa se recusa a responder, ela é substituída por outra pessoa. Ou seja, seleciona-se um novo respondente seguindo critérios pré-estabelecidos. Pra facilitar meus argumentos abaixo, vamos pensar a amostra obtida como constituída por dois grupos distintos: aqueles respondentes que foram inicialmente selecionados e que responderam a pesquisa, e todos os outros respondentes que estão na amostra porque substituíram pessoas selecionadas que se recusaram a responder.

Conceitualmente, como um respondente substituto somente participa da pesquisa se houver uma recusa, me parece evidente que as probabilidades de inclusão dessas pessoas dependem explicitamente da probabilidade da pessoa originalmente selecionada responder. Assim, para esse grupo de respondentes, não é possível separar o mecanismo de seleção do mecanismo de resposta. Consequentemente, as probabilidades de inclusão são desconhecidas, e como esse grupo faz parte do universo sendo analisado, nenhuma amostra desse universo pode ser denominada de probabilística.

Mas vamos flexibilizar a definição de amostra probabilística, e supor que só é preciso conhecer a probabilidade de inclusão das pessoas que estão de fato na amostra. Vamos então excluir esse grupo de substitutos da nossa amostra, e trabalhar somente com o outro grupo de respondentes, os que foram inicialmente selecionados e de fato aceitaram participar da pesquisa. Ou seja, na busca de uma amostra de fato probabilística, sem suposições, vamos descartar todos os respondentes que dependeram explicitamente da probabilidade de resposta para estarem na pesquisa.

Apenas para deixar um ponto claro: se o mecanismo de não-resposta for estocástico, essa sub-amostra terá que ter tamanho aleatório. Qualquer sub-amostra de respondentes com tamanho fixo acaba voltando ao caso anterior, com substituições. Enfatizo esse ponto porque podemos alterar o argumento acima, e afirmar que não serão feitas substituições. Ao invés disso, seleciona-se uma amostra maior do que a desejada, de forma que o número esperado de respondentes após a “aplicação” do mecanismo de não-resposta seja o desejado. Tudo bem usar essa argumentação, porém ela só vale se o tamanho da amostra for aleatório. E nesse caso, chegamos no mesmo ponto, da amostra apenas com os respondentes inicialmente selecionados.

Será então, que trabalhando somente com essa sub-amostra, podemos argumentar que as probabilidades de inclusão são conhecidas? Se o mecanismo de não-resposta for estocástico, eu acredito que não. As probabilidades de inclusão foram inicialmente calculadas como sendo a proporção de vezes que cada pessoa pertenceria a amostra se o processo de seleção da amostra fosse repetido infinitas vezes. Porém, trabalhando somente com esse sub-grupo, elas teriam que ser re-calculadas para considerar apenas a amostra dos não-substitutos. E pra re-calcular essas probabilidades, dependemos da probabilidade de resposta, que é desconhecida. Ou seja, mesmo flexibilizando a definição de amostragem probabilística, as mesmas continuam não existindo para populações humanas, sem fazermos algum tipo de suposição sobre o mecanismo de resposta.

Quanto a primeira pergunta do Raphael, sobre quanto tempo discutiremos sobre isso, acredito que a resposta é "para sempre" ;)

Monday, September 14, 2015

Restrição as pesquisas eleitorais

Está tramitando no senado/câmara um projeto de lei que que restringe a contratação de institutos de pesquisa por órgãos de imprensa retira o direito do eleitor de ter informação sobre a disputa eleitoral. Pela proposta, a imprensa fica proibida de contratar institutos de pesquisa que tenham trabalhado para partidos políticos, candidatos ou órgãos públicos no período de um ano antes das eleições. Veja a reportagem da Folha sobre o assunto aqui.

Acho que essa "potencial" lei não ajuda a resolver o problema. Pelo que vi nas eleições de 2014, poucos institutos registram quem "de fato" financiou a pesquisa. Além disso, uma pesquisa não precisa ser contratada por órgãos de imprensa para poder ser divulgada na mídia. Ou seja, essa lei não ajudará a melhorar a qualidade das pesquisas, e punirá institutos que tentam respeitar a lei.

Sobre a questão da qualidade das pesquisas, é difícil dizer como deve ser feito aqui no Brasil. Nos EUA não existe necessidade de registrar a pesquisa com algum orgão oficial. O mercado parece se auto-regular. Existem sites agregadores de pesquisa, como o 538, que têm rankings das empresas, e aquelas que têm um histórico muito ruim são banidas do site (veja aqui).

Existem programas como o “Transparency Initiative”, e empresas que se filiam ao programa comprometem-se a (em inglês):

“Organizations pledge to abide by AAPOR’s disclosure standards, train their employees by viewing our short, simple educational modules, and document the required understanding for proper disclosure of the surveys they conduct.”

Essas empresas têm o nome divulgado na rede da AAPOR, e é de interesse dos próprios funcionários pressionarem para que sua empresa faça parte da iniciativa (veja aqui).

Também discute-se muito a metodologia em si, que está sempre evoluindo, acompanhando as novas tecnologias – telefônicas, cadastro duplo fixo+celular, online. No Brasil, fazemos pesquisas essencialmente da mesma forma a 35 anos.

Por outro lado, nesse ano serão as eleições presidenciais argentinas, as quais o PollingData está acompanhando. Tenho tido muita dificuldade pra conseguir informações básicas sobre as pesquisas divulgadas na mídia. Muitas vezes não consigo descobrir nem data de realização da pesquisa nem o tamanho da amostra, pior ainda se estou procurando detalhes metodológicos (em breve farei um post sobre essas dificuldades). Desse ponto de vista, acho que o registro obrigatório das pesquisas e a regulamentação sobre como devem ser divulgadas ajudam, mas não acredito que sejam suficientes para estimular a melhoria contínua da qualidade das pesquisas.

Friday, September 11, 2015

Amostragem Probabilistica existe? Parte III

Na semana passada, eu mandei o conteúdo do meu post "Amostragem Probabilistica existe? Parte II" por email para a rede da ABE. Dois emails foram enviados em resposta.

O primeiro apenas disse que:

”Os livros de estatística dizem que existe e dizem também que nem toda a amostra é probabilística. Alertam, porém, que inferência estatística, só nas probabilísticas.”

Como resposta apenas citei o Yogi Berra, que foi um jogador de beisebol famoso pelas frases de efeito, ao estilo do ex-presidente do Corinthians, o Vicente Matheus. A frase dele abaixo explica bem porque alguns livros teoricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam:

"In theory there is no difference between theory and practice. In practice there is." - Yogi Berra

O segundo email foi ótimo, discutindo de fato o problema levantado pelo artigo do Gelman:

“Se é verdade que a não resposta complica a vida de qualquer amostra, inclusive as probabilísticas, afirmar que amostragem probabilística não existe é negar uma forma de pensar e modelar que é muito bem sucedida em resolver problemas em várias áreas do conhecimento.

O Neale cita um parágrafo em que o autor afirma isso num cenário em que as taxas de resposta são inferiores a 10%.

Em primeiro lugar, há muitas pesquisas por amostragem probabilística em que não ocorre não resposta, pois os pesquisadores simplesmente vão observar ou medir unidades que estão disponíveis, apenas são muito numerosas para se pesquisar por um censo.

Aqui no Brasil, as pesquisas domiciliares do IBGE, por exemplo, costumam ter taxas de resposta superiores a 90%.

Então a afirmação do Gelman não se aplica, e amostragem probabilística poderia existir nesse caso... Como para existir basta um caso, o 'teorema' do Gelman está rejeitado.

É verdade que tem gente que afirma que não há como fazer inferência com amostras não probabilísticas. O que eu digo é que não vale querer aplicar os métodos desenvolvidos para amostras probabilísticas para amostras que não satisfazem os requisitos destas. O importante em qualquer caso é explicitar o referencial ou modelo que justifica as inferências. Aí tem espaço para todos, sem necessidade de uns ficarem excluindo os outros (modelos, métodos, etc.).”

Segue abaixo a minha resposta:

“A primeira frase do paragrafo e' "In real life there are no probability samples of humans." , ou seja, nesse contexto as unidades geralmente não que estão disponíveis. Mas concordo que em alguns casos de populacoes fechadas talvez seja possivel conseguir uma amostra probabilistica com taxa de nao-resposta de 0% (porem eu nunca vi uma), como por exemplo com funcionarios de uma empresa. Nao e' o caso de pesquisas de opiniao publica.

De fato, o IBGE consegue taxas de resposta bem altas, isso requer bastante tempo, dinheiro e planejamento (e eu acredito que devida a importancia dessas pesquisas, e' um bom investimento). Mas mesmo com uma taxa de ~90%, ainda estamos fazendo suposicoes sobre as probabilidades dos respondentes pertencerem a amostra. Estritamente falando, nao e' uma amostra probabilistica. Claro que as suposicoes e os potenciais impactos da nao-resposta sao menores do que nos casos citados pelo Gelman.

Meu ponto e': nao acredito que a classificacao das amostras em probabilistica / nao-probabilistica seja tao obvia, preto/branco. A maioria delas sao, de fato, cinza. E isso esta diretamente relacionado a escolha do modelo, método, etc como comentou o Pedro no ultimo paragrafo.”

Adoro discutir sobre a existência ou não de amostragem probabilística. Acho que aproxima a teoria e a prática, e é uma forma de diminuir essa diferença que o Yogi Berra descreveu perfeitamente!

Thursday, September 3, 2015

Oportunidades perdidas

No começo do ano, devido a crise e ao final do ciclo eleitoral, eu tive bastante tempo pra pensar sobre novos projetos, sobre o que fazer com o PollingData em anos sem eleições, etc...

Na mesma época houveram várias discussões sobre o orçamento federal, sobre o tamanho da dívida interna, e assuntos relacionados. Ai tive uma idéia: vou fazer um gráfico, interativo, que permite aos usuários do site entenderem como o nosso dinheiro é gasto pelo governo.

Investi algum tempo nisso. Encontrei o tipo de gráfico ideal, que permite que a hierarquia desses gastos seja explorada, que pode ser customizado para ter uma aparência agradável, e de fácil uso: Zoomable TreeMap. Veja um exemplo aqui.

Encontrei uma biblioteca do R que me permitia fazer esse gráfico (GoogleVis), encontrei os dados de gastos públicos e entendi como estavam estruturados. Encontrei um biblioteca em javascript que formata os gastos corretamente (accounting.js). Só tive um problema para publicar os resultados no site: não consegui trabalhar com as legendas de cada célula do gráfico da forma que eu queria. Nesse gráfico, podemos fazer aparecer mais de um nível da hierárquia ao mesmo tempo, porém eu queria mostrar as legendas somente do primeiro nível, e não do segundo nível.

Nesse impasse, passou-se algum tempo, a quantidade de trabalho aumentou, e eu não consegui mais retomar esse projeto. Na semana passada, assistindo ao programa “Navegador” da GloboNews, descobri que a Diretoria de Análise de Políticas Públicas (DAPP) da FGV havia feito exatamente esse mesmo gráfico, com os labels corretos. Ficou bem legal o que eles fizeram. Segue o link.

Não sei a quanto tempo esse site está no ar, talvez estivesse desde antes da minha idéia. Mas quando você descobre que alguém teve a mesma idéia que você, e que além disso, ela já foi executada (e bem!), a sensação que fica é uma mistura de inveja e de satisfação. Inveja, pois dado que eu também tive essa idéia, gostaria de ter terminado o projeto. Mas vou finalizar o post focando na satisfação: mesmo não sendo a minha versão, é uma ótima sensação saber que eu tive uma boa idéia, e que agora ela estará acessível para todos que quiserem explorar esses dados. Afinal de contas, esse era o objetivo do projeto! Visitem o site da FGV, ele é bem bacana!!!

Tuesday, September 1, 2015

Amostragem Probabilistica existe? Parte II

Não tenho tido muito tempo pra escrever no blog do PollingData. Pra compensar, vou reproduzir parte de um artigo escrito pelo Gelman que foi publicado no Washington Post sobre pesquisas eleitorais. O começo do artigo discute alguns detalhes metodológicos sobre pesquisas telefônicas/online feitas nos EUA. Mas o final vale pra qualquer lugar, qualquer metodologia. Segue um parágrafo que eu gosto bastante, que resume também minha opiniao sobre a existência de amostragem probabilística (em inglês):

"In real life there are no probability samples of humans. With survey response rates below 10 percent, there is no way to know the probability of an individual being included in the sample. You can know the probability that the survey organization will try to reach a person — that’s easy, it just depends on exactly how the address or telephone number or e-mail is sampled from a given list. But it’s impossible to know the probability that this person will actually be included in the sample, as this depends on the probability that the person is reached, multiplied by the probability that he or she agrees to respond, given that he or she is reached. And neither of these two probabilities is ever known"

Link para o artigo:

http://www.washingtonpost.com/blogs/monkey-cage/wp/2015/08/31/heres-why-you-should-worry-about-the-polls-for-the-2016-u-s-elections-and-beyond/

Polling Data