Friday, September 11, 2015

Amostragem Probabilistica existe? Parte III

Na semana passada, eu mandei o conteúdo do meu post "Amostragem Probabilistica existe? Parte II" por email para a rede da ABE.  Dois emails foram enviados em resposta.
O primeiro apenas disse que:

Os livros de estatística dizem que existe e dizem também que nem toda a amostra é probabilística. Alertam, porém, que inferência estatística, só nas probabilísticas.”

Como resposta apenas citei o Yogi Berra, que  foi um jogador de beisebol famoso pelas frases de efeito, ao estilo do ex-presidente do Corinthians, o Vicente Matheus. A frase dele abaixo explica bem porque alguns livros teoricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam:

"In theory there is no difference between theory and practice. In practice there is." - Yogi Berra

O segundo email foi ótimo, discutindo de fato o problema levantado pelo artigo do Gelman:

“Se é verdade que a não resposta complica a vida de qualquer amostra, inclusive as probabilísticas, afirmar que amostragem probabilística não existe é negar uma forma de pensar e modelar que é muito bem sucedida em resolver problemas em várias áreas do conhecimento.
O Neale cita um parágrafo em que o autor afirma isso num cenário em que as taxas de resposta são inferiores a 10%.

Em primeiro lugar, há muitas pesquisas por amostragem probabilística em que não ocorre não resposta, pois os pesquisadores simplesmente vão observar ou medir unidades que estão disponíveis, apenas são muito numerosas para se pesquisar por um censo.
Aqui no Brasil, as pesquisas domiciliares do IBGE, por exemplo, costumam ter taxas de resposta superiores a 90%.

Então a afirmação do Gelman não se aplica, e amostragem probabilística poderia existir nesse caso... Como para existir basta um caso, o 'teorema' do Gelman está rejeitado.

É verdade que  tem gente que afirma que não há como fazer inferência com amostras não probabilísticas. O que eu digo é que não vale querer aplicar os métodos desenvolvidos para amostras probabilísticas para amostras que não satisfazem os requisitos destas. O importante em qualquer caso é explicitar o referencial ou modelo que justifica as inferências. Aí tem espaço para todos, sem necessidade de uns ficarem excluindo os outros (modelos, métodos, etc.).”

Segue abaixo a minha resposta:

“A primeira frase do paragrafo e' "In real life there are no probability samples of humans." , ou seja, nesse contexto as unidades geralmente não que estão disponíveis. Mas concordo que em alguns casos de populacoes fechadas talvez seja possivel conseguir uma amostra probabilistica com taxa de nao-resposta de 0% (porem eu nunca vi uma), como por exemplo com funcionarios de uma empresa. Nao e' o caso de pesquisas de opiniao publica.

De fato, o IBGE consegue taxas de resposta bem altas, isso requer bastante tempo, dinheiro e planejamento (e eu acredito que devida a importancia dessas pesquisas, e' um bom investimento). Mas mesmo com uma taxa de ~90%, ainda estamos fazendo suposicoes sobre as probabilidades dos respondentes pertencerem a amostra. Estritamente falando, nao e' uma amostra probabilistica. Claro que as suposicoes e os potenciais impactos da nao-resposta sao menores do que nos casos citados pelo Gelman.

Meu ponto e': nao acredito que a classificacao das amostras em probabilistica / nao-probabilistica seja tao obvia, preto/branco. A maioria delas sao, de fato, cinza. E isso esta diretamente relacionado a escolha do modelo, método, etc como comentou o Pedro no ultimo paragrafo.”
  
Adoro discutir sobre a existência ou não de amostragem probabilística. Acho que aproxima a teoria e a prática,  e é uma forma de diminuir essa diferença que o Yogi Berra descreveu perfeitamente! 


2 comments:

  1. Neale, até quando vamos precisar discutir a distinção entre probabilidade de seleção (que é o que realmente define se uma amostra é probabílistica ou não, ver definição em Särdnal et al 1992 ou Cochran 1953) e probabilidade de resposta (associado ao mecanismo de não-resposta)? Eu entendo que seu ponto é mais prático do que teórico, mas se você realmente quer discutir sobre a existência ou não de amostras probabílisticas, você precisa definir o que ela é. Tal definição já existe e está bem definida, como referido acima. E seguindo tal definição, a resposta é bem clara ;)

    Agora, quanto ao seu primeiro ponto sobre porque alguns livros teóricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam, talvez Lars Lyberg tenha dado a resposta em uma das seções no TSE Conference. Ele disse que pelo menos nos primórdios da amostragem, quando ainda estavam estabelecendo sua prática e teoria, alguns pesquisadores intencionalmente procuravam não enfatizar outros erros não-amostrais, justamente para tentar estabelecer e disseminar os conceitos de amostragem e erros amostrais. É verdade que esses tempos já passaram e livros mais recentes não tem essa desculpa. Mas acho que a maioria dos livros de amostragem e métodos de pesquisa mais recentes têm feito um bom trabalho com erros não-amostrais.

    Ahn, por fim, vale lembrar que a grande maioria de pesquisadores que desenvolveram a teoria de amostragem probabilística era também pessoas que trabalhavam na prática com surveys e que desenvolveram tais metodos justamente para resolver problemas práticos em enfrentavam em seus trabalhos. Logo, acho que não faz muito sentido dizer que existe uma grande diferença entre a teoria e a prática em amostragem, uma vez que sua teoria foi justamente desenvolvida para resolver problemas práticos.

    ReplyDelete
    Replies
    1. Raphael, respondi ao seu comentário num novo post:

      http://sleekdata.blogspot.com.br/2015/09/amostragem-probabilistica-existe-parte_30.html

      Delete