Na semana passada, eu mandei o conteúdo do
meu post "Amostragem
Probabilistica existe? Parte II" por
email para a rede da ABE. Dois emails foram enviados em resposta.
O primeiro apenas disse que:
”Os livros de estatística dizem que existe e dizem também que nem
toda a amostra é probabilística. Alertam, porém, que inferência estatística, só
nas probabilísticas.”
Como resposta apenas citei o Yogi Berra,
que foi um jogador de beisebol famoso pelas frases de efeito, ao estilo
do ex-presidente do Corinthians, o Vicente Matheus. A frase dele abaixo explica
bem porque alguns livros teoricos de amostragem nem sempre discutem a
nao-resposta da forma como deveriam:
"In theory there is
no difference between theory and practice. In practice there is." - Yogi
Berra
O segundo email foi ótimo, discutindo de
fato o problema levantado pelo artigo do Gelman:
“Se é verdade que a não resposta complica a vida de
qualquer amostra, inclusive as probabilísticas, afirmar que amostragem
probabilística não existe é negar uma forma de pensar e modelar que é muito bem
sucedida em resolver problemas em várias áreas do conhecimento.
O Neale cita um parágrafo em que o autor afirma isso num
cenário em que as taxas de resposta são inferiores a 10%.
Em primeiro lugar, há muitas pesquisas por amostragem
probabilística em que não ocorre não resposta, pois os pesquisadores
simplesmente vão observar ou medir unidades que estão disponíveis, apenas são
muito numerosas para se pesquisar por um censo.
Aqui no Brasil, as pesquisas domiciliares do IBGE, por
exemplo, costumam ter taxas de resposta superiores a 90%.
Então a afirmação do Gelman não se aplica, e amostragem
probabilística poderia existir nesse caso... Como para existir basta um caso, o
'teorema' do Gelman está rejeitado.
É verdade que tem gente que afirma que não há como
fazer inferência com amostras não probabilísticas. O que eu digo é que não vale
querer aplicar os métodos desenvolvidos para amostras probabilísticas para
amostras que não satisfazem os requisitos destas. O importante em qualquer caso
é explicitar o referencial ou modelo que justifica as inferências. Aí tem
espaço para todos, sem necessidade de uns ficarem excluindo os outros (modelos,
métodos, etc.).”
Segue abaixo a minha resposta:
“A primeira frase do paragrafo e' "In real life there
are no probability samples of humans." , ou seja, nesse contexto as
unidades geralmente não que estão disponíveis. Mas concordo que em alguns casos
de populacoes fechadas talvez seja possivel conseguir uma amostra
probabilistica com taxa de nao-resposta de 0% (porem eu nunca vi uma), como por
exemplo com funcionarios de uma empresa. Nao e' o caso de pesquisas de opiniao
publica.
De fato, o IBGE consegue taxas de resposta bem altas, isso
requer bastante tempo, dinheiro e planejamento (e eu acredito que devida a
importancia dessas pesquisas, e' um bom investimento). Mas mesmo com uma taxa
de ~90%, ainda estamos fazendo suposicoes sobre as probabilidades dos
respondentes pertencerem a amostra. Estritamente falando, nao e' uma amostra
probabilistica. Claro que as suposicoes e os potenciais impactos da
nao-resposta sao menores do que nos casos citados pelo Gelman.
Meu ponto e': nao acredito que a classificacao das amostras
em probabilistica / nao-probabilistica seja tao obvia, preto/branco. A maioria
delas sao, de fato, cinza. E isso esta diretamente relacionado a escolha do
modelo, método, etc como comentou o Pedro no ultimo paragrafo.”
Adoro discutir sobre a existência ou não
de amostragem probabilística. Acho que aproxima a teoria e a prática, e é
uma forma de diminuir essa diferença que o Yogi Berra descreveu
perfeitamente!
Neale, até quando vamos precisar discutir a distinção entre probabilidade de seleção (que é o que realmente define se uma amostra é probabílistica ou não, ver definição em Särdnal et al 1992 ou Cochran 1953) e probabilidade de resposta (associado ao mecanismo de não-resposta)? Eu entendo que seu ponto é mais prático do que teórico, mas se você realmente quer discutir sobre a existência ou não de amostras probabílisticas, você precisa definir o que ela é. Tal definição já existe e está bem definida, como referido acima. E seguindo tal definição, a resposta é bem clara ;)
ReplyDeleteAgora, quanto ao seu primeiro ponto sobre porque alguns livros teóricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam, talvez Lars Lyberg tenha dado a resposta em uma das seções no TSE Conference. Ele disse que pelo menos nos primórdios da amostragem, quando ainda estavam estabelecendo sua prática e teoria, alguns pesquisadores intencionalmente procuravam não enfatizar outros erros não-amostrais, justamente para tentar estabelecer e disseminar os conceitos de amostragem e erros amostrais. É verdade que esses tempos já passaram e livros mais recentes não tem essa desculpa. Mas acho que a maioria dos livros de amostragem e métodos de pesquisa mais recentes têm feito um bom trabalho com erros não-amostrais.
Ahn, por fim, vale lembrar que a grande maioria de pesquisadores que desenvolveram a teoria de amostragem probabilística era também pessoas que trabalhavam na prática com surveys e que desenvolveram tais metodos justamente para resolver problemas práticos em enfrentavam em seus trabalhos. Logo, acho que não faz muito sentido dizer que existe uma grande diferença entre a teoria e a prática em amostragem, uma vez que sua teoria foi justamente desenvolvida para resolver problemas práticos.
Raphael, respondi ao seu comentário num novo post:
Deletehttp://sleekdata.blogspot.com.br/2015/09/amostragem-probabilistica-existe-parte_30.html