O meu post mais recente sobre a
existência de amostragem probabilística de populações humanas (
link)
teve um comentário. Como o cometário é bom, ao invês de apenas respondê-lo no
post anterior, resolvi incluí-lo aqui e escrever um novo post.
O comentário foi postado pelo
Raphael, que conhece amostragem e sabe muito bem do que está falando. Segue o
comentário dele:
“Neale, até quando vamos precisar discutir a distinção entre
probabilidade de seleção (que é o que realmente define se uma amostra é
probabílistica ou não, ver definição em Särdnal et al 1992 ou Cochran 1953) e
probabilidade de resposta (associado ao mecanismo de não-resposta)? Eu entendo
que seu ponto é mais prático do que teórico, mas se você realmente quer
discutir sobre a existência ou não de amostras probabílisticas, você precisa
definir o que ela é. Tal definição já existe e está bem definida, como referido
acima. E seguindo tal definição, a resposta é bem clara ;)
Agora, quanto ao seu primeiro ponto sobre
porque alguns livros teóricos de amostragem nem sempre discutem a nao-resposta
da forma como deveriam, talvez Lars Lyberg tenha dado a resposta em uma das
seções no TSE Conference. Ele disse que pelo menos nos primórdios da
amostragem, quando ainda estavam estabelecendo sua prática e teoria, alguns
pesquisadores intencionalmente procuravam não enfatizar outros erros
não-amostrais, justamente para tentar estabelecer e disseminar os conceitos de
amostragem e erros amostrais. É verdade que esses tempos já passaram e livros
mais recentes não tem essa desculpa. Mas acho que a maioria dos livros de
amostragem e métodos de pesquisa mais recentes têm feito um bom trabalho com
erros não-amostrais.
Ahn, por fim, vale lembrar que a grande maioria
de pesquisadores que desenvolveram a teoria de amostragem probabilística era
também pessoas que trabalhavam na prática com surveys e que desenvolveram tais
metodos justamente para resolver problemas práticos em enfrentavam em seus trabalhos.
Logo, acho que não faz muito sentido dizer que existe uma grande diferença
entre a teoria e a prática em amostragem, uma vez que sua teoria foi justamente
desenvolvida para resolver problemas práticos.”
O Raphael faz um ponto
importante. Pra entendê-lo corretamente, é preciso olhar a definição de
amostragem probabilística:
“Amostragem probabilística é um esquema de amostragem onde todas as
unidades populacionais (pessoas nesse caso) têm uma probabilidade conhecida (positiva
e calculável) de serem incluídas na amostra”
Nessa definição fica claro que
para o processo de seleção da amostra ser classificado como “amostragem
probabilística” é necessário conhecer as
probabilidades de inclusão. Ou seja, se
repetirmos o processo de seleção da amostra infinitas vezes, temos que saber entre
todas amostras obtidas, exatamente em quantas cada pessoa estará.
Na prática, o problema ocorre
porque pessoas não são obrigadas a responder, e se recusam a participar das
pesquisas para as quais foram selecionadas. Existem estudos mostrando que, hoje
em dia, a taxa de não-resposta (taxa de recusa) chega a mais de 90% (
link).
O argumento do Raphael é que
temos que separar as duas “etapas”: o mecanismo de seleção da amostra e o
mecanismo de resposta são distintos. E pensando assim, você pode afirmar que
existe a amostra probabilística (a primeira etapa). Porém, depois de selecionada
essa amostra probabilística, o mecanismo de resposta entra em ação, e altera a
amostra probabilística. Em resumo, usando uma frase minha que o Raphael não
gosta: a amostra nasce probabilística, porém morre não-probabilística....rsrsrs
Na argumentação sobre a
existência da amostragem probabilística, eu não faço distinção entre esses dois
mecanismos, para mim você pode até planejar a amostra probabilística, porém
nunca vai conseguir analisar/observar uma. Entendo que essa distinção ajuda somente para
pensar em modelos estatísticos para corrigir a não-resposta, que no final das
contas são as suposições que o analista faz. Meu “posicionamento oficial” é de que não existem amostras probabilísticas de populações humanas SEM SUPOSIÇÕES.
Acredito que no fundo, o que
importa para o Raphael (me corrige se eu estiver errado) é distinguir amostras que
ao menos “nascem probabilísticas” daquelas que já nascem “não-probabilísticas”,
visto que todas as pesquisas serão afetadas pelo mecanismo de resposta.
Implicitamente, ele está afirmando que as primeiras são melhores que as últimas,
e merecem ser distinguidas por esse motivo. Eu não tenho problemas com essa
distinção, até porque acredito que no caso das primeiras são feitas menos
suposições do que no caso das últimas. Porém esse argumento não altera minha
posição, ainda é necessário fazer suposições.
Eu e o Raphael já discutimos
sobre esse tema diversas vezes (em público e em particular), e ele sempre
me fala que o problema com os meus argumentos é que eu estou confundindo os mecanismos
de seleção e de não-resposta. Ao escrever esse post, fiquei pensando sobre isso.
Será que de fato é possível separar esses dois mecanismos?
Na prática, pensando em amostras
de tamanho fixo, quando uma pessoa selecionada para participar da pesquisa se
recusa a responder, ela é substituída por outra pessoa. Ou seja, seleciona-se
um novo respondente seguindo critérios pré-estabelecidos. Pra facilitar meus
argumentos abaixo, vamos pensar a amostra obtida como constituída por dois
grupos distintos: aqueles respondentes que foram inicialmente selecionados e
que responderam a pesquisa, e todos os outros respondentes que estão na amostra
porque substituíram pessoas selecionadas que se recusaram a responder.
Conceitualmente, como um
respondente substituto somente participa da pesquisa se houver uma recusa, me
parece evidente que as probabilidades de inclusão dessas pessoas dependem explicitamente
da probabilidade da pessoa originalmente selecionada responder. Assim, para
esse grupo de respondentes, não é possível separar o mecanismo de seleção do
mecanismo de resposta. Consequentemente, as probabilidades de inclusão são
desconhecidas, e como esse grupo faz parte do universo sendo analisado, nenhuma
amostra desse universo pode ser denominada de probabilística.
Mas vamos flexibilizar a
definição de amostra probabilística, e supor que só é preciso conhecer a
probabilidade de inclusão das pessoas que estão de fato na amostra. Vamos então
excluir esse grupo de substitutos da nossa amostra, e trabalhar somente com o
outro grupo de respondentes, os que foram inicialmente selecionados e de fato aceitaram
participar da pesquisa. Ou seja, na busca de uma amostra de fato probabilística,
sem suposições, vamos descartar todos os respondentes que dependeram explicitamente
da probabilidade de resposta para estarem na pesquisa.
Apenas para deixar um ponto claro:
se o mecanismo de não-resposta for estocástico, essa sub-amostra terá que ter tamanho aleatório. Qualquer
sub-amostra de respondentes com tamanho fixo acaba voltando ao caso anterior,
com substituições. Enfatizo esse ponto porque podemos alterar o argumento
acima, e afirmar que não serão feitas substituições. Ao invés disso,
seleciona-se uma amostra maior do que a desejada, de forma que o número
esperado de respondentes após a “aplicação” do mecanismo de não-resposta seja o
desejado. Tudo bem usar essa argumentação, porém ela só vale se o tamanho da
amostra for aleatório. E nesse caso, chegamos no mesmo ponto, da amostra apenas
com os respondentes inicialmente selecionados.
Será então, que trabalhando somente
com essa sub-amostra, podemos argumentar que as probabilidades de inclusão são
conhecidas? Se o mecanismo de não-resposta for estocástico, eu acredito que
não. As probabilidades de inclusão foram inicialmente calculadas como sendo a
proporção de vezes que cada pessoa pertenceria a amostra se o processo de
seleção da amostra fosse repetido infinitas vezes. Porém, trabalhando somente com
esse sub-grupo, elas teriam que ser re-calculadas para considerar apenas a
amostra dos não-substitutos. E pra re-calcular essas probabilidades, dependemos
da probabilidade de resposta, que é desconhecida. Ou seja, mesmo flexibilizando a definição de amostragem probabilística, as mesmas continuam não existindo para populações humanas, sem fazermos algum tipo de suposição sobre o mecanismo de resposta.
Quanto a primeira pergunta do
Raphael, sobre quanto tempo discutiremos sobre isso, acredito que a resposta é "para
sempre" ;)