Polling Data: Amostragem Probabilistica existe? Parte IV

O meu post mais recente sobre a existência de amostragem probabilística de populações humanas (link) teve um comentário. Como o cometário é bom, ao invês de apenas respondê-lo no post anterior, resolvi incluí-lo aqui e escrever um novo post.

O comentário foi postado pelo Raphael, que conhece amostragem e sabe muito bem do que está falando. Segue o comentário dele:

“Neale, até quando vamos precisar discutir a distinção entre probabilidade de seleção (que é o que realmente define se uma amostra é probabílistica ou não, ver definição em Särdnal et al 1992 ou Cochran 1953) e probabilidade de resposta (associado ao mecanismo de não-resposta)? Eu entendo que seu ponto é mais prático do que teórico, mas se você realmente quer discutir sobre a existência ou não de amostras probabílisticas, você precisa definir o que ela é. Tal definição já existe e está bem definida, como referido acima. E seguindo tal definição, a resposta é bem clara ;)

Agora, quanto ao seu primeiro ponto sobre porque alguns livros teóricos de amostragem nem sempre discutem a nao-resposta da forma como deveriam, talvez Lars Lyberg tenha dado a resposta em uma das seções no TSE Conference. Ele disse que pelo menos nos primórdios da amostragem, quando ainda estavam estabelecendo sua prática e teoria, alguns pesquisadores intencionalmente procuravam não enfatizar outros erros não-amostrais, justamente para tentar estabelecer e disseminar os conceitos de amostragem e erros amostrais. É verdade que esses tempos já passaram e livros mais recentes não tem essa desculpa. Mas acho que a maioria dos livros de amostragem e métodos de pesquisa mais recentes têm feito um bom trabalho com erros não-amostrais.

Ahn, por fim, vale lembrar que a grande maioria de pesquisadores que desenvolveram a teoria de amostragem probabilística era também pessoas que trabalhavam na prática com surveys e que desenvolveram tais metodos justamente para resolver problemas práticos em enfrentavam em seus trabalhos. Logo, acho que não faz muito sentido dizer que existe uma grande diferença entre a teoria e a prática em amostragem, uma vez que sua teoria foi justamente desenvolvida para resolver problemas práticos.”

O Raphael faz um ponto importante. Pra entendê-lo corretamente, é preciso olhar a definição de amostragem probabilística:

“Amostragem probabilística é um esquema de amostragem onde todas as unidades populacionais (pessoas nesse caso) têm uma probabilidade conhecida (positiva e calculável) de serem incluídas na amostra”

Nessa definição fica claro que para o processo de seleção da amostra ser classificado como “amostragem probabilística” é necessário conhecer as probabilidades de inclusão. Ou seja, se repetirmos o processo de seleção da amostra infinitas vezes, temos que saber entre todas amostras obtidas, exatamente em quantas cada pessoa estará.

Na prática, o problema ocorre porque pessoas não são obrigadas a responder, e se recusam a participar das pesquisas para as quais foram selecionadas. Existem estudos mostrando que, hoje em dia, a taxa de não-resposta (taxa de recusa) chega a mais de 90% (link).

O argumento do Raphael é que temos que separar as duas “etapas”: o mecanismo de seleção da amostra e o mecanismo de resposta são distintos. E pensando assim, você pode afirmar que existe a amostra probabilística (a primeira etapa). Porém, depois de selecionada essa amostra probabilística, o mecanismo de resposta entra em ação, e altera a amostra probabilística. Em resumo, usando uma frase minha que o Raphael não gosta: a amostra nasce probabilística, porém morre não-probabilística....rsrsrs

Na argumentação sobre a existência da amostragem probabilística, eu não faço distinção entre esses dois mecanismos, para mim você pode até planejar a amostra probabilística, porém nunca vai conseguir analisar/observar uma. Entendo que essa distinção ajuda somente para pensar em modelos estatísticos para corrigir a não-resposta, que no final das contas são as suposições que o analista faz. Meu “posicionamento oficial” é de que não existem amostras probabilísticas de populações humanas SEM SUPOSIÇÕES.

Acredito que no fundo, o que importa para o Raphael (me corrige se eu estiver errado) é distinguir amostras que ao menos “nascem probabilísticas” daquelas que já nascem “não-probabilísticas”, visto que todas as pesquisas serão afetadas pelo mecanismo de resposta. Implicitamente, ele está afirmando que as primeiras são melhores que as últimas, e merecem ser distinguidas por esse motivo. Eu não tenho problemas com essa distinção, até porque acredito que no caso das primeiras são feitas menos suposições do que no caso das últimas. Porém esse argumento não altera minha posição, ainda é necessário fazer suposições.

Eu e o Raphael já discutimos sobre esse tema diversas vezes (em público e em particular), e ele sempre me fala que o problema com os meus argumentos é que eu estou confundindo os mecanismos de seleção e de não-resposta. Ao escrever esse post, fiquei pensando sobre isso. Será que de fato é possível separar esses dois mecanismos?

Na prática, pensando em amostras de tamanho fixo, quando uma pessoa selecionada para participar da pesquisa se recusa a responder, ela é substituída por outra pessoa. Ou seja, seleciona-se um novo respondente seguindo critérios pré-estabelecidos. Pra facilitar meus argumentos abaixo, vamos pensar a amostra obtida como constituída por dois grupos distintos: aqueles respondentes que foram inicialmente selecionados e que responderam a pesquisa, e todos os outros respondentes que estão na amostra porque substituíram pessoas selecionadas que se recusaram a responder.

Conceitualmente, como um respondente substituto somente participa da pesquisa se houver uma recusa, me parece evidente que as probabilidades de inclusão dessas pessoas dependem explicitamente da probabilidade da pessoa originalmente selecionada responder. Assim, para esse grupo de respondentes, não é possível separar o mecanismo de seleção do mecanismo de resposta. Consequentemente, as probabilidades de inclusão são desconhecidas, e como esse grupo faz parte do universo sendo analisado, nenhuma amostra desse universo pode ser denominada de probabilística.

Mas vamos flexibilizar a definição de amostra probabilística, e supor que só é preciso conhecer a probabilidade de inclusão das pessoas que estão de fato na amostra. Vamos então excluir esse grupo de substitutos da nossa amostra, e trabalhar somente com o outro grupo de respondentes, os que foram inicialmente selecionados e de fato aceitaram participar da pesquisa. Ou seja, na busca de uma amostra de fato probabilística, sem suposições, vamos descartar todos os respondentes que dependeram explicitamente da probabilidade de resposta para estarem na pesquisa.

Apenas para deixar um ponto claro: se o mecanismo de não-resposta for estocástico, essa sub-amostra terá que ter tamanho aleatório. Qualquer sub-amostra de respondentes com tamanho fixo acaba voltando ao caso anterior, com substituições. Enfatizo esse ponto porque podemos alterar o argumento acima, e afirmar que não serão feitas substituições. Ao invés disso, seleciona-se uma amostra maior do que a desejada, de forma que o número esperado de respondentes após a “aplicação” do mecanismo de não-resposta seja o desejado. Tudo bem usar essa argumentação, porém ela só vale se o tamanho da amostra for aleatório. E nesse caso, chegamos no mesmo ponto, da amostra apenas com os respondentes inicialmente selecionados.

Será então, que trabalhando somente com essa sub-amostra, podemos argumentar que as probabilidades de inclusão são conhecidas? Se o mecanismo de não-resposta for estocástico, eu acredito que não. As probabilidades de inclusão foram inicialmente calculadas como sendo a proporção de vezes que cada pessoa pertenceria a amostra se o processo de seleção da amostra fosse repetido infinitas vezes. Porém, trabalhando somente com esse sub-grupo, elas teriam que ser re-calculadas para considerar apenas a amostra dos não-substitutos. E pra re-calcular essas probabilidades, dependemos da probabilidade de resposta, que é desconhecida. Ou seja, mesmo flexibilizando a definição de amostragem probabilística, as mesmas continuam não existindo para populações humanas, sem fazermos algum tipo de suposição sobre o mecanismo de resposta.

Quanto a primeira pergunta do Raphael, sobre quanto tempo discutiremos sobre isso, acredito que a resposta é "para sempre" ;)

Polling Data

Wednesday, September 30, 2015

Amostragem Probabilistica existe? Parte IV

No comments:

Post a Comment

Blog Archive

About Me