Wednesday, September 24, 2014

Amostragem probabilística existe?

Em algum post passado, mencionamos que faríamos alguns posts sobre amostragem. Esse será o primeiro deles. Primeiramente, vamos definir o que é amostragem probabilistica no contexto de pesquisas de opinião pública: “Amostragem probabilística é um método de amostragem onde todas as pessoas têm uma probabilidade positiva e conhecida de pertencer a amostra”. Essa difinição vem de livros teóricos de amostragem. Ela implica que para fazer amostragem exatamente como a teoria diz, seria necessário que toda a população de interesse pudesse ser encontrada e estivesse totalmente disposta a responder a pesquisa. E além disso, seria necessário tempo e dinheiro ilimitados.

Recentemente saiu na mídia a seguinte reportagem nesse link.  A conclusão principal do estatístico entrevistado é de que: 

‘as pesquisas eleitorais contém “problemas sérios”, em grande parte por causa da margem de erro, e, por isso, deveriam ser "vetadas"’. 

O argumento principal para que as pesquisas sejam banidas é: 

que os institutos se valem de uma “amostragem não probabilística", ou seja, a maneira pela qual os entrevistados são encontrados recai sob o julgamento do pesquisador, e não sob uma forma totalmente aleatória. Isso ocorre porque é mais rápido, barato e fácil do que realizar uma“amostragem probabilística”, na qual cada eleitor teria a mesma probabilidade de ser selecionado.

Ou seja, argumentação é a seguinte: os institutos de pesquisa não fazem pesquisa como está escrito nos livros (teóricos) porque é muito mais conveniente fazer um tipo de amostragem chamada de amostragem por cotas (em ponto de fluxo). Nessa metodologia os entrevistadores fazem suas entrevistas em locais onde há um grande fluxo de pessoas (terminais metropolitanos, centros comercias, etc).

Eu discordo desses argumentos. Em primeiro lugar, não é possível fazer amostragem de populações humanas como está descrito nos livros. Não é uma opção, é uma impossibilidade. Existem várias dificuldades de implementar esse tipo de metodologia: pessoas se recusam a participar, pessoas não são encontradas, não sabemos onde todas as pessoas residem etc… Em segundo lugar, a maioria dos institutos não utilizam esse tipo de amostragem sugerida na reportagem. Utilizam um outro tipo denominado Amostragem Probabilistica com Cotas (APC), que descreveremos mais adiante.

Enviaram para a lista de emails da ABE (Associação Brasileira de Estatística) o link com essa reportagem citada acima. Segue abaixo o email que enviamos para a lista para discutir o tema.  A discussão está interessante. Foram mencionadas 3 críticas relevantes a APC. Quando eu enviar minhas respostas para a lista, também colocarei as perguntas e as respostas num post aqui.

Email enviado para a ABE (foi enviado assim mesmo, sem acento):

Esse email passou em branco quando o Luis enviou, mas eu gostaria de fazer 2 comentarios. O email vai ser um pouco longo, mas eu acredito que esse tema merece ;) 

Primeiramente, segue o link para um relatorio da associacao americana de pesquisa de opiniao publica.  Acho que quem se coloca tanto a favor como contra as pesquisas eleitorais deveria ler o relatorio. Tem muitas referencias, de academicos e pesquisadores, de estatisticos e cientistas sociais, e e' uma discussao seria e interessante. Melhor de tudo e' atual, de 2013:

[Ref1]REPORT OF THE AAPOR TASK FORCE ON NON-PROBABILITY SAMPLING

1- Amostragem Probabilistica -  No contexto de amostragem de populacoes humanas (nao estou falando de populacoes fechadas, como funcionarios de uma empresa), nao existe amostragem probabilistica estritamente falando. Nao estou preocupado aqui em distinguir entre probabilidade de selecao ou probabilidade de resposta. Simplesmente as probabilidades de todos os respondentes na sua "base de dados" nunca sao conhecidas sem suposicoes. Nem o IBGE consegue tal feito, mesmo a populacao sendo obrigada por lei a responder ao questionario e tendo uma infinidade de $$$ se comparado a qualquer instituto de pesquisa particular. Ou seja, se o criterio a ser adotado para que uma pesquisa seja "vetada" e' simplesmente ela nao ser (estritamente) probabilistica, nao sao somente pesquisas eleitorais que devem ser eliminadas, sao absolutamente todas (inclusive as do IBGE). 

Alguem na lista conhece um contra-exemplo - uma amostra de alguma populacao humana onde os dados podem ser analisados sem se fazer uma unica suposicao? Fazer suposicoes/modelos esta em tudo que fazemos como estatisticos. Se vc utiliza uma base de dados sem se preocupar com como ela foi obtida, voce nao esta fazendo seu trabalho direito. Mas isso e' bem diferente de proibir que as pesquisas eleitorais sejam feitas.

2- Amostragem Probabilistica com Cotas - Nao acho que podemos colocar todas as amostras ditas "nao-probabilisticas" no mesmo saco. Claramente algumas sao bem melhores do que as outras.  Se em uma pesquisa existe a preocupacao em reduzir possiveis vicios antes e depois da selecao da amostra, essa pesquisa e' provavelmente melhor do que uma pesquisa que nao se preocupa com isso, por exemplo. A maioria dos institutos de pesquisa que eu conheco NAO utilizam amostragem em ponto de fluxo, pelo menos nao para pesquisas eleitorais/Opiniao publica (com excecao do Datafolha, que eu acho que faz dentro de algumas cidades). A maioria utiliza o que eu chamo de amostragem probabilistica com cotas (APC), onde os primeiros estagios sao probabilisticos, e apenas o ultimo estagio tem cotas (dentro do setor censitario). Nesse ultimo estagio impoem-se restricoes sobre como o entrevistador pode selecionar o respondente. Essa metodologia de pesquisa e' muito bem descrita em: 

[Ref2]Probability SampIing with Quotas: An Experiment (C. BRUCE STEPHENSON)

 onde ale'm de tudo, e' feita uma comparacao minuciosa com  amostragem probabilistica (aquela da pratica, cheia de suposicoes). Esse relatorio mostra que foram observadas bem poucas diferencas com qualquer relevancia pratica. Essencialmente, a maior preocupacao e' que com a APC o tamanho medio dos domicilios e' usualmente maior, algo facilmente corrigido com uma simples ponderacao (e, e' claro, uma suposicao!). Meu ponto e', faz muito mais sentido usar esse artigo [Ref2] e esse tipo de amostragem como referencia para criticas/sugestoes, do que a amostragem por cotas (em ponto de fluxo) que usualmente nao e' utilizada no Brasil. A amostragem por cotas (em ponto de fluxo)  e' comparada com a amostragem probabilistica (aquela da pratica, cheia de suposicoes) nesse artigo abaixo:   

[Ref3]An experimental study of quota sampling (C. A. Moser and A. Stuart)

Coloquei esse artigo [Ref3] para quem tem interesse poder compara-lo com o artigo [Ref2] e ver como as metodologias (e as criticas) sao muito diferentes.

Enfim, eu acho que a distincao entre amostragem probabilistica e nao-probabilistica, em muitos casos e' bem mais sutil do que parece. Vale a pena ler com cuidado a metodologia de qualquer pesquisa, independente desse rotulo. Assim voce ja comeca a formular um modelo para ser utilizado com os dados, e entende melhor quais podem ser o problemas em potencial ao analisar os resultados.

Abraco Neale


5 comments:

  1. Neale, vamos esclarecer isso de uma vez por todas: a definição de amostragem probabilística nos dois livros mais consagrados de amostragem (Cochran e Särndal et al) não falam absolutamente nada sobre a probabilidade de um elemento selecionado na amostra responder ou não a pesquisa (ou seja, a distinção entre mecanismo de seleção amostral e mecanismo de não-resposta é bastante clara). Mas vamos as definições para deixar tudo mais claro:

    Särndal et al (1992), página 9:

    Probability sampling is an approach to sample selection that satisfies certain conditions, which, for the case of selecting elements directly from the population, are described as follows:
    1. We can define the set of samples S = {s1, s2, ..., sM}, that are possible to obtain with the sampling procedure.
    2. A known probability of selection p(s) is associated with each possible sample s.
    3. The procedure gives every element in the population a nonzero probability of selection.
    4. We select one sample by random mechanism which each possible s receives exactly the probability p(s).

    Cochran (1977) página 9:
    The sampling procedure considered in this book have the following mathematical properties in common:
    1. We are able to define the set of distinct samples, S1, S2, ..., Sv, which the procedure is capable of selecting if applied to a specific population. This means we can say precisely what sampling units belong to S1, to S2, and so on. For example, suppose that the population contains six units, numbered 1 to 6. A common procedure for choosing a sample of dize 2 gives three possible candidates - S1~(1,4); S2~(2,5); S3~(3,6). Note that not all possible samples of size 2 need be included.
    2. Each possible sample Si has assigned to it a known probability of selection πi.
    3. We select one of the Si by a random mechanism in which each Si receives its appropriate probability πi of being selected. In the example we might assign equal probabilities to the three samples. Then the draw itself can be made by choosing a random number between 1 and 3. If this number is j, Sj is the sample that is taken.
    4. The method for computing the estimate from the sample must be stated and must lead to a unique estimate for any specific sample. We may declare, for example, that the estimate is to be the average pf the measurements on the individual units in the sample.

    Como você pode ver, ambas as definições são bastante semelhantes e elas apenas utilizam probabilidade de seleção e não probabilidade de resposta. Sim, não-resposta ocorre virtualmente em todas as pesquisas em populações humanas, mas esse é um outro problema, bem distinto do problema de seleção da amostra. Erro amostral nós pelo menos podemos controlar, através do desenho amostral. Não-resposta, assim como outros erros não-amostrais, está fora do controle do estatístico, e por isso recorremos a modelos para resolve-los. Agora, se você quiser discutir os custos, sejam monetários ou temporais, de se se ter o controle do erro amostral através de uma amostragem probabilistica, tudo bem, é um assunto interessante e válido para discussão.

    Enfim, só queria dizer que essa sua afirmação de que "não é possível fazer amostragem de populações humanas como está descrito nos livros" não é verdadeira, como procurei mostrar aqui.

    ReplyDelete
  2. Raphael,

    ja' tivemos essa discussao varias vezes....rsrsrs....mas vamos la. Eu entendo que voce queira distinguir os dois mecanismos, um sob controle do pesquisador (amostra) e outro nao estando sobre o controle dele (resposta). Entendo que pode ser mais facil de criar um modelo para analisar os dados fazendo essa distincao.

    Em termos praticos, mesmo que vc tenha planejado uma amostra probabilistica, a base de dados que vc tem para analisar, no final das contas, nao e' proveniente de uma amostra probabilistica. Meu ponto e': vc nunca vai conseguir analisar uma amostra que seja probabilistica.

    Se vc planeja utilizar os estimadores nao-viciados apresentados no Sarndal, por exemplo, eles dependem das probabilidades de selecao. Se na sua analise da base de dados vc utilizar essas probabilidades, seu estimador sera viciado.

    Acho que o principal ponto de divergencia que temos e' o seguinte: voce argumenta que e' possivel desenhar uma amostra probabilistica. ok, Mas eu argumento que voce nunca vai conseguir analisar uma.

    ReplyDelete
  3. É Neale, eu acho que nunca vamos convencer um ao outro sobre esse assunto e vamos ter que concordar em discordar.... rsrsrs

    Eu entendo o que você quer dizer que na prática não é possível analisar uma amostra probabilística sem se considerar outros erros não-amostrais, como não-resposta, que você costuma focar o problema (apesar de haver outras importantes fontes de erro além da não-resposta). Mas eu acredito que em nenhum momento alguém disse que amostras probabilisticas não precisem de ajustes ou modelos para esse outras fontes de erro. E mesmo livros como Sarndal e Cochran dedicam ao menos um capítulo para falar sobre esses tipos de problemas. Acontece que você ao menos precisa de uma base para poder falar sobre esses outros erros. Parte dessa base são esses estimadores que você menciona. Mas acho que nunca ninguém disse que isso é suficiente para amostras probabilisticas.

    Além disso, quando você diz que "não é possível fazer amostragem de populações humanas como está descrito nos livros. Não é uma opção, é uma impossibilidade" você coloca amostras probabilisticas no mesmo saco que amostras não-probabilisticas. E assim como você também acha que não é justo colocar no mesmo saco todo o tipo de amostras não-probabilisticas, eu também não acho justo colocar amostras probabilisticas no mesmo saco. Eu acho mais honesto falar que não é possível analisar amostras probabilisticas sem recorrer a nenhum ajuste ou modelagem para erro não-amostrais.

    ReplyDelete
  4. Eu concordo com voce. Meu argumento e' justamente esse, nao e' possivel obter/analisar amostras probabilisticas de populacoes humanas SEM SUPOSICOES. Geralmente sou mais explicito sobre isso. Mas se vc ler com atencao, no comeco do email inclui a seguinte frase:

    "Simplesmente as probabilidades de todos os respondentes na sua "base de dados" nunca sao conhecidas sem suposicoes"

    Porem, eu acho que tem muitos estatisticos que acreditam cegamente que "amostras probabilisticas não precisem de ajustes ou modelos para esse outras fontes de erro". Por isso faco tanta questao de enfatizar que e' necessario fazer suposicoes.

    ReplyDelete
  5. Sim, concordo, mas veja que são as probabilidade de resposta (o que a gente também chama de "response propensity") e não as probabilidade de seleção. As probabilidade de seleção, que são características do processo de amostragem probabilistico, são conhecidas.

    E sim, concordo plenamente com você, há muito estatísticos no Brasil que acreditam nisso. Isso, em parte é uma deficiência na formação de estatísticos para pesquisa (que eu saiba não existem cursos nos departamentos de estatística do Brasil, seja graduação ou pós, que falem sobre outras fontes de erro em pesquisa que não a amostral!). Mas há também aqueles mais cabeça dura... No entato, pelo menos aqui nos EUA e na Europa, estatísticos que trabalham com pesquisa sabem disso.

    ReplyDelete