Thursday, September 25, 2014

Perguntas sobre a Amostragem Probabilística com Cotas (APC)

Como havíamos prometido, seguem abaixo o email com as perguntas que foram feitas com relação a Amostragem Probabilística com Cotas, e as respostas (em azul). 

"Otimas perguntas. Pelo conteudo delas, entendo que nao existe muita preocupacao com a estimativa pontual em si, correto?  Ou seja, o que esta sendo questionado no metodo da APC sao as estimativas da variancia, e nao as estimativas pontuais. Acho que esse ja' e' um ponto muito importante.  

Vamos as perguntas:

1) Se há uma seleção probabilística de unidades em algum(ns) estágio(s) de seleção, então a ponderação consequente com esta parte do processo de amostragem teria que ser feita quando as análises serão realizadas. Nas vezes que vi o método acima ser descrito em aplicações, esta etapa era completamente ignorada e a ponderação era feita apenas considerando a informação das cotas. Além disso, toda a estrutura de estratificação e conglomeração era ignorada nas análises posteriores, o que é incoerente com o plano praticado.

Levar em conta todos os estagios anteriores, sem considerar o ultimo, e' simples. Toda informacao esta' na base de dados, as probabilidades sao conhecidas e temos diversos programas com essa capacidade hoje em dia. Se os institutos de pesquisa fazem isso ou nao, e' uma opcao deles. Pra mim, o importante é que o método permite que isso seja feito - ou seja, se o estatistico quiser fazer inferencia baseada no desenho, ele consegue fazer. Entendo entao que o que precisa ser discutido é o último estágio. 

E nesse ultimo estagio, eu concordo com o Fernando Moura. Mas vou um pouco ale'm, sabemos empiricamente que pessoas residentes no mesmo setor censitario sao muito mais parecidas entre si, do que se comparadas com o resto da populacao. Como referencia, uso o relatorio tecnico que voce e o Fernando escreveram:

[Ref1] P. L. N. Silva and F. A. S. Moura. Efeito da conglomera cao da malha setorial do censo demogr a co
de 1980. Textos para discussao - IBGE, 1(32):001{114, 1990

Nesse relatorio voces mostraram que em todas as 39 vari aveis estudadas, pessoas residentes em um mesmo conglomerado sao mais parecidas entre si. Ou seja, sabemos que do total da variancia, um percentual pequeno e' explicado pelo ultimo estagio. Nao sao muitos estudos que divulgam, junto com os dados, as informacoes necessarias para o calculo das variancias. Quando essas informacoes sao divulgadas, sempre e' feito algum tipo de simplificacao ou aproximacao para o usuario final, seja utilizando estimador de Razao, expansao de Taylor, Bootstrap, Ultimate Cluster, etc...Meu ponto e', seja utilizando essas simplificacoes/aproximacoes mais comuns, seja assumindo amostra aleatoria simples no ultimo estagio da APC, acredito que o erro sendo cometido e' no geral ignoravel. Porem, e' possivel calcular o erro do ultimo estagio na APC com uma suposicao mais simples do que AAS, que discutirei na proxima pergunta.


2) As afirmações sobre margem de erro das estimativas derivadas se baseia inteiramente nas expressões válidas para amostragem aleatória simples. No Brasil, nunca vi um trabalho que descrevesse uma abordagem justificável (mesmo sob um modelo ou suposições) para explicar porque estas expressões podem ou devem ser usadas para amostras coletadas pelo método em questão (APC, como você o chamou).


Lamentavelmente, tal trabalho existe, mas nao foi publicado para que outros possam conhecer. Foi exatamente o que eu fiz na minha tese de doutorado, so que eu nao tenho o perfil de escrever artigos, e pior ainda, a notacao que eu utilizei e' muito ruim, o que dificulta bastante o entendimento. Se eu tivesse percebido isso inicialmente, teria re-feito a notacao, mas enfim....se alguem quiser dar uma olhada, o titulo da minha tese e' : "Avaliacao metodologica das pesquisas eleitorais brasileiras", defendida no IME USP em 2010. So pra contextualizar melhor, inicialmente o titulo da tese ia ser "Uma justificativa teorica para Amostragem Porbabilistica com Cotas".

Vou resumir aqui rapidinho o que importa no contexto sendo discutido aqui. Podemos considerar as cotas no ultimo estagio como uma estratificacao do ultimo estagio da amostra. A suposicao basica que estamos fazendo e' que as probabilidades de resposta das pessoas dentro de um mesmo setor censitario e dentro da mesma cota sao iguais. Com essa suposicao, criei um metodo EM que estima as probabilidades de resposta. Se o trajeto que o entrevistador tem que percorrer dentro de cada setor tem uma ordem pre-determinada, e ele tenta fazer contato com todos os domicilio no seu trajeto, a probabilidade de selecao de cada pessoa e' inversamente proporcional ao numero de moradores dentro do domicilio que estao na mesma cota.  Ou seja, temos as probabilidades. Na minhas simulacoes, nao houve ganho ao utilizar as probabilidades de resposta estimadas. Nao ha muito vicio para reduzir. 

Outro detalhe importante, como a cota no ultimo estagio e' uma estratificacao, a APC tem menor EQM do que a amostragem probabilistica (aquela da pratica) quando as probabilidades de resposta sao diferentes em cada cota. Isso ocorre porque na amostragem probabilistica na pratica, o entrevistador tenta fazer contato ate C vezes com cada pessoa selecionada. Se ele nao consegue fazer contato, ele seleciona outra pessoa e tenta novamente. Procedendo dessa forma, vc acaba entrevistando mais pessoas da cota que tem uma probabilidade de resposta maior. Ja isso nao ocorre com a APC. Claro, alem dos ganhos conhecidos da estratificacao.



3) O terceiro defeito é a dificuldade (ou impossibilidade) de replicar o processo de amostragem por cotas. Se o entrevistador é quem toma decisão sobre quem entrevistar, esta dificuldade é severa. Replicabilidade é um dos pilares do método científico. Outros pesquisadores teriam que poder usar o mesmo método, mas este não é replicável porque outros pesquisadores não poderão usar os mesmos entrevistadores, etc. 


Do jeito que eu estou descrevendo a APC aqui (domiciliar), acho que o processo e' replicavel. O entrevistador tenta fazer contato com todos os domicilios do setor, em uma ordem pre-especificada, iniciando de um ponto tambem pre-determinado. Se ele nao encontra ninguem que se encaixe nas cotas no Dimicilio 1, ele vai para o 2, e assim sucessivamente. Se ele nao completar as entrevistas ao encerrar o setor, ele comeca outra volta no mesmo setor. E assim vai, ate terminar as entrevistas daquele setor. O entrevistador nao tem flexibilidade. A diferenca basica e' que com a APC, o entrevistador entrevista quem esta em casa, disponivel, ja com a amostra probabilistica, quem nao esta em casa tambem pode ser selecionado. Por isso e' importante determinar cotas associadas com a probabilidade de resposta, pois vc diminue bastante o problema, sendo possivel ate eliminar o vies potencial. Por exemplo, com cotas de PEA/ Nao-PEA voce garante que trabalhadores estarao na amostra.  Nao esquecendo que o horario da entrevista tambem e' importante. Facilita o campo e e' uma forma de se prevenir contra ma-especificacao do modelo de resposta.



Abraco Neale"

3 comments:

  1. neale, meu comentário não é sobre APC, mas por que não foram consideradas as últimas pesquisas da Sensus, Vox Populi e MDA?

    ReplyDelete
  2. Olá MLM, tivemos um problema para atualizar o modelo hoje, que já foi resolvido. Logo mais o site estará atualizado, e essas 3 pesquisas estarão uncluídas no modelo.

    ReplyDelete
  3. Você está atrbalho de quem? Já não basta o Pig e ainda me aparece esse cara metido a pitoniza pra dizer que a Dilma tem 24% de ser reeleita. Vá te catar.

    ReplyDelete