Medindo a Incerteza: Erro Amostral


Ciência é a arte de avançar o conhecimento mesmo na presença de grande incerteza. A estatística é fundamental nesse processo, pois oferece as ferramentas necessárias para identificar, e medir (ou estimar) o tamanho da incerteza, assim como levar em consideração a incerteza nas conclusões (inferências) e previsões (predições) científicas. Uma das principais fontes de incerteza enfrentada pelos cientistas é causada pela impossibilidade de estudar todas as realizações do fenômeno (população). Por ser impossível medir a estatura de todas as pessoas, contar todas as células de sangue de um paciente ou identificar todos os peixes de um rio, cientistas precisarão lidar com a incerteza causada pela incompletude (amostragem) na coleta de informação sobre fenômenos complexos.
Aula versão 19/04/2018

Fontes de Incerteza


Nada detém a curiosidade e determinação de um cientista! As fontes de incerteza, que dificultam as conclusões de um estudo científico, são praticamente infinitas: quantas e quais são as causas do fenômeno? Quais propriedades do fenômeno eu preciso medir? Meu equipamento de medição está calibrado? Entre todas as fontes de incerteza enfrentadas pelos cientistas, uma delas é mais relevante para a estatística: amostragem (veja aula “Informação”). Dificilmente os cientistas têm a oportunidade de coletar toda a informação que caracteriza o fenômeno, ficando limitados ao estudo apenas de uma pequena parte (amostragem). Quais são as consequências dessa limitação para as conclusões do estudo?


Erro Amostral


Se dois cientistas amostrarem o mesmo fenômeno, eles calculariam (estimariam) a mesma média? Chegariam no mesmo histograma? Infelizmente não! Na verdade, nem sequer a repetição do próprio estudo, feita pelo mesmo cientista, chegaria nas mesmas estimativas... Além disso, também não há nenhuma garantia que as estimativas feitas através de uma amostra (ex. média, desvio padrão) sejam exatamente iguais aos valores reais na população (ex. média e desvio padrão paramétrico). A variabilidade (incerteza) das estimativas é conhecida como erro amostral, causada pelo fato de estudarmos apenas uma fração do fenômeno (amostragem). Não é possível evitar totalmente o erro amostral sobre a estimativa da média, mas podemos deduzir que o tamanho da amostra e a variabilidade do fenômeno vão influenciar a média que estimamos através de uma amostra. Baixe aqui o programa que eu construí para ilustrar visualmente o erro amostral sobre as estimativas da média (erro padrão da média), e efeito da variabilidade do fenômeno e tamanho amostral sobre ele. Então, se não podemos evitar o erro amostral por completo, que tal medir o tamanho da incerteza que ele causa, para podermos desconta-lo das nossas conclusões finais?


Estimativa do Erro Padrão da Média


Seria impraticável ter que repetir a amostragem múltiplas vezes para descobrir a variabilidade da estimativa (erro amostral). Felizmente sabemos que, pelo menos para a estimativa da média, o erro amostral depende da variabilidade natural do fenômeno estudado (desvio padrão da população) e da quantidade de informação coletada (tamanho amostral). Então, em um cenário extremo, se o fenômeno fosse plenamente constante (nenhuma variabilidade), todas as médias estimadas seriam idênticas entre si (nenhum erro amostral), além de iguais ao parâmetro (valor real da população). Da mesma forma, se o tamanho da amostra fosse igual ao tamanho da população (censo), todas as estimativas seriam tanto iguais entre si (nenhum erro amostral) quanto iguais ao parâmetro populacional. Assim, o tamanho do erro amostral na estimativa da média (erro padrão da média) pode ser estimado pela razão entre o desvio padrão da amostra (estimativa de variabilidade do fenômeno) e (a raiz quadrada do) tamanho da amostra (quantidade de informação). Além disso, médias calculadas através de repetidas amostragens apresentam uma distribuição de frequência bem familiar, o que nos permite fazer inferências usando frequências e probabilidades. Baixe aqui o programa que eu construí para ilustrar visualmente como chegar na estimativa de erro padrão da média a partir de uma amostra.


Incerteza ⇒ Erro Amostral ⇒ Probabilidade ⇒ Inferência


A incerteza está presente em todos os estudos e todas as conclusões científicas. Em especial, a incerteza causada pela amostragem (avaliação incompleta do fenômeno) é conhecida como erro amostral, e afeta todas as estimativas. Então, através de uma amostra, por maior que seja, nunca teremos a certeza da estatura média da população, ou da abundância média de uma espécie em um parque. Porém, sabemos que a obtenção de uma estimativa muito diferente do parâmetro (ex. média) seria um evento muito raro quando a amostragem for totalmente aleatória, pois seria preciso que a maior parte das amostras coletadas ao acaso fossem, por coincidência, diferentes do parâmetro de uma mesma maneira (ex. amostragem apenas dos mais baixos/altos na população). Portanto, se a amostragem for de fato aleatória, o erro amostral também terá sua própria distribuição de frequência. Como já aprendemos que é possível estimar a frequência de eventos usando modelos de distribuição de frequências, poderemos então medir a incerteza da estimativa ao associar o tamanho do erro amostral a um valor de probabilidade de variação da estimativa caso o estudo fosse repetido.


Recursos


Programa 1: O Erro Amostral e seus Efeitos
Nesse programa eu mostro a incerteza existente em uma amostra através da repetição do processo de amostragem. Acima, em amarelo, você vê e ajusta a distribuição da população. Essa distribuição representa a realidade do conjunto total dos elementos que definem um fenômeno, mas que raramente está ao alcance de um cientista, pois quase nunca é possível medirmos todos esses elementos. O losango amarelo é a média da população e a barra laranja é o desvio padrão da população. Como você sabe, nós nunca sabemos qual é a média e o desvio padrão da população. Na verdade, o objetivo de um cientista é justamente determinar esses valores, porém sempre limitado ao dados incompletos coletados através de uma amostra. Portanto, o nosso objetivo aqui é amostrar uma fração dos elementos da distribuição da população, e apenas com a amostra poder dizer quais são as principais propriedades da população. Aqui você pode ajustar o tamanho amostral (n, pré-definido em n=4), e clicar nos botões para repetir quantas amostragens quiser. Cada amostra aparece em vermelho no quadro imediatamente abaixo, no qual as bolinhas são os valores observados, a seta vermelha é a média da amostra, e a barra vermelha é o desvio padrão da amostra. Quando você clica no botão para repetir a amostragem muitas vezes e vê a seta vermelha mudar de posição você está vendo o erro amostral diante dos seus olhos. Essa variação da posição da seta vermelha indica que quando repetimos a amostragem a média estimada é sempre diferente, mesmo que a média populacional permaneça sempre a mesma. Se você selecionar "Registrar Médias Amostrais" o programa acumula a média de cada amostra no painel azul, abaixo. A seta azul é a média das médias das amostras, e a barra azul é o desvio padrão das médias das amostras (chamado "erro padrão"). Aqui você verá que: (1) A média das médias (seta azul) é bem próxima da média populacional (losango amarelo). (2) A distribuição das médias amostrais aproxima uma distribuição normal (forma da curva azul). (3) Quando você aumenta o tamanho amostral (digamos, de 4 para 20), as média amostrais (erro padrão) ficam parecidas, e a barra azul do erro amostral fica mais estreita.