Ciência é a arte de avançar o conhecimento mesmo na presença de grande incerteza.
A estatística é fundamental nesse processo, pois oferece as ferramentas necessárias para identificar, e medir (ou estimar) o tamanho da incerteza, assim como levar em consideração a incerteza nas conclusões (inferências) e previsões (predições) científicas.
Uma das principais fontes de incerteza enfrentada pelos cientistas é causada pela impossibilidade de estudar todas as realizações do fenômeno (população).
Por ser impossível medir a estatura de todas as pessoas, contar todas as células de sangue de um paciente ou identificar todos os peixes de um rio, cientistas precisarão lidar com a incerteza causada pela incompletude (amostragem) na coleta de informação sobre fenômenos complexos.
Aula versão 19/04/2018
Nada detém a curiosidade e determinação de um cientista! As fontes de incerteza, que dificultam as conclusões de um estudo científico, são praticamente infinitas: quantas e quais são as causas do fenômeno? Quais propriedades do fenômeno eu preciso medir? Meu equipamento de medição está calibrado? Entre todas as fontes de incerteza enfrentadas pelos cientistas, uma delas é mais relevante para a estatística: amostragem (veja aula “Informação”). Dificilmente os cientistas têm a oportunidade de coletar toda a informação que caracteriza o fenômeno, ficando limitados ao estudo apenas de uma pequena parte (amostragem). Quais são as consequências dessa limitação para as conclusões do estudo?
Se dois cientistas amostrarem o mesmo fenômeno, eles calculariam (estimariam) a mesma média? Chegariam no mesmo histograma? Infelizmente não! Na verdade, nem sequer a repetição do próprio estudo, feita pelo mesmo cientista, chegaria nas mesmas estimativas... Além disso, também não há nenhuma garantia que as estimativas feitas através de uma amostra (ex. média, desvio padrão) sejam exatamente iguais aos valores reais na população (ex. média e desvio padrão paramétrico). A variabilidade (incerteza) das estimativas é conhecida como erro amostral, causada pelo fato de estudarmos apenas uma fração do fenômeno (amostragem). Não é possível evitar totalmente o erro amostral sobre a estimativa da média, mas podemos deduzir que o tamanho da amostra e a variabilidade do fenômeno vão influenciar a média que estimamos através de uma amostra. Baixe aqui o programa que eu construí para ilustrar visualmente o erro amostral sobre as estimativas da média (erro padrão da média), e efeito da variabilidade do fenômeno e tamanho amostral sobre ele. Então, se não podemos evitar o erro amostral por completo, que tal medir o tamanho da incerteza que ele causa, para podermos desconta-lo das nossas conclusões finais?
Seria impraticável ter que repetir a amostragem múltiplas vezes para descobrir a variabilidade da estimativa (erro amostral). Felizmente sabemos que, pelo menos para a estimativa da média, o erro amostral depende da variabilidade natural do fenômeno estudado (desvio padrão da população) e da quantidade de informação coletada (tamanho amostral). Então, em um cenário extremo, se o fenômeno fosse plenamente constante (nenhuma variabilidade), todas as médias estimadas seriam idênticas entre si (nenhum erro amostral), além de iguais ao parâmetro (valor real da população). Da mesma forma, se o tamanho da amostra fosse igual ao tamanho da população (censo), todas as estimativas seriam tanto iguais entre si (nenhum erro amostral) quanto iguais ao parâmetro populacional. Assim, o tamanho do erro amostral na estimativa da média (erro padrão da média) pode ser estimado pela razão entre o desvio padrão da amostra (estimativa de variabilidade do fenômeno) e (a raiz quadrada do) tamanho da amostra (quantidade de informação). Além disso, médias calculadas através de repetidas amostragens apresentam uma distribuição de frequência bem familiar, o que nos permite fazer inferências usando frequências e probabilidades. Baixe aqui o programa que eu construí para ilustrar visualmente como chegar na estimativa de erro padrão da média a partir de uma amostra.
A incerteza está presente em todos os estudos e todas as conclusões científicas. Em especial, a incerteza causada pela amostragem (avaliação incompleta do fenômeno) é conhecida como erro amostral, e afeta todas as estimativas. Então, através de uma amostra, por maior que seja, nunca teremos a certeza da estatura média da população, ou da abundância média de uma espécie em um parque. Porém, sabemos que a obtenção de uma estimativa muito diferente do parâmetro (ex. média) seria um evento muito raro quando a amostragem for totalmente aleatória, pois seria preciso que a maior parte das amostras coletadas ao acaso fossem, por coincidência, diferentes do parâmetro de uma mesma maneira (ex. amostragem apenas dos mais baixos/altos na população). Portanto, se a amostragem for de fato aleatória, o erro amostral também terá sua própria distribuição de frequência. Como já aprendemos que é possível estimar a frequência de eventos usando modelos de distribuição de frequências, poderemos então medir a incerteza da estimativa ao associar o tamanho do erro amostral a um valor de probabilidade de variação da estimativa caso o estudo fosse repetido.