As regularidades nos fenômenos naturais são importantes dicas deixadas pelo universo para o estudo das causas ou consequencias dos fenômenos.
Cientistas aproveitam essas regularidades para criarem e testarem seus modelos do funcionamento dos sistemas naturais, como a engenharia reversa de um aparelho ultra-complexo.
Hoje vamos aprender como medir (quantificar) tendências em um conjunto de dados, seja para encontrar um valor de referência para uma amostra, ou para medir o seu grau de variabilidade.
Aula versão 29/03/2020
Cientistas também usam números para resumir informação ou propor modelos sobre o mundo real. Identificar um padrão natural é ser capaz de antecipar as consequências de um conjunto de condições. Por exemplo, alta temperatura e umidade causa chuva. Essa regularidade permite que os cientistas falem em leis universais de “causa-efeito”. Entretanto, sistemas naturais complexos, como os organismos e ecossistemas, são influenciados por múltiplas condições simultaneamente. A complexidade dos sistemas naturais faz com que os padrões fiquem muito sutis, e de difícil identificação. Portanto, precisaremos quantificar tendências, pois assim poderemos buscar as regularidades que servem de dicas deixadas pelo universo sobre o seu funcionamento.
A estatística descritiva mais conhecida é a média, que marca a posição central que equilibra a variabilidade de uma amostra. Portanto, a quantidade de diferenças entre a média e as observações menores do que ela é a mesma que a quantidade de diferenças entre a média e as observações maiores do que ela (tendência central). Veja isso com seus próprios olhos nesse usando esse primeiro programa que preparei para demostrar o conceito de média. Já que a média leva em conta o valor cada uma das observações, ela é muito sensível valores extremos (observações muito diferentes das demais), e não é um bom modelo para representar a tendência central de amostras com distribuição assimétrica. Nesses casos é mais interessante usar a mediana, que é simplesmente o valor da observação intermediária, depois de ordenar toda a amostra. Fiz dois programas para mostrar para você a diferença entre a média e a mediana: (1) nesse segundo programa você pode manipular individualmente cada observação, e ter a média e a mediana re-calculadas, e (2) nesse terceiro programa você pode um histograma de uma distribuição de frequência, para ver como distribuições assimétricas afetam a média e a mediana.
Para ter certeza que você entendeu o que é a média e a mediana, e para que você possa aplicar essas estatísticas descritivas na sua pesquia, você precisa ser capaz de calcular a média e a mediana uma Planilha Eletrônica.
Aqui eu mostro como calcular a média e a mediana, utilizando como exemplo os dados dos peixes do Rio Madeira.
Você pode baixar esse conjunto de dados aqui.
Média e mediana são muito interessante, pois representam uma tendência central de uma amostra. Entretanto, frequentemente estamos interessados em descrever o grau de variabilidade de uma amostra, e a média e a mediana não são capazes de medir variação? Na verdade, duas amostras com diferentes graus de variação podem apresentar a mesma média e mediana. Como já decidimos que a média é uma boa referência para medir a tendência de uma amostra, pois equilibra os desvios de cada observação para ela própria, o próximo passo é sintetizar a quantidade desses desvios. Entretanto, a média dos desvios em relação à média é sempre igual a zero, pois a média foi desenhada para ser próprio ponto de equilíbrio desses desvios. Para contornar esse problema vamos trabalhar com o quadrado dos desvios, pois o quadrado de um número negativo é sempre positivo. A média dos quadrados dos desvios em relação à média é conhecida como variância, e vai voltar a aparecer em aulas futuras. Entretanto, nesse momento vamos tirar a raiz quadrada da variância para fazer com que os desvios voltem para a escala original da variável. Essa medida (raiz quadrada da média dos quadrados dos desvios em relação à média) é conhecida como desvio padrão. Veja aqui nesse quarto programa o desvio padrão, representado graficamente pela barra horizontal centralizada na média, e calculado para uma distribuição de valores que você pode manipular. Apesar de extremamente popular, o desvio padrão não é uma boa descrição da variabilidade de uma amostra com distribuição assimétrica, pois, ainda mais do que a média, o desvio padrão é extremamente afetado por valores extremos. Portanto, toda vez que estivermos lidando com uma distrição assimétrica nós empregaremos os quantis, que são calculados através da ordenação dos valores da amostra. Esse quinto programa mostra que o desvio padrão e os quantis são bem próximos quando a distribuição é simétrica, mas que os quantis são bem menos sensíveis a valores extremos quando a distribuição é assimétrica. Por fim, nesse sexto programa eu mostro para vocês a representação do desvio padrão e quantis calculados para uma distribuição que você pode controlar através de um histograma.
Aqui eu mostro como calcular em uma planilha eletrônica as principais medidas de variabilidade de uma amostra, que são variância, desvio padrão, coeficiente de variação e quantis, utilizando os dados dos peixes do Rio Madeira.
Você pode baixar esse conjunto de dados aqui.
O Diagrama de Caixa, Diagrama de Extremos e Quartis, boxplot ou box plot é capaz de representar a mediana, quartis, limites e valores atípicos em uma mesma figura.
Esse diagrama é uni-dimensional, ou seja, deve ser lido contra um único eixo de valores, que pode ser vertical ou horizontal.
No centro desse diagrama há um retângulo (caixa), que tem os seus extremos delimitados pelo primeiro e terceiro quartis. Assim, 50% das observações de uma variável estão entre os limites da caixa.
Em algum ponto "dentro" da caixa há uma linha, que indica a posição da mediana. Quanto mais centralizado estiver a caixa no eixo da variável, a linha dentro de caixa, mais simétrica é a distribuição da variável.
É comum que a caixa venha acompanha de retas paralelas ao eixo que indicam valores "limites", também conhecidas como "bigode", que indicam variabilidade fora dos quartis inferior e superior.
Por fim, pode haver pontos localizados além dos limites, conhecidos como atípicos, discrepantes ou outliers.
Nesse sétimo e último programa eu mostro para você o Diagrama de Caixa junto com um histograma. Assim, ao manipular o histograma é possível ver como reagem a mediana, os quartis, os limites e valores extremos.