Padrões Naturais e a Compreensão do Universo


As regularidades nos fenômenos naturais são importantes dicas deixadas pelo universo para o estudo das causas ou consequencias dos fenômenos. Cientistas aproveitam essas regularidades para criarem e testarem seus modelos do funcionamento dos sistemas naturais, como a engenharia reversa de um aparelho ultra-complexo. Hoje vamos aprender como medir (quantificar) tendências em um conjunto de dados, seja para encontrar um valor de referência para uma amostra, ou para medir o seu grau de variabilidade.
Aula versão 29/03/2020

Quantificando Tendências


Cientistas também usam números para resumir informação ou propor modelos sobre o mundo real. Identificar um padrão natural é ser capaz de antecipar as consequências de um conjunto de condições. Por exemplo, alta temperatura e umidade causa chuva. Essa regularidade permite que os cientistas falem em leis universais de “causa-efeito”. Entretanto, sistemas naturais complexos, como os organismos e ecossistemas, são influenciados por múltiplas condições simultaneamente. A complexidade dos sistemas naturais faz com que os padrões fiquem muito sutis, e de difícil identificação. Portanto, precisaremos quantificar tendências, pois assim poderemos buscar as regularidades que servem de dicas deixadas pelo universo sobre o seu funcionamento.


Medidas de Centralidade


A estatística descritiva mais conhecida é a média, que marca a posição central que equilibra a variabilidade de uma amostra. Portanto, a quantidade de diferenças entre a média e as observações menores do que ela é a mesma que a quantidade de diferenças entre a média e as observações maiores do que ela (tendência central). Veja isso com seus próprios olhos nesse usando esse primeiro programa que preparei para demostrar o conceito de média. Já que a média leva em conta o valor cada uma das observações, ela é muito sensível valores extremos (observações muito diferentes das demais), e não é um bom modelo para representar a tendência central de amostras com distribuição assimétrica. Nesses casos é mais interessante usar a mediana, que é simplesmente o valor da observação intermediária, depois de ordenar toda a amostra. Fiz dois programas para mostrar para você a diferença entre a média e a mediana: (1) nesse segundo programa você pode manipular individualmente cada observação, e ter a média e a mediana re-calculadas, e (2) nesse terceiro programa você pode um histograma de uma distribuição de frequência, para ver como distribuições assimétricas afetam a média e a mediana.


Calculando Média e Mediana


Para ter certeza que você entendeu o que é a média e a mediana, e para que você possa aplicar essas estatísticas descritivas na sua pesquia, você precisa ser capaz de calcular a média e a mediana uma Planilha Eletrônica. Aqui eu mostro como calcular a média e a mediana, utilizando como exemplo os dados dos peixes do Rio Madeira.
Você pode baixar esse conjunto de dados aqui.


Medidas de Variabilidade


Média e mediana são muito interessante, pois representam uma tendência central de uma amostra. Entretanto, frequentemente estamos interessados em descrever o grau de variabilidade de uma amostra, e a média e a mediana não são capazes de medir variação? Na verdade, duas amostras com diferentes graus de variação podem apresentar a mesma média e mediana. Como já decidimos que a média é uma boa referência para medir a tendência de uma amostra, pois equilibra os desvios de cada observação para ela própria, o próximo passo é sintetizar a quantidade desses desvios. Entretanto, a média dos desvios em relação à média é sempre igual a zero, pois a média foi desenhada para ser próprio ponto de equilíbrio desses desvios. Para contornar esse problema vamos trabalhar com o quadrado dos desvios, pois o quadrado de um número negativo é sempre positivo. A média dos quadrados dos desvios em relação à média é conhecida como variância, e vai voltar a aparecer em aulas futuras. Entretanto, nesse momento vamos tirar a raiz quadrada da variância para fazer com que os desvios voltem para a escala original da variável. Essa medida (raiz quadrada da média dos quadrados dos desvios em relação à média) é conhecida como desvio padrão. Veja aqui nesse quarto programa o desvio padrão, representado graficamente pela barra horizontal centralizada na média, e calculado para uma distribuição de valores que você pode manipular. Apesar de extremamente popular, o desvio padrão não é uma boa descrição da variabilidade de uma amostra com distribuição assimétrica, pois, ainda mais do que a média, o desvio padrão é extremamente afetado por valores extremos. Portanto, toda vez que estivermos lidando com uma distrição assimétrica nós empregaremos os quantis, que são calculados através da ordenação dos valores da amostra. Esse quinto programa mostra que o desvio padrão e os quantis são bem próximos quando a distribuição é simétrica, mas que os quantis são bem menos sensíveis a valores extremos quando a distribuição é assimétrica. Por fim, nesse sexto programa eu mostro para vocês a representação do desvio padrão e quantis calculados para uma distribuição que você pode controlar através de um histograma.


Calculando Variância, Desvio Padrão e Quantis


Aqui eu mostro como calcular em uma planilha eletrônica as principais medidas de variabilidade de uma amostra, que são variância, desvio padrão, coeficiente de variação e quantis, utilizando os dados dos peixes do Rio Madeira.
Você pode baixar esse conjunto de dados aqui.


Ilustrando Centralidade e Variabilidade:
Diagrama de Caixa (Box Plot)


O Diagrama de Caixa, Diagrama de Extremos e Quartis, boxplot ou box plot é capaz de representar a mediana, quartis, limites e valores atípicos em uma mesma figura. Esse diagrama é uni-dimensional, ou seja, deve ser lido contra um único eixo de valores, que pode ser vertical ou horizontal. No centro desse diagrama há um retângulo (caixa), que tem os seus extremos delimitados pelo primeiro e terceiro quartis. Assim, 50% das observações de uma variável estão entre os limites da caixa. Em algum ponto "dentro" da caixa há uma linha, que indica a posição da mediana. Quanto mais centralizado estiver a caixa no eixo da variável, a linha dentro de caixa, mais simétrica é a distribuição da variável. É comum que a caixa venha acompanha de retas paralelas ao eixo que indicam valores "limites", também conhecidas como "bigode", que indicam variabilidade fora dos quartis inferior e superior. Por fim, pode haver pontos localizados além dos limites, conhecidos como atípicos, discrepantes ou outliers.
Nesse sétimo e último programa eu mostro para você o Diagrama de Caixa junto com um histograma. Assim, ao manipular o histograma é possível ver como reagem a mediana, os quartis, os limites e valores extremos.


Recursos


Conjunto de Dados
Essa aqui é a planilha de dados dos peixes do Rio Madeira, que contém informação de 97,370 indivíduos, que foram coletados em 11 locais, ao longo de 10 anos de estudo. Clique aqui para baixar o arquivo para o seu computador. Acompanhe as demonstrações da aula usando o LibreOffice Calc ou o Microsoft Excel.



Programa 1: Buscando o Valor da Média
Nesse programa eu mostro o conceito de média, e como ela significa um ponto de equilíbrio das diferenças (desvios) de uma distribuição. No programa cada um dos 15 círculos representa uma observação de uma variável, e o número dentro do círculo representa o valor dessa variável (imagine uma contagem de coisas em diferentes locais). O triângulo abaixo representa um valor arbitrário de referência, que seria utilizado para representar toda a amostra. Desse triângulo sai uma linha vertical, que demarca um espaço de possíveis observações maiores do que o valor de referência (círculos vermelhos) e menos (círculos azuis). Qual seria o melhor valor de referência possível? Cada uma das linhas tracejadas horizontais que ligam cada observação (círculo) até a linha vertical indica o "desvio" da observação, ou seja, a diferença de cada observação em relação ao valor de referência. Você pode carregar (clicar e arrastar) o cada observação (círculos), supondo que a sua amostragem tivesse coletado outros valores. Além disso, você pode arrastar o valor de referência (triângulo). Repare que quando há mais desvios de um lado do valor de referência a linha grossa preta inclina, dando uma impressão de peso. Se você arrastar o valor de referência (triângulo) até encontrar o ponto de equilíbrio entre os desvios você acaba de encontrar a média!



Programa 2: A Média e a Mediana
Nesse programa eu mostro a diferença entre a média e a mediana, e como valores extremos afetam cada uma dessas estatísticas. Da mesma maneira que no programa anterior, cada um dos 15 círculos representa uma observação de uma variável, e o número dentro do círculo representa o valor dessa variável. Aqui o valor de referência (triângulo) é a média, que é automaticamente calculada em função dos valores da amostra (círculos). O círculo amarelo, além de ser uma das observações, é também a mediana, que é automaticamente calculada. Repare que quando você carrega (clicar e arrastar) uma observação (círculos) a média (triângulo) e a mediana (círculo amarelo) é automaticamente reposicionado, de tal maneira que a linha preta está sempre em equilíbrio. Quando todas as observações estão agrupadas (relativamente próximas), e há uma observação distante, o valor da média é sensivelmente alterado, enquanto a mediana permanece a mesma.



Programa 3: A Média e a Mediana de uma Distribuição
Nesse programa eu mostro como o formato da distribuição de frequência de uma amostra afeta a diferença entre média e a mediana. Aqui eu não mostro cada uma das observações, mas o histograma da estatura de uma amostra fictícia de pessoas. A média e a mediana são calculadas automaticamente para a amostra, e representadas, respectivamente, pelos triângulos invertidos azul e verde. Nesse programa você tem a liberdade de modificar o formato da distribuição, simulando que a distribuição da amostra teria outro formato. Clique no topo de cada barra do histograma e arraste para cima ou para baixo para aumentar ou diminuir a frequência relativa de amostras naquele intervalo. Repare que a média e a mediana possuem praticamente o mesmo valor quando a distribuição possui um formato simétrico (ex. Uniforme, Normal). Ao contrário, quando a distribuição é muito assimétrica essas duas estatísticas são diferentes (ex. Exponencial).



Programa 4: O Desvio Padrão
Criei esse programa para ilustrar o Desvio Padrão, e como ele é afetado pela distribuição dos valores de uma amostra. O valor do Desvio Padrão é mostrado na parte superior central da tela. Cada observação de uma amostra está representada por um círculo. Os verdes são maiores do que a média, e os vermelhos são menores do que a média. Você pode clicar e arrastar cada um dos valores para estudar o que acontece com a amostra. A média é representada pelo triângulo na parte inferior da tela, que aqui é re-calculada automaticamente toda vez que você altera o valor das observações. A diferença entre cada observação e a média é mostrada por uma linha horizontal que liga a observação até uma linha vertical que sai da média. O programa calcula automaticamente a soma dos quadrados das diferenças entre a média e cada observação (cantos superiores esquerdo e direito). A partir daí, basta dividir pelo número de observações e tirar a raiz quadrada para encontrar o valor do desvio padrão. A barra branca horizontal que está centralizada na média (triângulo) mostra os limites de um intervalo definido pelo desvio padrão (inferior: Média - Desvio Padrão; superior: Média + Desvio Padrão).



Programa 5: O Desvio Padrão e os Quantis
Esse programa ilustra o Desvio Padrão e os Quantis, e como eles são afetados pela distribuição dos valores de uma amostra. Assim como no programa anterior, o Desvio Padrão é calculado a partir das observações (círculos), que você pode carregar. O Desvio Padrão está visualmente representado pela barra inferior, e está centrado na média (triângulo laranja). O valor inferior sobre o triângulo não é a média, mas o próprio desvio padrão. O círculo de cor rosa indica a mediana. A segunda barra, de baixo para cima, indica os quantis. O extremo esquerdo dessa barra é o quartil inferior (quantil 25%) e o extremo direito da barra é o quartil superior (quantil 75%). Observe que os quantis estão sempre alinhados com o quarto maior e menor valor da amostra. Como há 15 observações (círculos) na amostra, os quantis escolhidos foram quartis (1/4), uma vez que as amostras tenham sido ordenadas de forma crescente o limite inferior do quartil é a quarta menor observação, e o limite superior é a quarta maior observação, pois 15/4 = ~4. Observe como o desvio padrão é sensível a distribuição dos valores, especialmente os valores extremos. Ao contrário, os quantis são muito mais estáveis quando a amostra possui valores extremos.



Programa 6: O Desvio Padrão e os Quantis de uma Distribuição
Nesse programa eu mostro como o formato da distribuição de frequência de uma amostra afeta o desvio padrão e os quantis. Assim como no programa 3, aqui eu mostro o histograma da estatura de uma amostra fictícia de pessoas. Você pode manipular o formato da distribuição de frequências arrastando para cima ou para baixo cada uma das barras do histrograma. Repare como o desvio padrão e os quartis (mostrados acima) são afetados pelo formato da distribuição ilustrada pelo histograma.



Programa 7: Diagrama da Caixa (Box Plot)
A mediana e os quartis podem ser graficamente ilustrados usando o Diagrama da Caixa (Box Plot). Nesse programa eu mostro como o diagrama da caixa captura e lustra o formato da distribuição de frequência de uma amostra. Assim como nos programas anteriores, o histograma nesse programa diz respeito a uma distribuição fictícia da estatura de uma amostra de pessoas. Você pode manipular o formato da distribuição de frequências arrastando para cima ou para baixo cada uma das barras do histrograma. Repare como o diagrama da caixa (acima), que informa os limites, os quartis e a mediana, capturam o formato da distribuição de frequências ilustrada pelo histograma.