Classificação, Agrupamento e Contagens


Como vocês viram nas aulas anteriores, a classificação de objetivos é uma parte fundamental da compreensão de fenômenos naturais. A idéia de classificação como método de estudo surgiu com Aristóteles, que mostrou que o emprego de classes nos auxilia na busca por relações e amplifica o nosso poder de síntese. Entretanto, nem todos os fenômenos naturais são facilmente classificáveis, pois podem vir em graus de intensidade ou magnitude. Por exemplo, temperatura, velocidade e distância são variáveis que não podem ser classificadas de maneira simples, pois expressam quantidades contínuas, em interrupções ou intervalos naturais. Nessa aula vamos aprender como empregar análise gráfica para estudar variáveis contínuas. Para isso vamos criar intervalos arbitrários que repartem de maneira exclusiva pequenas porções de um contínuo, permitindo que possamos contar o número de observações (frequência) dentro de cada um desses intervalos. Aqui apresentarei para vocês o histograma, que considero ser o gráfico mais importante em análise estatística. Empregaremos o histograma em várias das aulas futuras para descrever a distribuição de frequência de variáveis empíricas e de modelos conceituais.
Aula versão VÍDEO EM BREVE

Distribuição de Frequência de uma Variável


A distribuição de frequência de uma variável informa qual a quantidade de observações em cada categoria, grupo ou intervalo. O histograma é utilizado para descrever graficamente a distribuição de frequência de uma variável contínua, como, por exemplo, altura ou peso de um conjunto de pessoas. Assim, com o histograma podemos dizer se a observação de valores extremos (ex. pessoas muito altas ou muito baixas) é mais ou menos comum do que a observação de valores intermediários (ex. pessoas de estatura média). Esse primeiro programa ilustra a idéia de agrupamento de observações amostrais em intervalos consecutivos de uma variável contínua.


Criando Classes de Tamanho


Para construir um histograma será preciso "quebrar" uma variável contínua em intervalos consecutivos não-sobrepostos, que também são chamados de grupos ou categorias. Por exemplo, para estudar a distribuição de frequência da estatura de pessoas podemos definir um intervalo entre 165cm - 170cm, e outro entre 170cm - 175cm. Porém, repare que a posição (ex. 165cm - 170cm) e largura (ex. 5cm) do intervalo é definida conforme a opção da cientista (arbitrariametne), pois como a variável é contínua (a estatura das pessoas poderia ser medida em milímetros, em nanômetros, etc...), as divisões entre intervalos consecutivos não obedecem trasições naturais. Então, histogramas são, em geral, construídos com base nos valores observados na própria amostra. A primeira medida é determinar os valores máximos e mínimos, que podem ser baseados na amostra (ex. pessoa mais baixa e mais alta encontrada na amostragem), ou extremos teóricos (ex. zero grau Celcius para água líquida). Em seguida, define-se arbitrariamente o número de intervalos (classes, grupos) que serão usados para particionar o contínuo entre o mínimo e o máximo. Com isso, a amplitude total da variável é dividida integralmente entre os intervalos, tal que cada intervalo possui o seu limite inferior e superior. Por fim, basta contar quantas amostras possuem valores localizados dentro de cada intervalo (frequência absoluta), ou calcular a proporção das observações em relação ao total (frequência relativa). Histograma é apenas um gráfico de colunas (barras verticais) da frequência em cada intervalo. Entretanto, a definição do número de intervalos, bem como da amplitude desses intervalos, pode afetar a nossa percepção do padrão de distribuição de frequência da variável.


Construindo Histograma em Planilha Eletrônica


Para ter certeza que você entendeu o histograma, e para que você possa empregar esse podereso gráfico na sua pesquia, você precisa ser capaz de construí-lo em uma Planilha Eletrônica. Aqui eu mostro como construir um histograma utilizando os dados dos peixes do Rio Madeira como exemplo. Você pode baixar esse conjunto de dados aqui. Aqui eu também vou te mostrar o efeito do número de classes (intervalos) e da definição dos extremos no padrão de frequência observado em uma variável.


Frequência Absoluta (contagem) e Relativa (proporção) das Classes


A frequência absoluta é uma simples contagem do número de observações em um intervalo. A comparação da contagem entre intervalos nos permite determinar se, na nossa amostra, o número de observações aumenta ou diminui ao longo da variável. Por exemplo, podemos nos perguntar quantas são as pessoas com estatura na faixa de estatura entre 150cm - 155cm, e se há mais pessoas nesta faixa do que na faixa 180cm - 185cm. Entretanto, não é possível usar contagens (frequências absolutas) para fazer comparações entre estudos que tiveram tamanhos amostrais diferentes (ex. estudo de 100 pessoas, e outro estudo de 10.000 pessoas), pois o número de observações (contagem) nos intervalos será diferente ainda que os estudos tenham amostrado a mesma população. Para facilitar a comparação entre estudos utiliza-se a frequência relativa (proporção ou porcentagem) de observações, que consiste no número de observações em cada intervalo dividido pelo número total de amostras coletadas. Por se tratar de uma proporção (razão parte / todo), essa frequência relativa varia entre zero (0) e um (1). A frequência relativa pode ainda ser multiplicada por 100 para se tornar uma porcentagem. Nesse segundo programa eu mostro a relação entre frequência absoluta e relativa.


Descrevendo Padrões em Distribuições


Dois histogramas nunca são exatamente iguais, mas podem apresentar padrões semelhantes. Por isso os cientistas possuem descrições coloquiais de padrões de distribuição de frequência. Essas descrições, apesar de subjetivas, são comumente utilizadas para comunicar e interpretar distribuições de frequência de uma variável. Aqui eu menciono algumas das principais descrições de histograma empregada em ciência: (1) Simetria: Se a distribuição de frequência de uma variável é simétrica (espelhada) em relação a algum valor, esse histograma é dito simétrico. Por exemplo, se a frequência de pessoas altas for aproximadamente a mesma da de pessoas baixas, a distribuição será simétrica. Se isso não for o caso, o histograma é dito assimétrico ou não-simétrico. (2) Modalidade: Se um histograma apresenta apenas um pico (intervalo de maior frequência), então o histograma é dito unimodal ou uni-modal. Ao contrário, se existem dois picos de frequência em intervalos distantes, então o histograma é dito bimodal ou bi-modal. Por fim, se houver três ou mais picos de frequência em intervalos não-contínuos, então o histograma é dito multimodal ou multi-modal. (3) Normalidade: Se o histograma for simétrico, unimodal, com diminuição gradual de frequência do centro da variável para os extremos, então a distribuição é dita normal ou gaussiana. Ao contrário, se a o histograma mostra um padrão diferente, então ele é dito não-normal. (4) Uniformidade: Se o histograma é simétrico, e com todos os intervalos com frequência mais ou menos equivalente, então ele é dito uniforme. (5) Desvios: Se a maior parte das observações estão concentradas nos menores valores da variável (lado esquerdo do eixo), então o histograma é dito tendente (skewed) para a esquerda. Ao contrário, se a maior parte das observações possuem valores próximas do máximo da variável, então o histograma é dito tendente (skewed) para a direita. No segundo programa eu também mostro esses diferentes padrões em um histograma.


Recursos


Conjunto de Dados
Essa aqui é a planilha de dados dos peixes do Rio Madeira, que contém informação de 97.370 indivíduos, que foram coletados em 11 locais, ao longo de 10 anos de estudo. Clique aqui para baixar o arquivo para o seu computador. Acompanhe as demonstrações da aula usando o LibreOffice Calc ou o Microsoft Excel.



Programa 1: Agrupando por Tamanho
Esse programa ilustra a idéia de agrupamento (separação) em categorias de tamanho. Nesse programa há 10 categorias, que estão representadas como compartimentos (gavetas) verticais, onde as bolinhas (unidades amostrais, ex. uma pessoa) pode ser colocada. O valor dentro da bolinha, bem como sua cor, indica a observação de uma variável (medida) na unidade amostral (ex. valor da altura de cada pessoa). Cada categoria receberá unidades amostrais dentro de uma faixa de valores (ex. pessoas entre 1,60m e 1,70m). Então, cada unidades amostral precisa ser colocada em uma categoria, de acordo com o valor da variável, e o intervalo da categoria. A contagem (ou frequência) do número de unidades dentro de cada categoria é usada para construir o histograma, que é simplesmente um gráfico de colunas (barras verticais) do total de observações dentro de cada categoria de tamanho.



Programa 2: Construindo um Histograma
O histograma pode ser construído para descrever graficamente a distribuição de frequência de uma váriavel de uma amostra qualquer. Assim, em pesquisa científica os histogramas são sempre construídos a partir de amostras empíricas (dados reais coletados em campo ou no laboratório). Entretanto, para entender como um histograma é construído, criei um programa que nos permite alterar o número e os limites das classes de um histograma, bem como o tamanho da amostra. Aqui veremos facilmente que a altura de cada barra do histograma apresenta a contagem ou a frequência de observações dentro de um intervalo de valores da variável em estudo.



Programa 3: Manipulando um Histograma
Para nos familiarizarmos com o histograma eu criei um programa que nos permite simular diferentes distribuições de frequência da estatura de 5000 pessoas fictícias. Por ser uma amostra simulada, aqui é possível manipular as barras do histograma para pensarmos sobre a interpretação do histograma e entendermos o conceito de frequência relativa. Além disso, com esse programa podemos estudar e descrever os diferentes formatos e tipos de distribuição de frequência (uniforme, normal, inclinada, etc).