Como vocês viram nas aulas anteriores, a classificação de objetivos é uma parte fundamental da compreensão de fenômenos naturais. A idéia de classificação como método de estudo
surgiu com Aristóteles, que mostrou que o emprego de classes nos auxilia na busca por relações e amplifica o nosso poder de síntese. Entretanto, nem todos os fenômenos naturais
são facilmente classificáveis, pois podem vir em graus de intensidade ou magnitude. Por exemplo, temperatura, velocidade e distância são variáveis que não podem ser classificadas
de maneira simples, pois expressam quantidades contínuas, em interrupções ou intervalos naturais. Nessa aula vamos aprender como empregar análise gráfica para estudar variáveis
contínuas. Para isso vamos criar intervalos arbitrários que repartem de maneira exclusiva pequenas porções de um contínuo, permitindo que possamos contar o número de observações
(frequência) dentro de cada um desses intervalos. Aqui apresentarei para vocês o histograma, que considero ser o gráfico mais importante em análise estatística. Empregaremos o
histograma em várias das aulas futuras para descrever a distribuição de frequência de variáveis empíricas e de modelos conceituais.
A distribuição de frequência de uma variável informa qual a quantidade de observações em cada categoria, grupo ou intervalo. O histograma é utilizado para descrever graficamente a distribuição de frequência de uma variável contínua, como, por exemplo, altura ou peso de um conjunto de pessoas. Assim, com o histograma podemos dizer se a observação de valores extremos (ex. pessoas muito altas ou muito baixas) é mais ou menos comum do que a observação de valores intermediários (ex. pessoas de estatura média). Esse primeiro programa ilustra a idéia de agrupamento de observações amostrais em intervalos consecutivos de uma variável contínua.
Para construir um histograma será preciso "quebrar" uma variável contínua em intervalos consecutivos não-sobrepostos, que também são chamados de grupos ou categorias. Por exemplo, para estudar a distribuição de frequência da estatura de pessoas podemos definir um intervalo entre 165cm - 170cm, e outro entre 170cm - 175cm. Porém, repare que a posição (ex. 165cm - 170cm) e largura (ex. 5cm) do intervalo é definida conforme a opção da cientista (arbitrariametne), pois como a variável é contínua (a estatura das pessoas poderia ser medida em milímetros, em nanômetros, etc...), as divisões entre intervalos consecutivos não obedecem trasições naturais. Então, histogramas são, em geral, construídos com base nos valores observados na própria amostra. A primeira medida é determinar os valores máximos e mínimos, que podem ser baseados na amostra (ex. pessoa mais baixa e mais alta encontrada na amostragem), ou extremos teóricos (ex. zero grau Celcius para água líquida). Em seguida, define-se arbitrariamente o número de intervalos (classes, grupos) que serão usados para particionar o contínuo entre o mínimo e o máximo. Com isso, a amplitude total da variável é dividida integralmente entre os intervalos, tal que cada intervalo possui o seu limite inferior e superior. Por fim, basta contar quantas amostras possuem valores localizados dentro de cada intervalo (frequência absoluta), ou calcular a proporção das observações em relação ao total (frequência relativa). Histograma é apenas um gráfico de colunas (barras verticais) da frequência em cada intervalo. Entretanto, a definição do número de intervalos, bem como da amplitude desses intervalos, pode afetar a nossa percepção do padrão de distribuição de frequência da variável.
Para ter certeza que você entendeu o histograma, e para que você possa empregar esse podereso gráfico na sua pesquia, você precisa ser capaz de construí-lo em uma Planilha Eletrônica. Aqui eu mostro como construir um histograma utilizando os dados dos peixes do Rio Madeira como exemplo. Você pode baixar esse conjunto de dados aqui. Aqui eu também vou te mostrar o efeito do número de classes (intervalos) e da definição dos extremos no padrão de frequência observado em uma variável.
A frequência absoluta é uma simples contagem do número de observações em um intervalo. A comparação da contagem entre intervalos nos permite determinar se, na nossa amostra, o número de observações aumenta ou diminui ao longo da variável. Por exemplo, podemos nos perguntar quantas são as pessoas com estatura na faixa de estatura entre 150cm - 155cm, e se há mais pessoas nesta faixa do que na faixa 180cm - 185cm. Entretanto, não é possível usar contagens (frequências absolutas) para fazer comparações entre estudos que tiveram tamanhos amostrais diferentes (ex. estudo de 100 pessoas, e outro estudo de 10.000 pessoas), pois o número de observações (contagem) nos intervalos será diferente ainda que os estudos tenham amostrado a mesma população. Para facilitar a comparação entre estudos utiliza-se a frequência relativa (proporção ou porcentagem) de observações, que consiste no número de observações em cada intervalo dividido pelo número total de amostras coletadas. Por se tratar de uma proporção (razão parte / todo), essa frequência relativa varia entre zero (0) e um (1). A frequência relativa pode ainda ser multiplicada por 100 para se tornar uma porcentagem. Nesse segundo programa eu mostro a relação entre frequência absoluta e relativa.
Dois histogramas nunca são exatamente iguais, mas podem apresentar padrões semelhantes. Por isso os cientistas possuem descrições coloquiais de padrões de distribuição de frequência. Essas descrições, apesar de subjetivas, são comumente utilizadas para comunicar e interpretar distribuições de frequência de uma variável. Aqui eu menciono algumas das principais descrições de histograma empregada em ciência: (1) Simetria: Se a distribuição de frequência de uma variável é simétrica (espelhada) em relação a algum valor, esse histograma é dito simétrico. Por exemplo, se a frequência de pessoas altas for aproximadamente a mesma da de pessoas baixas, a distribuição será simétrica. Se isso não for o caso, o histograma é dito assimétrico ou não-simétrico. (2) Modalidade: Se um histograma apresenta apenas um pico (intervalo de maior frequência), então o histograma é dito unimodal ou uni-modal. Ao contrário, se existem dois picos de frequência em intervalos distantes, então o histograma é dito bimodal ou bi-modal. Por fim, se houver três ou mais picos de frequência em intervalos não-contínuos, então o histograma é dito multimodal ou multi-modal. (3) Normalidade: Se o histograma for simétrico, unimodal, com diminuição gradual de frequência do centro da variável para os extremos, então a distribuição é dita normal ou gaussiana. Ao contrário, se a o histograma mostra um padrão diferente, então ele é dito não-normal. (4) Uniformidade: Se o histograma é simétrico, e com todos os intervalos com frequência mais ou menos equivalente, então ele é dito uniforme. (5) Desvios: Se a maior parte das observações estão concentradas nos menores valores da variável (lado esquerdo do eixo), então o histograma é dito tendente (skewed) para a esquerda. Ao contrário, se a maior parte das observações possuem valores próximas do máximo da variável, então o histograma é dito tendente (skewed) para a direita. No segundo programa eu também mostro esses diferentes padrões em um histograma.