Distribuições de Frequência


A incerteza sobre as causas de fenômenos naturais, passados ou futuros, é consequência da nossa ignorância sobre o funcionamento do universo. Entretanto, ao registrarmos repetidas observações de um determinado fenômeno podemos tentar identificar padrões (regularidades), tal como a intensidade, tamanho ou duração de eventos, em busca de pistas sobre as possíveis causas do fenômeno. A estatística científica utiliza a análise de frequência das observações empíricas (eventos ou valores medidos) para propor modelos (ideias ou hipóteses), que tanto podem ser contrastados com a realidade, quanto também utilizadas para fazer predições acerca do comportamento do universo sob condições ainda não observadas. Se formos capazes de identificar padrões e aprender sobre as leis naturais por meio das observações passadas, então poderemos usar os modelos construídos a partir da frequência de eventos observados para inferir a probabilidade de eventos equivalentes no futuro.
Aula versão 12/04/2018

Padrões em Frequências


Já notou que a maior parte das pessoas possui estatura e peso médios, e como é raro encontrar uma pessoa extremamente baixa/magra ou alta/pesada? Qualquer fenômeno que possa ser observado um número suficiente de vezes pode ser estudado por uma análise de frequência. Por exemplo, a proporção de resultados "cara" entre os lançamentos de uma moeda, a quantidade de pessoas infectadas por um vírus ao longo de um ano, ou a fração da amostra de pessoas com peso acima de um determinado valor. A identificação de regularidades nos resultados de um fenômeno que se repete um grande número de vezes é o primeiro passo na busca por padrões em frequências. Ao estudarmos esses padrões de frequência que emergem de fenômenos radicalmente diferentes, desde o peso de recém-nascidos até o tamanho de planetas, descobrimos que há uma intrigante regularidade (padrão), que pode servir de pista para as causas de fenômenos quase universais.


Distribuições de Frequências


Qual a proporção de vezes (frequência) que lançamentos de uma mesma moeda resulta em "cara"? Qual a relação do lançamento de moedas com o tamanho dos planetas conhecidos? E os recém-nascidos? Usamos lançamentos de moedas por serem experimentos simples, baratos, repetíveis, e com poucos resultados possíveis ("cara" ou "coroa"). Mesmo nesses exerimentos simples, o conjunto de fatores que afetam o resultado é tão complexo que não somos capazes de prever o resultado final. Mesmo sem a capacidade de prever o resultado de um lançamento de uma moeda, padrões de frequência surgem ao agregarmos os resultados de vários lançamentos; regularidades que emergem mesmo na presença de incerteza! Veja isso com seus próprios olhos nesse usando esse programa que preparei para você. Fenômenos que são causados pela contribuição independente de um conjunto complexo de fatores tendem a apresentar distribuição de frequência normal, tais como moedas, recém-nascidos ou planetas. Por isso, a distribuição normal (Gaussiana) é um bom modelo para estudar vários fenômenos naturais. Ian Stewart (2013) incluiu a distribuição normal como um dos mais importantes modelos científicos (ideias) de todos os tempos!


Distribuição Normal (Gaussiana)


Se a estatura de adultos, ou peso de recém-nascidos, apresenta um padrão semelhante a Distribuição Normal, então podemos usa-la como um modelo (representação) para fazer algumas predições de frequências para toda a população (inferência). Nesse video eu mostro como calcular/estimar frequência (ou área sob a Curva Normal) em intervalos determinados usando planilha eletrônica. Também mostro como a distribuição normal pode ser generalizada através da Transformação ou Índice Z. Não deixe de baixar esse programa auxiliar que eu construí para te ajudar a desenvolver uma intuição visual sobre o cálculo de frequências usando a distribuição normal.


Frequência ⇒ Probabilidade ⇒ Inferência


Se existe um padrão que indica que a maior parte das pessoas amostradas (observadas) possui estatura/peso próximo da média, então podemos arriscar palpites sobre a estatura/peso da próxima pessoa que ainda vai ser observada, ou generalizar a conclusão para todas as pessoas sem ter que medir cada uma delas. Uma probabilidade é estimada (calculada) através da identificação de um padrão na frequência de um fenômeno que foi observado no passado (amostra), e que, portanto, podemos tentar generalizar as conclusões (inferência) sobre o mesmo fenômeno no futuro (predição), ou sobre todo o conjunto dos elementos (população) afetados pelo fenômeno. Para fazer essa inferência precisaremos assumir que um determinado fenômeno obedece os pressupostos do nosso modelo estatístico de frequência/probabilidade (Distribuição Normal), ou seja, que múltiplos fatores contribuem de maneira independente para a determinação da propriedade de cada elemento da população.


Recursos


Stewart 2013 - Distribuição Normal
Esse aqui é o capítulo "Padrões de Probabilidade - Distribuição Normal", do livro "Dezessete Equações que Mudaram o Mundo", o Ian Stewart (Stewart 2013, Zahar)



Programa 1: O surgimento da Distribuição Normal
Nesse programa eu mostro o surgimento de uma distribuição através em fenômenos que são determinados simultaneamente por múltiplos fatores independentes. Cada quadrado simula a contribuição individual de um fator para a estatura de uma pessoa. Ao clicar uma vez um fator é escolhido ao acaso, e a pessoa "ganha" aquela altura. Continue clicando sobre a tela e você verá a estatura da pessoa sendo definida pela soma de 20 fatores escolhidos de maneira idependente. Clique novamente e a estatura de uma nova pessoa é definida por um novo sorteio ao acaso de outros 20 fatores. Depois de clicar algumas vezes o programa começa a sortear sozinho todos os 20 fatores que definem a estatura de uma pessoa. Abaixo o programa ajusta um diagama chamado "histograma", que mostra a distribuição de frequencia de cada estatura. Como você pode ver, a maior parte das pessoas possui uma estatura média, enquanto poucos são muitos altos ou muito baixos.



Programa 2: Aplicações da Distribuição Normal
Nesse programa eu mostro como uma Distribuição de Normal de Probabilidade pode ser útil para calcularmos frequências e proporções esperadas na população. Você pode ajustar a média e o desvio padrão da população. Ao definir o limite superior e inferior de uma faixa de estatura o programa calcula a proporção (frequencia) esperada de pessoas com aquela estatura na população. O ajuste desses limites também pode ser feito com o arrastar do mouse. Ao clicar em "complemento" você pode interver a área sobre a curva, calculando para além do limite superior e inferior. Ao clicar "Eixo Z" você padroniza os valores da variável para média igual a zero e desvio padrão igual a um.