Curso de Estatística para Pesquisa Científica: Teste da Hipótese Nula

A Razão Efeito / Erro e a Distribuição t de Student

Em um experimento controlado simples, o tamanho do efeito do tratamento pode ser estimado através da diferença observada entre as médias das réplicas que receberam o tratamento, e as que não receberam. Por outro lado, a variabilidade entre as réplicas dentro de cada grupo (ex. desvio padrão do peso das cobaias que receberam o mesmo hormônio) é indicativo do erro experimental, e pode ser utilizada para estimar a variabilidade esperada entre a diferença das médias dos grupos (erro padrão da diferença entre médias) quando o experimento for repetido. Como o tamanho do efeito está na mesma unidade de medida que o erro experimental (ex. peso, medido em gramas), podemos usar a razão efeito / erro como uma medida sintética e universal do tamanho do efeito do tratamento experimental, descontando a incerteza causada pelo erro experimental. Assim, se a razão efeito / erro for um valor grande, o tamanho do efeito experimental será proporcionalmente maior do que o tamanho do erro experimental, indicando que o tratamento experimental parece exercer influência real sobre o fenômeno, apesar da incerteza causada pelo erro experimental. Nesse vídeo eu mostro que a variabilidade da razão efeito / erro pode ser modelada pela distribuição de probabilidade/frequência t de Student se o experimento for repetido várias vezes. Por isso, em experimentos de comparação entre apenas dois grupos, chamaremos a razão efeito / erro pelo seu apelido carinhoso “t ”. Clique aqui para baixar o programa que construí para ilustrar o significado da razão efeito / erro, e clique aqui para baixar o programa que construí para ilustrar a distribuição de probabilidade/frequência dessa razão efeito / erro.

A Hipótese Nula: “Assumindo que o Tratamento NÃO é Eficaz...”

baixar o video

A eterna presença de erro experimental nunca nos permitirá ter certeza sobre o real efeito do tratamento (ex. injeção de hormônio nas cobaias promove ganho de peso?). Na verdade, existe uma infinita gradação de intensidade que o tratamento pode exercer, variando de pouco (ex. hormônio promove pouco ganho de peso) até muito (ex. hormônio promove grande ganho de peso). Ao contrário, em um cenário imaginário em que o tratamento não exerce qualquer influência, a expectativa do tamanho de efeito é precisamente zero (ex. nenhum ganho de peso). Assim, enquanto existe uma única expectativa para a ausência de efeito do tratamento, existem infinitas possibilidades para o tamanho de efeito caso o tratamento seja eficiente. Portanto, é mais fácil comparar o resultado observado do experimento (ex. cobaias ganharam em média 50 gramas) com um cenário hipotético simples de ausência de efeito do tratamento (ex. a diferença de peso entre os grupos deveria ser 0g), pois são infinitas as possibilidades de cenários hipotéticos em que tratamento é eficaz (ex. se o hormônio exerce efeito, as cobaias poderiam ter ganhado 10g, ou 20g ou, 30g ou, 40g ou, 50g ou, ..., ???). Além disso, esse cenário de ausência de efeito é mais conservativo e parcimonioso, pois não demanda nenhuma explicação adicional sobre o efeito do tratamento no fenômeno que está sendo estudado. Por exemplo, não precisaremos de uma explicação biológica se o hormônio testado não promover nenhum ganho de peso nas cobaias. Ao contrário, caso o hormônio promova ganho de peso, será necessário explicar qual alteração fisiológica / metabólica ele causou para que o ganho de peso acontecesse. Chamaremos de Hipótese Nula esse cenário TEÓRICO de ausência de efeito do tratamento , e usaremos ele como referência para comparação com o resultado observado no experimento, como se fosse um "advogado do diabo" que sempre nos lembrará que seria fácil observar em dados com erro amostral um efeito inexistente. Então, se a Hipótese Nula FOSSE verdadeira (não sabemos se é!), deveríamos esperar que o efeito observado no experimento seria zero (ex. nenhuma diferença entre os grupos). Por consequência, também esperaríamos que a razão efeito / erro seria igual a zero (t = 0). Ao contrário, se a Hipótese Nula FOSSE falsa (ex. o hormônio realmente causa ganho de peso nas cobaias), deveríamos esperar que o experimento SERIA capaz de detectar algum efeito (ex. diferença de peso entre grupos), o que faria com que a razão efeito / erro tendesse a ser diferente de zero (t ≠ 0). Portanto, quanto maior for a razão efeito / erro (t >> 0), maior será a diferença entre o nossos dados/resultado e a expectativa de ausência de efeito segundo a Hipótese Nula. Repare que não sabemos se a Hipótese Nula é, ou não falsa! A avaliação sempre será do resultado do experimento (diferença entre os grupos), e não da veracidade da Hipótese Nula. Entretanto, mesmo que a Hipótese Nula FOSSE realmente verdadeira (ex. injeção de solução neutra tanto no grupo controle quanto no grupo tratado) a razão efeito / erro nunca vai ser exatamente igual à expectativa (t = 0), já que o erro experimental nunca será plenamente eliminado, e sempre influenciará o resultado do experimento. Porém, sempre que a Hipótese Nula for verdadeira, o tamanho amostral for suficientemente grande, e o experimento estiver livre de viéses, podemos esperar que a razão efeito / erro seja sempre próxima de zero (t ≈ 0). Na verdade, em um cenário no qual sabemos que a Hipótese Nula é verdadeira (ex. não aplicando hormônio nas cobaias do grupo “tratado”), quando repetimos várias vezes o experimento podemos calcular o valor da razão efeito / erro para cada repetição do experimento, e construir uma distribuição de probabilidade/frequência para a expectativa da variação da razão efeito / erro (t ) quando a hipótese nula é verdadeira. Nesse caso, todas as vezes que a razão efeito / erro for diferente de zero poderíamos afirmar que foi apenas consequência do erro experimental, já que o tratamento não foi administrado, e não deveria haver diferenças entre os grupos pois não há efeito. Chamaremos essa distribuição de probabilidade/frequência que mostra os resultados esperados quando a Hipótese Nula é verdadeira de Distribuição Nula de Referência. Portanto, como não há tratamento no cenário em que a Hipótese Nula é verdadeira, a distribuição nula de referência possui a média dos valores de razão / erro igual a zero (t médio ≈ 0). Além disso, como a medida de erro experimental é o próprio denominador da razão efeito / erro, o tamanho do erro experimental já está sendo levado em consideração na construção da distribuição nula de referência. Assim, como todo número dividido por ele mesmo é igual a 1, a Distribuição Nula de Referência deverá possuir desvio padrão próximo de 1. O desvio padrão da Distribuição Nula mede a variabilidade esperada da razão efeito / erro quando a Hipótese Nula é verdadeira e o experimento é repetido. Como sempre, a variabilidade de uma estimativa na repetição do experimento é uma medida de erro. Portanto, podemos dizer que a Distribuição Nula sempre terá média = 0 e erro padrão = 1. Usei esse programa para ajustar a Hipótese Nula como verdadeira (mesma média entre as duas distribuições e gerar uma Distribuição Nula de Referência para a razão efeito / erro.

P-Valor: Se o Tratamento NÃO Fosse Eficaz eu Veria esse Resultado do meu Experimento?
Teste t de Student

baixar o video

O cenário da Hipótese Nula (ex. hormônio não exerce influência no peso das cobaias) permite formular a expectativa (Distribuição Nula) sobre o valor da razão efeito / erro (t médio = 0, erro padrão = 1), já que esse cenário simples assume justamente a ausência de efeito (ex. nenhuma diferença entre os grupos controle e tratado promovida pelo hormônio). Entretanto, ainda não aprendemos nada com o resultado do experimento que foi executado, pois a Hipótese Nula é apenas um CENÁRIO, e a Distribuição Nula diz apenas sobre a expectativa de um experimento TEÓRICO no qual a Hipótese Nula SERIA verdadeira, não sobre o experimento que foi de fato executado. A partir da medida de efeito e de erro estimada no experimento real também podemos calcular uma razão efeito / erro. Chamaremos essa razão de t calculado, pois esse t não é um cenário, mas o real resultado do experimento. Então, com o t calculado (resultado do experimento), e a Distribuição Nula de referência, podemos perguntar se o resultado do meu experimento é compatível com o esperado pelo cenário da Hipótese Nula. Em outras palavras, quão grande precisará ser a razão efeito / erro resultante do experimento (t calculado) para que eu possa concluir que há evidências suficientes que a Hipótese Nula é falsa? Ao comparar o resultado do experimento (t calculado) com o cenário da Hipótese Nula (Distribuição Nula) podemos estimar a probabilidade/frequência de observarmos um valor de razão efeito / erro (t ) tão grande, ou ainda maior, do que aquele que calculamos para o nosso experimento, se a Hipótese Nula fosse verdadeira e o experimento fosse repetido. Como você já deve ter percebido, essa probabilidade/frequência pode ser estimada como a área das caudas da Distribuição Nula de referência a partir do valor da razão efeito / erro (t ) calculada como resultado do experimento. Essa probabilidade/frequência é conhecida como P-Valor, e é extremamente utilizada para avaliar se a razão efeito / erro (t ) estimada resultante do experimento é compatível com o cenário da Hipótese Nula (t ≈ 0 e P-Valor ≈ 1). Portanto, se o P-Valor for grande (P ≈ 1, pois t ≈ 0), podemos concluir que a razão efeito / erro (t ) é provável/frequente de acontecer se o experimento for repetido e a Hipótese Nula for verdadeira, seja porque o experimento detectou um efeito baixo (ex. pouca diferença de peso entre grupos), ou porque o erro experimental é grande (ex. muita diferença dentro de grupos). Ao contrário, se o P-Valor for pequeno (P ≈ 0, pois t >> 0), podemos concluir que é improvável que uma razão efeito / erro (t ) tão grande tenha sido causada apenas pelo erro experimental, seja porque o efeito é grande (ex. peso médio das cobaias que receberam hormônio é muito maior do que o das cobaias que não receberam hormônio), ou porque o erro experimental é pequeno (ex. pouca diferença entre as cobaias de um mesmo grupo). Assim, quando o P-Valor for pequeno (P ≈ 0), concluiremos que seria improvável/raro de observarmos o valor da razão efeito / erro (t ) tão grande quanto o que observamos no experimento se a Hipótese Nula fosse verdadeira e repetíssemos o experimento. Em resumo, o P-Valor mede o grau de compatibilidade entre o resultado observado do experimento e o cenário teórico da Hipótese Nula. Essa medida é feita em valor de probabilidade/frequência, caso o experimento fosse repetido e a Hipótese Nula fosse verdadeira. Usei esse programa aqui para mostrar a área sob a cauda da distribuição normal, e esse programa aqui para demonstrar graficamente o P-Valor como uma comparação entre o t calculado e a Distribuição Nula de referência. Aqui está o conjunto de dados que usei na demonstração.

Erros do Tipo I e do Tipo II: Se Correr, o Bicho Pega; Se Ficar, o Bicho Come

baixar o video

O P-Valor é a medida da probabilidade/frequência de observarmos a razão efeito / erro (t ) tão grande, ou ainda maior, caso a Hipótese Nula fosse verdadeira, e repetíssemos o experimento. Porém, ainda assim, o P-Valor não indica se a Hipótese Nula é verdadeira, apenas assume que é verdadeira. Portanto, continuaremos sem saber se tratamento é eficaz, ou não (ex. se o hormônio promoveu ganho de peso nas cobaias, ou não). Apesar de valores de P muito baixos (P ≈ 0) sugerirem que há evidências suficientes que a Hipótese Nula é falsa (t >> 0, pois o tratamento é eficaz, ex. hormônio promove ganho de peso), e que valores de P muito altos (P >> 0) indicarem que não há evidência de que a Hipótese Nula é falsa (t ≈ 0, pois tratamento não é eficaz), continuaremos precisando de um critério para concluir se o tratamento é eficaz ou não (ex. hormônio exerce ou não efeito no ganho de peso das cobaias). O critério para decidir sobre a eficácia do tratamento é conhecido como Nível Crítico de Significância (α), e é estabelecido arbitrariamente pelo pesquisador como um valor probabilidade (ex.: 0,001; 0,01; 0,05) a ser comparado com o P-Valor. Assim, se o P-Valor é menor do que o Nível de Significância estabelecido pela pesquisadora (ex. P = 0,03 e α = 0,05), a pesquisadora deve concluir que há evidências suficientes que o efeito observado não é consequência de erro experimental (ex. diferença entre grupos é grande demais para não ter sido causada pelo hormônio), pois dificilmente uma razão efeito / erro (t ) tão grande, ou maior do que a observada no experimento aconteceria se a Hipótese Nula fosse verdadeira, e o experimento fosse repetido. Portanto, a conclusão deverá ser que o tratamento exerce efeito (ex. o hormônio promoveu o ganho de peso). Ao contrário, se o P-Valor é maior do que o Nível de Significância estabelecido pela pesquisadora (ex. P = 0,12 e α = 0,05), a pesquisadora deve concluir que não há evidências suficientes que o efeito observado não possa ter sido consequência do erro experimental (ex. diferença entre grupos pode não ter sido causada pelo hormônio, mas por fontes não-controladas de variação), já que o valor da razão efeito / erro (t ) do experimento é pequena, e por causa do erro amostral poderia acontecer mesmo quando a Hipótese Nula é verdadeira, e o experimento for repetido. Assim, a conclusão deverá ser que o tratamento não exerce efeito (ex. não foi o hormônio que promoveu a diferença de peso). Porém, mesmo quando a Hipótese Nula é verdadeira, apesar de improvável, é possível que a razão efeito / erro seja grande (t >> 0; P ≈ 0), pois, mesmo que raramente, o erro experimental poderia promover uma diferença entre os grupos (ex. as cobaias do grupo tratado já tinham tendência para ganho de peso). Portanto, o Nível Crítico de Significância (α) mede a probabilidade / frequência que a pesquisadora irá concluir erroneamente que o tratamento é eficaz (ex. hormônio causa diferença entre os grupos), mesmo quando não tenha sido o tratamento a causa do efeito observado (ex. diferença da média de peso entre os grupos), já que a razão efeito / erro também é afetada pelo erro experimental. “Erro do Tipo I” (falso negativo) é quando afirmamos erroneamente que o tratamento é eficaz, quando, na verdade, o tratamento não exerce qualquer influência, pois a diferença entre os grupos foi provocada apenas pelo erro experimental. Assim, a probabilidade/frequência de cometermos o Erro do Tipo I é controlada pelo Nível de Significância, que é estabelecido pela própria pesquisadora. Quando estabelecemos um Nível de Significância de 5% (α = 0,05), estamos dizendo que uma em cada 20 repetições do experimento irá concluir que a diferença entre os grupos foi causada pelo tratamento, quando, na verdade, o tratamento não exerceu nenhum efeito, pois a diferença entre os grupos foi causada apenas pelo erro experimental. Então, poderíamos imaginar que deveríamos reduzir o Nível de Significância ao mínimo (digamos, α = 0,0001, ou apenas uma ocorrência de Erro Tipo I em 10,000 repetições do experimento), na tentativa de diminuir a probabilidade/frequência de cometermos Erro do Tipo I, se voltarmos a repetir o experimento. Nesse caso, ao reduzir o Nível de Significância, estaríamos sendo cada vez mais céticos com relação ao efeito do tratamento, pois seria necessário que o tratamento causasse uma diferença muito grande entre os grupos para que concluíssemos que a diferença foi causada pelo tratamento, ao invés do erro experimental. Portanto, ao reduzirmos o Nível de Significância (α) nós passamos a exigir que o efeito do tratamento seja cada vez maior (ex. grande ganho de peso no grupo tratado, em função do hormônio) para que possamos concluir que o tratamento exerce algum efeito. Em outras palavras, corremos o risco de passar a atribuir ao erro experimental mesmo os efeitos reais do tratamento, que promoveram diferenças pequenas/moderadas entre os grupos (ex. as cobaias do grupo tratado são em média 100g maiores do que o grupo controle, mas, mesmo assim, essa diferença é insuficiente para convencer que não foi causada por outras causas que não o hormônio). Portanto, quando o Nível de Significância é baixo demais, pequenos efeitos reais promovidos pelo tratamento seriam confundidos com erro experimental (ex. se o hormônio exerce um pequeno efeito, apesar de real, concluiríamos que ele exerce efeito nenhum). “Erro do Tipo II” (falso negativo) é quando afirmamos erroneamente que o tratamento não é eficaz, quando, na verdade, o tratamento exerce alguma influência, mas o efeito do tratamento é confundido com erro experimental por não ser suficientemente grande. A probabilidade/frequência de cometermos Erro Tipo II é conhecida como β. Então, quando diminuímos a probabilidade/frequência de Erro do Tipo I (afirmar que o tratamento causa efeito, mesmo quando de fato não causa), aumentamos automaticamente a probabilidade/frequência de Erro do Tipo II (afirmar que o tratamento não causa efeito, mesmo quando de fato causa). Usei esse mesmo programa aqui para demonstrar graficamente o Nível de Significância na Distribuição Nula de Referência, bem como seus efeitos na probabilidade/frequência de Erro Tipo I e II.

O Poder do Teste: Eu Tenho a Força?!

baixar o video

A capacidade do teste de corretamente detectar o efeito do tratamento, quando de fato ele existe, é conhecia como Poder. O Poder de um teste é o complemento da probabilidade/frequência de Erro do Tipo II (1 – β). Em outras palavras, se a Hipótese Nula é falsa (ex. o hormônio de fato causa ganho de peso nas cobaias), e o experimento for repetido várias vezes, a probabilidade/frequência de concluirmos que tratamento exerce efeito (rejeitarmos a Hipótese Nula) é o Poder do Teste, que depende fundamentalmente de três grandezas: (1) o tamanho do real efeito do tratamento, (2) o tamanho do erro do experimento e (3) o Nível de Significância escolhido pelo pesquisador. Se o tratamento experimental exerce pouquíssimo efeito (ex. o hormônio promove um ganho real de peso nas cobaias, porém muito pequeno), será muito difícil concluir que esse pequeno efeito é consequência do tratamento, pois será facilmente confundido com o erro experimental. Ao contrário, se o tratamento exerce um enorme efeito (ex. o hormônio promove um grande ganho de peso), será muito mais fácil identificar esse efeito e atribuí-lo ao tratamento, já que o erro experimental não costuma gerar diferenças muito grandes entre os grupos do experimento. Se o erro do experimento for muito pequeno, seja pela semelhança entre as unidades experimentais de um mesmo grupo (ex. cobaias dentro do grupo controle, e dentro do grupo tratado, possuem o mesmo peso), ou também pelo alto número de réplicas de cada grupo (ex. muitas cobaias no grupo controle e no grupo tratado), então qualquer pequena diferença entre os grupos poderá ser corretamente atribuída ao tratamento. Ao contrário, se o erro experimental for muito grande (ex. as poucas cobaias que foram mantidas sobre as mesmas condições apresentam grande diferença de peso), então será menos confiável atribuir qualquer diferença entre os grupos ao tratamento (ex. a diferença entre os grupos é consequência do hormônio ou de fontes desconhecidas de variação?). Por fim, se o pesquisador estabelecer um Nível de Significância (α) muito baixo, firmando uma posição muito cética com relação ao efeito do tratamento, então, para convencer esse pesquisador a concluir que é o tratamento que realmente causa a diferença entre os grupos (ex. cobaias tratadas com hormônio têm maior peso por causa do hormônio, não por outros motivos) será preciso que o tratamento experimental exerça um grande efeito (ex. grande diferença de peso entre as cobaias do grupos controle e tratado), e que o erro experimental seja muito baixo (ex. grande homogeneidade entre as cobaias dentro de cada grupo).

Recursos

Programa 1: A Razão Efeito / Erro
Nesse programa você é convidada(o) a alterar as distribuições populacionais (cinza e azul) para entender o que representa a relação efeito/erro. Se você clicar e arrastar lateralmente os losangos verá o tamanho do efeito (diferença entre as distribuições paramétricas). Além disso, se você clicar e arrastar lateralmente as barras de desvio padrão de cada distribuição está aumentando a variabilidade natural das populações, que por sua vez aumenta a erro da estística. Por fim, se você aumentar o tamanho amostral irá diminuir o erro amostral, fazendo com que o efeito fica proporcionalmente maior do que o erro.

Programa 2: Amostrando Efeito / Erro
Comparar dois "grupos" significa estudar a diferença entre as médias de suas amostras. Nesse programa a distribuição populacional (parâmetro) pode ser ajustada no painel superior, sendo um grupo de cor cinza, e outro grupo de cor azul. Como você já imagina, essas distribuições populacionais não são conhecidas no mundo real, e aqui estão representadas apenas para fins didáticos. Apesar de não sabermos nada sobre distribuições populacionais no mundo real, são elas que gostaríamos de saber, e usamos amostragem exatamente para isso. Observe que as populações são diferentes (o losango cinza está seis unidades distante do losango azul). A questão é: nossa amostragem será capaz de identificar a diferença entre os grupos 1 e 2? Nesse programa você pode ajustar o tamanho da amostra (quantos valores vai medir de cada grupo), e no painel inferior as setas cinza e azul representam as médias amostradas (estimativas) de cada grupo. A barra verde indica a diferença observada (estimada) entre as médias amostrais, e é com essa estimativa de diferenças que faremos a inferência sobre as populações reais. Como você pode imaginar, a largura da barra verde, que mede a diferença entre as médias amostrais, varia entre diferentes amostras. Isso significa que por vezes vamos observar diferenças maiores do que seis unidades, mas por vezes vamos observar diferenças menores do que seis unidades. Se você fizer muitas amostras (mais do que 1000x) poderá registrar quais foram as diferenças estimadas clicando na opção "Registrar Diferenças Médias". A seta vermelha representa a média das diferenças entre as médias amostrais, enquanto a barra vermelha representa o erro padrão da diferença entre as médias. Como é possível ver no painel mais inferior, a média das diferenças entre as médias é também seis unidades, porém há um grande erro padrão em torno da nossa estimativa. O valor desse erro pode ser predito sem que precisemos repetir nossa amostragem mil vezes? Pode, usando um Intervalo de Confiança, como aprendemos na última aula!

Programa 3: Distribuição t de Student como Distribuição Nula
Nesse programa eu demonstro que a área sobre os extremos da Distribuição t de Student, configurada com média zero e desvio padrão igual ao erro padrão, pode ser utilizada como Distribuição Nula de Referência. Assim, podemos estimar a probabilidade/frequencia de observar resultados (razão efeito/erro) extremos quando a hipótese nula é verdadeira.

Programa 4: Distribuição Nula e P-Valor
Nesse programa você pode configurar as distribuições populacionais (painel superior) e observar os valores de Efeito/Erro que emergem de um processo amostral dessas distribuições. O mais interessante aqui é quando você faz com que a hipótese nula seja verdadeira, configurando as distribuições paramétricas (painel superior) para terem a mesma média e desvio padrão. Quando você faz a hipótese nula ser verdadeira, e habilita os limites do t-crítico, você pode estabelecer o seu valor de t crítico, e observar a probabilidade/frequência com que a razão Efeito/Erro (t-observado) é mais extrema do que os limites esperados (t-crítico). Como você deve imaginar, essa frequência/probabilidade é igual ao Nível Crítico de Significância que você usou para extrair o valor de t-crítico.

Dados
Aqui está o conjunto de dados que utilizei para demonstrar o cálculo do Intervalo de Confiança na comparação entre dois grupos. Na primeira aba "Grupos Independentes" você verá a clássica comparação entre preso de cobaias que fazem parte de grupo controle e tratado. Obviamente, uma cobaia só poderia estar presente em um único grupo. Na segunda aba você verá dados coletados segundo o delineamento experimental pareado, no qual o tratamento é aplicado a todas as cobaias e a comparação é feita entre mensurações antes e depois do tratamento.

Teste da Hipótese Nula: Seria absurdo supor que o tratamento é eficaz?

A Razão Efeito / Erro e a Distribuição t de Student

A Hipótese Nula: “Assumindo que o Tratamento NÃO é Eficaz...”

P-Valor: Se o Tratamento NÃO Fosse Eficaz eu Veria esse Resultado do meu Experimento?Teste t de Student

Erros do Tipo I e do Tipo II: Se Correr, o Bicho Pega; Se Ficar, o Bicho Come

O Poder do Teste: Eu Tenho a Força?!

Recursos

P-Valor: Se o Tratamento NÃO Fosse Eficaz eu Veria esse Resultado do meu Experimento?
Teste t de Student