Comparando dois grupos:
Essa diferença é devido ao tratamento ou ao erro experimental?


Experimentação científica é uma poderosa ferramenta de simplificação da natureza, usada na tentativa de facilitar a nossa compreensão de fenômenos complexos, que são influenciados por múltiplas causas ao mesmo tempo. O controle experimental é uma tentativa de reduzir ao máximo as fontes de variação do fenômeno, pois elas confundem a nossa percepção de causa-efeito (ex. dar a mesma comida para cobaias). Já o tratamento experimental é a manipulação artificial de um fator que está sendo avaliado como uma potencial influência no fenômeno em estudo (ex. aplicar diferentes dosagens de hormônio nas cobaias). Entretanto, por mais cuidadosa que seja a pesquisadora, o controle experimental nunca será perfeito, e sempre haverá erro experimental confundindo os padrões gerados pelo tratamento, e, portanto, causando incerteza nas conclusões do estudo. Será que a diferença no peso das cobaias é causada pelo hormônio ou por fontes desconhecidas (não-controladas) de variação (ex. genética)? É pelo uso de réplicas que podemos estimar do tamanho do erro experimental, ao comparar a variabilidade entre unidades experimentais (ex. cobaias) que foram sujeitas às mesmas condições experimentais (ex. mesma comida e mesma dosagem de hormônio). Essa variabilidade indesejada é o próprio erro experimental, pois gera incerteza nas conclusões sobre o real efeito do tratamento experimental. Então, como é que poderíamos levar em consideração o tamanho do erro experimental na hora de tirar conclusões sobre o efeito do tratamento? Nessa aula vamos aprender a lidar com a incerteza no mais simples delineamento experimental possível, que possui apenas dois grupos (ex. tratamento e controle).
Aula versão 10/05/2018

O Efeito e o Erro Experimental na Comparação entre Grupos


Cada grupo do experimento (ex. cobaias que receberam injeção de hormônio), que é mantido sob condições controladas, apresenta uma variável de interesse (ex. peso das cobaias). A média do grupo é a tendência natural de resposta das unidades experimentais (ex. cobaias) às condições experimentais (ex. injeção ou não de hormônio). Em um experimento simples, com apenas dois grupos (ex. com ou sem injeção de hormônio), o tamanho do efeito do tratamento pode ser verificado através da diferença observada entre as médias dos dois grupos (ex. diferença entre a média de peso cobaias que receberam hormônio e a média daquelas que não receberam). Entretanto, como sempre há erro amostral, precisamos observar a variabilidade entre as réplicas de um mesmo grupo (ex. diferenças apenas entre as cobaias que receberam hormônio), na tentativa de medir a influência das fontes não-controladas de variação. Portanto, usaremos como medida do efeito do tratamento a diferença entre as médias das unidades experimentais (ex. peso médio das cobaias) de cada grupo. Mas será que essas médias seriam as mesmas se repetíssemos o experimento? Claro que não, pois não há controle experimental absolutamente perfeito. Como nossas conclusões serão baseadas na diferença entre as médias de cada grupo, o erro experimental é a expectativa de variabilidade dessas diferenças entre médias caso o experimento fosse repetido. Felizmente, como temos réplicas dentro de cada grupo (ex. cobaias sob as mesmas condições), podemos utilizar a variabilidade entre as réplicas dentro dos grupos (ex. desvio padrão do peso das cobaias que receberam o mesmo hormônio) para estimar a variabilidade esperada entre a diferença das médias dos grupos (erro padrão da diferença entre médias), caso o experimento fosse repetido. Como você deve lembrar da aula sobre erro amostral, a variabilidade esperada da média ao longo de estudos repetidos é conhecida como erro padrão da média, e depende da variabilidade entre as unidades amostrais (variabilidade natural) e o tamanho amostral (quantidade de informação). Da mesma forma, o erro padrão da diferença entre médias leva em consideração a variabilidade dentro dos grupos (erro experimental) e a quantidade de réplicas dentro dos grupos (esforço/tamanho experimental). Éh... parece que o Erro Padrão da Média vai nos servir novamente como uma medida de incerteza... sorte que já sabemos tudo sobre ele! Clique aqui para baixar o arquivo com os dados que utilizei para demonstrar os cálculos nesse vídeo.


"Reciclando" o Intervalo de Confiança para Uso em Experimentação Científica


Em estudos observacionais (amostras passivas) de uma única variável, o Intervalo de Confiança informa a frequência/probabilidade que futuros Intervalos de Confiança, caso a amostragem fosse repetida, abarcaria o parâmetro. Como poderíamos utilizar essa mesma técnica na comparação entre dois grupos experimentais? Como estamos comparando dois grupos experimentais, o interesse está no estudo da diferença entre as médias dos grupos, que é a medida do efeito do tratamento experimental. Entretanto, a diferença entre as médias dos grupos deve variar se o estudo fosse repetido, pois o controle experimental nunca é perfeito, já que sempre existirá erro experimental. O erro padrão da diferença entre as médias pode ser estimado com base no desvio padrão (ex. variabilidade entre cobaias que receberam hormônio) e número de réplicas (ex. número de cobaias que receberam hormônio) de cada grupo experimental. Assim, de posse da diferença observada entre as médias dos grupos (ex. diferença entre a média das cobaias que receberam e que não receberam hormônio), e do erro padrão da diferença entre as médias (ex. expectativa de variabilidade da diferença entre as médias, se o estudo fosse repetido), podemos calcular um Intervalo de Confiança para o tamanho do efeito do tratamento. Clique aqui para baixar o programa que construí para ilustrar o Erro Padrão da Diferença entre as Médias de diferentes populações. Se o tratamento (ex. injeção de hormônio) não exerce nenhum efeito (ex. cobaias não engordam com hormônio), então a diferença entre as médias dos grupos tende a ser sempre próxima de zero. De fato, podemos dizer que o parâmetro (tamanho de efeito) é zero, já que qualquer diferença observada será apenas consequência do erro amostral. Assim, o Nível de Confiança (alfa) escolhido pela pesquisadora indicará a probabilidade/frequência com que Intervalos de Confianças calculados em futuros experimentos abarcaria a diferença zero entre os grupos (parâmetro). Ao contrário, se o tratamento (ex. hormônio) promove de fato um efeito (ex. ganho de peso), então o parâmetro será maior do que zero, já que o tratamento promove essa diferença entre a média dos grupos (ex. aumento de peso de 100g em cada cobaia). Então, podemos afirmar que, dado um Nível de Confiança escolhido pela pesquisadora, futuros Intervalos de Confiança raramente abarcarão o valor zero, pois estes Intervalo de Confiança tenderiam a estar concentrados ao redor de uma diferença positiva entre os grupos promovida pelo tratamento (ex. ganho de peso de 100g). Clique aqui para baixar o arquivo com os dados que utilizei para demonstrar os cálculos nesse vídeo. Clique aqui para baixar o programa que construí para ilustrar o Intervalo de Confiança da Diferença entre as Médias.


Delineamento Pareado


No exemplo que usamos até agora o efeito é medido como a diferença entre as médias dos dois grupos, compostos por cobaias que foram tratadas com hormônio e as cobaias não foram tratadas com hormônio. Entretanto, esse não é o único desenho experimental possível com apenas dois grupos. Em algumas situações é possível medir o efeito experimental através do tamanho das mudanças ocorridas em cada uma das unidades experimentais antes e depois do tratamento. Por exemplo, poderíamos estudar experimentalmente o efeito de um antibiótico comparando o hemograma das cobaias um dia antes com uma semana depois de administrarmos o antibiótico. Esses estudos experimentais são conhecidos como pareados, pois cada unidade experimental é medida duas vezes, permitindo uma comparação direta entre o estado da unidade experimental antes e depois do tratamento (ex. antibiótico). Nesses casos o efeito do tratamento experimental pode ser medido diretamente através da diferença promovida pelo tratamento em cada unidade experimental, enquanto o erro experimental pode ser estimado através da variabilidade na resposta ao tratamento entre as unidades experimentais. Assim, enquanto no delineamento de grupos independentes nós calculamos a diferença entre as médias de dois grupos (ex. tratamento e não-tratamento), no delineamento pareado nós calculamos a média das diferenças, antes e depois do tratamento. Da mesma maneira que no delineamento experimental não-pareado (grupos independentes), se o Intervalo de Confiança abarcar o valor zero nós concluiremos que as diferenças observadas antes e depois do tratamento podem ocorrer por consequência de erro experimental (ex. diferenças entre as cobaias não são consequência do antibiótico). Ao contrário, se o Intervalo de Confiança não abarca o valor zero, concluiremos que há indicações que o tratamento exerceu efeito sobre as unidades experimentais (ex. o antibiótico afetou as cobaias, alterando o hemograma delas). Clique aqui para baixar o arquivo com os dados que utilizei para demonstrar os cálculos nesse vídeo.


A Razão Efeito / Erro da Média


Calcular um Intervalo de Confiança para cada um dos grupos do experimento é certamente uma boa ideia, pois permite verificar até que ponto o erro experimental está confundindo a percepção do efeito do tratamento experimental. Mesmo assim, existe uma maneira ainda mais direta de avaliar o efeito do tratamento experimental enquanto controlamos estatisticamente as fontes de incerteza que confundem as nossas conclusões. Como o tamanho do efeito do tratamento (ex. diferença entre a média de peso das cobaias que receberam e as que não-receberam hormônio) está na mesma unidade de medida de erro experimental (erro padrão da diferença entre as médias, ex. variabilidade esperada da diferença entre as médias de peso de cobaias em diferentes grupos, se o experimento fosse repetido várias vezes), podemos usar a razão efeito / erro como uma medida universal para indicar o tamanho do efeito do tratamento experimental, descontando a incerteza medida pelo erro experimental. Existem três possibilidades da razão efeito / erro ser pequena: (1) baixo efeito e baixo erro, (2) baixo efeito e alto erro, e (3) alto efeito e alto erro. Porém, existe apenas uma maneira da razão efeito / erro ser grande: alto efeito e baixo erro. Assim, quanto maior for o valor da razão efeito / erro, maior será a confiabilidade que o tratamento experimental (ex. aplicação do hormônio) de fato exerce influência real sobre o fenômeno, descontando o efeito de incerteza do experimento (ex. hormônio promove o aumento do tamanho de peso das cobaias, apesar das fontes de variação não controladas). Como o valor da razão efeito / erro é uma proporção, e não possui unidade, esse número simplesmente mede quantas vezes o efeito é maior do que o erro, esse é um número universal, e possui a mesma interpretação independentemente do fenômeno que está sendo estudado. Por exemplo, enquanto uma pesquisadora pode estimar/calcular uma razão efeito / erro em um experimento que estuda o efeito de hormônio em cobaias criadas em laboratório (levando em consideração o erro experimental sobre as cobaias), um outro pesquisador pode estimar/calcular uma razão efeito / erro em um experimento que avalia diferentes técnicas didáticas/pedagógicas no ensino de estatística (levando em consideração o erro experimental sobre os alunos de estatística); incrivelmente, a razão efeito / erro é comparável entre estes dois estudos, por mais que digam respeito a fenômenos tão diferentes Por fim, quanto maior for a razão efeito / erro, maior será a garantia que encontraríamos um efeito de tratamento tão grande quanto o que foi observado no experimento, caso o experimento seja repetido. Clique aqui para baixar o programa que construí para ilustrar a Razão Efeito / Erro.


Recursos


Programa 1: Comparação entre Dois Grupos
Comparar dois "grupos" significa estudar a diferença entre as médias de suas amostras. Nesse programa a distribuição populacional (parâmetro) pode ser ajustada no painel superior, sendo um grupo de cor cinza, e outro grupo de cor azul. Como você já imagina, essas distribuições populacionais não são conhecidas no mundo real, e aqui estão representadas apenas para fins didáticos. Apesar de não sabermos nada sobre distribuições populacionais no mundo real, são elas que gostaríamos de saber, e usamos amostragem exatamente para isso. Observe que as populações são diferentes (o losango cinza está seis unidades distante do losango azul). A questão é: nossa amostragem será capaz de identificar a diferença entre os grupos 1 e 2? Nesse programa você pode ajustar o tamanho da amostra (quantos valores vai medir de cada grupo), e no painel inferior as setas cinza e azul representam as médias amostradas (estimativas) de cada grupo. A barra verde indica a diferença observada (estimada) entre as médias amostrais, e é com essa estimativa de diferenças que faremos a inferência sobre as populações reais. Como você pode imaginar, a largura da barra verde, que mede a diferença entre as médias amostrais, varia entre diferentes amostras. Isso significa que por vezes vamos observar diferenças maiores do que seis unidades, mas por vezes vamos observar diferenças menores do que seis unidades. Se você fizer muitas amostras (mais do que 1000x) poderá registrar quais foram as diferenças estimadas clicando na opção "Registrar Diferenças Médias". A seta vermelha representa a média das diferenças entre as médias amostrais, enquanto a barra vermelha representa o erro padrão da diferença entre as médias. Como é possível ver no painel mais inferior, a média das diferenças entre as médias é também seis unidades, porém há um grande erro padrão em torno da nossa estimativa. O valor desse erro pode ser predito sem que precisemos repetir nossa amostragem mil vezes? Pode, usando um Intervalo de Confiança, como aprendemos na última aula!



Programa 2: Intervalo de Confiança na Comparação entre Dois Grupos
Nesse programa eu mostro que um intervalo de confiança em torno da média das diferenças entre as médias de cada grupo (cinza e azul) inclui a real diferença entre as médias populacionais (losangos cinza e azul) em uma proporção conhecida, igual ao Nível de Confiança. Esse nível de confiança é uma probabilidade ou frequencia, que usado em conjunto com a distribuição t de Student fornece um valor de t crítico ("Valor de t").



Programa 3: A Razão Efeito / Erro
Nesse programa você é convidada(o) a alterar as distribuições populacionais (cinza e azul) para entender o que representa a relação efeito/erro. Se você clicar e arrastar lateralmente os losangos verá o tamanho do efeito (diferença entre as distribuições paramétricas). Além disso, se você clicar e arrastar lateralmente as barras de desvio padrão de cada distribuição está aumentando a variabilidade natural das populações, que por sua vez aumenta a erro da estística. Por fim, se você aumentar o tamanho amostral irá diminuir o erro amostral, fazendo com que o efeito fica proporcionalmente maior do que o erro.



Dados
Aqui está o conjunto de dados que utilizei para demonstrar o cálculo do Intervalo de Confiança na comparação entre dois grupos. Na primeira aba "Grupos Independentes" você verá a clássica comparação entre preso de cobaias que fazem parte de grupo controle e tratado. Obviamente, uma cobaia só poderia estar presente em um único grupo. Na segunda aba você verá dados coletados segundo o delineamento experimental pareado, no qual o tratamento é aplicado a todas as cobaias e a comparação é feita entre mensurações antes e depois do tratamento.