Coletada a Informação! E agora...???


A Ciência Moderna é plenamente informatizada. Os avanços recentes em tecnologia de informática e eletrônica digital permitiram com que cientistas manipulem, com agilidade, quantidades de informação inimagináveis há poucas décadas. O principal destaque entre esses avanços tecnológicos que beneficiaram a análise estatística foi a criação das planilhas eletrônicas. Elas servem não apenas para a entrada, mas também a organização, edição, controle, inspeção, processamento, exploração, vizualização e análise da informação científica. Aqui aprenderemos algumas técnicas de planilhas eletrônicas que são utilizadas por cientistas para investigar as causas e consequências de fenômenos naturais.
Aula versão 25/01/2020

Planilhas Eletrônicas


Já imaginou poder combinar um editor de texto com uma calculadora e editor de gráficos? Microsoft Excel é a planilha eletrônica mais popular, mas é um software comercial e pago, parte do pacote Microsoft Office. Felizmente existem planilhas eletrônicas gratúitas, como o Google Sheets e o LibreOffice Calc. Aqui usaremos o LibreOffice Calc, que é uma planilha eletrônica igualmente poderosa e de distribuição livre, que pode ser baixada no link http://www.libreoffice.org e instalada no seu computador. Se você já possui o Microsoft Excel poderá seguir a aula normalmente, pois todos os comandos são equivalentes, apesar de que você precisará buscar alguns botões e menus em locais diferentes da tela. Nesse primeiro video eu faço uma introdução geral às planilhas eletrônicas e sua aplicabilidade em estatística para pesquisa científica, ressaltando operações básicas de entrada de dados e cálculos simples.


Entrada de Dados


Nesse video eu mostro como os dados de uma pesquisa (amostra) são organizados dentro de uma planilha eletrônica: unidades amostrais são dispostas ao longo das linhas, e variáveis (propriedades das amostras) dispostos nas colunas.
Para que essa conversa de "amostras e variáveis" não fique muito abstrata, criei uma pequena planilha de dados de todos os cachorros que tive em casa. :-)


Organização e Processamento


Nesse vídeo eu te apresento uma planilha de dados usada em uma pesquias real. Desde 2010 existe os peixes do Rio Madeira (Rondônia) são amostrados sistematicamente, e até o momento já foram coletados (amostrados) e estudados 97.370 indivíduos. Por favor baixe aqui a planilha de dados dos peixes do Rio Madeira para acompanhar a aula.
Imagine que você precise descobrir qual foi o maior peixe coletado no Rio Madeira desde que a pesquisa começou. Claro, como você tem a planilha com o tamanho de todos eles, você poderia olhar um por um para descobrir qual é a espécie ou local onde o maior deles foi pescado. Mas, lembre-se, são 97.370 peixes, e você teria que olhar na tela do computador o tamanho de cada um deles! "Tá doido?! quanto tempo isso levaria?!" E se, depois de todo o seu esforço para encontrar esse maior indivíduo eu ainda te pedisse para descobrir em que local o menor indivíduo foi encontrado? Você ainda continuaria na pesquisa?, ou abandonaria concluindo que todo cientista é doido? :-)
Claro, cientistas não fazem buscas manuais em planilhas de dados. Na verdade, nós preferimos colocar o computador para trabalhar enquanto usamos o cérebro para pensar. Com planilhas eletrônicas é fácil fazer buscas usando ordenação dos dados e/ou filtros para separar apenas parte dos dados. Por fim, eu vou também te mostrar como é possível criar novas variáveis para indicar facilmente algum critério interessante para a pesquisa.


Tabelas Dinâmicas


Qual o local de estudo que possui mais peixes? Qual o ano havia menos peixes no rio? Qual a espécie mais abundante? Será que para responder essas perguntas você terá que olhar (e contar!) os peixes de cada local, ano ou espécie? Claro que não, né?! Cérebro serve para pensar, e computador é que serve contar!
Agora que já aprendemos como manipular e buscar na planilha cada um dos peixes (amostras), precisamos pensar em como agregar e sumarizar informação das amostras segundo os critérios (categorias) que são importantes para a pesquisa. A ferramenta para esse trabalho de agregação chama-se Tabela Dinâmica, e é extremamente utilizada em pesquisa científica.
No nosso caso, ao invés de continuar olhando para cada peixe, você poderá agrupar todos os peixes conforme o ano, local ou espécie deles. Assim, a tabela dinâmica te ajuda a criar uma nova planilha a partir de uma já existente, porém usando os fatores de uma variável categórica como unidades amostrais. Isso facilita a pesquisa por permitir uma melhor generalização de padrões e buscas pela causa de fenômenos naturais, já que podemos deixar de olhar apenas o micro (ex. o tamanho de cada peixe) e passar a olhar também o macro (ex. comparar a quantidade de peixes entre locais ou ano).


Frequências e Proporções


O Neymar fez 61 gols pela seleção brasileira, e o Romário fez 55. Qual dos dois é mais "goleador"? É o Romário!, pois ele jogou 70 partidas (0,78 gols/partida), e o Neymar jogou 101 (0,60 gols/partida). Ou seja, se o Romário tivesse jogado 101 partidas como o Neymar jogou, teria feito uns 79 gols (0,78 x 101). Ao contrário, se o Neymar tivesse jogado 70 partidas como o Romário, teria feito "apenas" uns 42 gols (0,60 x 70). Veja aqui esses dados dos maiores goleadores da seleção brasileira de todos os tempos.
Da mesma maneira, pode ser que mais peixes tenham sido coletados em um local simplesmente por aquele local foi mais estudado (ex, por mais tempo, ou por mais pessoas), mesmo que esse local tenha, na realidade, menos peixes que outros.
Uma comparação só é justa quando houver igual "oportunidade" para todos os envolvidos, mas as circunstância do universo nem sempre oferecem esse tratamento equitativo. Assim, precisamos usar a matemática para igualar o tratamento antes de qualquer comparação, e para isso calcularemos o índice resultado/oportunidade, que é uma frequência.
Na planilha dos peixes do Rio Madeira eu mostro como usar a tabela dinâmica para calcular o "tempo" de pescaria (esforço amostral) em cada local, ano, mês, ambiente, etc. Em seguida, mostro como calcular a frequência de peixes (número de peixes / número de campanhas de estudo; controle do efeito amostral) para poder fazer comparação justa e descobrir onde e quando havia mais peixes na realidade.
Por fim, mostro também que fica mais fácil fazer comparações na quantidade de peixes entre os locais (ou ano) levando em consideração o total de peixes encontrado em todos os locais (razão parte pelo todo). Ou seja, mostrarei como calcular uma frequência relativa ou proporção, e como podemos converter esse número em uma porcentagem.


Recursos



LibreOffice Calc
Clique aqui para baixar grauitamente o pacote LibreOffice, que contém o software Calc. Farei todas as demonstrações em planilhas eletrônias usando o Calc, mas você pode utilizar o Microsoft Excel se já estiver instalado no seu computador.

Conjunto de Dados
Essa aqui é a planilha de dados dos peixes do Rio Madeira, que contém informação de 97,370 indivíduos, que foram coletados em 11 locais, ao longo de 10 anos de estudo. Clique aqui para baixar o arquivo para o seu computador. Acompanhe as demonstrações da aula usando o LibreOffice Calc ou o Microsoft Excel.



Conjunto de Dados
Essa aqui é a planilha de dados de COVID-19 nos municípios do Estado de Goiás, de acordo com a Secretaria Estadual de Saúde, atualizados até 31/03/2022. Clique aqui para baixar o arquivo para o seu computador.