Já aprendemos sobre a atitude científica, sobre a importância e estratégia para coletar informação, e sobre codificar e manipular essa informação. Agora começamos uma jornada através dos métodos para sintetizar a informação que foi coletada, com objetivo de identificar padrões, compreender relações e aprender sobre o complexo universo do qual fazemos parte. A comunicação científica e a síntese da informação é sempre muito facilitada quando empregamos a nossa habilidade inata de reconhecimento de padrões visuais. Nas últimas décadas a Visualização de Dados se tornou uma disciplina madura, e hoje oferece uma ferramenta formidável e indispensável para a pesquisa científica.
Aula versão 02/03/2020
Somos herdeiros de um histórico evolutivou que dotou a nossa espécie de uma poderosa capacidade de reconhecimento de padrões visuais. A disciplina Vizualização de Dados (também conhecida como Análise Exploratória de Dados) emprega como ferramenta de pesquisa científica essa nossa capacidade de facilmente reconhecer padrões visuais, já que é mentalmente muito difícil analisar grandes planilhas ou tabelas de dados. Hoje os gráficos são usados amplamente, seja na mídia, em livros didáticos, ou nas publicações científicas especializadas.
Aqui eu classifico os gráficos segundo dois critérios: Conceitual vs Empírico e Declarativo vs Exploratório. Gráficos conceituais são utilizados para representar idéias e facilitar a comunicação entre cientistas, enquanto gráficos empíricos representam a realidade observada e são construídos a partir de dados. Gráficos declarativos são construídos para afirmar uma predição, hipótese ou a realidade, enquanto gráficos exploratórios são construídos para buscar padrões ou iluminar nossas ideias sobre o funcionamento do universo.
Existe hoje uma infinidade de gráficos e técnicas para representar idéias ou dados, e novos gráficos são sempre criados. Mesmo assim, uma simbologia padrão unifica praticamente todos os gráficos existentes. Eixos são linhas horizontais e verticais que servem não apenas para demarcar a área do gráfico, mas também para posicionar variáveis categóricas ou quantitativas. Pontos, linhas e polígonos são utilizados para representar os dados através de suas posições, direções, comprimentos, áreas, ângulos ou cores. Os gráficos que representam dados através da posição desses elementos (pontos, linhas ou polígonos) são preferíveis, pois nossa visão é dotada de grande capacidade de distinguir posição de maneira mais sutil e acurada.
Você sabia que simples "riscos" podem dizer mais do que centenas de palavras? Cientistas adoram "rascunhar" gráficos enquanto discutem suas idéias, pois esses gráficos rascunhados são capazes de transmitir com muito mais precisão as suas hipóteses ou predições. Nesse video eu mostro para você como desenhar uma relação teórica entre duas variáveis, usando como exemplo a sua expectativa de remuneração em função da sua qualificação acadêmica. Também mostro como podemos usar gráficos para falar sobre a frequência de um fenômeno, e uso a distribuição de renda como exemplo.
Os gráficos que representam o mundo real através de dados (empíricos) são extremamente diversos, e essa diversidade frequentemente confunde os estudantes. Aqui eu mostro que antes de escolher o gráfico mais adequado para a sua pesquisa você precisará definir qual é o objetivo da sua pesquisa, ou qual pergunta científica gostaria de responder. Os quatro objetivos principais de uma pesquisa são: comparação, composição, relação e distribuição.
Os gráficos usados para comparação costumam ser os de barras (verticais ou horizontais) quando estamos comparando categorias, ou de linhas quando estamos comparando coisas ao longo do tempo. Para descrever a composição de alguma coisa em geral usamos os gráficos de barras empilhadas, área ou setores (pizza). Para descrever relação entre variáveis ou elementos costumamos usar os gráficos de dispersão quando a relação é quantitativa, ou um dendograma quando a relação é de interação. Por fim, quando desejamos mostrar a frequência com que valores de uma variável ocorrem na amostra nós utilizamos o histograma.