Tipos de gráficos e quando usá-los

15/12/2021

Linguagem R

Nas últimas 72 horas, muitos de nós recebemos mais inputs que produzem mudanças, criam projetos e alteram prioridades do que nossos pais recebiam em um mês inteiro, quiçá em um ano. Com a transformação do mundo analógico para o digital, os dados são gerados em praticamente todas as ações realizadas pelo ser humano, como cliques em anúncios, curtidas e compartilhamentos em mídias sociais, transações bancárias, conteúdo de streaming e muito mais. “Dados são o petróleo do século 21”, e a transformação desse universo de dados em informações é o que tem diferenciado as empresas em todos os segmentos de mercado. É aí que entra uma ferramenta muito importante para ajudar a transmitir essas informações: os gráficos.

Gráficos são representações visuais utilizadas para exibir dados, e quando utilizados da maneira correta nos permitem uma interpretação rápida e fácil de todas aquelas informações que estão agrupadas. Por isso, a importância de conhecer os principais tipos de gráficos.

Quando entramos no ramo de visualização de dados, muita coisa entra em discussão. Para uma boa visualização, é essencial entender o contexto e o público, contextualizar uma história, conhecer os seus dados, quais as cores utilizar nos gráficos… Enfim, é muita coisa.

O foco deste post é falar um pouco sobre os principais gráficos utilizados no dia a dia e falar, de uma forma mais técnica, quando é recomendado utilizá-los. Caso queira se aprofundar mais no ramo da visualização, recomendamos fortemente o livro “Storytelling com dados – um guia sobre visualização de dados para profissionais de negócios”, da autora Cole Nussbaumer Knaflic. Inclusive, algumas discussões presentes neste post foram retiradas desse livro.

Vale ressaltar também que todos os gráficos exibidos abaixo foram feitos no software R e a maioria foi gerado utilizando o pacote {ggplot2}. Não é o foco do post ensinar a construir os gráficos, mas caso tenha interesse nessa parte você pode acessar o material produzido pelo ensinaR clicando aqui e aqui também. Lá, eles explicam com clareza tudo o que precisa saber para construir lindos gráficos com o {ggplot2} e outros pacotes.

Gráfico de barras

Tenho certeza que você já viu um gráfico de barras pelo menos uma vez na vida. Gráficos de barras são extremamente comuns e muito utilizados. Esse tipo de gráfico é utilizado para passar informações de dados categóricos, em que cada barra no gráfico representa uma categoria (eixo x) e a altura de cada barra representa uma agregação específica, como a soma dos valores (eixo y). Ao olhar para ele, rapidamente identificamos qual categoria é maior e qual a diferença de tamanho entre as categorias. Pela sua simplicidade, algumas pessoas tendem a evitar esse tipo de gráfico, mas é exatamente por esse motivo que devemos utilizá-lo mais. Existem algumas variações desses gráficos como os de barras verticais (ou de colunas), de barras verticais empilhadas, de barras horizontais etc.

Para os próximos exemplos, vamos utilizar a mesma base de dados utilizada para gerar o painel OOBr Covid-19. Vale lembrar que informações sobre a base de dados, as variáveis e o tratamento não serão tratadas neste post. Você pode ter acesso a toda documentação sobre os dados acessando diretamente o painel. Em resumo, a base armazena dados sobre os casos definidos como gestante (qualquer trimestre gestacional ou idade gestacional ignorada) ou puérpera com idade entre 10 e 55 anos. Vamos supor, então, que a gente queira mostrar para o público a quantidade de casos registrados separando por raça. O gráfico de barras irá nos atender muito bem. Veja como é fácil olhar e entender a informação que está sendo transmitida.

Uma pequena observação a ser feita: os valores NA representam os valores faltantes.

Seguindo, caso você queira passar informações que contenham mais de uma categoria, o gráfico de barras também é interessante. Veja:

Nesse caso em específico não tivemos a ausência de informações em nenhum grupo. Mas se tivesse acontecido, teríamos apenas a ausência da respectiva barra, não gerando nenhuma dificuldade para identificar isso. Podemos puxar um gancho para falar sobre a largura das barras. Não existe uma regra, mas vale se atentar para que as barras não fiquem finas ou grossas demais. Logo, um meio termo pode ser interessante.

Gráfico de dispersão

Um gráfico de dispersão pode ser utilizado quando se deseja mostrar a associação entre variáveis de uma forma rápida e assertiva. Podemos observar simultaneamente os dados representados por um marcador cuja posição depende dos seus valores determinados nos eixos x e y. Assim, conseguimos ver o que acontece com uma variável quando a outra se altera, ajudando, dessa forma a verificar a relação entre elas. Vamos ilustrar isso utilizando a variável ‘idade’ e ‘tempo na uti’ do nosso banco de dados.

Com um simples gráfico de dispersão já podemos mostrar muitas informações, porém trata-se de um gráfico um pouco mais “avançado”. Com isso, a depender do seu público, você precisa incrementá-lo com um pouco mais de informação para facilitar o entendimento ou até mesmo ter que explicar seu objetivo. Você pode também destacar algumas informações nesse tipo de gráfico, como uma linha separando os valores pela média, por exemplo.

Histogramas

O gráfico de histograma é um dos mais utilizados quando se trata de mostrar a distribuição dos dados. Se você deseja apresentar ou tirar conclusões de um grande conjunto de dados e está trabalhando com conceitos envolvendo frequências, sejam absolutas ou relativas, o histograma é uma excelente escolha. Ele nos permite observar facilmente informações sobre centralidade, amplitude e simetria. Um histograma pode ser confundido com um gráfico de barras pois é formado justamente por barras. Entretanto, esse tipo de gráfico é usado para dados contínuos, diferente do gráfico de barras. Os espaços entre gráficos de barras são recomendados também para diferenciá-los dos histogramas. Em um histograma, a base de cada uma das barras representa uma classe e a altura representa a quantidade ou frequência absoluta com que o valor de cada classe ocorre. O objetivo principal do histograma é ilustrar como uma determinada amostra de dados ou população está distribuída. Vamos a um exemplo.

O histograma acima representa a distribuição dos dados das idades das gestantes. Vale ressaltar que o formato de um histograma pode ser bem diferente um do outro a depender dos seus dados. Existem vários tipos de histogramas: simétricos, distorcidos à direita ou à esquerda, multimodal etc. Essa diferença tem relação com os dados e sua distribuição, e é exatamente isso que o histograma nos permite ver com facilidade.

Boxplot

Assim como o histograma, o boxplot também nos fornece informações sobre variabilidade, locação dos dados etc. Porém, o gráfico é bem diferente. Ele possui um formato de caixa usando como referência os valores mínimo e máximo, primeiro quartil (Q1), mediana, terceiro quartil (Q3) e outliers. A parte central do gráfico (a caixa) representa valores do Q1 ao Q3, possuindo uma linha no meio que representa a mediana ou segundo quartil (Q2). As hastes inferiores representam os valores do Q1 até o menor valor. De forma semelhante, a haste superior representa o valor do Q3 até o maior valor. Valores outliers normalmente são representados por pontos, ficando acima da haste superior e/ou abaixo da haste inferior.  Veja um exemplo abaixo.

Nesse gráfico, temos no eixo x a variável ‘raça’ do nosso banco de dados e no eixo y a variável ‘idade’. O boxplot é um excelente gráfico para nos dar uma clareza sobre como dados quantitativos estão distribuídos, bem como para fazer comparações entre classes. Também pode ser usado em conjunto com o histograma como visualização auxiliar. Apesar de ser uma boa opção de gráfico, alguns cuidados devem ser tomados. O grupo from Data to Viz fez uma postagem muito legal comentando alguns cuidados e algumas maneiras diferentes de produzir um boxplot, veja aqui.

Gráfico de linhas

Se você quiser exibir tendências ao longo do tempo, um gráfico de linhas pode ser o ideal, principalmente quando se deseja representar dados referentes a séries temporais. Os gráficos de linhas são formados por uma série de pontos que se conectam por meio de uma linha. O eixo x, na maioria das vezes, será formado por dados contínuos que representam tempo (anos, meses, dias horas etc), enquanto o eixo y representa o outro dado em questão. Esse tipo de gráfico cai muito bem quando se tem mais de uma classe em seus dados, ou seja, quando se deseja comparar os resultados. Veja no exemplo abaixo como fica bem intuitivo entender as informações. Para esse exemplo utilizamos três informações: data dos sintomas (eixo x),  número de casos notificados (eixo y) e o grupo se teve febre ou não (identificação das cores das linhas). Para facilitar a visualização, consideramos uma média móvel de 7 dias.

Gráficos não recomendados

Como já dito, gráficos devem ser utilizados para facilitar o nosso entendimento sobre os dados e nos auxiliar na hora de transmitir informações. Porém, alguns tipos de gráficos devem ser evitados, pois podem nos atrapalhar. Gráficos de pizza, de rosca e gráficos 3D não são uma boa idéia.

Gráficos de pizza/3D

Olhe para o gráfico abaixo atentamente e tente adivinhar qual é a maior parte. Além disso, responda quanto tempo demorou para analisar e extrair as informações, que deveriam ser simples, desse gráfico.

Agora olhe para o gráfico abaixo e tire suas próprias conclusões sobre esse tipo de gráfico.

Talvez no exemplo acima você tenha conseguido adivinhar as proporções com facilidade, mas veja alguns motivos que podem causar problemas ao utilizar esse tipo de gráfico. Ao aplicar a perspectiva 3D em um gráfico, separando e inclinando as fatias, pode gerar uma distorção indesejada, fazendo com que as fatias maiores pareçam menores ou vice-versa.

O problema do 3D se estende para outros tipos de gráficos. Adicionar 3D a um gráfico introduz elementos desnecessários e que não ajudam em nada na visualização. Muito pelo contrário, apenas atrapalham. O único motivo plausível para usar 3D é se você, de fato, precisa representar uma terceira dimensão – fora isso, nunca use 3D!

Falando agora exclusivamente dos gráficos de pizza (sem o 3D), eles continuam sendo uma péssima opção de gráfico. Estudos comprovam que o olho humano não consegue atribuir com exatidão valores quantitativos no espaço bidimensional, principalmente se as partes tiverem tamanhos parecidos. Quando os tamanhos das fatias não são parecidos, você até consegue determinar com uma certa facilidade qual é maior, mas dificilmente saberá dimensionar o quanto. De forma mais clara, é bem difícil ler um gráfico de pizza, o que vai contra um dos principais objetivos de utilizar gráficos. O livro “Storytelling com dados”, já citado antes, trata muito bem desse assunto.

Vamos mostrar o quão mais fácil é interpretar um resultado quando usamos um simples gráfico de barras (nesse caso, barras horizontais). A única diferença do gráfico abaixo para o mostrado no início do post é que as barras estão dispostas no eixo horizontal. Gráficos de barras horizontais são recomendados quando os nomes das suas categorias são longos. Além disso, normalmente processamos as informações da esquerda para a direita, fazendo “Zs” com os olhos na tela da página. Com a estrutura do gráfico horizontal conseguimos primeiro ler a categoria antes dos dados, fazendo com que cheguemos aos dados já sabendo o que eles estão representando.

Vejamos um outro exemplo de gráfico de barras verticais. Nesse exemplo, filtramos os municípios que tiveram mais de 350 casos.

Gráfico de rosca

Podemos fazer o mesmo esquema que fizemos com o gráfico de pizza. Olhe para o gráfico abaixo e tente adivinhar as proporções. Consegue dizer facilmente a diferença de tamanho entre as categorias?

Agora olhe para os valores.

O problema dos gráficos de rosca é um pouco parecido com os de pizza. A diferença é que aqui você não está comparando ângulos e áreas, mas sim o comprimento de um arco com outro. Sugestão: não use.

Bom, agora que já conhece os principais tipos de gráficos e possui uma boa ideia de quando utilizá-los, a nossa dica é que procure outros temas que possam agregar nesse ramo, como, por exemplo, aprofundar na interpretação dos gráficos, criar gráficos no R, entender melhor o público e saber quando e qual gráfico se encaixa melhor. Assim, mais uma vez, reforçamos a leitura do livro “Storytelling com dados – um guia sobre visualização de dados para profissionais de negócios”.

Para dúvidas ou sugestões, fale conosco em observatorioobstetricobr@gmail.com ou escreva para nosso Twitter ou Instagram.

Referências

https://www.r-graph-gallery.com/index.html

https://www.alura.com.br/artigos/melhorando-a-analise-com-o-boxplot?gclid=CjwKCAiAtdGNBhAmEiwAWxGcUjXZW3hKIGbivD45SO0tQEtv9j1G0cBqr5D4dZLZr5rjgqukW7dcfxoCXUkQAvD_BwE

https://daslab-ufes.github.io/ggplot2_misc/

https://daslab-ufes.github.io/ggplot2_intro/

https://gestaodesegurancaprivada.com.br/grafico-o-que-e-objetivo-caracteristica-e-tipos/

https://www.numerapeopleanalytics.com/insights/grfico-de-correlaohttps://www.fm2s.com.br/grafico-de-dispersao/