A manipulação e interpretação da base de dados é de suma importância dentro de um programa Lean Seis Sigma para o sucesso do método DMAIC.

A fim de facilitar a visualização da distribuição dos dados, são desenvolvidos inúmeras ferramentas gráficas que migram os dados de uma tabela para um diagrama, como o histograma e o boxplot por exemplo.

Provavelmente você já ouviu falar sobre histograma, tendência central, ou até mesmo do diagrama de séries temporais. Mas e sobre o boxplot? Você sabe o que é? Para que ele serve ou como analisá-lo? Se não, continue lendo este artigo para descobrir tudo sobre esse diagrama.

 

Assista gratuitamente nossa vídeo-aula sobre Boxplot

 

 

O que é Boxplot?

 

O Boxplot ou box plot é um diagrama de caixa construído utilizando as referências de valores mínimos e máximos, primeiro e terceiro quartil, mediana e outliers da base de dados.

O boxplot tem como objetivo estudar as medidas estatística do conjunto de dados, como propriedades de locação, variabilidade, média, e outliers. Você deve estar pensando que isso tudo pode-se calcular com o histograma, certo?

Realmente, essas duas ferramentas são bem similares, cada uma com suas particularidades, e quando estão juntas, uma complementa muito bem a informação da outra.

No histograma você consegue ver melhor a média e o desvio padrão. Já no boxplot se percebe um pouco melhor as medidas de quartis, mediana, amplitude, além de identificar muito bem os outliers.

No boxplot a parte central do gráfico contém os valores que estão entre o primeiro quartil e o terceiro quartil. As hastes inferiores e superiores se estendem, respectivamente, do primeiro quartil até o menor valor, limite inferior, e do terceiro quartil até o maior valor.

 

Como analisar o boxplot?

 

Para te ajudar a entender melhor esse diagrama, separei a imagem a seguir com dois exemplos de boxplot, contendo uma indicação de o que significa cada um de seus pontos notáveis.

 

 

O boxplot começa sempre no valor mínimo da base de dados e termina no valor máximo, assim como o histograma.

A caixa representa os valores centrais da base de dados, onde no histograma essa parte é representada pelas barras mais altas, ou seja, dados com maior frequência.

A linha que dá início a caixa representa o valor do primeiro quartil, já a linha que está contida dentro representa a mediana, e por fim, a caixa é finalizada no terceiro quartil.

É importante observar que de cada lado da caixa se tem uma linha que se estende do valor mínimo na parte inferior, até o valor máximo na parte superior.

Ou seja, todo o boxplot representa 100% da base de dados. E sua grande vantagem é que cada região desse gráfico representa uma parte dos dados, facilitando assim a tomada de decisão.

Do valor mínimo até o início da caixa, estão representados 25% dos dados, já dentro da caixa estão representados mais 50% dos dados, e por fim, a haste superior representa os outros 25% restantes.

No boxplot, quando se tem um outlier, valores atípicos, facilmente conseguimos visualizá-los através do asterisco apresentado no boxplot. Isso pode ser observado no boxplot a direita na figura.

Quando se tem um outlier, ele distorce um pouco mais a questão da simetria da figura quando comparada com a figura sem outlier. Isso acontece quando temos valores discrepantes na base de dados e é observado pela diferença do tamanho da haste inferior comparado com a haste superior na figura da direita.

Se fizermos o histograma com os dados que originaram a figura da direita, observaremos um comportamento de curva normal mais estendida para um lado do que para o outro, ou seja, uma curva normal assimétrica.

 

Boxplot: Exemplo prático no Minitab

 

Beleza, agora já sabemos interpretar. Mas que tal construir um boxplot para depois analisarmos? Pensando nisso, separei um espaço nesse artigo para esse exemplo. Confira!

Na empresa Voitto Tubes, o gestor construiu e coletou informações a respeito dos três principais motivos de desclassificados de sua empresa para fazer uma análise de dados

Para isso, iremos utilizar o boxplot, pois com ele fica mais evidente a presença de outliers e a assimetria dos dados. Além disso, a comparação entre os três motivos analisados será mais efetiva já que a amplitude e a locação do Boxplot é visualmente mais simples de identificar do que em um histograma.

Para realizar essa análise, após a coleta de dados você deve ir ao software Minitab, selecionar a opção Gráficos e depois Boxplot como mostrado na figura a seguir.

 

 

De modo a facilitar a comparação entre as bases de dados, para esse caso, escolha a opção de múltiplos y’s para que ambos os boxplot sejam plotados na mesma malha, como mostrado a seguir.

 

 

Feito isso, basta clicar em OK e o Minitab gera o gráfico que iremos comparar.

 

 

Como analisar esse resultado?

 

Pelo boxplot, conseguimos perceber que cada um dos três motivos tem um comportamento distinto. Isso não aconteceu por acaso, a idéia é realmente conseguir te explicar vários tipos de análises de modo que consiga absorver o máximo de conteúdo.

O boxplot da emenda é mais achatado, o que indica uma baixa variabilidade e desvio padrão. Porém ele está posicionado na parte superior da tela. Ou seja, a média e o valor mediano são valores bem altos.

Já no boxplot da solda fraca, o problema é um pouco diferente. Nesse caso temos um valor mediano mais baixo que a emenda, porém, altíssima variabilidade.

Isso trás uma certa imprevisibilidade, pois hora se tem valores muito baixos, hora se tem valores muito altos. É fácil de ver que quando essa variabilidade é muito grande, a previsibilidade é muito menor.

Já para ajuste de máquinas, temos dois outliers. Como esse boxplot tem um valor mediano mais baixo e esses dois valores de ajuste de máquinas estão mais distantes do valor mediano, acabamos por entender que são outlier.

Se fizessemos o histograma dessa situação não ficaria tão fácil de enxergar essa condição do outlier para o ajuste de máquina, mas utilizando essa ferramenta, boxplot, isso fica muito evidente.

 

Que tal assistir uma vídeo-aula para ver o passo a passo deste exemplo no Minitab?

 

 

Aprenda mais!

 

As ferramentas histograma e boxplot trazem informações semelhantes, fica a seu critério então utilizar uma ou a outra. Porém, eu te aconselho fortemente a utilizar essas duas ferramentas de forma conjunta, pois se complementam.

Agora que você já sabe o que é um boxplot, para que serve, como fazer e também como interpretá-lo, não deixe de ampliar seus conhecimento e faça agora mesmo sua matrícula no curso de Green Belt em Lean Seis Sigma para saber mais.