Em meados do século XIX, Frederick Gauss, com seus estudos sobre eventos da natureza, observou um comportamento padrão entre as amostras estudadas por ele.

Esse comportamento, posteriormente foi apresentado como a Curva de Gauss. Que mostrava que grande parte dos eventos ficam em torno de um valor médio, com uma certa variabilidade.

Você sabe o que é uma curva de distribuição normal? Ou o que essa história que te contei tem haver com isso? Sabe qual a sua importância e para que serve? E como calcular?

Se respondeu não para alguma dessas perguntas, continue lendo esse artigo e descubra quais são as respostas.

 

Assista gratuitamente nossa vídeo-aula sobre distribuição normal


 

O que é distribuição normal?

 

Uma distribuição estatística é uma função que define uma curva, e a área sob essa curva determina a probabilidade de ocorrer o evento por ela correlacionado. E o que é distribuição normal? Me arrisco a dizer que é a mais importante dentre as distribuições estatísticas.

Também conhecida como distribuição gaussiana, é uma curva simétrica em torno do seu ponto médio, apresentando assim seu famoso formato de sino.

A curva normal representa o comportamento de diversos processos nas empresas e muitos fenômenos comuns, como por exemplo, altura ou peso de uma população, a pressão sanguínea de um grupo de pessoas, o tempo que um grupo de estudantes gasta para realizar uma prova.

 

Como determinar se a distribuição é normal?

 

Para determinar se uma determinada variável aleatória segue uma distribuição normal, basta verificar se essa segue a função densidade de probabilidade, dada por:

 

 

Onde ? é a média e ?² é a variância de x.

A notação N(?,?²) é usada para denotar tal distribuição.

Para calcularmos então a probabilidade de um resultado, basta integrar a função f(x) em relação a x, com os limites de integração representando a faixa de valores que se quer obter a probabilidade.

Vale notar que a integral da função densidade de probabilidade normal não possui solução analítica. Sendo assim, seu cálculo deve ser realizado através de um método numérico.

Para sanar tal dificuldade a função pode ser padronizada com a substituição dos parâmetros por ?=0 e ?²=1. Essa abordagem é dada pela definição de uma nova variável aleatória Z, chamada de variável aleatória normal padronizada.

Se x for uma variável aleatória normal com média E(x)=? e variância V(x)=?², a variável aleatória Z=(x??)/? será uma variável aleatória normal, com E(Z)=0 e V(Z)=1. Ou seja, Z é uma variável aleatória normal padrão.

Dessa forma, é possível obter a área sob a curva da normal padrão de forma analítica, e então obter a área entre dois pontos sob a curva, diretamente com o uso de uma tabela de conversão, e essa área representa uma probabilidade.

 

Teorema central do limite

 

Segundo o Teorema Central do Limite, para grandes amostras, independentemente da distribuição da variável de interesse, a distribuição das médias amostrais serão aproximadamente normalmente distribuídas, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer.

 

 

Sendo,

? = média das medidas individuais X

? = desvio padrão das medidas individuais X

n = tamanho amostral

 

No exemplo abaixo, uma empresa mede a quantidade de defeitos em um lote de 100 produtos a cada duas horas. O histograma dos dados coletados a cada duas horas representa uma distribuição diferente da normal.

Em um segundo momento, os dados foram agrupados diariamente, ou seja, foi calculado a média de defeitos do dia de produção e utilizou-se o valor da média diária para gerar um novo histograma. Desta vez a distribuição já é normal.

 

 

Como interpretar a curva normal?

 

Conseguimos desenhar uma curva normal tendo apenas dois parâmetros: média e desvio padrão.

Considerando a probabilidade de ocorrência de um fenômeno, a área sob a curva representa 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos.

 


 

O ponto mais alto na curva, representa o valor com a maior moda do processo, ou seja,o valor que mais aparece  na base de dados. Esse é representado na curva pelo corte central deste diagrama.

Os outros cortes verticais, representam o desvio padrão em relação a média, ou seja, temos uma faixa de valores que significa a soma ou subtração de um desvio padrão em relação a média.

Outro detalhe importante e conhecido da curva normal é que cada faixa de valores representa uma certa probabilidade de ocorrência.

Neste exemplo, na primeira faixa, de menos 1 desvio padrão até 1 desvio padrão, está compreendido 68,26% da base de dados. Se ampliarmos um pouco mais e pegar a faixa que vai de mais até menos 2 sigma, já teremos 95,44% de possibilidade de ocorrência.

Por fim, se pegarmos a faixa mais ampla dessa distribuição, ou seja, mais ou menos 3 sigma. Essa faixa já representa 99,74% dos dados.

Essa região, chamamos de faixa natural de variação do processo. A estatística entende que um processo possui uma certa variabilidade, ou seja, trabalha dentro de uma faixa de valores, com determinada variação.

Se esse processo, é um processo estável, significa que a variação desse processo vai acontecer dentro dessa faixa de valores.

Se tiver algum problema ou perturbação maior no processo, pode ser que ele produza um resultado que não é o esperado, ou que não era provável, um resultado muito acima ou muito abaixo do normal.

Esse resultado seria um ponto fora dessa faixa de variação natural do processo, ou seja, o famoso ponto fora da curva. Um ponto cuja a probabilidade é tão baixa de acontecer que o denominamos de outlier.

Com esse conceito de distribuição normal contextualizado para uma empresa ou processo, é possível comparar e entender, que quando se tem uma base de dados representada pela curva de Gauss compreendida entre uma faixa de mais ou menos 3 sigma, esse processo é considerado estável.

 

Como montar uma curva normal?

 

Para melhor explicar esse tópico, que tal acompanhar um simples exemplo junto comigo? Imagine que em uma sala de aula, o professor anotou a idade de cada um de seus quarenta alunos presentes.

Após coletar os dados ele percebeu que a distribuição da idade dos alunos possuía o formato de uma distribuição normal com média e desvio padrão respectivamente de, ?= 23 e ?= 2.

O objetivo então, é projetar a curva normal correspondente aos valores de média e desvio padrão da idade dos alunos. Além de determinar qual é o percentual de alunos com idade entre 21 e 25 anos. E também qual o percentual de alunos com idade entre 19 e 27 anos.

De antemão, já sabemos que o valor de média igual a 23 anos, estará no centro da nossa distribuição. Que ao mesmo tempo é o ponto de valor mais alto da curva.

Como a distribuição normal começa próximo do menos 3 sigma e termina próximo do mais 3 sigma, sabemos que a curva irá começar próximo ao valor de 23-3*2, ou seja 17 anos,  e vai ter o decaimento próximo de 23+3*2, ou seja, 29 anos.

Com tais conceitos aplicados já é possível elaborar um esboço, veja!

 

 

Eu utilizei a ferramenta estatística Minitab para esboçar esta curva, mas vale lembrar que você poderia esboçá-la de outra forma.

Os alunos com idade entre 21 e 25 anos, representam exatamente ± 1?, ou seja, 68,26% dos alunos, já os alunos que possuem idade entre 19 e 27 anos, representam a variação de ± 2?, representando assim 95,44% do total de alunos. Isso representa aproximadamente 38 alunos.

 

Aprenda mais

 

Viu como não é difícil identificar se uma base de dados corresponde a uma distribuição normal? Embora esse conceito seja de suma importância dentro da fase de medição do método DMAIC, sua interpretação não é muito complexa.

Além da distribuição normal, existem muitas outras distribuições estatísticas, e o domínio dessas medições, juntamente com as respectivas análises, fazem parte do pacote de competências de um Black Belt.

Então, o que está esperando? Junte-se à Voitto para dar o passo que sua carreira estava precisando e se torne um dos profissionais mais bem capacitados do mercado! Clique no banner a seguir para saber mais sobre nosso curso de Black Belt em Lean Seis Sigma.