Em meados do século XIX, Frederick Gauss, com seus estudos sobre eventos da natureza, observou um comportamento padrão entre as amostras estudadas por ele.

Esse comportamento, posteriormente foi apresentado como a Curva de Gauss. Que mostrava que grande parte dos eventos ficam em torno de um valor médio, com uma certa variabilidade.

Você sabe o que é uma curva de distribuição normal? Ou o que essa história que te contei tem haver com isso? Sabe qual a sua importância e para que serve? E como calcular?

Se respondeu não para alguma dessas perguntas, continue lendo esse artigo e descubra quais são as respostas.

 

Assista gratuitamente nossa vídeo-aula sobre distribuição normal


 

O que é distribuição normal?

 

Uma distribuição estatística é uma função que define uma curva, e a área sob essa curva determina a probabilidade de ocorrer o evento por ela correlacionado. E o que é distribuição normal? Me arrisco dizer, que é a mais importante dentre as distribuições estatísticas. 

Também conhecida como distribuição gaussiana, é uma curva simétrica em torno do seu ponto médio, apresentando assim seu famoso formato de sino. 

A curva de distribuição normal representa o comportamento de diversos processos nas empresas e muitos fenômenos comuns, como por exemplo, altura ou peso de uma população, a pressão sanguínea de um grupo de pessoas, o tempo que um grupo de estudantes gasta para realizar uma prova.

A distribuição normal pode ser usada para aproximar distribuições discretas de probabilidade, como por exemplo a distribuição binomial. Além disso, a distribuição normal serve também como base para a inferência estatística clássica. 

Nela, a média, mediana e moda dos dados possuem o mesmo valor. 

 

Como determinar se a distribuição é normal?

 

Para determinar se uma determinada variável aleatória segue uma distribuição normal, basta verificar se essa segue a função densidade de probabilidade, dada por:

 

função de densidade de probabilidade

Onde é a média e ² é a variância de x. 

A notação é usada para denotar tal distribuição.
 

Para calcularmos então a probabilidade de um resultado, basta integrar a função f(x) em relação a x, com os limites de integração representando a faixa de valores que se quer obter a probabilidade.

Vale notar que a integral da função densidade de probabilidade normal, não possui solução anaílitica, sendo assim, seu cálculo deve ser realizado através de um método numérico.

Para sanar tal dificuldade a função pode ser padronizada com a substituição dos parâmetros por μ=0 e σ²=1. Essa abordagem é dada pela definição de uma nova variável aleatória Z, chamada de variável aleatória normal padronizada.

Se x for uma variável aleatória normal com média E(x)=μ e variância V(x)=σ², a variável aleatória Z=(x−μ)/σ será uma variável aleatória normal, com E(Z)=0 e V(Z)=1. Ou seja, Z é uma variável aleatória normal padrão.

Dessa forma, é possível obter a área sob a curva da normal padrão de forma analítica, e então obter a área entre dois pontos sob a curva, diretamente com o uso de uma tabela de conversão, e essa área representa uma probabilidade.

 

Teorema central do limite

 

Segundo o Teorema Central do Limite, para grandes amostras, independentemente da distribuição da variável de interesse, a distribuição das médias amostrais serão aproximadamente normalmente distribuídas, e tenderão a uma distribuição normal à medida que o tamanho de amostra crescer. 

 

fórmula distribuição normal

 

Sendo,

μ = média das medidas individuais X

σ = desvio padrão das medidas individuais X

n = tamanho amostral

 

No exemplo abaixo, uma empresa mede a quantidade de defeitos em um lote de 100 produtos a cada duas horas. O histograma dos dados coletados a cada duas horas representa uma distribuição diferente da normal. 

Em um segundo momento, os dados foram agrupados diariamente, ou seja, foi calculado a média de defeitos do dia de produção e utilizou-se o valor da média diária para gerar um novo histograma. Desta vez a distribuição já é normal.

 

gráfico de distribuição normal

 

Perguntas de probabilidade 

 

As perguntas sobre a probabilidade de distribuição normal padrão podem parecer complexas, mas a chave para resolvê-las é compreender o que a área sob a curva representa.

 A área total sob uma curva de distribuição normal padrão é de 100% (ou seja, "1" como um decimal). Por exemplo, a metade esquerda da curva é 50% ou 0,5. Portanto, a probabilidade de uma variável aleatória aparecer na metade esquerda da curva é 0,5.

É claro que nem todos os problemas são simples assim, e é por isso que há uma tabela z. Tudo o que uma tabela-z faz é medir essas probabilidades (ou seja, 50%) e colocá-las em desvios-padrão da média. A média está no centro da distribuição normal padrão e uma probabilidade de 50% é igual a zero desvios padrão.

 

Como interpretar a curva da distribuição normal?

 

Conseguimos desenhar uma curva de distribuição normal tendo apenas dois parâmetros: média e desvio padrão.

Considerando a probabilidade de ocorrência de um fenômeno, a área sob a curva representa 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos.

 

gráfico de distribuição normal
 

O ponto mais alto na curva, representa o valor com a maior moda do processo, ou seja,o valor que mais aparece  na base de dados. Esse é representado na curva pelo corte central deste diagrama. 

Os outros cortes verticais, representam o desvio padrão em relação a média, ou seja, temos uma faixa de valores que significa a soma ou subtração de um desvio padrão em relação a média. 

Outro detalhe importante e conhecido da curva de distribuição normal é que cada faixa de valores representa uma certa probabilidade de ocorrência. 

Neste exemplo, na primeira faixa, de menos 1 desvio padrão até 1 desvio padrão, está compreendido 68,26% da base de dados. Se ampliarmos um pouco mais e pegar a faixa que vai de mais até menos 2 sigma, já teremos 95,44% de possibilidade de ocorrência. 

Por fim, se pegarmos a faixa mais ampla dessa distribuição, ou seja, mais ou menos 3 sigma. Essa faixa já representa 99,74% dos dados. 

Essa região, chamamos de faixa natural de variação do processo. A estatística entende que um processo possui uma certa variabilidade, ou seja, trabalha dentro de uma faixa de valores, com determinada variação.

Se esse processo, é um processo estável, significa que a variação desse processo vai acontecer dentro dessa faixa de valores. 

Se tiver algum problema ou perturbação maior no processo, pode ser que ele produza um resultado que não é o esperado, ou que não era provável, um resultado muito acima ou muito abaixo do normal.

Esse resultado seria um ponto fora dessa faixa de variação natural do processo, ou seja, o famoso ponto fora da curva. Um ponto cuja a probabilidade é tão baixa de acontecer que o denominamos de outlier.

Com esse conceito de distribuição normal contextualizado para uma empresa ou processo, é possível comparar e entender, que quando se tem uma base de dados representada pela curva de Gauss compreendida entre uma faixa de mais ou menos 3 sigma, esse processo é considerado estável. 

 

Como montar uma curva de distribuição normal?

 

Para melhor explicar como montar um curva de distribuição normal, que tal acompanhar um simples exemplo junto comigo? Imagine que em uma sala de aula, o professor anotou a idade de cada um de seus quarenta alunos presentes. 

Após coletar os dados ele percebeu que a distribuição da idade dos alunos possuía o formato de uma distribuição normal com média e desvio padrão respectivamente de, μ= 23 e σ= 2.

O objetivo então, é projetar a curva de distribuição normal correspondente aos valores de média e desvio padrão da idade dos alunos. Além de determinar qual é o percentual de alunos com idade entre 21 e 25 anos. E também qual o percentual de alunos com idade entre 19 e 27 anos. 

De antemão, já sabemos que o valor de média igual a 23 anos, estará no centro da nossa distribuição. Que ao mesmo tempo é o ponto de valor mais alto da curva. 

Como a distribuição normal começa próximo do menos 3 sigma e termina próximo do mais 3 sigma, sabemos que a curva irá começar próximo ao valor de 23-3*2, ou seja 17 anos,  e vai ter o decaimento próximo de 23+3*2, ou seja, 29 anos. 

Com tais conceitos aplicados já é possível um esboço, veja!

 

gráfico de distribuição normal

 

Os alunos com idade entre 21 e 25 anos, representam exatamente ± 1σ, ou seja, 68,26% dos alunos, já os alunos que possuem idade entre 19 e 27 anos, representam a variação de ± 2σ, representando assim 95,44% do total de alunos. Isso representa aproximadamente 38 alunos. 
 

Aplicações Práticas do Modelo de Distribuição Normal Padrão

 

A distribuição normal padrão pode ajudá-lo a descobrir quais disciplinas você está obtendo boas notas e quais você deve estudar mais, de acordo com as notas que vêm obtendo. 

Então, você pode pensar: se fui melhor nessa matéria do que em outra, com certeza sou melhor nessa! Mas você pode estar enganado!

Você só pode dizer que é melhor em um assunto específico se obtiver uma pontuação com um certo número de desvios padrão acima da média. O desvio padrão informa a intensidade com que seus dados são agrupados em torno da média. Ele permite que você compare diferentes distribuições que possuem diferentes tipos de dados - incluindo diferentes meios.

Por exemplo, se você obtiver uma pontuação de 90 em matemática e 95 em português, poderá pensar que é melhor em português do que em matemática. No entanto, em matemática, sua pontuação é de 2 desvios padrão acima da média. Em português, é apenas um desvio padrão acima da média. 

Isso significa que, em matemática, sua pontuação é muito maior do que a maioria dos alunos (sua pontuação se apresenta na cauda da distribuição normal).

Com base nesses dados, você realmente teve um desempenho melhor em matemática do que em português!

 

Quando utilizar a distribuição binomial? 

 

Ao iniciar um projeto Seis Sigma, o Green ou Black Belt deve verificar qual é o tipo de dado (contínuo ou discreto) que está lidando na saída do processo. Isto vai determinar quais as ferramentas que serão utilizadas no desenvolvimento do projeto. 

Cabe a este profissional definir qual das inúmeras distribuições estatísticas é a que melhor representa o processo que está sendo estudado. As distribuições estatísticas podem ser divididas em dois grandes grupos:   

 

  • Distribuição Discreta (Atributos); 

  • Distribuição Contínua (Variável).   

 

As distribuições discretas por sua vez, devem ser utilizadas para modelar situações em que a saída de interesse só pode assumir valores inteiros (discretos) como, número de caras ou coroas, 0 ou 1 para falha ou sucesso, ou 0,1,2,3,... como o número de ocorrências de um determinado evento de interesse por exemplo.

Caso você esteja interessado em saber mais sobre projetos Lean Seis Sigma desenvolvidos por Green Belts e Black Belts, recomendo a leitura do Ebook gratuito Guia Definitivo de Lean Seis Sigma. Trata-se de uma material imperdível, no qual você aprenderá tudo sobre essa metodologia que vem ganhando destaque por criar vantagens competitivas às empresas. 

Para baixar, é só clicar na imagem abaixo!

 

ebook guia definitivo lean seis sigma

 

Tipos de distribuição estatística discreta

 

Distribuição de Poisson

 

A distribuição de Poisson é uma distribuição discreta de probabilidade aplicável a ocorrências de um número de eventos em um intervalo específico. Para reconhecer uma distribuição de Poisson, basta observar os três aspectos a seguir:   

 

  • O experimento calcula quantas vezes que um evento ocorre em um determinado intervalo de tempo, área, volume, etc; 

  • A probabilidade do evento ocorrer é a mesma para cada intervalo; 

  • O número de ocorrências de um intervalo é independente do outro.  

 

Alguns exemplos de distribuição de Poisson são:

 

  • Usuários de computador ligados à Internet; 

  • Clientes chegando ao caixa de um supermercado; 

  • Acidentes com automóveis em uma determinada estrada; 

  • Erros de digitação por um certo período de tempo; 

  • Número de carros que chegam a um posto de gasolina; 

  • Número de falhas em componentes por unidade de tempo; 

  • Número de requisições para um servidor em um intervalo de tempo.

 

Para saber mais sobre distribuição de Poisson, confira o artigo: “Distribuição de Poisson: o que é e como calcular
 

Distribuição Binomial 

 

Teoricamente, a distribuição binomial é a distribuição de probabilidade e estatística discreta do número de sucessos decorrentes de uma determinada sequência de tentativas, que seguem às seguintes características:   

 

  • Espaço amostral finito; 

  • Apenas dois resultados possíveis (sucesso ou fracasso) para cada tentativa; 

  • Todos os elementos devem possuir possibilidades iguais de ocorrência; 

  • Eventos devem ser independentes um dos outros.

 

Para saber mais, confira o artigo: “Distribuição Binomial: o que é e como fazer

 

Aprenda mais!

 

Viu como não é difícil identificar se uma base de dados corresponde a uma distribuição normal? Embora esse conceito seja de suma importância dentro da fase de medição do método DMAIC, sua interpretação não é muito complexa. 

Além da distribuição normal, existem muitas outras distribuições estatísticas, e o domínio dessas medições, juntamente com as respectivas análises, fazem parte do pacote de competências de um Black Belt. 

Então, o que está esperando? Junte-se à Voitto para dar o passo que sua carreira estava precisando e se torne um dos profissionais mais bem capacitados do mercado! Clique no banner a seguir para saber mais sobre nosso curso de Black Belt em Lean Seis Sigma.

 

treinamento de black belt em lean seis sigma