Distribuição Normal: aprenda o que é e como calcular!

A Distribuição Normal é uma distribuição de probabilidade contínua e simétrica que representa o comportamento de um fenômeno natural de forma aleatória.

No século XVIII, alguns matemáticos e físicos desenvolveram uma função de probabilidade que conseguia obter os erros experimentais em medidas físicas. No entanto, diversos fatores estavam entre suas causas e, em alguns casos, os motivos não eram identificáveis.

Somente em meados do século XIX, Friedrich Gauss, com seus estudos sobre eventos da natureza, observou um comportamento padrão entre as amostras estudadas por ele.

Esse comportamento, posteriormente, foi apresentado como aCurva de Gauss. Que mostrava que grande parte dos eventos ficam em torno de um valor médio, com uma certa variabilidade.

Então, surgiu a Distribuição Gaussiana ou Normal. Ela é o principal modelo probabilístico contínuo, sendo muito utilizada pelas áreas de Estatística, Probabilidade e Estocástica.

Continue lendo esse artigo e descubra quais são as dúvidas mais frequentes na Distribuição Normal, hoje você irá aprender:

O que é Distribuição Normal?
Qual a utilidade da Distribuição Normal?
O que é Escore Z derivado da curva normal?
Como determinar se a Distribuição é Normal?
Teorema central do limite
Perguntas de probabilidade
Como interpretar a curva da Distribuição Normal?
Como montar uma curva de Distribuição Normal?
Aplicações Práticas do Modelo de Distribuição Normal Padrão
Tipos de Distribuição estatística discreta

Vamos lá?

O que é Distribuição Normal?

A distribuição normal, também conhecida como distribuição gaussiana, é uma curva simétrica em torno do seu ponto médio, apresentando assim seu famoso formato de sino.

Uma distribuição estatística é uma função que define uma curva, e a área sob essa curva determina a probabilidade de ocorrer o evento por ela correlacionado.

E o que é distribuição normal? Me arrisco dizer, que é a mais importante dentre as distribuições estatísticas.

A curva de distribuição normal representa o comportamento de diversos processos nas empresas e muitos fenômenos comuns, como por exemplo, altura ou peso de uma população, a pressão sanguínea de um grupo de pessoas, o tempo que estudantes gastam em uma prova.

A distribuição normal pode ser usada para aproximar distribuições discretas de probabilidade, como a distribuição binomial. Além disso, a distribuição normal serve também como base para a inferência estatística clássica.

Nela, a média, mediana e modados dados possuem o mesmo valor.

Qual a utilidade da Distribuição Normal?

A Distribuição Normal é essencial para calcular diferentes situações, seja para estudo da ocorrência de fenômenos físicos, pesquisas dentro de uma empresa ou para análises financeiras.

Além disso, através dessa distribuição é possível fazer cálculos com um grande número de dados, pois é utilizada uma média e existe o desvio-padrão. Com essas proporções pré-definidas, os cálculos conseguem resumir os valores de maneira mais prática.

O que é Escore Z derivado da curva normal?

O escore Z é uma unidade de desvio-padrão que mede o quanto um elemento está distante da média da população, ou seja, dos escores amostrais. Para se aprofundar mais no assunto, assista o vídeo a seguir:

Como determinar se a Distribuição é ormal?

Para determinar se uma determinada variável aleatória segue uma distribuição normal, basta verificar se essa segue a função densidade de probabilidade, dada por:

Função de densidade de probabilidade

Onde a média e ² é a variância de x.

A notação é usada para denotar tal distribuição.

Notação da distribuição normal

Para calcularmos então a probabilidade de um resultado, basta integrar a função f(x) em relação a x, com os limites de integração representando a faixa de valores que se quer obter a probabilidade.

Vale notar que a integral da função densidade de probabilidade normal, não possui solução analítica, sendo assim, seu cálculo deve ser realizado através de um método numérico.

Para sanar tal dificuldade a função pode ser padronizada com a substituição dos parâmetros por μ=0 e σ²=1. Essa abordagem é dada pela definição de uma nova variável aleatória Z, chamada de variável aleatória normal padronizada.

Se x for uma variável aleatória normal com média E(x)=μ e variância V(x)=σ², a variável aleatória Z=(x−μ)/σ será uma variável aleatória normal, com E(Z)=0 e V(Z)=1. Ou seja, Z é uma variável aleatória normal padrão.

Dessa forma, é possível obter a área sob a curva da normal padrão de forma analítica, e então obter a área entre dois pontos sob a curva, diretamente com o uso de uma tabela de conversão, e essa área representa uma probabilidade.

Teorema central do limite

Segundo o Teorema Central do Limite, para grandes amostras, independentemente da distribuição da variável de interesse, a distribuição das médias amostrais serão aproximadamente normalmente distribuídas, e tendem a uma distribuição normal à medida que o tamanho de amostra cresce.

Fórmula distribuição normal

Sendo,

μ = média das medidas individuais X

σ = desvio padrão das medidas individuais X

n = tamanho amostral

No exemplo abaixo, uma empresa mede a quantidade de defeitos em um lote de 100 produtos a cada duas horas. O histograma dos dados coletados a cada duas horas representauma distribuição diferente da normal.

Em um segundo momento, os dados foram agrupados diariamente, ou seja, foi calculado a média de defeitos do dia de produção e utilizou-se o valor da média diária para gerar um novo histograma. Desta vez a distribuição já é normal.

gráfico de distribuição normal

Perguntas de probabilidade

As perguntas sobre a probabilidade de distribuição normal padrão podem parecer complexas, mas a chave para resolvê-lasé compreender o que a área sob a curva representa.

A área total sob uma curva de distribuição normal padrão é de 100% (ou seja, "1" como um decimal). Por exemplo, a metade esquerda da curva é 50% ou 0,5. Portanto, a probabilidade de uma variável aleatória aparecer na metade esquerda da curva é 0,5.

É claro que nem todos os problemas são simples assim, e é por isso que há uma tabela-z. Tudo o que uma tabela-z faz é medir essas probabilidades (ou seja, 50%) e colocá-las em desvios-padrão da média. A média está no centro da distribuição normal padrão e uma probabilidade de 50% é igual a zero desvios padrão.

Como interpretar a curva da Distribuição Normal?

Conseguimos desenhar uma curva de distribuição normal tendo apenas dois parâmetros: média e desvio padrão.

Considerando a probabilidade de ocorrência de um fenômeno, a área sob a curva representa 100%. Isso quer dizer que a probabilidade de uma observação assumir um valor entre dois pontos quaisquer é igual à área compreendida entre esses dois pontos.

gráfico de distribuição normal - valores de sigma

O ponto mais alto na curva, representa o valor com a maiormoda do processo, ou seja,o valor que mais aparece na base de dados. Esse é representado na curva pelo corte central deste diagrama.

Os outros cortes verticais, representam o desvio padrão em relação a média, ou seja, temos uma faixa de valores que significa a soma ou subtração de um desvio padrão em relação a média.

Outro detalhe importante e conhecido da curva de distribuição normal é que cada faixa de valores representa uma certa probabilidade de ocorrência.

Neste exemplo, na primeira faixa, de menos 1 desvio padrão até 1 desvio padrão, está compreendido 68,26% da base de dados. Se ampliarmos um pouco mais e pegarmos a faixa que vai de mais até menos 2 sigma, já teremos 95,44% de possibilidade de ocorrência.

Por fim, se pegarmos a faixa mais ampla dessa distribuição, ou seja, mais ou menos 3 sigma. Essa faixa já representa 99,74% dos dados.

Essa região, chamamos defaixa natural de variação do processo. A estatística entende que um processo possui uma certa variabilidade, ou seja, trabalha dentro de uma faixa de valores, com determinada variação.

Se esse processo é um processo estável, significa que a variação desse processo vai acontecer dentro dessa faixa de valores.

Se tiver algum problema ou perturbação maior no processo, pode ser que ele produza um resultado que não é o esperado, ou que não era provável, um resultado muito acima ou muito abaixo do normal.

Esse resultado seria um ponto fora dessa faixa de variação natural do processo, ou seja, o famoso ponto fora da curva. Um ponto cuja probabilidade é tão baixa de acontecer que o denominamos de outlier.

Com esse conceito de distribuição normal contextualizado para uma empresa ou processo, é possível comparar e entender, que quando se tem uma base de dados representada pela curva de Gauss compreendida entre uma faixa de mais ou menos 3 sigma, esse processo é consideradoestável.

Como montar uma curva de Distribuição Normal?

Para melhor explicar como montar uma curva de distribuição normal, que tal acompanhar um simples exemplo junto comigo? Imagine que em uma sala de aula, o professor anotou a idade de cada um de seus quarenta alunos presentes.

Após coletar os dados ele percebeu que a distribuição da idade dos alunos possuía o formato de uma distribuição normal com média e desvio padrão respectivamente de, μ= 23 e σ= 2.

O objetivo então, é projetar a curva de distribuição normal correspondente aos valores de média e desvio padrão da idade dos alunos. Além de determinar qual é o percentual de alunos com idade entre 21 e 25 anos. E também qual o percentual de alunos com idade entre 19 e 27 anos.

De antemão, já sabemos que o valor de média igual a 23 anos, estará no centro da nossa distribuição. Que ao mesmo tempo é o ponto de valor mais alto da curva.

Como a distribuição normal começa próximo do menos 3 sigma e termina próximo do mais 3 sigma, sabemos que a curva irá começar próximo ao valor de 23-3*2, ou seja 17 anos, e vai ter o decaimento próximo de 23+3*2, ou seja, 29 anos.

Com tais conceitos aplicados já é possível um esboço, veja!

gráfico de distribuição normal

Os alunos com idade entre 21 e 25 anos, representam exatamente ± 1σ, ou seja, 68,26% dos alunos, já os alunos que possuem idade entre 19 e 27 anos, representam a variação de ± 2σ, representando assim 95,44% do total de alunos. Isso representa aproximadamente 38 alunos.

Aplicações Práticas do Modelo de Distribuição Normal Padrão

A distribuição normal padrão pode ajudá-lo a descobrir quais disciplinas você está obtendo boas notas e quais você deve estudar mais, de acordo com as notas que vêm obtendo.

Então, você pode pensar: se fui melhor nessa matéria do que em outra, com certeza sou melhor nessa! Mas você pode estar enganado!

Você só pode dizer que é melhor em um assunto específico se obtiver uma pontuação com um certo número de desvios padrão acima da média. O desvio padrão informa a intensidadecom que seus dados são agrupados em torno da média. Ele permite que você compare diferentes distribuições que possuem diferentes tipos de dados - incluindo diferentes meios.

Por exemplo, se você obtiver uma pontuação de 90 em matemática e 95 em português, poderá pensar que é melhor em português do que em matemática. No entanto, em matemática, sua pontuação é de 2 desvios padrão acima da média. Em português, é apenas um desvio padrão acima da média.

Isso significa que, em matemática, sua pontuação é muito maior do que a maioria dos alunos (sua pontuação se apresenta na cauda da distribuição normal).

Com base nesses dados, você realmente teve um desempenho melhor em matemática do que em português!

Quando utilizar a Distribuição binomial?

Ao iniciar um projetoSeis Sigma, o Green ou Black Beltdeve verificar qual é o tipo de dado (contínuo ou discreto) que está lidando na saída do processo. Isto vai determinar quais as ferramentas que serão utilizadas no desenvolvimento do projeto.

Cabe a este profissional definir qual das inúmeras distribuições estatísticas é a que melhor representa o processo que está sendo estudado. As distribuições estatísticas podem ser divididas em dois grandes grupos:

Distribuição Discreta (Atributos)
Distribuição Contínua (Variável).

As distribuições discretas por sua vez, devem ser utilizadas para modelar situações em que a saída de interesse só pode assumir valores inteiros (discretos) como, número de caras ou coroas, 0 ou 1 para falha ou sucesso, ou 0,1,2,3,... como o número de ocorrências de um determinado evento de interesse por exemplo.

Tipos de Distribuição estatística discreta

1. Distribuição de Poisson

A distribuição de Poissoné uma distribuição discreta de probabilidade aplicável a ocorrências de um número de eventos em um intervalo específico. Para reconhecer uma distribuição de Poisson, basta observar os 3 aspectos a seguir:

O experimento calcula quantas vezes que um evento ocorre em um determinado intervalo de tempo, área, volume, etc
A probabilidade do evento ocorrer é a mesma para cada intervalo
O número de ocorrências de um intervalo é independente do outro.

Alguns exemplos de distribuição de Poisson são:

Usuários de computador ligados à Internet
Clientes chegando ao caixa de um supermercado
Acidentes com automóveis em uma determinada estrada
Erros de digitação por um certo período de tempo
Número de carros que chegam a um posto de gasolina
Número de falhas em componentes por unidade de tempo
Número de requisições para um servidor em um intervalo de tempo.

2. Distribuição Binomial

Teoricamente, a distribuição binomialé a distribuição de probabilidade e estatística discreta do número de sucessos decorrentes de uma determinada sequência de tentativas, que seguem à seguintes características:

Espaço amostral finito
Apenas dois resultados possíveis (sucesso ou fracasso) para cada tentativa
Todos os elementos devem possuir possibilidades iguais de ocorrência
Eventos devem ser independentes uns dos outros.

Que tal entender mais sobre a metodologia Lean Seis Sigma?

Aprenda a utilizar um dos métodos mais buscados no mercado!

O Lean Seis Sigma é aplicado em uma das maiores empresas brasileiras, a Ambev! Desde que o método começou a ser utilizado, os erros na linha de produção se aproximam do 0,1%.

Com o Kit Completo do Leis Seis Sigma, você terá acesso a ferramentas de melhorias e conteúdos de workshops com passo a passo para desenvolver projetos Seis Sigma.

Saiba como usar a metodologia Lean Seis Sigma agora!

Clique no banner e baixe o conteúdo: