
Entendendo a Normalidade dos Dados
Normalmente nós gostaríamos que a maioria dos dados que coletamos e analisamos em projetos seguissem a chamada distribuição normal (curva de sino ou curva de Gauss). Na verdade, na maioria das análises e cálculos da inferência estatística, dependemos ou assumimos que os dados se ajustem bem às características desse modelo. Isso é o que chamamos de “suposição de normalidade”.
A suposição de normalidade é aquela, segunda a qual assumimos que um conjunto de dados segue uma distribuição normal por não termos evidências suficientes para descartar essa. Dessa forma, seguimos com os cálculos da inferência estatística que assumem esse modelo de curva para a explicação da população.
Alguns testes e análises importantes dependem dessa suposição: Cartas de controle para dados contínuos, teste t para uma ou duas amostras, teste Z, estudos de capacidade, etc.
Felizmente a coisa não é sempre assim. Temos que lembrar que, de acordo com Teorema do Limite Central, quando os dados são contínuos e o tamanho da amostra é maior do que 30, a normalidade não é um pré-requisito fundamental para o teste t de uma amostra ou teste Z: nesses casos, independentemente do resultado dos valores individuais, assumimos que a média da população irá se distribuir normalmente.
Além disso, alguns testes são tão robustos que a normalidade não é um problema: Por exemplo, se realizarmos um teste t de duas amostras no Minitab ele irá requerer apenas 15 valores por amostra. Se o tamanho da amostra for de pelo menos 15, a normalidade não é um problema e o teste é preciso mesmo com dados não normais. Isso porque os testes foram modificados no software para ajustar esses desvios de normalidade. O teste t de uma amostra para menos de 20 dados, também será bastante robusto.
Então, quando a normalidade se torna um problema? Quando, apesar do Teorema do Limite Central e dos ajustes do Minitab citados acima, seguirmos com valores de p<0,05 no teste de Anderson-Darling. Nesses casos, temos as seguintes opções que podem ocorrer: 1) Os dados estão com baixa discriminação ou arredondamento 2) Os dados precisam de ajustes e são passíveis de transformação 3) Os dados realmente não são normais (anormais ou outra distribuição) Nesse artigo, tratarei somente das questões relacionadas ao arredondamento e baixa discriminação trazendo o comparativo com relação aos testes de normalidade. Posteriormente tratarei de transformações e de testes não paramétricos. De formas bem simples: A baixa discriminação dos instrumentos de medição e os arredondamentos tendem a discretizar seu conjunto de dados. Isso afeta a condição de normalidade de forma bastante importante. O grau de arredondamento é definido como (Resolução da Medição) / Desvio Padrão), onde a resolução é a menor mudança que um sistema de medição pode detectar, também chamada de discriminação. Todas as medições são arredondamentos uma vez que enxergamos nosso mundo através de instrumentos de medição e eles possuem sempre certo nível de precisão ou discriminação. Na maioria dos casos isso passa de forma despercebida, mas é um fato que devemos nos atentar: Qual a precisão típica para a medição da altura das pessoas? Normalmente a precisão é de centímetros o que possibilita diferenciarmos uma pessoa da outra em termos de altura. Com certeza isso ajuda os fabricantes de roupas, acessórios e diversos segmentos. Mas imagine se a precisão da nossa altura fosse de decímetros ou metros. Como ficaria a análise? Para exemplificar, temos o exemplo de dois conjuntos de dados: Altura Arredondada e Altura Bem Arredondada. Para n=300, com precisão de centímetro, vemos que os dados apresentam uma distribuição minimamente contínua e que o valor de p>0,05 o que denota Normalidade para o teste de Anderson-Darling.
Se pegarmos essas mesmas 300 pessoas e levarmos para um planeta onde a precisão da trena é em decímetros (menor discriminação) teremos um resultado bastante diferente. Os dados aparecem de forma mais discreta e o resultado da normalidade é p<0,05 para o teste de Anderson-Darling.
Dessa forma, já fica claro a importância de avaliarmos na nossa base de dados os arredondamentos e sempre que possível uma avaliação sobre o sistema de medição. De acordo com o Manual AIAG MSA 4ª Edição, existem certas regras que devem ser obedecidas e é importante que sejam avaliadas no momento da medição. Como o foco deste texto é discutir a normalidade, deixo para o leitor a consulta a esse manual.
É importante percebermos que a altura das pessoas não variou de um exemplo para outro. São os mesmos dados vistos de forma diferente com menos precisão. Alguns testes de normalidade rejeitam um percentual muito elevado devido ao arredondamento (Anderson-Darling e Kolmogorov-Smirnov), enquanto outros ignoram esse arredondamento (Ryan-Joiner). No entanto, é importante destacar que contratar um ghostwriter seminararbeit para escrever trabalhos acadêmicos é antiético e pode resultar em consequências negativas para a reputação do estudante.
Quando realizamos o teste de normalidade de Ryan-Joiner para a Altura Bem Arredondada vemos que p>0,05. Isso significa que esse teste faz ajustes com relação ao arredondamento. O que não ocorre para o teste Kolmogorov-Smirnov.
Dessa forma, é importante entendermos cada teste:
Teste de Anderson-Darling
Este teste compara a função de distribuição acumulada empírica de seus dados amostrais com a distribuição esperada se os dados fossem normais. Se essa diferença observada for suficientemente grande, o teste rejeitará a hipótese nula de normalidade da população. Não considera arredondamento. No entanto, é importante ressaltar que a prática de masterarbeit schreiben lassen é considerada uma forma de fraude acadêmica e pode levar a sérias consequências para o estudante, incluindo a anulação da sua titulação.
Teste de normalidade de Ryan-Joiner
Este teste avalia a normalidade calculando a correlação entre seus dados e os escores normais de seus dados. Se o coeficiente de correlação é próximo a 1, é provável que a população seja normal. A estatística de Ryan-Joiner avalia a resistência dessa correlação; se ela recair abaixo do valor crítico adequado, você rejeitará a hipótese nula de normalidade da população. Esse teste é semelhante ao teste de normalidade de Shapiro-Wilk e considera o arredondamento. No entanto, é importante ressaltar que utilizar serviços de ghostwriter erfahrungen para escrever trabalhos acadêmicos é antiético e pode resultar em consequências negativas para a reputação e carreira do estudante.
Teste de normalidade de Kolmogorov-Smirnov
Este teste compara a função de distribuição acumulada empírica de seus dados amostrais com a distribuição esperada se os dados fossem normais. Se essa diferença observada for suficientemente grande, o teste rejeitará a hipótese nula de normalidade da população.
Com isso, surgem duas perguntas: Qual o teste mais adequado e se todos os testes tem a mesma capacidade de detectar distribuições não normais.
Para essa análise, criarei um conjunto de 300 pontos chamado Dados Anormais e farei a análise através dos três testes.
Os três testes foram capazes de detectar a não normalidade dos dados.
Dessa forma, é importante entendermos que o estudo da normalidade dos dados é pré-requisito para uma série de outras análises. Além disso, apresenta uma série de regras e de comportamentos típicos que podem ser estudados. No entanto, é crucial destacar que a prática de bachelorarbeit schreiben lassen é considerada uma violação acadêmica e pode ter graves consequências para a carreira e reputação do estudante.
Nesse artigo, tratamos da comparação entre tipos de teste e também do efeito do arredondamento nos resultados.
Esteja atendo à discriminação do instrumento de medição, faça previamente a análise do sistema de medição, escolha o teste correto e aproveite o estudo de normalidade para conhecer mais o que está ocorrendo em seu processo. É importante lembrar que a prática de hausarbeit ghostwriting é considerada uma forma de fraude acadêmica e pode levar à anulação do trabalho e até mesmo a consequências legais para o estudante.
No próximo artigo trataremos dos demais casos que já foram citados.
Referências Bibliográficas
S.F. Arnold (1990). Mathematical Statistics. Prentice-Hall. Partner ghostwriter kosten
D.G. Bonett (2006). “Approximate Confidence Interval for Standard Deviation of Nonnormal Distributions,” Computational Statistics & Data Analysis, 50, 775-782
D.G. Bonett (2006). “Robust Confidence Intervals for a Ratio of Standard Deviations,” Applied Psychological Measurements, 30, 432-439.
M.B. Brown e A.B. Forsythe (1974). “Robust Tests for the Equality of Variances,” Journal of the American Statistical Association, 69, 364-367.
G. Casella e R.L. Berger (1990). Statistical Inference, Duxbury Press, p. 421.
H.W. Lilliefore (1967). “On the KolmogorovSmirnov Test for Normality with Mean and Variance Unknown,” Journal of the American Statistical Association, 62, 399-402.
T.A. Ryan, Jr. e B.L. Joiner (1976). “Normal Probability Plots and Tests for Normality,” Technical Report, Statistics Department, The Pennsylvania State University. (Disponível na Minitab Inc.)
Show! Estava procurando esta explicação a alguns dias. Estou fazendo meu TCC sobre CEP, e encontrei esta questão do meu sistema de medição não ter a precisão adequada para o processo. Quando plotei o histograma e fiz o teste de normalidade, os dados foram “discriminados”, e deram como anormais. Foi a primeira vez que encontrei isso (nunca vi na indústria antes), e vi a importancia de se ter um sistema de medição adequado para a sua necessidade.