SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

차이분석을 하기 위해 SPSS에서 여러 가지 분석을 하다가

중요한 것을 빠뜨릴 뻔 했다.

이들은 정규분포라는 것을 가정하고 있기 때문에 당연하다고 생각하고 skip했는데

내가 사용하는 data가 정규분포를 이루고 있지 않을 수도 있다.

간단한 sample을 만들었다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

scoreA는 그냥 눈으로 확인해도 정규분포이다.

그러나 scoreB은 그렇지 않다.

SPSS에서 확인해보자.

[분석]-[기술통계]-[탐색] 메뉴를 선택한다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

위와 같이 종속에 정규분포인지 확인하는 변수들을 넣었다.

[도표] 버튼을 눌러 "검정과 함께 정규성 도표"에 check 한다.

[계속] 버튼을 누르고 [확인]을 누른다.

결과를 확인하자.

결과표에서는 두 가지 분석방법으로 나타난다.

여기서는 data 개수가 매우 적으므로 Shapiro-Wilk 의 유의확률을 확인해야 한다.

대개 30개 이상(혹은 50개 이상)이되면 Kolmogorov-Smirnov 결과의 유의확률를 본다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

scoreA 변수는 유의수준이 0.05보다 크다. 그러므로 정규분포라는 것이 확인되었다.

간단히 가설을 적어보자면,

귀무가설은 표본의 분포는 정규분포이다.

대립가설은 정규분포가 아니다.

scoreB변수는 유의확률이 0.000이므로(0.05 이하이므로) 정규분포가 아니라는 것이 검증되었다.

scoreB는 비모수통계를 사용해야 한다.

기쁘게 열공.^^

<덧붙임>

이론적으로, t-test 결과가 유효하기 위해서는 다음 조건이 충족해야 한다.

조건 1. 각 관측치가 독립이다.

조건 2. 동일한 분포를 따른다.

조건 3. 그 분포는 정규분포이다.

이 중에 조건 1, 2는 중요하지만

가장 만족하기 어려운 조건인 조건3은 그다지 중요하지 않다고 알려져 있다.

분포에 이상치(outlier)가 없는 한, 각 관측치가 종모양의 정규분포가 아니더라도,

t-test 결과는 상당히 유효하다고 볼 수 있다.

참고: Bickel, Peter J. & Kjell A. Doksum. (1977). <Mathematical Statistics: Basic Ideas and Selected Topics>.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

개론

통계 검정을 하기 위해서는 프로그램이나 기타 여러 가지 방법으로 내가 분석해야 할 데이터가 정규성을 가진 것인지 검토를 해야 한다. 즉 자료가 정규분포를 이룬다는 가정하에 검정 통계량과 p-value를 계산하는 것이다. 만약에 정규성(normality)가 가정되지 않으면 통계결과에 대한 타당성은 떨어지게 되고 이러한 분석은 신뢰할 만한 것인지 의심하게 된다.

모수적 검정은 3가지로 일반적인 가정을 하게 된다. 그 3가지는

정규성(normality)와 등분산성(Equal Varience), 독립성(Independence)이다.

* 일반적으로 표본수가 30 넘는 경우 중심극한정리에 의해

모집단의 분포에 관계없이 표본평균이 정규성을 갖는다고 규정

* 표본수 10~30 : 정규성 검정

* 표본수 10 이하: 비모수적 통계 방법 사용

정규성을 가진 정규분포는 확률밀도함수에 극한을 적용하여 만든 것이다. 그 식을 써보면 다음과 같다. 복잡하니 꼭 외우지 않아도 된다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

확률밀도함수라서 당연히 다음과 같은 특징을 ㅏㄱ지고 잇다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

이미지출처: 나무위키

일반적으로 정규성을 검하는 방법은 다음과 같은 세가지로 이야기가 된다(출처: https://mansoostat.tistory.com/22).

Q-Q plot

그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법이다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

Q-Q plot은 아래와 같이 대각선 참조선을 따라서 값들이 분포하게 되면 정규성을 만족한다고 할 수 있다. 만약 한 쪽으로 치우치는 모습이라면 정규성 가정에 위배되었다고 볼 수 있다.

Shapiro-Wilk test, 샤피로-윌크 검정

오차항이 정규분포를 따르는지 알아보는 검정으로, 회귀분석에서 모든 독립변수에 대해서 종속변수가 정규분포를 따르는지 알아보는 방법이다. 귀무가설은 ‘H0:정규분포를 따른다’는 것으로 p-value가 0.05보다 크면 정규성을 가정하게 된다.

*다만 유의할 점은 여기서 귀무가설을 기각하지 못 했다는 것은 정규분포를 따르지 않는다고 말할 근거가 부족한 것일 뿐 100% 정규성이 만족된다는 뜻은 아니다. 참고하는 정도로 보는 것이 좋다.

Kolmogorov -Smirnov test (콜모고로프-스미노프 검정)란?

EDF, 즉 Empirical distribution function에 기반한 적합도 검정 방법이다. 자료의 평균/표준편차와 히스토그램을 표준정규분포와 비교하여 적합도를 검정한다. Shapiro-Wilk test와 마찬가지로 p-value가 0.05보다 크면 정규성을 가정하게 된다.

spss

spss에서 일반적으로 주관적인 판단기준에 근거하는 p-p plot를 그려보거나 Graphical Displays를 이용하는 것과 객관적으로 판단하는 첨도와 왜도를 이용하는 방법과 Komigorov -Smirnov test 를 이용한다.

구분

사용하는 방법

주관적 판단

p-p plot

Graphical Displays

객관적 판단

첨도와 왜도

Komigorov -Smirnov test

01

p-p plot

먼저 p-p plot를 이용하여 정규정을 검정해보도록 하자.

1) 분석- 기술통계량 - p-p도표 를 선택한다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

국어점수와 수학점수를 모두 선택하여 변수로 이동을 시킨다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

결과는 다음과 같다.

판단하는 방법은

- 나타나는 점들이 선과 일치할 수록 정규분포가 되는 것이다.

- 연구자가 주관적으로 판단할 수 있다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

파일을 분할하는 기능도 있는데, 이러한 기능을 이용하면 각 반에 대한 정규성도 검정이 가능하다.

파일분할이라는 기능은 집단별로 데이터를 나누어서 보거나 사용하는 것을 말한다. 이것은 실제로 파일을 나누는 것이 아니라 소프트웨어적으로 구분하여 보는 것을 말한다. 이렇게 하면 데이터를 조작하는 번거로운 절차를 하지 않아도 된다.

02

히스토그램

히스토그램으로 판단하는 방법도 있다.

분석 --> 히스토그램 --> 히스토그램에 정규곡선 표시 --> 계속 --> 확인

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

차트에서 히스토그램을 선택하고, 히스토그램에 정규곡선 표시를 체크한다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

결과는 다음과 같이 나오게 된다.

이러한 경우 정규성은 연구자가 주관적으로 판단하게 된다.

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

03

왜도와 첨도를 이용하는 방법

왜도와 첨도를 구하여 표준화한 Z값이 절댓값이 2.58미만이면

유의 수준 alpha =.01에서 정규분포라고 판단한다.

왜도(歪度; Skew) : 확률분포의 값이 얼마나 비대칭성을 가진 것인지 나타내는 지표이다.

왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다.

(위키백과: https://ko.wikipedia.org/wiki/%EB%B9%84%EB%8C%80%EC%B9%AD%EB%8F%84)

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

첨도(kurtosis; 尖度)

확률분포의 뾰족한 정도를 나타내는 척도이다. 관측치들이 어느 정도 집중적으로 중심에 몰려 있는가를 측정할 때 사용된다. 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가깝다. 3보다 작을 경우에는(K<3) 정규분포보다 더 완만하게 납작한 분포로 판단할 수 있으며, 첨도값이 3보다 큰 양수이면(K>3) 산포는 정규분포보다 더 뾰족한 분포로 생각할 수 있다(출처: 위키백과 https://ko.wikipedia.org/wiki/%EC%B2%A8%EB%8F%84)

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

왜도와 첨도 구하기

방법1

분석 --> 기술통계량 --> 기술통계 --> 옵션--> 왜도와 첨도

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

다른 방법으로는

분석 --기술통계 ---빈도분석 -- 통계량 -- 왜도 첨도 선택하는 방법이다.

(버전이 25이하인 경우에는 사후분포 특성와(Z)가 분포로만 써있는 경우도 있다)

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

모두의 절댒값이 2.58 미만으로 유의 수준 .01하에서 만족하지만 수학의 경우 왜도의 절댓값이 2.58만을 만족하는 것이 아니므로 정규성을 만족시키지 못한다. 일반적으로는 왜도와 첨도는 절대값이 -2~2 사이이면 정규분포로 생각한다. 느슨하게 생각하면 3까지도 보기도한다. 어떤 논문에서는 첨도를 8까지 본다고 하는 논문들도 있다.

Komigorov -Smirnov test

분석- 기술통계량 --> 데이터 탐색 --> 종속변수 넣기 --> 통계량 --> 기술통계 --> 도표 --> 검정과 함께 정규성 도표 선택

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

SPSS 정규성 검정 - SPSS jeong-gyuseong geomjeong

해석을 하는 방법은

유의확률이 .05보다 크다면 정규성을 충족하는 것으로 보면 된다.

H0 는 데이터가 정규선을 충족한다

이므로 p> .05보다 크게 되므로 대립가설이 기각이 되었기 때문이다. 따라서 국어점수는 정규성을 충족하지만 수학은 정규성을 충족하지 못한다.

참고)

“Kolmogorov-Smirnov”와 “Shapiro-Wilk"의 차이는 표본의 수를 가지고 판단하거나 구분한다. 보통 Kolmogorov-Smirnov(콜모고로프 스미노프 검정)는 표본의 수가 2000개이상일때 보고, Shapiro-Wilk는 표본의 수가 2000개 미만일 때 사용한다고 한다. 따라서 적은 표본을 가지고 Kolmogorov-Smirnov검정을 하면 영가설이 자주 기각이 될 것으로 추측이 된다.

논문에 작성하는 방법은

APA스타일로 작성하된다.

" 국어점수와 수학점수의 정규성을 알아보기 위해서 Kolmogorov-Smirnov test를 실시한 결과, 국어점수(Z(40)= 0.70, p > .05)는 정규성을 충족시켰지만 , 수학점수(Z(40)=0.23, p < .05)는 정규성을 충족시키지 못했다.

세부참고 사항

Z --> 기울이기 Z

자유도 (40)

통계량 "0.70"으로 작성

유의 확률 : p > .05

보편적으로 0.05에서 0을 생각하고 .05로 작성, 부등호 양 옆은 띄어쓰기를 한다.

박중희