위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

반응형

1. 위계적 회귀분석

1) 위계적 회귀분석의 목적

1단계에서 일반적 특성이 종속변수에 미치는 영향을 파악하고, 2단계에서 일반적 특성과 독립변수가 종속변수에 미치는 영향을 파악

독립변수의 단계를 분리하여 3단계 이상으로 종속변수에 대한 영향을 파악

매개효과 또는 조절효과 검증

 

2) 정의

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

 위계적 회귀분석(Hierarchical regression analysis)은 연속형 독립변수가 연속형 종속변수에 미치는 영향을 검증하는 분석을 여러번 진행하는 방법입니다. 독립변수의 변화에 의해 종속변수가 어떻게 변화하는지를 검증하는 분석 방법입니다. 회귀분석 방법은 동일하며, 독립변수들을 추가로 투입하며 분석을 진행합니다.

 

3) 가설 설정

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

 직장 내 역할 갈등이 팀 성과에 영향을 미치는지 검정하고자 한다면, 독립변수인 역할 갈등은 연속형 자료, 종속변수인 팀 성과도 연속형 자료이기 때문에 회귀분석을 합니다. 단, 독립변수가 역할 갈등으로 1개이기 때문에 단순회귀분석이라고 합니다.

 

① 가설 : 독립변수가 종속변수에 유의한 영향을 미칠 것이다.

    가설 1 : 역할 갈등이 팀 성과에 유의한 영향을 미칠 것이다.

    가설 2 : 과업 갈등이 팀 성과에 유의한 영향을 미칠 것이다.

    가설 3 : 관계 갈등이 팀 성과에 유의한 영향을 미칠 것이다.

4) 위계적 회귀분석

① 메뉴를 선택합니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

② '독립변수' 입력칸에 독립변수인 '역할 갈등'을, '종속변수' 입력칸에 종속변수인 '팀 성과'를 지정합니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu
위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

③ '다음'을 클릭하고, '독립변수' 입력칸에 '역할갈등', '과업갈등'을 지정하고, 다시 '다음'을 클릭하고, '독립변수' 입력칸에 '역할갈등', '과업갈등', '관계갈등'을 지정합니다(다음 칸으로 넘어갈 때마다 '블록(B)1/1'의 숫자가 바뀌는 것을 알 수 있습니다.).

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu
위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu
위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu
위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu
위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

④ '통계량'을 클릭한 후, 'R 제곱 변화량', '공선성 진단', 'Durbin-Watson'을 지정하고, '계속'을 클릭합니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu
위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu
위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

⑤ '확인'을 클릭합니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

⑥ '모형 요약b'에서 'R제곱', 'Durbin-Watson', 'ANOVAa'에서 'F'값과 '유의확률'을 확인해줍니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

⑦ 회귀모형의 적합도는 1단계에서 F값이 8.036, 유의확률이 .029, 2단계에서 F값이 11.895, 유의확률이 <.000, 3단계에서 F값이 8.036, 유의확률이 <.000으로 나타났습니다. 회귀모형은 모두 유의확률이 .05 미만으로 회귀모형은 적합하다고 할 수 있습니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

⑧ 수정된 R 제곱은 독립변수가 종속변수를 얼마나 설명하는지를 나타내는 설명력으로, 1단계에서 .019(수정된 R 제곱은 .015), 2단계에서 .086(수정된 R 제곱은 .079), 3단계에서 .088(수정된 R 제곱은 .077)로 각 단계의 설명력은 1단계에서 1.9%(수정된 R 제곱은 1.5%), 2단계에서 8.6%(수정된 R 제곱은 7.9%), 3단계에서 8.8%(수정된 R 제곱은 7.7%)로 나타났습니다. 단순회귀분석과 다른 것은 다중회귀분석에서는 수정된 R 제곱의 수치를 봐야하는데, 이는 변수의 개수까지 고려하여 계산된 설명력이기 때문입니다. 또한 사회과학에서 하나의 변수가 3%만 되어도 영향력이 있다고 할 수 있습니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

⑨ Durbin-Watson 통계량은 잔차의 독립성 여부를 판단하기 위한 수치이며, 통계량이 2에 근사할수록 잔차에 독립성이 있다고 할 수 있습니다. 이 회귀모형에서는 Drubin-Watson 통계량이 1.970으로 잔차의 독립성 가정을 만족한다고 할 수 있습니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

 VIF 값이 모두 10보다 작으므로 다중공선성 문제는 없다고 할 수 있습니다. 만약 다중공선성에 문제가 있는 변수가 있다면, 그 변수는 제외해야 하며, 변수의 크기가 큰 것부터 제외하면 됩니다.

이번엔 연령을 더미를 만들기 위해, 우선 연령을 “연령더미1” 넣고 바꾸기(H) 후 기존값 및 새로운 값(O)를 누루고 “60대” 1, “70대” 2, “80대 이상” 3으로 코딩되어 있는 것을 1을→0으로, 2를→1로, 3을→0으로 바꾸어줍니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

두 번째로 “연령더미2”를 만들어 줍니다. 연령더미2는 1을→0으로, 2를→0으로, 3을→1로 바꾸어 줍니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

 그 결과는 60대는 연령더미1과 연령더미2가 00으로, 70대는 10으로, 80대 이상은 01로 되었습니다. 여기서 중요한 것은 기준이 되는 값을 0으로 만들어주는 것입니다.
 
다중회귀식을 돌릴 때는 “연령더미1”과 “연령더미2”를 함께 넣고 돌립니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

위는 Syntax(명령어)로 더미를 쉽게 만드는 법입니다.
연령=1 일 때 연령_더미1=0으로, 연령_더미2=0으로 만든다.
연령=2 일 때 연령_더미1=1로, 연령_더미2=0으로 만든다.
연령=3 일 때 연령_더미1=0으로, 연령_더미2=1로 만든다.
만약 연령이 4가지 범주로 되어 있다면,

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

위와 같이 연령의 범주가 4개일 때
연령=1 일 때 연령_더미1=0으로, 연령_더미2=0, 연령_더미3=0으로 만든다.
연령=2 일 때 연령_더미1=1로, 연령_더미2=0으로 연령_더미3=0으로 만든다.
연령=3 일 때 연령_더미1=0으로, 연령_더미2=1로 연령_더미3=0으로 만든다.
연령=4 일 때 연령_더미1=0으로, 연령_더미2=0로 연령_더미3=1으로 만든다.
 
그럼 연령 1이 기준인 0으로 됩니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

이제 만들어진 더미를 가지고 다중회귀분석을 실시하겠습니다.
분석(A) → 회귀분석(R) → 선형(L)을 클릭

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

종속변수에 “자기효능감”을 성별과 연령에 따른 차이가 나타나 성별과 연령을 더미로 만들어서 독립변수로 넣고, 이전의 독립변수인 건강증진행위 하위요인을 독립변수로 놓고 “통계량(S)”를 클릭 후 “공선성 진단(L)”과 “Durbin-Watson(U)"를 선택하고 회귀식을 돌립니다.

위계적 회귀분석 더미변수 - wigyejeog hoegwibunseog deomibyeonsu

더 많은 아웃풋이 있지만, 앞에서 다루었으니 그 부분을 참고 하시고 여기서는 실질적으로 어떻게 더미독립변수가 해석되어지는지를 살펴보겠습니다.
 
 성별더미와 연령더미2가 통계적으로 유의미하게 나왔습니다 성별더미는 “남성”입니다. 이유는 “여성”이 0이기 때문입니다. 그러면 연령은 “60대”가 0이니 연령더미1은? “70대”이고, 연령더미2는 “80대 이상”이 되겠죠?
 
 이를 해석하면, 성별이 남성일수록 자기효능감이 증가하였으며, 연령이 80대 이상일 때 60대보다 자기효능감이 감소하는 것으로 나타났다. 이렇게 해석을 하시면 됩니다.

더미 만들기 명령어(Syntax)

1) 3개 더미 만들기
 
if(연령 =1) 더미1=0.
if(연령 =1) 더미2=0.
 
if(연령 =2) 더미1=1.
if(연령 =2) 더미2=0.
 
if(연령 =3) 더미1=0.
if(연령 =3) 더미2=1.
 
execute.

3) 5개 더미 만들기
 
if(연령 =1) 더미1=0.
if(연령 =1) 더미2=0.
if(연령 =1) 더미3=0.
if(연령 =1) 더미4=0.
 
if(연령 =2) 더미1=1.
if(연령 =2) 더미2=0.
if(연령 =2) 더미3=0.
if(연령 =2) 더미4=0.
 
if(연령 =3) 더미1=0.
if(연령 =3) 더미2=1.
if(연령 =3) 더미3=0.
if(연령 =3) 더미4=0.
 
if(연령 =4) 더미1=0.
if(연령 =4) 더미2=0.
if(연령 =4) 더미3=1.
if(연령 =4) 더미4=0.
 
if(연령 =5) 더미1=0.
if(연령 =5) 더미2=0.
if(연령 =5) 더미3=0.
if(연령 =5) 더미4=1.
 
execute.
 
 

2) 4개 더미 만들기
 
if(연령 =1) 더미1=0.
if(연령 =1) 더미2=0.
if(연령 =1) 더미3=0.
 
if(연령 =2) 더미1=1.
if(연령 =2) 더미2=0.
if(연령 =2) 더미3=0.
 
if(연령 =3) 더미1=0.
if(연령 =3) 더미2=1.
if(연령 =3) 더미3=0.
 
if(연령 =4) 더미1=0.
if(연령 =4) 더미2=0.
if(연령 =4) 더미3=1.
 
execute.

여기서 “연령”을 바꾸고 싶은 변수명으로 바꾸고 나서 명령어(Syntax)창에 복사해서 사용하시면 편합니다.

예제) 더미변수를 활용한 회귀분석 해석
 
 응답자의 인구학적 특성, 건강증진행위가 자기효능감에 미치는 영향을 검토하기 위해 더미변수를 활용한 다중 회귀 분석을 실시한 결과는 다음과 같다. 

변수

Enter방식 다중 회귀분석

β

Std. Error

표준화
베타

t

p

공차한계

VIF

 

(상수)

21.628

4.743

 

4.560

.000

 

 

인구
학적
변인

성별더미(남성)

4.007

1.371

.206

2.923

.004

.929

1.076

연령더미1(70대)

-2.872

1.648

-.170

-1.743

.084

.487

2.054

연령더미2(80대 이상)

-6.571

1.817

-.365

-3.616

.000

.453

2.206

건강
증진
행위

영양

.601

.221

.205

2.723

.007

.814

1.229

스트레스관리

.114

.216

.039

.528

.599

.847

1.181

대인관계

.442

.173

.206

2.556

.012

.711

1.407

운동

.456

.335

.107

1.360

.176

.751

1.331

 

R²=0.363, 수정된 R²=0.331
F=11.244, p=0.000, Durbin-Watson=1.892

  응답자의 인구학적 특성(성별, 연령)과 건강증진행위가 자기효능감에 영향을 미치는 요인을 알아보기 위하여 Enter 방식의 다중회귀분석을 실시하였다. 다중회귀분석을 실시하기 위하여 독립변수 간의 다중공선성을 검토하였다. 독립변수간 다중공선성은 공차한계와 VIF(분산팽창요인) 지수를 이용하였고, 독립변수 간 VIF 지수는 1.076∼2.206으로 10미만이었으며, 공차한계는 0.453∼0.929로 0.1 이상으로 다중공선성이 없는 것으로 나타났다. 또한 오차의 독립성을 검증한 결과 Durbin-Watson 통계량이 1.892로 자기상관이 없는 것으로 확인되었다. 회귀분석상 모델의 설명력을 나타내는 R2값은 .363으로 나타나, 이 회귀모델은 인구학적 특성과 건강증진행위가 자기효능감에 미치는 영향력에 대하여 약 36.3%의 설명력을 지닌다고 할 수 있다. 회귀계수의 유의성 검정결과는 성별더미(t=2.923, p<.01), 연령더미2(t=-3.616, p<.001), 영양(t=2.723, p<.01), 대인관계(t=2.556, p<.05)가 자기효능감에 유의한 영향을 미치는 것으로 나타났다.