Bonferroni 사후검정 - bonferroni sahugeomjeong


Machine Learning

2019. 10. 9. 21:33

주로 anova 분석을 한 후에 사후분석을 진행하는 경우가 많습니다.

아래는 사후분석 방법을 정리하였습니다. 종류는 아래보다 더많을 수 있고, 제가 조사하고 아는선에서만 정리하였습니다.


1. 사후분석 - 사용 목적

  • ANOVA 분석 결과가 통계적으로 유의하다는 결과를 얻었을 경우 그것은 집단별로 차이가 있다는것까지는 도출가능하지만, 어떤 집단간에 차이가 있는지는 알려주지 않습니다.
  • N개의의 집단 중 어떤집단들간에 값이 차이가 있는지를 추가적으로 살펴보기 위해서 실시하는것이 사후 분석입니다
  • t테스트를 여러번해서 할 수도 있지만, 비교대상이 증가할 수록 신뢰수준이 낮아지는 문제이다. 예를들면 하나의 집단에 대해서 차이가 있는지를 볼때에는 신뢰수준이 95%이지만, 신뢰수준이 95%인 두개의 집단의 결과가 동일할 확률은 95% * 95%

1) Tucky

  • 특징 : 비교 대상 표본수가 동일한 경우에만 사용 가능
  • 모든 집단 조합에 대하여 분석
  • 장점 : 표본수가 동일한 경우 가장 많이 사용되는 사후 검정 기법
  • 단점 : 비교 대상 표본수가 동일하여야 함
  • 표본수가 적을수록 정확도가 낮아짐

2) Dunnett

  • 특징 : 하나의 집단을 기준으로 다른 집단들과 차이에 대하여 분석
  • 양측 검정 가능
  • 장점 : 1개의 대조군과 여러 실험군과의 비교를 하는 연구에 사용 가능
  • Tucky보다 검정력 높음
  • 단점 : 모든 집단 조합에 대한 검정을 하지 않음

3) Duncan

  • 특징 : 오차비율을 통제하지 않아 상대적으로 엄격하지 않은 기준 인접하는 평균값들을 단계적으로 비교하는 방법
  • 장점 : 엄격하지 않은 기준으로 통계적 유의성을 도출하기 쉬움
  • 단점 : 기준이 엄격하지 않음(1종 오류 발생확률을 통제 하지 않음)

4) Fisher’s LSD

  • 특징 : 가장 엄격하지 않은 사후 검정 방법
  • 오차비율을 통제하지 않아 상대적으로 엄격하지 않은 기준
  • 최근연구에서는 선호되지 않음(위에서 예시를 든 t-test를 여러번 하는 방법과 같은 분석 기법)
  • 장점 : 엄격하지 않은 기준으로 통계적 유의성을 도출하기 쉬움
  • 단점 : 기준이 엄격하지 않음(1종 오류 발생확률을 통제 하지 않음)

5) Bonferroni

  • 특징 : 응용 범위가 넓음(모수, 비모수 적용 가능)
  • Tukey보다 엄격하지만 Scheffe보다는 관대함
  • 장점 : ANOVA, 다중 t-test, 비모수 검정 등에 적용 가능
  • 단점 : 비교대상이 많아질수록 검정력이 약해짐

6) Scheffe

  • 특징 : 가장보수적이고 엄격한 사후검정 방식
  • 장점 : 엄격한 기준으로 사후 검정 실시
  • 단점 : 통계적으로 유의한 차이를 도출하기가 쉽지 않음

7) Games-Howell

  • 특징 : 집단의 분산의 동질성이 확보되지 않았을 때 적용 가능

  • Welch 분석 기법을 응용

  • 장점 : 집단별 표본수가 다르거나 분산의 동질성이 보되지 않아도 적용 가능

  • 단점 : 표본수가 6개 미만일 경우 1종오류 발생률 높아짐(15개 이상 권장)


8) Tamhane T2

  • 특징 : 집단의 분산의 동질성이 확보되지 않았을 때 적용 가능
  • 유의수준 조정 및 t분포를 기준으로 분석
  • 장점 : Games-Howell보다 엄격한 기준 적용 가능
  • 단점 : 샘플이 많아질 수록 1종오류 높아짐

9) Dunnett T3

  • 특징 : 집단의 분산의 동질성이 확보되지 않았을 때 적용 가능
  • 집단별 표본수가 동일한 경우에 적용 가능
  • 유의수준 조정 및 t분포를 기준으로 분석
  • 장점 : 집단별 표본수가 50개 미만인 경우 Games-Howell보다 검정력 우수
  • 단점 : 집단별 표본수가 50개 이상일 경우 Games-Howell보다 1종오류 높아짐

2. 전체적으로 조사된 내용

1) 집단별 표본의 수와 분산이 동일한 경우
  • 표본수 : 분석 대상의 집단별 표본수가 동일하여야 함
  • 분산의 동질성 : Levene의 등분산 검정을 통해 각 집단들의 분산이 동일하여야 함
    ※ 원칙적으로는 분산의 동질성 검정을 실시한 후 그 결과에 맞추어 사후 분석 기법을 적용하여야 합니다.
    ※ 그런데 선행 연구를 조사하시면 ANOVA 분석 연구에서 분산의 동질성 검정이 생략된 경우를 쉽게 접하실 수 있습니다.
  • 많이 사용되는 사후검정 방법Tucky -> 일반적인 경우 Tucky를 추천DunnettDuncan
2) 집단별로 표본의 수는 다르지만 분산의 동질성은 확보된 경우
  • 표본수 : 분석 대상의 집단별 표본수가 다른 상황
  • 분산의 동질성 : Levene의 등분산 검정을 통해 각 집단들의 분산이 동일하지 않은 경우
  • 많이 사용되는 사후검정 방법Fisher’s LSDScheffe -> 일반적인 경우 추천Bonferroni
3) 집단별로 표본의 수도 다르고 분산의 동질성도 확보 되지 않은 경우
  • 표본수 : 분석 대상의 집단별 표본수가 다른 상황
  • 분산의 동질성 : Levene의 등분산 검정을 통해 각 집단들의 분산이 동일하지 않은 경우
  • 많이 사용되는 사후검정 방법Games-Howell -> 일반적인 경우 추천Dunnett T3Tamhance T2
    Tukey와 Duncan은 집단의 수가 같을 때 사용하는 방법이다.
    예를 들어, 중졸이하, 고졸, 대졸이상으로 조사를 했는데, 각 집단의 조사인원이 50명으로 동일해서 전체 150명을 조사한 경우에 사용하는
    방법이라는 것이다. 하지만, 현재는 집단의 수가 달라도 쓸 수 있도록 보완되어 있다.
    이 두 방법의 차이는 Tukey는 공학, Duncan은 사회과학쪽에서 활동한 분들이라서, 현재에도 자연과학, 공학 등에서 실험을 할 경우에는
    Tukey의 방법을 주로 이용하며, 사회과학, 심리학, 교육학 등과 설문조사일 경우에는 주로 Duncan을 이용하고 있는 추세이다.
    SPSS 의 경우, Tueky의 사후검정 시 집단의 수가 같으면 Tueky의 방법을 이용하며, 집단의 수가 다를 경우에는 보완된 방법인 Tukey-Kramer
    검정을 이용하여 사후검정을 실시한다.
    Tukey-Kramer 방법이 Tueky 방법과 다른 점은 조화평균을 사용한다는 것이다.
    Scheffe의 방법은 집단의 수가 다를 때 쓰도록 고안된 방법이다. 물론 집단의 수가 같아도 사용할 수 있다.
    이 3가지 방법의 민감도에 대해 생각을 하면 Scheffe의 방법이 가장 타이트하고, Duncan의 방법이 가장 루즈하다.
    즉, Duncan의 방법은 왠만큼 차이가 나면 차이가 난다라고 하지만, Scheffe의 방법은 확실한 차이가 나야만 비로소 차이가 있다라고 해준다.
    그래서, Scheff에서 차이가 있다라고 하면 Duncan에서는 차이가 있다라고 나오지만, 그 역은 성립하지 않는다.
    그리고, Tukey의 방법은 Duncan과 Scheffe의 중간 정도에 위치한다고 생각하면 된다

참고 자료

http://www.statsol.co.kr/2019/02/22/anova-%EB%B6%84%EC%84%9D-%ED%9B%84-%EC%82%AC%ED%9B%84%EA%B2%80%EC%A0%95post-hoc-%EC%A2%85%EB%A5%98%EB%B3%84-%ED%8A%B9%EC%A7%95-tucky-dunnet-duncan-scheffe-bonferroni-games-howel-tamhane/http://www.statedu.com/lecture/7393


동영상이 없는 텍스트 강의 자료입니다.

사후분석(post hoc)

  • ANOVA 검증 결과 유의미하다는 결론을 얻었을 때, 구체적으로 어떤 수준(들)에서 평균 차이가 나는지를 검증하는 방법
  • 연구자의 사전 가설(아이디어)없이 ANOVA를 시행한 경우, 탐색적으로 평균 차이가 나는 수준(집단)을 살펴보기 위해 시행하는 방법
  • 조합 가능한 모든 쌍에 대해 비교를 하므로 과잉검증으로 인한 FWER 증가

FWER

  • Familywise Error Rate: 여러 개의 가설 검정을 할 때 적어도 하나의 가설에서 1종 오류가 발생할 가능성
  • 가설검정을 많이 할 수록 FWER은 증가
    • 유의수준 5%에서 가설 검정을 1번 할 때, 1종 오류가 발생하지 않을 확률은 95%. FWER = 100% - 95% = 5%
    • 가설검정을 2번했을 때, 2번 모두 1종 오류가 발생하지 않을 확률은 95% $\times$ 95% = 90.25%. FWER = 9.75%
    • 가설검정을 3번했을 때, 3번 모두 1종 오류가 발생하지 않을 확률은 95% $\times$ 95% $\times$ 95% = 85.74%. FWER = 14.26%

대표적인 사후분석 방법

유의수준을 보정하여 FWER을 0.05로 고정시킴

  • 봉페로니 교정
  • 피셔의 LSD
  • 투키의 HSD
  • 셰페의 방법

사후분석을 위한 준비

분산분석을 실시:

m = aov(weight ~ group, data = PlantGrowth)

DescTools 불러오기. (설치되어 있지 않다면 install.packages('DescTools')로 먼저 설치)

피셔의 LSD

  • Fisher's Least Significant Difference = "최소한의 유의미한 차이"
  • 유의수준 보정 없음
  • FWER 높음

PostHocTest(m, method='lsd')

  Posthoc multiple comparisons of means : Fisher LSD 
    95% family-wise confidence level

$group
            diff      lwr.ci    upr.ci   pval    
trt1-ctrl -0.371 -0.94301261 0.2010126 0.1944    
trt2-ctrl  0.494 -0.07801261 1.0660126 0.0877 .  
trt2-trt1  0.865  0.29298739 1.4370126 0.0045 ** 

---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

trt2trt1의 차이만 통계적으로 유의미함

봉페로니 교정

  • Bonferroni correction
  • 모든 집단을 짝지어 t-test
  • 짝지어 비교를 3번 하면, p값을 3배
  • FWER이 중간 정도

PostHocTest(m, method='bonferroni')

  Posthoc multiple comparisons of means : Bonferroni 
    95% family-wise confidence level

$group
            diff     lwr.ci    upr.ci   pval    
trt1-ctrl -0.371 -1.0825786 0.3405786 0.5832    
trt2-ctrl  0.494 -0.2175786 1.2055786 0.2630    
trt2-trt1  0.865  0.1534214 1.5765786 0.0134 *  

---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
  • LSD와 같이 trt2trt1의 차이만 유의미.
  • 결론을 같으나 p 값이 3배 더 큰 것에 주목.
    • 다른 데이터에서는 LSD에서는 유의미하고 봉페로니 교정에서는 유의미하지 않을 수 있음.

trt1 수준과 trt2 수준 간의 평균 차이만 유의미함 (p < 0.05)

투키의 HSD

  • Tuckey's Honestly Significant Difference = "진정으로 유의미한 차이"
  • FWER이 중간 정도

PostHocTest(m, method='hsd')

  Posthoc multiple comparisons of means : Tukey HSD 
    95% family-wise confidence level

$group
            diff     lwr.ci    upr.ci   pval    
trt1-ctrl -0.371 -1.0622161 0.3202161 0.3909    
trt2-ctrl  0.494 -0.1972161 1.1852161 0.1980    
trt2-trt1  0.865  0.1737839 1.5562161 0.0120 *  

---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

trt1 수준과 trt2 수준 간의 평균 차이만 유의미함 (p < 0.05)

셰페의 방법

  • Scheffe's method
  • FWER이 가장 낮으나 보수적이어서 2종 오류의 가능성도 높음

PostHocTest(m, method='scheffe')

  Posthoc multiple comparisons of means : Scheffe Test 
    95% family-wise confidence level

$group
            diff     lwr.ci    upr.ci   pval    
trt1-ctrl -0.371 -1.0930531 0.3510531 0.4241    
trt2-ctrl  0.494 -0.2280531 1.2160531 0.2265    
trt2-trt1  0.865  0.1429469 1.5870531 0.0163 *  

---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

여기서도 trt1 수준과 trt2 수준 간의 평균 차이만 유의미함 (p < 0.05)