두집단에 대한 가설검정(case 2)

Ella Vibe (Sooyeon Lee)
6 min readDec 27, 2023

--

통계 이야기

두 집단의 모평균 차에 대한 가설 검정의 케이스는 다음과 같은 요소들로 경우를 나눌 수 있다.
1) 두 표본 집단의 모분산을 알고 있을 때/모를 때
2) 표본의 크기가 충분히 클 때/ 작을 때
3)두 표본 집단의 모분산이 등분산성일 때/ 이분산성일때

각 케이스별로 귀무가설/대립가설을 알아보고 해당 귀무가설을 가정해서 통계적 가설 검정을 할 때 필요한 분포와 검정통계량을 구해볼 것 이다.
이후 예시 사례로 직접 통계적 가설검정을 해보도록 할것이다. 사례들은 최종후 교수님의 통계과학의 이해를 참고했다.

이번에는 두 표본 집단에 대해

1) 표본집단의 모분산이 알려지지 않고
2) 표본의 크기가 작으며
3) 표본집단의 모분산이 등분산성을 따를 때

가정하여 여러 사례의 가설을 통계적으로 검정을 하고자 한다.
두 표본 집단에 대해 모집단의 평균이 ų1,ų2이고 분산이 σ1²,σ2²인 정규분포를 따를 때

귀무가설/대립가설 설정
귀무가설 H0는 기본적으로 ‘두 모집단의 평균이 차이가 없다’이다.

H0 : ų1 — ų2 = 0
H1 : ų1≠ų2 (ų1 — ų2 > 0 OR ų1 — ų2 <0)

통계적 가설 검정은 귀무가설의 가정하에 진행하기에 ų1 — ų2의 추정량 분포를 확인해보자. 두 표본집단의 해당 모집단의 평균이 ų1,ų2이고 값은 모르지만 분산이 σ1²=σ2²=σ²로 등분산인 경우 정규분포 N(ų1 — ų2 , σ²(1/n1+1/n2)를 따른다.

>>E(X1_bar — X2_bar) = E(X1_bar) — E(X2_bar) = ų1 — ų2
>>Var(X1_bar — X2_bar) = Var(X1_bar) + Var(X2_bar) = σ²(1/n1+1/n2)

이때 공통분산(합동추정량)은 다음으로 구한다.
>> σ²(합동추정량, pooled estimator) = Sp² = ((n1–1)S1²+(n2–1)S2²) / n1+n2–2

검정통계량 구하기
위에서 구한 공통분산 추정량을 이용해 X1_bar — X2_bar의 검정통계량을 t분포를 활용해서 구할 수 있다.

>>t = ( (X1_bar — X2_bar) — (ų1 — ų2) ) / Sp√(1/n1 + 1/n2) ~ t(n1+n2–2)

사례1

배기량이 동일한 자동차 A와 자동차 B의 연료 소비량에 차이가 있는지를 조사하기 위하여 1L의 연료를 넣고 자동차 A는 9번을 자동차 B는 16번의 주행거리(km)를 실험하여 다음과 같은 결과를 얻었다. 다음 결과로부터 두 자동차의 연료소비량은 같다고 말할 수 있는지 유의수준 5%에서 검정하여 보자. (자동차 a,b의 모분산은 동일하다고 가정한다)

귀무가설/대립가설 설정
귀무가설 H0는 기본적으로 ‘두 모집단의 평균이 차이가 없다’이다.

H0 : ų1 — ų2 = 0
H1 : ų1≠ų2 (ų1 — ų2 > 0 OR ų1 — ų2 <0)

통계적 가설 검정은 귀무가설의 가정하에 진행하기에 ų1 — ų2의 추정량 X1_bar — X2_bar 분포를 확인하면, 정규분포 ~N(ų1 — ų2, σ²(1/n1+1/n2))을 따른다.

>>E(X1_bar — X2_bar) = E(X1_bar) — E(X2_bar) = ų1 — ų2
>> σ²(합동추정량, pooled estimator) = Sp² = ((n1–1)S1²+(n2–1)S2²) / n1+n2–2 = ((9–1)*4 + (16–1)*16) / 9+16–2 = 11.8261
>>Var(X1_bar — X2_bar) = Var(X1_bar) + Var(X2_bar) = σ²(1/n1+1/n2)
Sp²(1/n1+1/n2)= 11.8261(1/9+1/16) = 2.0531

검정통계량 구하기

표본의 크기가 각각 9번, 16번으로 충분히 크지 않기 때문에 작기 때문에 이전 사례과 같이 X1_bar — X2_bar 검정 통계량에서 Z분포로 구하지 않고 σ²(합동추정량, pooled estimator)을 이용한 T분포를 사용한다.

>>t = ( (X1_bar — X2_bar) — (ų1 — ų2) ) / Sp√(1/n1 + 1/n2) ~ t(n1+n2–2)
= 14.5–13 / √(2.0531) ~ t(23) = 1.0468 ~ t(23)

결론

해당 가설검정은 양검정이므로 실질적인 유의수준은 5%가 아닌 2.5%, 0.025이고 해당 t값(기각역)을 구하면 -2.0687, 2.0687이다. 위에서 구해 놓은 t검정통계량이 1.0468이 기각역보다 작으므로 H0을 기각할 수 없다. 즉, A,B 용량의 평균치는 차이가 있다고 할 수 없다.

사례2

부모가 모두 있는 아이 8명과 이혼한 부모 밑에서 자란 아이 10명에 대하여 심리검사를 한 결과가 다음과 같다(점수가 크면 심리는 안정된다). 두 그룹의 심리의 안정 정도가 차이가 있는지 유의수준 5%에서 검정하여 보자. 단, 두 집단의 모분산은 σ1²=σ2²=σ² 이다.

귀무가설/대립가설 설정
두 표본집단의 평균을 구하고 해당 평균의 차이가 있는지 확인을 하면 될 것 같다. 귀무가설 H0는 기본적으로 ‘두 모집단의 평균이 차이가 없다’이다.

H0 : ų1 — ų2 = 0
H1 : ų1≠ų2 (ų1 — ų2 > 0 OR ų1 — ų2 <0)

통계적 가설 검정은 귀무가설의 가정하에 진행하기에 ų1 — ų2의 추정량 X1_bar — X2_bar 분포를 확인하면, 정규분포 ~N(ų1 — ų2, σ²(1/n1+1/n2))을 따른다.

>>E(X1_bar — X2_bar) = E(X1_bar) — E(X2_bar) = ų1 — ų2
>> σ²(합동추정량, pooled estimator) = Sp² = ((n1–1)S1²+(n2–1)S2²) / n1+n2–2 = ((8–1)*50.8571 + (10–1)*54.6667) / 8+10–2 = 53
>>Var(X1_bar — X2_bar) = Var(X1_bar) + Var(X2_bar) = σ²(1/n1+1/n2)
Sp²(1/n1+1/n2)= 53(1/8+1/10) = 11.925

검정통계량 구하기

표본의 크기가 각각 8, 10번으로 충분히 크지 않기 때문에 작기 때문에검정 통계량을 Z분포로 구하지 않고 σ²(합동추정량, pooled estimator)을 이용한 T분포를 사용한다.

>>t = ( (X1_bar — X2_bar) — (ų1 — ų2) ) / Sp√(1/n1 + 1/n2) ~ t(n1+n2–2)
= 84.5–71/ √(11.925) ~ t(16) = 3.7935 ~ t(16)

결론

해당 가설검정은 양검정이므로 실질적인 유의수준은 5%가 아닌 2.5%, 0.025이고 해당 t값(기각역)을 구하면 -2.1199, 2.1199이다. 위에서 구해 놓은 t검정통계량이 3.7935이 기각역보다 크므로 H0을 기각한다. 즉, 부모가 모두 있는 아이 8명 그룹과 이혼한 부모 밑에서 자란 아이 10명 그룹의 심리적 안정도 차이가 있다고 할 수 있다.

--

--