[수학] 카이제곱 통계량 공식은 어떻게 나왔을까?
📐 카이제곱 통계량 공식은 어떻게 나왔을까?
✅ 목표
두 범주형 변수 간의 연관성을 평가할 때, "관측값이 기대값에서 얼마나 벗어나 있는지" 를 측정하는 지표가 필요합니다.
🧠 핵심 아이디어: 관측값과 기대값의 차이를 측정하자
가장 처음 드는 생각:
-
: 관측된 값
-
: 기대되는 값 (두 변수가 독립이라고 가정했을 때의 값)
하지만 이 차이값만 보는 건 부족합니다.
왜?
-
음수/양수가 섞이면 총합이 0이 되어버릴 수 있음
-
어떤 셀의 기대값이 1인데 관측값이 6이면 큰 차이지만, 기대값이 100인 셀에서 105는 작은 차이임
→ 상대적인 차이를 고려해야 함
🧮 1단계: 제곱합으로 차이를 정량화
음수와 양수를 없애고, 전체 차이의 크기를 보기 위해 제곱합을 사용합니다:
📏 2단계: 기대값으로 정규화
관측값과 기대값의 차이를 평가할 때는, 기대값이 기준이 되어야 합니다.
즉, "얼마나 벗어났는가?"가 아니라 "얼마만큼 벗어났는가"를 보려면 기대값으로 나누어 비율화 해야 합니다:
이 수식은 다음을 만족합니다:
-
차이가 클수록 값이 커짐
-
기대값이 작을수록 더 민감하게 반응 → 작은 기대값에서 큰 차이는 더 위험하다는 의미
-
단위 없는 순수한 척도 → 자유도에 따라 카이제곱 분포를 따름
📊 3단계: 왜 "카이제곱 분포"를 따를까?
카이제곱 분포는 원래 다음과 같이 정의됩니다:
여기서 는 평균이 0이고 분산이 1인 표준 정규분포를 따르는 확률 변수입니다.
즉, 정규 분포에서의 제곱합 → 카이제곱 분포가 됩니다.
카이제곱 검정은 "각 셀의 관측값과 기대값의 차이" 를 정규화된 형태로 제곱하여 합산하는 구조이기 때문에, 이 통계량 역시 카이제곱 분포를 따르게 되는 것입니다.
✔️ 요약: 관측값과 기대값 간의 오차 제곱을 기대값으로 나눈 값들의 합 → χ² 통계량
→ 이는 특정 자유도에서의 카이제곱 분포를 따름 → 유의확률(p-value) 계산 가능
📌 직관 요약
사고 과정 | 설명 |
---|---|
① 차이를 본다 | |
② 음/양 무시 | |
③ 기대값으로 정규화 | |
④ 전체 셀에 대해 합산 | |
⑤ 통계적 분포 기반 검정 | → 자유도 에 따라 p-value 계산 |
📚 참고로, 비슷한 발상
-
표준화된 잔차(Standardized residual) 도 비슷한 사고방식으로,
-
회귀분석의 잔차 제곱합 (RSS) 도 같은 맥락: 오차 제곱을 최소화/검정
🧠 정리
-
카이제곱 검정의 핵심은 관측값 vs 기대값의 차이를 제곱하고, 기대값으로 나누어 상대화하는 것
-
이 값은 카이제곱 분포를 따르므로 → 자유도 기반으로 p-value 계산 가능
-
수학적으로는 정규 분포의 제곱합이 카이제곱 분포를 따른다는 사실이 기반
댓글
댓글 쓰기