[수학] 카이제곱 통계량 공식은 어떻게 나왔을까?

 

📐 카이제곱 통계량 공식은 어떻게 나왔을까?

✅ 목표

두 범주형 변수 간의 연관성을 평가할 때, "관측값이 기대값에서 얼마나 벗어나 있는지" 를 측정하는 지표가 필요합니다.


🧠 핵심 아이디어: 관측값과 기대값의 차이를 측정하자

가장 처음 드는 생각:

차이=OijEij\text{차이} = O_{ij} - E_{ij}
  • OijO_{ij}: 관측된 값

  • EijE_{ij}: 기대되는 값 (두 변수가 독립이라고 가정했을 때의 값)

하지만 이 차이값만 보는 건 부족합니다.

왜?

  • 음수/양수가 섞이면 총합이 0이 되어버릴 수 있음

  • 어떤 셀의 기대값이 1인데 관측값이 6이면 큰 차이지만, 기대값이 100인 셀에서 105는 작은 차이임
    → 상대적인 차이를 고려해야 함


🧮 1단계: 제곱합으로 차이를 정량화

음수와 양수를 없애고, 전체 차이의 크기를 보기 위해 제곱합을 사용합니다:

(OijEij)2\sum (O_{ij} - E_{ij})^2

📏 2단계: 기대값으로 정규화

관측값과 기대값의 차이를 평가할 때는, 기대값이 기준이 되어야 합니다.
즉, "얼마나 벗어났는가?"가 아니라 "얼마만큼 벗어났는가"를 보려면 기대값으로 나누어 비율화 해야 합니다:

χ2=(OijEij)2Eij\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}

이 수식은 다음을 만족합니다:

  • 차이가 클수록 값이 커짐

  • 기대값이 작을수록 더 민감하게 반응 → 작은 기대값에서 큰 차이는 더 위험하다는 의미

  • 단위 없는 순수한 척도 → 자유도에 따라 카이제곱 분포를 따름


📊 3단계: 왜 "카이제곱 분포"를 따를까?

카이제곱 분포는 원래 다음과 같이 정의됩니다:

χ2=Z12+Z22++Zk2\chi^2 = Z_1^2 + Z_2^2 + \dots + Z_k^2

여기서 ZiZ_i 는 평균이 0이고 분산이 1인 표준 정규분포를 따르는 확률 변수입니다.
즉, 정규 분포에서의 제곱합 → 카이제곱 분포가 됩니다.


카이제곱 검정은 "각 셀의 관측값과 기대값의 차이"정규화된 형태로 제곱하여 합산하는 구조이기 때문에, 이 통계량 역시 카이제곱 분포를 따르게 되는 것입니다.

✔️ 요약: 관측값과 기대값 간의 오차 제곱을 기대값으로 나눈 값들의 합 → χ² 통계량
→ 이는 특정 자유도에서의 카이제곱 분포를 따름 → 유의확률(p-value) 계산 가능


📌 직관 요약

사고 과정설명
① 차이를 본다OEO - E
② 음/양 무시(OE)2(O - E)^2
③ 기대값으로 정규화(OE)2E\frac{(O - E)^2}{E}
④ 전체 셀에 대해 합산(OijEij)2Eij\sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
⑤ 통계적 분포 기반 검정→ 자유도 df=(행수1)(열수1)df = (행수 -1)(열수 -1) 에 따라 p-value 계산

📚 참고로, 비슷한 발상

  • 표준화된 잔차(Standardized residual) 도 비슷한 사고방식으로,

    Residualij=OijEijEij\text{Residual}_{ij} = \frac{O_{ij} - E_{ij}}{\sqrt{E_{ij}}}
  • 회귀분석의 잔차 제곱합 (RSS) 도 같은 맥락: 오차 제곱을 최소화/검정


🧠 정리

  • 카이제곱 검정의 핵심은 관측값 vs 기대값의 차이를 제곱하고, 기대값으로 나누어 상대화하는 것

  • 이 값은 카이제곱 분포를 따르므로 → 자유도 기반으로 p-value 계산 가능

  • 수학적으로는 정규 분포의 제곱합이 카이제곱 분포를 따른다는 사실이 기반

댓글

이 블로그의 인기 게시물

[PLC] PLC 아날로그 입출력 기본

공압 속도 제어: 미터인 vs 미터아웃

전력(kW) 계산하기 (직류, 교류 단상, 교류 삼상)

[주식] 한국거래소(KRX) 데이터 API 입문 가이드

3선 결선식 센서의 타입 PNP, NPN

[아두이노] 가변저항(Potential Divider)과 전압분배(Voltage Divider)

제너 다이오드에 저항을 연결하는 이유

[스마트팜] EC/pH 미터 만들기: 아두이노로 전기 전도도 및 pH 측정

[투자] TIGER 미국30년국채커버드콜액티브(H) 매수 타이밍은?

[PLC] 래더 다이어그램과 PLC