[수학] 두 개의 이진 변수 간 상관관계 분석: 카이제곱 검정
📊 두 개의 이진 변수 간 상관관계 분석: 카이제곱 검정(Chi-square Test) + 수식 + Python 코드
🧠 1. 왜 이진 변수 간 상관관계를 검정할까?
두 개의 이진 변수(binary variable) 사이에 통계적으로 유의미한 관계가 있는지를 알고 싶을 때, 우리는 카이제곱 독립성 검정을 사용합니다.
예를 들어:
-
A: 흡연 여부 (흡연자 / 비흡연자)
-
B: 폐암 여부 (진단 / 미진단)
이 두 변수 사이에 관계가 있는지 확인하고 싶을 때, 카이제곱 검정이 유용합니다.
📐 2. 카이제곱 독립성 검정이란?
🎯 목적
두 개의 범주형 변수 간에 통계적으로 유의미한 연관성이 있는지를 검정합니다.
🔸 카이제곱 통계량 공식
-
: 실제 관측값 (Observed frequency)
-
: 기대값 (Expected frequency)
-
: 행의 개수
-
: 열의 개수
🔸 기대값 계산 공식
즉, 행과 열의 교차점에서 기대되는 빈도수는 해당 행과 열의 주변 합계를 곱한 뒤 전체 합계로 나누면 됩니다.
📌 예시
폐암 진단 O | 폐암 진단 X | 행 합계 | |
---|---|---|---|
흡연자 | 30 | 70 | 100 |
비흡연자 | 10 | 190 | 200 |
열 합계 | 40 | 260 | 300 |
-
흡연자(100명) 중 폐암(40명)의 기대값:
🐍 3. Python 코드로 카이제곱 검정 수행하기
✅ 4. 해석
예상 출력 결과:
-
기대값과 관측값의 차이가 매우 큼
-
p-value < 0.05 → 두 변수는 독립이 아니므로 상관관계 있음
⚠️ 5. 주의사항
항목 | 설명 |
---|---|
기대값이 5 미만인 셀이 있다면 | → Fisher의 정확 검정 사용 권장 |
연속형 변수 분석 | → Pearson/Spearman/Kendall 등 사용 |
데이터 크기 부족 시 | 결과 신뢰도 낮아짐 |
📝 6. 정리
-
카이제곱 독립성 검정은 이진 변수 간 상관관계를 검정하는 대표적인 통계 기법입니다.
-
기대값은 "행합 × 열합 ÷ 전체합" 공식을 이용해 계산합니다.
-
scipy.stats.chi2_contingency
로 손쉽게 구현 가능 -
p-value < 0.05면 → 통계적으로 유의한 상관관계 있음
댓글
댓글 쓰기