[수학] 중심극한정리(CLT): 모집단이 정규분포가 아니어도 평균은 정규분포를 따른다?
중심극한정리(CLT): 모집단이 정규분포가 아니어도 평균은 정규분포를 따른다?
많은 사람들이 처음 중심극한정리(Central Limit Theorem, CLT)를 접할 때 드는 질문이 있습니다.
"모집단이 정규분포가 아니어도 정규분포가 되나요?"
놀랍게도 정답은 YES!
바로 이 점이 중심극한정리가 통계학과 데이터 과학에서 가장 강력한 법칙 중 하나인 이유입니다.
1. 중심극한정리란?
중심극한정리(CLT)는 다음과 같이 말합니다:
어떤 분포에서 표본을 추출하더라도, 표본의 평균은 충분히 많은 표본을 모으면 정규분포에 가까워진다.
수식으로 표현하면 다음과 같습니다:
여기서:
-
: 크기 인 표본 평균 -
: 모집단 평균 -
: 모집단 표준편차 -
: 평균 0, 분산 1인 표준 정규분포의 누적분포함수(CDF)
이 수식은 다음을 의미합니다:
표본 평균을 표준화하면,
이 커질수록 그 분포는 정규분포 로 수렴한다.
2. 왜 부등호가 들어가 있을까?
중심극한정리는 단순한 함수 수렴이 아니라 확률 분포의 수렴을 말합니다.
그래서 수식 안에는 누적 확률을 나타내는 부등호가 필수적으로 포함되어 있습니다:
이 표현은 "정규분포처럼 특정 값 이하가 될 확률"이 어떻게 수렴하는지를 보여줍니다.
3. 시각화로 이해하기
다음은 모집단이 정규분포가 아닌 균등분포일 때도, 표본 평균의 분포가 어떻게 정규분포로 바뀌는지를 보여주는 시각화입니다.
✅ Python 코드 (matplotlib + seaborn)
4. 결과 해석
-
n=1일 때는 분포가 모집단과 유사한 비대칭 분포입니다.
-
n=5, 10쯤 되면 종 모양이 슬슬 나타나기 시작하고,
-
n=30 이상이면 거의 정규분포처럼 보입니다!
즉, 모집단이 정규분포가 아니어도, 표본 평균은 점점 정규분포로 수렴합니다.
이것이 중심극한정리의 위대함입니다.
5. 요약
핵심 질문 | 답변 |
---|---|
모집단이 정규분포가 아니어도 CLT가 적용되나요? | 네! 표본 수만 충분히 크면 됩니다. |
왜 수식에 부등호가 들어가나요? | 누적 확률(P)의 수렴을 표현하기 때문입니다. |
얼마나 큰 n이 필요하나요? | 일반적으로 n ≥ 30이면 충분하다고 봅니다. (하지만 분포에 따라 다를 수 있음) |
👋 마무리
중심극한정리는 단순한 수학 정리가 아니라, 실제 데이터 분석에서 평균을 믿고 활용할 수 있는 강력한 근거입니다.
정규분포가 아닌 데이터라도, 평균만 잘 모으면 정규분포처럼 다룰 수 있다!
이 개념을 이해하면, 통계는 훨씬 덜 두려워지고 더 강력한 도구가 됩니다.
댓글
댓글 쓰기