[수학] 중심극한정리(CLT): 모집단이 정규분포가 아니어도 평균은 정규분포를 따른다?

 

중심극한정리(CLT): 모집단이 정규분포가 아니어도 평균은 정규분포를 따른다?

많은 사람들이 처음 중심극한정리(Central Limit Theorem, CLT)를 접할 때 드는 질문이 있습니다.

"모집단이 정규분포가 아니어도 정규분포가 되나요?"

놀랍게도 정답은 YES!
바로 이 점이 중심극한정리가 통계학과 데이터 과학에서 가장 강력한 법칙 중 하나인 이유입니다.


1. 중심극한정리란?

중심극한정리(CLT)는 다음과 같이 말합니다:

어떤 분포에서 표본을 추출하더라도, 표본의 평균은 충분히 많은 표본을 모으면 정규분포에 가까워진다.

수식으로 표현하면 다음과 같습니다:

limnP(Xˉnμσ/nx)=Φ(x)

여기서:

  • Xˉn\bar{X}_n: 크기 nn인 표본 평균

  • μ\mu: 모집단 평균

  • σ\sigma: 모집단 표준편차

  • Φ(x)\Phi(x): 평균 0, 분산 1인 표준 정규분포의 누적분포함수(CDF)

이 수식은 다음을 의미합니다:

표본 평균을 표준화하면, nn이 커질수록 그 분포는 정규분포 N(0,1)\mathcal{N}(0,1)로 수렴한다.


2. 왜 부등호가 들어가 있을까?

중심극한정리는 단순한 함수 수렴이 아니라 확률 분포의 수렴을 말합니다.
그래서 수식 안에는 누적 확률을 나타내는 부등호가 필수적으로 포함되어 있습니다:

P(Xˉnμσ/nx)

이 표현은 "정규분포처럼 특정 값 이하가 될 확률"이 어떻게 수렴하는지를 보여줍니다.


3. 시각화로 이해하기

다음은 모집단이 정규분포가 아닌 균등분포일 때도, 표본 평균의 분포가 어떻게 정규분포로 바뀌는지를 보여주는 시각화입니다.

✅ Python 코드 (matplotlib + seaborn)

import numpy as np import matplotlib.pyplot as plt import matplotlib.font_manager as fm import seaborn as sns # 🔹 FontProperties로 한글 폰트 설정 font_path = "C:/Windows/Fonts/malgun.ttf" # Windows의 맑은 고딕 경로 font_prop = fm.FontProperties(fname=font_path) # 음수 깨짐 방지 plt.rcParams['axes.unicode_minus'] = False sns.set(style="whitegrid") # 모집단: 균등분포(-3, 3) population = np.random.uniform(-3, 3, 100000) # 표본 크기 목록 sample_sizes = [1, 2, 5, 10, 30, 50] # 시각화 plt.figure(figsize=(15, 10)) for i, n in enumerate(sample_sizes, 1): sample_means = [np.mean(np.random.choice(population, n)) for _ in range(1000)] plt.subplot(2, 3, i) sns.histplot(sample_means, bins=30, kde=True, color='skyblue', stat='density') plt.title(f'표본 크기 n = {n}', fontproperties=font_prop) plt.xlabel('표본 평균', fontproperties=font_prop) plt.ylabel('밀도', fontproperties=font_prop) plt.tight_layout() plt.suptitle("중심극한정리 시각화: 모집단은 균등분포", fontsize=16, y=1.02, fontproperties=font_prop) plt.show()




4. 결과 해석

  • n=1일 때는 분포가 모집단과 유사한 비대칭 분포입니다.

  • n=5, 10쯤 되면 종 모양이 슬슬 나타나기 시작하고,

  • n=30 이상이면 거의 정규분포처럼 보입니다!

즉, 모집단이 정규분포가 아니어도, 표본 평균은 점점 정규분포로 수렴합니다.
이것이 중심극한정리의 위대함입니다.


5. 요약

핵심 질문답변
모집단이 정규분포가 아니어도 CLT가 적용되나요?네! 표본 수만 충분히 크면 됩니다.
왜 수식에 부등호가 들어가나요?누적 확률(P)의 수렴을 표현하기 때문입니다.
얼마나 큰 n이 필요하나요?일반적으로 n ≥ 30이면 충분하다고 봅니다. (하지만 분포에 따라 다를 수 있음)

👋 마무리

중심극한정리는 단순한 수학 정리가 아니라, 실제 데이터 분석에서 평균을 믿고 활용할 수 있는 강력한 근거입니다.
정규분포가 아닌 데이터라도, 평균만 잘 모으면 정규분포처럼 다룰 수 있다!
이 개념을 이해하면, 통계는 훨씬 덜 두려워지고 더 강력한 도구가 됩니다.


댓글

이 블로그의 인기 게시물

[PLC] PLC 아날로그 입출력 기본

공압 속도 제어: 미터인 vs 미터아웃

전력(kW) 계산하기 (직류, 교류 단상, 교류 삼상)

[주식] 한국거래소(KRX) 데이터 API 입문 가이드

3선 결선식 센서의 타입 PNP, NPN

[아두이노] 가변저항(Potential Divider)과 전압분배(Voltage Divider)

제너 다이오드에 저항을 연결하는 이유

[스마트팜] EC/pH 미터 만들기: 아두이노로 전기 전도도 및 pH 측정

[투자] TIGER 미국30년국채커버드콜액티브(H) 매수 타이밍은?

[자동화] 수직 농장(Vertical Farm) 설계 및 자동화 시스템 구축 가이드