[수학] 표본이 커지면 분포는 왜 종 모양이 될까? - 중심극한정리와 정규분포 이야기

 

🎯 표본이 커지면 분포는 왜 종 모양이 될까? — 중심극한정리와 정규분포 이야기

우리는 현실에서 다양한 데이터와 마주합니다. 시험 점수, 키, 몸무게, 수익률처럼 측정 가능한 수치들은 사람마다 다르고, 모집단의 분포도 제각각입니다.
그런데 통계학에서는 흥미로운 주장을 하나 합니다.

"표본의 크기가 커지면, 평균들의 분포는 정규분포가 된다."

이게 무슨 말일까요? 오늘은 통계학의 핵심 이론인 **중심극한정리(Central Limit Theorem)**와 **정규분포(normal distribution)**에 대해 알아봅니다.


📦 이상한 데이터도, 표본 평균은 예뻐진다?

여러분이 어떤 이상한 분포의 데이터를 갖고 있다고 생각해보세요.
예를 들어, 대부분의 사람들이 소득이 낮고 소수만 매우 높은 소득을 가진 오른쪽으로 치우친 분포가 있다면, 이건 분명히 정규분포가 아닙니다.

하지만 여기서 마법 같은 일이 벌어집니다.

  • 이 데이터를 가지고 표본을 하나 뽑아 평균을 계산합니다.

  • 그런 표본을 수백 번, 수천 번 반복해서 평균을 모읍니다.

  • 이 평균값들만 따로 모아서 분포를 그려보면,
    → 점점 종 모양에 가까워지게 됩니다!

이것이 바로 중심극한정리입니다.


🧠 중심극한정리란?

표본의 크기가 충분히 크면, 표본 평균들의 분포는 정규분포에 가까워진다.

  • 이때 모집단의 원래 분포가 정규이든 아니든 상관없습니다.

  • 단, 표본은 독립적으로, 그리고 동일한 방법으로 추출되어야 합니다.

  • 현실적으로는 표본 크기가 약 30개 이상이면 이 정리가 어느 정도 적용됩니다.


🔔 정규분포란 무엇인가?

중심극한정리 덕분에 우리는 자주 마주하게 되는 분포가 있습니다.
바로 정규분포 (normal distribution), 또는 가우시안 분포입니다.
이 분포는 모양이 종처럼 생겼다 해서 흔히 bell curve라고도 부릅니다.

📌 정규분포의 특징

  • 대칭적이다: 평균을 기준으로 좌우가 같다.

  • 한 가운데 평균이 있고, 데이터는 평균을 중심으로 퍼져 있다.

  • 완전히 정의되는 정보는 단 두 가지:

    • 평균 (Mean)

    • 표준편차 (Standard Deviation)


📊 정규분포 안에서의 확률

정규분포는 예측이 용이합니다. 데이터가 평균 주변에 얼마나 몰려 있는지 대략적으로 알 수 있기 때문입니다.

  • 평균 ± 1 표준편차(σ): 약 68%

  • 평균 ± 2 표준편차: 약 95%

  • 평균 ± 3 표준편차: 약 99.7%

즉, 평균에서 너무 멀리 떨어진 값은 매우 드뭅니다.
±2σ 이상은 '비정상적인 값'으로 보고, ±3σ를 넘는 값은 거의 "이상치(outlier)"로 간주됩니다.


🧾 예시로 이해하기

예를 들어, 어떤 시험의 평균이 70점이고 표준편차가 10점이라면:

  • 68%의 학생은 60~80점 사이에 분포하고,

  • 95%는 50~90점 사이,

  • 99.7%는 40~100점 사이에 있게 됩니다.

이처럼 정규분포의 특성을 알고 있다면, 값의 위치를 확률로 해석할 수 있게 됩니다.


✅ 왜 중요한가?

  • 실제 데이터가 정규분포가 아니더라도, 표본 평균은 정규분포처럼 행동합니다.

  • 그래서 우리는 정규분포를 통계 분석의 핵심 도구로 사용할 수 있습니다.

    • 예: 신뢰구간 계산, 가설 검정, 회귀 분석 등

결국 정규분포는 통계학의 공용어와도 같습니다.


📌 정리하며

  • 모집단이 어떤 모양이든, 표본이 충분히 크면 표본 평균의 분포는 정규분포에 수렴합니다.

  • 정규분포는 평균과 표준편차만으로 완전히 정의됩니다.

  • 이 덕분에 우리는 복잡한 세계를 예측 가능한 수학적 모델로 단순화할 수 있습니다.

댓글

이 블로그의 인기 게시물

[PLC] PLC 아날로그 입출력 기본

공압 속도 제어: 미터인 vs 미터아웃

전력(kW) 계산하기 (직류, 교류 단상, 교류 삼상)

[주식] 한국거래소(KRX) 데이터 API 입문 가이드

3선 결선식 센서의 타입 PNP, NPN

[아두이노] 가변저항(Potential Divider)과 전압분배(Voltage Divider)

제너 다이오드에 저항을 연결하는 이유

[스마트팜] EC/pH 미터 만들기: 아두이노로 전기 전도도 및 pH 측정

[투자] TIGER 미국30년국채커버드콜액티브(H) 매수 타이밍은?

[PLC] 래더 다이어그램과 PLC