[수학] 정규분포 식은 어떻게 유도된 걸까?
📊 정규분포 식은 어떻게 유도된 걸까?
우리가 통계학에서 자주 마주치는 정규분포(Normal Distribution)는 마치 자연의 법칙처럼 여러 데이터에서 등장합니다. 종 모양의 부드러운 곡선, 평균 주변으로 몰리는 확률, 그리고 중심극한정리로부터의 강력한 이론적 뒷받침.
그렇다면 정규분포는 도대체 어떤 논리로 유도된 걸까? 이 글에서는 그 식이 어떤 전제와 과정으로부터 등장했는지를 차근차근 정리해 보겠습니다.
🎯 전제 조건: 어떤 분포를 만들고 싶은가?
우리가 다루고자 하는 오차 또는 데이터 분포는 다음과 같은 특성을 가진다고 가정합니다:
-
연속적인 확률 변수 를 가진다.
-
평균 를 중심으로 대칭이다.
-
평균에서 멀어질수록 확률은 급격히 줄어든다.
-
전체 확률은 1이어야 한다 (정규화 조건).
-
단순하면서도 위 조건들을 만족하는 형태여야 한다.
이러한 조건을 만족하는 함수 중에서, 가장 단순하고 많이 쓰이는 함수 형태는 다음과 같습니다:
-
: 정규화 상수 (전체 면적이 1이 되도록)
-
: 분포의 폭(standard deviation와 관계)
-
: 평균 (분포의 중심)
🧮 정규분포 유도 과정 (Gaussian Distribution Derivation)
1단계: 함수 가정
우리는 위에서 말한 바와 같이 다음과 같은 형태를 가정합니다:
이 함수는 평균을 기준으로 대칭이고, 평균에서 멀어질수록 지수적으로 확률이 작아집니다.
2단계: 정규화 조건 적용
확률 밀도 함수이므로 전체 면적은 반드시 1이 되어야 합니다.
변수 치환:
여기서 등장하는 유명한 적분 결과가 있습니다:
따라서:
3단계: 를 표준편차 와 연결
우리는 정규분포를 다음 형태로 쓰는 것이 일반적입니다:
위의 일반형과 비교하면,
따라서 최종 정규분포 함수는 다음과 같이 유도됩니다:
✅ 최종 정규분포 식 (Normal Distribution Formula)
: 평균 (데이터의 중심)
-
: 표준편차 (퍼짐 정도)
-
: 확률 변수
-
: 근처에서의 확률 밀도
📌 요약: 왜 이 식이 나왔을까?
조건 | 결과 |
---|---|
평균 기준 대칭 | 등장 |
중심에서 멀수록 확률 감소 | 지수 함수 |
전체 면적이 1 | 정규화 상수 |
퍼짐 정도 조절 | 분산 포함 |
📘 보너스: 중심극한정리로부터의 유도
조금 더 고급스럽게는, 독립적이고 동일한 분포를 따르는 랜덤 변수들이 많이 모이면 그 합은 정규분포에 가까워진다는 중심극한정리(Central Limit Theorem) 로부터도 이 식은 자연스럽게 도출됩니다. 이 내용은 별도 포스트에서 다루겠습니다.
🖊️ 마무리
정규분포는 단순한 우연이 아니라, 자연현상에서 관측된 규칙성과 수학적 최소 가정에 따라 유도된 결과입니다. 가장 단순하면서도 가장 강력한 분포. 그래서 정규분포는 여전히 통계학, 물리학, 금융, 머신러닝에서 핵심적인 위치를 차지하고 있습니다.
댓글
댓글 쓰기