[수학] 정규 분포란? 왜 종 모양을 띠고 있을까?
1. 정규 분포란?
정규 분포(Normal Distribution)는 데이터가 평균을 중심으로 좌우 대칭적인 종 모양(Bell Shape)을 갖는 확률 분포입니다. 이는 수학적으로 잘 정의되어 있으며, 자연현상에서도 자주 등장하는 분포입니다. 정규 분포는 가우스 분포(Gaussian Distribution)라고도 불립니다.
2. 왜 "정규(Normal)" 분포라고 부를까?
정규 분포는 19세기 수학자 카를 프리드리히 가우스(Carl Friedrich Gauss) 가 연구하면서 널리 알려졌습니다. 많은 자연현상이 이 분포를 따르는 것을 발견하면서 "정상적인(Normal) 분포"라는 이름이 붙여졌습니다.
정규 분포가 많이 나타나는 이유
자연과 사회에서 발생하는 많은 데이터가 정규 분포를 따르는 경향이 있습니다. 이는 중심극한정리(Central Limit Theorem, CLT) 때문입니다.
✅ 중심극한정리: 여러 개의 독립적인 랜덤 변수들의 합이 정규 분포에 가까워지는 성질
즉, 키, 몸무게, 시험 점수, 기온, IQ, 오차(Noise) 등 여러 요인의 영향을 받는 데이터들은 자연스럽게 정규 분포의 형태를 따르게 됩니다.
3. 정규 분포의 수학적 특징
정규 분포의 확률 밀도 함수(PDF)는 다음과 같이 정의됩니다:
여기서,
-
(뮤): 평균(Mean), 분포의 중심 -
(시그마): 표준편차(Standard Deviation), 데이터의 퍼짐 정도
이 식이 만들어내는 그래프가 종 모양(Bell Shape) 입니다.
① 종 모양의 대칭성
-
평균(
)을 중심으로 좌우 대칭을 이룸. -
표준편차(
)에 따라 분포의 넓이와 높이가 달라짐.
② 표준편차(𝜎)에 따른 분포 변화
표준편차(
-
작은
→ 값들이 평균 근처에 집중됨 (좁고 높은 종 모양) -
큰
→ 값들이 평균에서 멀리 퍼짐 (넓고 낮은 종 모양)
③ 68-95-99.7 법칙 (3𝜎 법칙)
정규 분포에서는 대부분의 데이터가 특정 범위 내에 포함됩니다:
-
**68%**의 데이터가 평균 ± 1𝜎 안에 존재
-
**95%**의 데이터가 평균 ± 2𝜎 안에 존재
-
**99.7%**의 데이터가 평균 ± 3𝜎 안에 존재
즉, 데이터가 평균에서 멀어질수록 등장 확률이 급격히 감소합니다.
4. 정규 분포를 실제로 생성해보기 (Python 코드 예제)
정규 분포를 난수로 생성하는 방법을 알아보겠습니다.
import numpy as np
import matplotlib.pyplot as plt
mu = 0 # 평균
sigmas = [0.5, 1, 2] # 서로 다른 표준편차
x = np.linspace(-5, 5, 1000)
plt.figure(figsize=(8, 5))
for sigma in sigmas:
y = (1 / (sigma * np.sqrt(2 * np.pi))) * np.exp(- (x - mu) ** 2 / (2 * sigma ** 2))
plt.plot(x, y, label=f"σ = {sigma}")
plt.legend()
plt.title("정규 분포의 표준편차(σ)에 따른 변화")
plt.xlabel("x 값")
plt.ylabel("확률 밀도")
plt.show()
✅ 위 코드에서는 서로 다른 표준편차(𝜎)를 가진 정규 분포를 시각적으로 비교할 수 있습니다.
5. 결론: 왜 정규 분포가 중요한가?
✅ 많은 자연현상이 정규 분포를 따르기 때문 ✅ 수학적으로 잘 정의되어 있어 분석이 용이함 ✅ 중심극한정리에 의해 여러 랜덤 요인의 합이 정규 분포로 수렴
정규 분포는 확률과 통계에서 가장 중요한 개념 중 하나이며, 데이터 분석, 머신러닝, 금융공학 등 다양한 분야에서 활용됩니다.
📌 정규 분포를 이해하면 데이터의 패턴을 분석하고, 예측 모델을 설계하는 데 큰 도움이 됩니다!
댓글
댓글 쓰기