[수학] 분산 공식이 두 개?
📊 분산 공식이 두 개? 전개해보면 같은 식!
통계학을 공부하다 보면, **분산(Variance)**이라는 개념에서 두 가지 수식을 마주치게 됩니다. 한쪽은 직관적인 정의식이고, 다른 하나는 약간 수학적으로 전개된 형태입니다. 그런데 이 두 식이 정말 같은 걸까요?
이번 글에서는 그 궁금증을 해결해보겠습니다.
🎯 분산이란?
분산은 데이터가 평균에서 얼마나 퍼져 있는지를 나타내는 지표입니다. 수학적으로는 다음과 같이 정의되죠:
✅ 분산의 정의식
-
: 데이터의 i번째 값
-
: 데이터의 평균
-
N: 전체 데이터 개수
이 식은 데이터 값과 평균 간의 거리의 제곱을 평균한 값입니다.
🧮 그런데 이런 식도 봤어요:
✅ 분산의 전개식
이 식은 좀 더 수학적으로 보이지만, 계산에는 더 편리할 때가 많습니다. 이 두 식이 정말 같은 걸까요?
🧠 직접 증명해보자
Step 1. 정의식을 전개합니다:
이를 모두 더하면:
Step 2. 합을 항별로 나눕니다:
여기서 임을 이용하면:
즉,
이는 바로 전개식이죠!
✅ 결론
두 수식은 수학적으로 완전히 동일합니다.
-
정의식: 직관적이고 개념 설명에 적합
-
전개식: 계산 시 더 편리함 (특히 평균이 이미 있는 경우)
따라서, 상황에 따라 편한 쪽을 사용하면 됩니다. 특히 코딩이나 실전 통계 분석에서는 전개식이 자주 사용됩니다.
💡 보너스: 파이썬으로 실습해보기
결과:
같은 값이죠!
댓글
댓글 쓰기