[수학] z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?
z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?
데이터 분석이나 통계에서 가장 자주 만나는 개념 중 하나가 바로 **z-score 정규화(표준화)**입니다.
그런데 왜 z-score를 구하면 데이터의 평균이 0, 표준편차가 1이 되는 걸까요?
이번 글에서는 그 이유를 수학적으로 쉽게 풀어보고자 합니다.
1. z-score가 무엇인가요?
z-score는 어떤 값이 데이터 집합에서 평균으로부터 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값입니다.
즉,
여기서,
-
: 원래 데이터 값
-
: 데이터의 평균
-
: 데이터의 표준편차
z-score를 계산하면 데이터가 “평균에서 얼마나 떨어져 있는지”를 알 수 있어, 서로 다른 척도의 데이터를 비교하거나 통계 모델에 넣을 때 매우 유용합니다.
2. 평균이 0이 되는 이유
평균을 구하는 정의를 생각해봅시다. 어떤 확률 변수 가 있을 때, 평균은 모든 값의 가중평균입니다.
이제 라고 정의하면,
는
이므로,
즉, z-score로 변환된 값의 평균은 항상 0입니다.
3. 표준편차가 1이 되는 이유
표준편차는 데이터가 평균으로부터 얼마나 퍼져있는지 나타내는 척도입니다.
분산 는 평균으로부터의 거리 제곱의 평균입니다.
따라서,
원래 의 분산은 이므로,
즉, z-score는 표준편차가 1인 값으로 변환됩니다.
4. 결론
z-score 정규화는 원래 데이터에서 평균을 빼고, 표준편차로 나누는 변환입니다.
이렇게 하면 변환된 값들은 항상 평균이 0이고 표준편차가 1인 분포를 갖게 됩니다.
이 덕분에 서로 다른 데이터들을 한눈에 비교하거나 통계 모델에 활용하기 좋습니다.
댓글
댓글 쓰기