[수학] z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?

z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?

데이터 분석이나 통계에서 가장 자주 만나는 개념 중 하나가 바로 **z-score 정규화(표준화)**입니다.
그런데 왜 z-score를 구하면 데이터의 평균이 0, 표준편차가 1이 되는 걸까요?
이번 글에서는 그 이유를 수학적으로 쉽게 풀어보고자 합니다.

z-score는 어떤 값이 데이터 집합에서 평균으로부터 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값입니다.
즉,

z = \frac{x - μ}{σ​}

여기서,

z-score를 계산하면 데이터가 “평균에서 얼마나 떨어져 있는지”를 알 수 있어, 서로 다른 척도의 데이터를 비교하거나 통계 모델에 넣을 때 매우 유용합니다.

평균을 구하는 정의를 생각해봅시다. 어떤 확률 변수 $X$ 가 있을 때, 평균은 모든 값의 가중평균입니다.
이제 $Z = \frac{X - \mu}{\sigma}$ 라고 정의하면,

E [Z] = E [\frac{X - μ}{σ}] = \frac{1}{σ} E [X - μ]

$E[X - \mu]$ 는

E [X] - μ = μ - μ = 0

이므로,

E [Z] = 0

즉, z-score로 변환된 값의 평균은 항상 0입니다.

표준편차는 데이터가 평균으로부터 얼마나 퍼져있는지 나타내는 척도입니다.
분산 $Var(Z)$ 는 평균으로부터의 거리 제곱의 평균입니다.

Var(Z) = E[(Z - E[Z])^2] = E[(Z - 0)^2] = E[Z^2]

Z^{2} = {(\frac{X - μ}{σ})}^{2} = \frac{(X - μ)^{2}}{σ^{2​}}

따라서,

V a r (Z) = \frac{1}{σ^{2}} E [(X - μ)^{2}] = \frac{1}{σ^{2}} V a r (X)

원래 $X$ 의 분산은 $\sigma^2$ 이므로,

V a r (Z) = \frac{1}{σ^{2}} \times σ^{2} = 1

즉, z-score는 표준편차가 1인 값으로 변환됩니다.

z-score 정규화는 원래 데이터에서 평균을 빼고, 표준편차로 나누는 변환입니다.
이렇게 하면 변환된 값들은 항상 평균이 0이고 표준편차가 1인 분포를 갖게 됩니다.
이 덕분에 서로 다른 데이터들을 한눈에 비교하거나 통계 모델에 활용하기 좋습니다.