[수학] z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?

 

z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?

데이터 분석이나 통계에서 가장 자주 만나는 개념 중 하나가 바로 **z-score 정규화(표준화)**입니다.
그런데 왜 z-score를 구하면 데이터의 평균이 0, 표준편차가 1이 되는 걸까요?
이번 글에서는 그 이유를 수학적으로 쉽게 풀어보고자 합니다.


1. z-score가 무엇인가요?

z-score는 어떤 값이 데이터 집합에서 평균으로부터 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값입니다.
즉,

z=xμσ​

여기서,

  • xx: 원래 데이터 값

  • μ\mu: 데이터의 평균

  • σ\sigma: 데이터의 표준편차

z-score를 계산하면 데이터가 “평균에서 얼마나 떨어져 있는지”를 알 수 있어, 서로 다른 척도의 데이터를 비교하거나 통계 모델에 넣을 때 매우 유용합니다.


2. 평균이 0이 되는 이유

평균을 구하는 정의를 생각해봅시다. 어떤 확률 변수 XX가 있을 때, 평균은 모든 값의 가중평균입니다.
이제 Z=XμσZ = \frac{X - \mu}{\sigma}라고 정의하면,

E[Z]=E[Xμσ]=1σE[Xμ]

E[Xμ]E[X - \mu]

E[X]μ=μμ=0

이므로,

E[Z]=0

즉, z-score로 변환된 값의 평균은 항상 0입니다.


3. 표준편차가 1이 되는 이유

표준편차는 데이터가 평균으로부터 얼마나 퍼져있는지 나타내는 척도입니다.
분산 Var(Z)Var(Z)는 평균으로부터의 거리 제곱의 평균입니다.

Var(Z)=E[(ZE[Z])2]=E[(Z0)2]=E[Z2]Var(Z) = E[(Z - E[Z])^2] = E[(Z - 0)^2] = E[Z^2]
Z2=(Xμσ)2=(Xμ)2σ2​

따라서,

Var(Z)=1σ2E[(Xμ)2]=1σ2Var(X)

원래 XX의 분산은 σ2\sigma^2이므로,

Var(Z)=1σ2×σ2=1

즉, z-score는 표준편차가 1인 값으로 변환됩니다.


4. 결론

z-score 정규화는 원래 데이터에서 평균을 빼고, 표준편차로 나누는 변환입니다.
이렇게 하면 변환된 값들은 항상 평균이 0이고 표준편차가 1인 분포를 갖게 됩니다.
이 덕분에 서로 다른 데이터들을 한눈에 비교하거나 통계 모델에 활용하기 좋습니다.

댓글

이 블로그의 인기 게시물

공압 속도 제어: 미터인 vs 미터아웃

[PLC] PLC 아날로그 입출력 기본

전력(kW) 계산하기 (직류, 교류 단상, 교류 삼상)

[주식] 한국거래소(KRX) 데이터 API 입문 가이드

3선 결선식 센서의 타입 PNP, NPN

사각형의 넓이 공식의 증명

[아두이노] 가변저항(Potential Divider)과 전압분배(Voltage Divider)

[스마트팜] EC/pH 미터 만들기: 아두이노로 전기 전도도 및 pH 측정

3상 모터 전력에서 전류 계산하기 (How to Convert Three-Phase Power to Amps)

[PC] 최대절전모드에서 PC가 멋대로 켜지는 이유와 해결 방법