[수학] z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?

 

z-score 정규화: 왜 평균은 0, 표준편차는 1이 될까?

데이터 분석이나 통계에서 가장 자주 만나는 개념 중 하나가 바로 **z-score 정규화(표준화)**입니다.
그런데 왜 z-score를 구하면 데이터의 평균이 0, 표준편차가 1이 되는 걸까요?
이번 글에서는 그 이유를 수학적으로 쉽게 풀어보고자 합니다.


1. z-score가 무엇인가요?

z-score는 어떤 값이 데이터 집합에서 평균으로부터 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값입니다.
즉,

z=xμσ​

여기서,

  • xx: 원래 데이터 값

  • μ\mu: 데이터의 평균

  • σ\sigma: 데이터의 표준편차

z-score를 계산하면 데이터가 “평균에서 얼마나 떨어져 있는지”를 알 수 있어, 서로 다른 척도의 데이터를 비교하거나 통계 모델에 넣을 때 매우 유용합니다.


2. 평균이 0이 되는 이유

평균을 구하는 정의를 생각해봅시다. 어떤 확률 변수 XX가 있을 때, 평균은 모든 값의 가중평균입니다.
이제 Z=XμσZ = \frac{X - \mu}{\sigma}라고 정의하면,

E[Z]=E[Xμσ]=1σE[Xμ]

E[Xμ]E[X - \mu]

E[X]μ=μμ=0

이므로,

E[Z]=0

즉, z-score로 변환된 값의 평균은 항상 0입니다.


3. 표준편차가 1이 되는 이유

표준편차는 데이터가 평균으로부터 얼마나 퍼져있는지 나타내는 척도입니다.
분산 Var(Z)Var(Z)는 평균으로부터의 거리 제곱의 평균입니다.

Var(Z)=E[(ZE[Z])2]=E[(Z0)2]=E[Z2]Var(Z) = E[(Z - E[Z])^2] = E[(Z - 0)^2] = E[Z^2]
Z2=(Xμσ)2=(Xμ)2σ2​

따라서,

Var(Z)=1σ2E[(Xμ)2]=1σ2Var(X)

원래 XX의 분산은 σ2\sigma^2이므로,

Var(Z)=1σ2×σ2=1

즉, z-score는 표준편차가 1인 값으로 변환됩니다.


4. 결론

z-score 정규화는 원래 데이터에서 평균을 빼고, 표준편차로 나누는 변환입니다.
이렇게 하면 변환된 값들은 항상 평균이 0이고 표준편차가 1인 분포를 갖게 됩니다.
이 덕분에 서로 다른 데이터들을 한눈에 비교하거나 통계 모델에 활용하기 좋습니다.

댓글

이 블로그의 인기 게시물

공압 속도 제어: 미터인 vs 미터아웃

[PLC] PLC 아날로그 입출력 기본

[주식] 한국거래소(KRX) 데이터 API 입문 가이드

[PLC] 절연 변압기 (Isolation Transformer)

[수학] 정규 분포란? 왜 종 모양을 띠고 있을까?

제너 다이오드에 저항을 연결하는 이유

[농사] 식물의 광합성과 호흡

[자동화] 안쓰는 안드로이드폰을 활용한 식물 성장 타임랩스 촬영

[PLC] 래더 다이어그램과 PLC

[아두이노] 가변저항(Potential Divider)과 전압분배(Voltage Divider)