[수학] 피어슨 상관계수의 범위는 왜 -1에서 1 사이일까? (코시-슈바르츠 부등식 활용)

피어슨 상관계수(ρ(X,Y)\rho(X,Y))는 -1과 1 사이의 값을 가진다. 그런데, 왜 항상 이 범위를 벗어나지 않을까? 이 글에서는 코시-슈바르츠 부등식을 활용해 이를 증명하고, 기하학적 의미까지 살펴보겠다.

1. 피어슨 상관계수 정의

피어슨 상관계수는 공분산을 각 변수의 표준편차 곱으로 나눈 값이다.

ρ(X,Y)=Cov(X,Y)σXσY\rho(X,Y) = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}

여기서 Cov(X,Y)\text{Cov}(X,Y)는 공분산, σX\sigma_XσY\sigma_Y는 각각 X와 Y의 표준편차다.

2. 코시-슈바르츠 부등식 활용 증명

코시-슈바르츠 부등식은 다음과 같다.

uvuv| \mathbf{u} \cdot \mathbf{v} | \leq \| \mathbf{u} \| \| \mathbf{v} \|

이제, X와 Y를 확률 변수로 보고, 각각의 편차 벡터를 정의하자.

U=XE[X],V=YE[Y]U = X - E[X], \quad V = Y - E[Y]

이제, 이 벡터들의 내적을 계산하면 공분산과 연결된다.

E[UV]=Cov(X,Y)E[UV] = \text{Cov}(X,Y)

또한, 각각의 벡터 크기는 표준편차와 같다.

U=σX,V=σY\| U \| = \sigma_X, \quad \| V \| = \sigma_Y

이를 코시-슈바르츠 부등식에 적용하면,

Cov(X,Y)σXσY|\text{Cov}(X,Y)| \leq \sigma_X \sigma_Y

이제 양변을 σXσY\sigma_X \sigma_Y로 나누면,

1Cov(X,Y)σXσY1-1 \leq \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} \leq 1

즉, 피어슨 상관계수의 값은 항상 -1과 1 사이에 놓이게 된다.

3. 기하학적 해석

코시-슈바르츠 부등식의 기하학적 의미를 살펴보자. 내적의 정의를 이용하면,

uv=uvcosθ\mathbf{u} \cdot \mathbf{v} = \| \mathbf{u} \| \| \mathbf{v} \| \cos \theta

따라서, 코시-슈바르츠 부등식은 다음을 의미한다.

cosθ1| \cos \theta | \leq 1

이는 두 벡터가 이루는 각 θ\theta가 0도에서 180도 사이여야 한다는 것을 의미한다.

이제 피어슨 상관계수를 비교해보자.

ρ(X,Y)=Cov(X,Y)σXσY\rho(X,Y) = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}

위 식을 보면, 피어슨 상관계수는 벡터 UUVV 사이의 코사인 값과 동일하다. 즉,

  • ρ(X,Y)=1\rho(X,Y) = 1 → 두 벡터가 완전히 같은 방향 (0도)
  • ρ(X,Y)=1\rho(X,Y) = -1 → 두 벡터가 완전히 반대 방향 (180도)
  • ρ(X,Y)=0\rho(X,Y) = 0 → 두 벡터가 직교 (90도) → 상관관계 없음

즉, 피어슨 상관계수는 중심화된 데이터 벡터들이 이루는 각도에 대한 코사인 값이라고 해석할 수 있다.

4. 결론

코시-슈바르츠 부등식을 활용하면 피어슨 상관계수가 -1과 1 사이에 놓이는 이유를 쉽게 증명할 수 있다. 또한, 기하학적으로 이는 두 벡터가 이루는 각과 관련이 있으며, 코사인 유사도와 동일한 해석이 가능하다. 이를 통해 상관계수의 의미를 보다 직관적으로 이해할 수 있다.

댓글

이 블로그의 인기 게시물

공압 속도 제어: 미터인 vs 미터아웃

[PLC] PLC 아날로그 입출력 기본

[아두이노] 가변저항(Potential Divider)과 전압분배(Voltage Divider)

제너 다이오드에 저항을 연결하는 이유

[PLC] 프로그래밍 - SFC Conversion 기법 (1)

[스마트팜] 코코피트 수경재배

[자동화] 스마트 재배기의 온도 조절 방법

커패시터에 저장된 에너지 계산

전력(kW) 계산하기 (직류, 교류 단상, 교류 삼상)

공압회로 기호