[수학] 피어슨 상관계수의 범위는 왜 -1에서 1 사이일까? (코시-슈바르츠 부등식 활용)
피어슨 상관계수(
1. 피어슨 상관계수 정의
피어슨 상관계수는 공분산을 각 변수의 표준편차 곱으로 나눈 값이다.
여기서
2. 코시-슈바르츠 부등식 활용 증명
코시-슈바르츠 부등식은 다음과 같다.
이제, X와 Y를 확률 변수로 보고, 각각의 편차 벡터를 정의하자.
이제, 이 벡터들의 내적을 계산하면 공분산과 연결된다.
또한, 각각의 벡터 크기는 표준편차와 같다.
이를 코시-슈바르츠 부등식에 적용하면,
이제 양변을
즉, 피어슨 상관계수의 값은 항상 -1과 1 사이에 놓이게 된다.
3. 기하학적 해석
코시-슈바르츠 부등식의 기하학적 의미를 살펴보자. 내적의 정의를 이용하면,
따라서, 코시-슈바르츠 부등식은 다음을 의미한다.
이는 두 벡터가 이루는 각
이제 피어슨 상관계수를 비교해보자.
위 식을 보면, 피어슨 상관계수는 벡터
→ 두 벡터가 완전히 같은 방향 (0도) → 두 벡터가 완전히 반대 방향 (180도) → 두 벡터가 직교 (90도) → 상관관계 없음
즉, 피어슨 상관계수는 중심화된 데이터 벡터들이 이루는 각도에 대한 코사인 값이라고 해석할 수 있다.
4. 결론
코시-슈바르츠 부등식을 활용하면 피어슨 상관계수가 -1과 1 사이에 놓이는 이유를 쉽게 증명할 수 있다. 또한, 기하학적으로 이는 두 벡터가 이루는 각과 관련이 있으며, 코사인 유사도와 동일한 해석이 가능하다. 이를 통해 상관계수의 의미를 보다 직관적으로 이해할 수 있다.
댓글
댓글 쓰기