[수학] 공분산(Covariance)의 기하학적 이해
통계학에서 공분산(Covariance)은 두 개의 확률 변수 간의 관계를 측정하는 중요한 개념이다. 하지만 단순한 수식보다는 기하학적인 직관을 통해 이해하면 훨씬 더 깊이 있는 개념으로 받아들일 수 있다. 이번 글에서는 공분산을 벡터 공간의 개념과 함께 설명해 보겠다.
1. 공분산의 정의
두 확률 변수
여기서
2. 공분산의 기하학적 의미
공분산을 기하학적으로 이해하기 위해,
이제 공분산 식을 다시 보면, 사실상 벡터
이제 벡터의 내적 개념을 떠올려 보자.
2.1 벡터 내적과 공분산
두 벡터의 내적은 다음과 같이 정의된다:
여기서
→ 두 벡터가 비슷한 방향 → 공분산 양수 → 두 벡터가 반대 방향 → 공분산 음수 → 두 벡터가 수직(독립적) → 공분산 0
즉, 공분산은 단순한 곱셈이 아니라, 두 변수 간의 방향성과 관계를 나타내는 일종의 기하학적 내적이다.
3. 공분산과 2D 공간에서의 패턴
공분산을 2차원 평면에서 보면, 데이터 포인트들이 평균을 중심으로 어떤 패턴으로 퍼져 있는지를 나타낸다.
평균을 중심으로 한 편차
- 같은 방향으로 증가 → 1사분면 & 3사분면에 데이터가 많음 → 공분산 양수
- 반대 방향으로 변화 → 2사분면 & 4사분면에 데이터가 많음 → 공분산 음수
- 랜덤하게 퍼짐 → 특정한 방향 없음 → 공분산 0에 가까움
이를 쉽게 이해하기 위해, 평균을 기준으로 편차를 나타내는 2D 공간을 생각해보자.
- 1사분면:
→ 편차 곱 - 2사분면:
→ 편차 곱 - 3사분면:
→ 편차 곱 - 4사분면:
→ 편차 곱
즉, 데이터가 1사분면과 3사분면에 많으면 공분산이 양수, 2사분면과 4사분면에 많으면 공분산이 음수가 된다.
4. 공분산의 의미 정리
✅ 같은 방향으로 변화 → 1사분면 & 3사분면에 데이터 밀집 → 공분산 양수
✅ 반대 방향으로 변화 → 2사분면 & 4사분면에 데이터 밀집 → 공분산 음수
✅ 랜덤(상관 없음) → 균등하게 퍼짐 → 공분산 0에 가까움
즉, 공분산은 단순한 곱셈이 아니라, 벡터의 방향성과 크기를 반영한 기하학적 개념이라는 점을 이해하는 것이 중요하다.
5. 결론
공분산은 두 변수 간의 관계를 측정하는 중요한 통계 개념이지만, 단순한 수학적 정의보다 기하학적인 직관을 활용하면 더 쉽게 이해할 수 있다. 공분산을 벡터 내적과 비교하여 해석하면, 그 값이 데이터의 방향성과 연관되어 있음을 알 수 있다.
공분산의 개념을 확장하면, 상관계수(Correlation Coefficient), 주성분 분석(PCA), 최소제곱법(OLS Regression) 등 다양한 통계적 기법에서도 활용할 수 있다. 따라서 공분산의 기하학적 의미를 잘 이해해 두면, 이후 더 복잡한 통계 기법을 배우는 데에도 큰 도움이 될 것이다.
댓글
댓글 쓰기