[수학] 공분산(Covariance)의 기하학적 이해

통계학에서 공분산(Covariance)은 두 개의 확률 변수 간의 관계를 측정하는 중요한 개념이다. 하지만 단순한 수식보다는 기하학적인 직관을 통해 이해하면 훨씬 더 깊이 있는 개념으로 받아들일 수 있다. 이번 글에서는 공분산을 벡터 공간의 개념과 함께 설명해 보겠다.


1. 공분산의 정의

두 확률 변수 XXYY의 공분산은 다음과 같이 정의된다:

Cov(X,Y)=1ni=1n(XiE[X])(YiE[Y])\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (X_i - E[X])(Y_i - E[Y])

여기서 E[X]E[X]E[Y]E[Y]는 각각 XXYY의 평균을 나타낸다. 수식만 보면 단순한 곱의 평균처럼 보일 수 있지만, 이를 기하학적으로 해석하면 훨씬 직관적으로 다가온다.


2. 공분산의 기하학적 의미

공분산을 기하학적으로 이해하기 위해, XXYY를 각각 하나의 벡터 공간의 좌표라고 생각해 보자. 즉, XXYY의 각 데이터 포인트 (Xi,Yi)(X_i, Y_i)를 평균을 기준으로 벡터로 변환하면 다음과 같이 표현할 수 있다:

X=(X1E[X],X2E[X],...,XnE[X])\mathbf{X} = (X_1 - E[X], X_2 - E[X], ..., X_n - E[X]) Y=(Y1E[Y],Y2E[Y],...,YnE[Y])\mathbf{Y} = (Y_1 - E[Y], Y_2 - E[Y], ..., Y_n - E[Y])

이제 공분산 식을 다시 보면, 사실상 벡터 X\mathbf{X}Y\mathbf{Y}의 내적(inner product)과 유사한 연산을 하고 있다는 것을 알 수 있다:

Cov(X,Y)XY=i=1n(XiE[X])(YiE[Y])\text{Cov}(X, Y) \propto \mathbf{X} \cdot \mathbf{Y} = \sum_{i=1}^{n} (X_i - E[X]) (Y_i - E[Y])

이제 벡터의 내적 개념을 떠올려 보자.

2.1 벡터 내적과 공분산

두 벡터의 내적은 다음과 같이 정의된다:

XY=XYcosθ\mathbf{X} \cdot \mathbf{Y} = \|\mathbf{X}\| \|\mathbf{Y}\| \cos\theta

여기서 θ\theta는 두 벡터 사이의 각도이다. 이 개념을 공분산과 비교하면:

  • cosθ>0\cos\theta > 0 → 두 벡터가 비슷한 방향 → 공분산 양수
  • cosθ<0\cos\theta < 0 → 두 벡터가 반대 방향 → 공분산 음수
  • cosθ=0\cos\theta = 0 → 두 벡터가 수직(독립적) → 공분산 0

즉, 공분산은 단순한 곱셈이 아니라, 두 변수 간의 방향성과 관계를 나타내는 일종의 기하학적 내적이다.


3. 공분산과 2D 공간에서의 패턴

공분산을 2차원 평면에서 보면, 데이터 포인트들이 평균을 중심으로 어떤 패턴으로 퍼져 있는지를 나타낸다.

평균을 중심으로 한 편차 (XE[X],YE[Y])(X - E[X], Y - E[Y])의 곱이 어떻게 되는지에 따라 공분산이 결정된다.

  • 같은 방향으로 증가1사분면 & 3사분면에 데이터가 많음 → 공분산 양수
  • 반대 방향으로 변화2사분면 & 4사분면에 데이터가 많음 → 공분산 음수
  • 랜덤하게 퍼짐 → 특정한 방향 없음 → 공분산 0에 가까움

이를 쉽게 이해하기 위해, 평균을 기준으로 편차를 나타내는 2D 공간을 생각해보자.

  • 1사분면: X>E[X],Y>E[Y]X > E[X], Y > E[Y] → 편차 곱 >0> 0
  • 2사분면: X<E[X],Y>E[Y]X < E[X], Y > E[Y] → 편차 곱 <0< 0
  • 3사분면: X<E[X],Y<E[Y]X < E[X], Y < E[Y] → 편차 곱 >0> 0
  • 4사분면: X>E[X],Y<E[Y]X > E[X], Y < E[Y] → 편차 곱 <0< 0

즉, 데이터가 1사분면과 3사분면에 많으면 공분산이 양수, 2사분면과 4사분면에 많으면 공분산이 음수가 된다.


4. 공분산의 의미 정리

같은 방향으로 변화1사분면 & 3사분면에 데이터 밀집 → 공분산 양수
반대 방향으로 변화2사분면 & 4사분면에 데이터 밀집 → 공분산 음수
랜덤(상관 없음)균등하게 퍼짐 → 공분산 0에 가까움

즉, 공분산은 단순한 곱셈이 아니라, 벡터의 방향성과 크기를 반영한 기하학적 개념이라는 점을 이해하는 것이 중요하다.


5. 결론

공분산은 두 변수 간의 관계를 측정하는 중요한 통계 개념이지만, 단순한 수학적 정의보다 기하학적인 직관을 활용하면 더 쉽게 이해할 수 있다. 공분산을 벡터 내적과 비교하여 해석하면, 그 값이 데이터의 방향성과 연관되어 있음을 알 수 있다.

공분산의 개념을 확장하면, 상관계수(Correlation Coefficient), 주성분 분석(PCA), 최소제곱법(OLS Regression) 등 다양한 통계적 기법에서도 활용할 수 있다. 따라서 공분산의 기하학적 의미를 잘 이해해 두면, 이후 더 복잡한 통계 기법을 배우는 데에도 큰 도움이 될 것이다.

댓글

이 블로그의 인기 게시물

[PLC] PLC 아날로그 입출력 기본

[농사] 실내 식물 재배 조명, 어떤 걸 선택해야 할까?

[아두이노] 가변저항(Potential Divider)과 전압분배(Voltage Divider)

전력(kW) 계산하기 (직류, 교류 단상, 교류 삼상)

공압 속도 제어: 미터인 vs 미터아웃

제너 다이오드에 저항을 연결하는 이유

[자동화] 안쓰는 안드로이드폰을 활용한 식물 성장 타임랩스 촬영

커패시터에 저장된 에너지 계산

[스마트팜] 아쿠아포닉스에서 pH 제어를 자동화해보자! (Python 활용)

[PLC] PLC 입출력 타입 - 싱크 & 소스 (Sink & Source)