[수학] 첨도(Kurtosis)에서 4제곱을 쓰고 3을 빼는 이유
첨도(Kurtosis)에서 4제곱을 쓰고 3을 빼는 이유
통계에서 **첨도(Kurtosis)**는 데이터 분포의 뾰족함이나 꼬리의 두꺼움을 수치로 표현하는 지표입니다.
첨도를 이해할 때, 두 가지가 자주 궁금해집니다.
-
왜 편차에 대해 4제곱을 사용하나요?
-
왜 첨도 값에서 3을 빼는 보정을 하나요?
이번 글에서는 이 두 가지 질문에 대해 쉽고 명확하게 설명해 드리겠습니다.
1. 왜 첨도 계산에 4제곱을 쓸까?
첨도의 기본 정의는 다음과 같습니다.
-
여기서 는 데이터, 는 평균, 는 표준편차입니다.
-
분자 는 4차 중심 적률이라 부르며, 편차를 4제곱하여 평균낸 값입니다.
짝수 제곱을 쓰는 이유
-
짝수 제곱은 편차의 부호를 모두 제거합니다.
즉, 평균보다 크든 작든 얼마나 멀리 떨어져 있는지 '거리'만 측정할 수 있습니다. -
왜도에서는 편차에 3제곱(홀수 제곱)을 사용해 부호를 살려 비대칭성을 나타내지만, 첨도는 분포의 뾰족함을 측정하기 때문에 부호는 중요하지 않습니다.
-
4제곱을 사용하는 이유는 첨도가 극단치(평균에서 멀리 떨어진 값)에 더 민감하도록 하기 위함입니다.
2제곱보다 4제곱이 큰 값에 대해 훨씬 크게 반응해, 꼬리 쪽의 극단값이 첨도에 더 크게 영향을 줍니다.
2. 왜 첨도에서 3을 빼는가?
첨도는 다음과 같이 정의됩니다.
-
여기서 는 확률변수, 는 평균, 는 분산입니다.
-
첨도는 4차 중심 적률을 표준편차의 4제곱으로 나눈 값입니다.
정규분포의 첨도가 3인 이유 (수식 보충)
-
평균은 ,
-
분산은 입니다.
정규분포에서 4차 중심 적률 는 다음과 같이 계산할 수 있습니다.
이 결과는 통계학에서 잘 알려진 성질로,
정규분포의 4차 중심 적률은 분산의 제곱 에 3을 곱한 값과 같습니다.
따라서,
즉, 정규분포는 첨도가 항상 3으로 고정됩니다.
3을 빼는 이유
정규분포가 첨도 3을 기준점으로 삼기에,
를 사용해,
-
0보다 크면 정규분포보다 꼬리가 두껍고 뾰족한 분포(Leptokurtic),
-
0보다 작으면 꼬리가 얇고 평평한 분포(Platykurtic)로 해석합니다.
3. 요약
첨도의 구성 요소 | 이유 및 의미 |
---|---|
4제곱 (4차 중심 적률) | 편차의 크기를 강하게 강조하여 꼬리 쪽 극단값에 민감하게 만들기 위해 사용. 짝수 제곱이라 부호는 제거됨. |
3을 빼는 보정 (Excess Kurtosis) | 정규분포 첨도 3을 기준점으로 삼아, 상대적인 뾰족함과 평평함을 쉽게 판단하기 위해 사용. |
마치며
첨도에서 4제곱을 쓰는 이유는 극단적인 편차를 더욱 강조하기 위함이며, 3을 빼는 이유는 정규분포를 기준으로 데이터 분포의 뾰족함 정도를 상대적으로 해석하기 위함입니다.
통계 분석에서 첨도를 올바르게 해석하려면 이 두 가지 핵심 원리를 꼭 기억하세요!
댓글
댓글 쓰기