[투자] 강화학습을 위한 자산 격자 생성과 수식 해석
💹 강화학습을 위한 자산 격자 생성과 수식 해석 – 통계적 자산 범위까지 완벽 이해
강화학습(Reinforcement Learning)은 점점 더 금융 분야에서 널리 쓰이고 있습니다. 특히 재무 계획, 포트폴리오 최적화, 목표 기반 투자(goals-based investing) 같은 분야에서, 강화학습은 매우 강력한 툴이 될 수 있습니다.
이 글에서는 강화학습을 적용하기 전에 반드시 필요한 단계인 자산 상태 공간(state space) 구성 방법과, 그 핵심인 **자산 격자(wealth grid)**를 수학적으로 어떻게 정의하고 해석할 수 있는지 설명하겠습니다.
🧠 강화학습에서 상태(State)란?
강화학습에서 에이전트(agent)는 매 시간마다 환경(environment)으로부터 상태(state)를 받아 의사결정을 내립니다.
재무 환경에서는 상태가 보통 다음과 같이 구성됩니다:
-
현재 자산 보유량:
-
현재 시점:
그러나 자산 는 연속적이고 확률적인 값이므로, 이를 그대로 사용하기보다는 **이산화(discretization)**하여 다루기 쉽도록 격자 형태로 변환합니다. 이를 **자산 격자(wealth grid)**라고 합니다.
📈 자산은 왜 로그정규분포를 따르는가?
우리는 시간에 따른 자산의 진화를 수학적으로 다음과 같은 **기하 브라운 운동(GBM)**으로 모델링합니다:
여기서:
-
: 기대 수익률
-
: 수익률의 변동성
-
: 표준 정규분포를 따르는 난수
이 식은 양수만 갖는 자산 값을 자연스럽게 설명하고, 확률 분포가 비대칭적으로 퍼지는 lognormal 형태를 재현할 수 있어 널리 쓰입니다.
로그를 취하면 식이 더 단순해집니다:
즉, 로그 자산 는 정규분포를 따릅니다.
🧮 자산 격자 범위 계산 – 수식 해석
각 시간 에서 자산이 가질 수 있는 값들의 범위를 설정하기 위해, 우리는 로그 자산 의 정규분포 특성을 사용합니다.
평균 (기댓값):
표준편차:
이를 바탕으로 다음처럼 상한/하한 범위를 설정합니다:
여기서 ±2.5 표준편차는 약 99.4%의 확률 질량을 포함하는 신뢰 구간입니다. 즉, 자산의 거의 모든 가능한 경우의 수를 포괄하는 범위입니다.
📊 실제 자산 격자 생성 (코드 포함)
📉 시각화
왼쪽 그래프는 실제 자산 공간에서 시간 흐름에 따른 분산을 보여줍니다. 시간이 지날수록 자산 값의 분포는 점점 퍼지며 깔때기 형태를 띕니다.
오른쪽 그래프는 로그 자산 공간에서 균등한 분포를 보여주며, 수학적으로 더 안정적인 학습에 유리한 구조입니다.
🧠 자산의 상한값/하한값은 무엇을 의미할까?
정리하자면:
-
lnW_min
,lnW_max
는 시간 t에서 자산의 로그값이 위치할 가능성이 높은 하한과 상한값입니다. -
이를 지수화한 과 은 자산값의 신뢰 구간 내 예상 하한/상한입니다.
-
예를 들어, 초기 자산이 1,000만 원이고 연 수익률이 8%, 변동성이 20%일 때, 1년 뒤의 자산 분포는 대략 다음 범위 안에 존재할 확률이 99% 이상입니다.
이 범위를 통해 우리는:
-
극단적 손실/이익 가능성을 시각화할 수 있고,
-
상태 공간을 효율적으로 설정하며,
-
학습 시 연산량을 줄이고, 학습 정확도를 높일 수 있습니다.
✅ 요약
항목 | 의미 |
---|---|
로그 자산은 정규분포를 따름 | |
평균 ± 2.5 표준편차: 자산의 로그 하한/상한 | |
실제 자산 격자 (비선형 격자) | |
시각화 | 로그 공간에서는 균등 분포, 실제 공간에서는 깔때기 형태 |
활용 | 강화학습의 상태 공간 구성, 자산 리스크 관리, 학습 안정성 확보 |
학교에서 수학 가르칠 때 이런 주제로 알려주면 얼마나 좋았을까... 실용성이 있어야 재미가 있지!
댓글
댓글 쓰기