728x90
Optimal Policy
우선 매 상태마다 적합한 policy들이 존재할 텐데 이때 아래와 같이 optimal policy가 존재한다는 것을 전재로 한다.
1. 어떤 마르코프 결정 과정에 대해서도, 모든 다른 정책보다 좋거나 같은 최적 정책 π*이 존재한다.
2. 모든 최적 정책은 최적 가치 함수를 달성한다.
3. 모든 최적 정책은 최적 행동-가치 함수를 달성한다.
최적 정책 π*는 주어진 상태 s에서 가장 높은 가치를 가지는 행동 a를 선택한다. 이를 수학적으로 표현하면 아래와 같다.
최적 상태-가치 함수 v는 주어진 상태 s에서 가능한 모든 행동 a에 대해 최적 행동-가치 함수 q의 최대값을 취한다. 수학적으로는 아래와 같이 표현할 수 있다.
Bellman Optimality Equation
특정한 state에서의 최적 상태 가치 함수와 최적 행동 가치 햠수인 Bellman optimality equation은 아래와 같이 구할 수 있다.
최적 상태 가치 함수는 특정 상태 s에서 가능한 모든 행동을 고려하여 기대되는 최대 리턴을 계산한다. 수식은 기대 리턴의 최대값을 취함으로써 정의된다. γ는 할인율(discount factor)이며, 미래의 보상을 현재 가치로 할인하기 위해 사용된다.
최적 행동 가치 함수는 특정 상태 s에서 특정 행동 a를 취했을 때 기대되는 최대 리턴을 계산한다. 수식은 기대 리턴을 계산함으로써 정의된다.
위 식을 이전에 다룬 상태그래프에서 살펴보면 아래와 같이 직관적으로 이해할 수 있다.
728x90
'Drawing (AI) > Reinforcement Learning' 카테고리의 다른 글
Algorithm design - DP / Levenshtein Distance (1) | 2024.05.02 |
---|---|
강화학습 - (Markov Decision Process) (0) | 2024.01.25 |
강화학습 - (Markov Reward Process) (1) | 2024.01.16 |
강화학습 - (UCB) (0) | 2024.01.13 |
강화학습 - (Multi-armed Bandits) (0) | 2024.01.09 |