MDP와 벨만 기대 방정식

less than 1 minute read

강화학습을 공부하기에 앞서 순차적 행동 결정 문제에 대해 살펴보면,

순차적 행동 결정 문제는 MDP로 정의할 수 있습니다.

MDP

강화학습은 순차적으로 행동을 계속 결정해야하는 문제를 푸는 것입니다.

  • MDP의 구성
    • 상태 (S)
      • 에이전트가 관찰 가능한 상태의 집합 , 정확히는 “자신의 상황에 대한 관찰”이 상태에 대한 가장 정확한 표현임.
    • 행동
    • 보상 함수
    • 상태 변환 확률
    • 감가율

Tags:

Categories:

Updated: