Lines

한줄 한줄의 소중한 코드를 위해서

MDP와 벨만 기대 방정식

September 27, 2024 less than 1 minute read

강화학습을 공부하기에 앞서 순차적 행동 결정 문제에 대해 살펴보면,

순차적 행동 결정 문제는 MDP로 정의할 수 있습니다.

MDP

강화학습은 순차적으로 행동을 계속 결정해야하는 문제를 푸는 것입니다.

MDP의 구성
- 상태 (S)
  - 에이전트가 관찰 가능한 상태의 집합 , 정확히는 “자신의 상황에 대한 관찰”이 상태에 대한 가장 정확한 표현임.
- 행동
- 보상 함수
- 상태 변환 확률
- 감가율

Share on

Twitter Facebook LinkedIn

You may also enjoy

2025년을 시작하며

January 1, 2025 less than 1 minute read

network

2024년을 마무리하며

December 31, 2024 1 minute read

network

OpenStack 정리 - 1편

October 4, 2024 1 minute read

infra

Javascript Immutablity

October 4, 2024 1 minute read

title: “Javascript Immutability” excerpt: “Javascript Immutability”