Study/AI 스터디

AI 스터디_02. 마르코프 결정 프로세스

Astero 2024. 1. 2. 22:15
안녕하세요 GDSC DJU AI 스터디팀 입니다. 
저희는 강화학습에 대해 공부를 진행하고 있으며
두 번째 포스팅은 마르코프 결정 프로세스에 대한 기초적인 설명을 드리도록 하겠습니다!

 

2.1.1  마르코프 결정 프로세스(MDP: Markov Decision Process)


- 순차적 의사결정 문제는 결국 MDP라는 개념을 통해 더 정확하게 표현이 가능하다.

아이가 잠이 드는 마르코프 프로세스

- 아이가 잠이 들 때 벌어지는 상황을 마르코프 프로세스로 나타낸 그림

- 아이가 취할 수 있는 상황은 총 5가지

  • 누워있는 상태  S0
  • 일어나서 노는 상태  S2
  • 눈을 감은 상태  S2
  • 서서히 잠이오는 상태 S3
  • 잠든 상태 S4

- 아이가 하나의 상태로 진입하게 되면 해당 상태에서 1분씩 머물게 됨

- 1분이 지나면 다음 상태로 상태 전이

- 잠이 드는 과정은 자리에 누워 시작되기 때문에 첫 상태는 S0

 


 

마르코프 프로세스는 미리 정의된 어떤 환률 분포를 따라서 상태와 상태 사이를 이동해 다니는 여정.

어떤 상태에 도착하게 되면 다음상태가 어디가 될지 각각에 해당하는 확률 이 있고 그 확률에 따라 다음 상태 정해짐

하나의 상태에서 뻗어나가는 화살표의 합은 항상 100%

 

상태의 집합 S

  • 가능한 상태들을 모두 모아놓은 집합
  • 위에 아이가 잡드는 마르코프 프로세스의 경우 5가지 (S0. S1,...,S4)

 

전이 확률 행렬 P

- 상태 S에서 다음상태 S^{'}에 도착할 확률

- 조건부 확률을 이용해 표현하면

 

 

- 마르코프 프로세스는 정해진 간격으로 상태가 바뀜

- 시점 T에서 상태가 S였다면 T+1에서의 상태가 S'가 될 확률 이라는 뜻

 

전이 확률이라 하지 않고 전이 확률 행렬이라 하는 이유?

 

마르코프 성질

- 마르코프 프로세스의 모든 상태는 마르코프 성질을 따름

- S_4가 되기 까지의 과정은 확률 계산에 영향을 주지 않음

 

2.2 마르코프 리워드 프로세스


마르코프 프로세스 +보상 = 마르코프 리워드 프로세스

 

아이가 잠드는 MRP

 

- 빨간색 보상이 추가됨

  • 상태의 집합 S, 전이 확률 행렬 P
    • 위와 동일
  • 보상함수 R
    • 어떤 상태 S에 도착했을 때 받게 되는 보상

  • E(기대값)이 있는 이유는 특정 상태에 도달했을 때 받는 보상이 매번 조금씩 다를 수 있어
  • 감쇠 인자 Y
    • 0<Y<1
    • 미래얻을 보상에 대해 당장 얻을 보상을 얼마나 중요하게 여길 것인지를 나타내는 파라미터
    • 미래에 얻을 보상의 값에 Y가 여러번 곱해지며 그 값을 작게 만드는 역활

 

상태의 집합 감쇠된 보상의 합, 리턴


MRP에서는 MP와 다르게 상태가 바뀔 때 마다 해당하는 보상을 GET함

  • 상태 $S_0$에서 보상 $R_0$받고 종료상태인 $S_r$에 도착할때 보상 $R_r$을 받으며 끝난
  • $S_0$ → $S_r$까지 가는 여정

  • 위와같은 하나의 여정을 에피소드라고 함

 

 

  • t시점부터 미래에 받을 감쇠된 보상의 합
  • 강화학습은 보상을 최대화 하도록 학습시킨다 x
  • → 보상이 아니라 리턴을 최대화 하도록 학습하는 것

 

감쇠인자 y는 왜 필요할까?


  • 똑같은 +1보상이라도 당장받는 보상이 100스텝 뒤에 받는 보상보다 훨씬 큰값.
  • 미래를 평가 절하해주는 항

수학의 편리성

  • y를 1보다 작게함으로 리턴이 무한의값을 가지는 것을 방지

사람의선호 반영

  • 사람은 바로 눈앞에 있는 보상을 더 선호
  • 에이전트 학습에 반영

미래에 대한 불확실성 반영

  • 현재와 미래 사이에는 다양한 확률적 요소
  • 당장 느끼는 가치에 비해 미래에 느끼는 가치가 달라질 수 있
  • 미래의 가치에는 불확실성을 반영하고자 감쇠

에피소드의 샘플링

  • 하나의 에피소드 안에서 경유하는 상태들은 매번 다름
  • 매번 에피소드가 어떻게 샘플링 되느냐에 따라서 리턴 달라짐

에피소드 샘플

아이 재우기 MRP의 에피소드 샘플들

 

 

포스팅을 마치도록 하겠습니다 감사합니당 :)