본문 바로가기
[End]Robotics Lectures in UoS/Deep Learning

[DL] Lecture 13: Deep Q-learning

by 담백로봇 2023. 5. 25.

 

 

Deep Q learning VS Q learning 

먼저 Q learning 은 뭐였냐면 

  • model-free 강화학습방법으로 action-value (Q function)으로 학습을 진행. Q - function은 cumulative(누적) reward를 특정 action과 주어진 policy에서 얻는다. Q-learning은 Q table을 지속적으로 만들어가는데 이때 단점으로 크고 연속적인 state와 action space에 대한 대처가 되지않는것이있다. 이에대해 deep Q learning 이 제시된다.

Deep Q Learning (DQN)

  • deep neural network 를 사용해서 Q-function을 예측하는 형태(핵심)를 가져 연속적이고 큰 state 와 action space을 처리할 수 있다.
  • 어떻게 학습하냐면  Q-value를 얻기위해 Bellman equation 을 통한 예측값과 타겟값의 차이를 최소화시키는 방향으로 진행을한다. 

PART1: INTRO

 

 

 

  •  왜 굳이 연속적인 state를 사용해야하냐? descrite한 state를 좀더 최적컨트롤하기 용이하다.

PART2: Towards deep Q-learning: problem formulation

 

 

 

 

PART3: Deep Q-learning method

 

 

 

 

 

 

 

PART4: Deep Q-learning in software

 

 

 

 

댓글