본문 바로가기
[End]Robotics Lectures in UoS/Deep Learning

[DL] Lecture11: Intro to Reinforment Learning

by 담백로봇 2023. 5. 24.

written exam이 나를 괴롭히는 시간 :)  강화학습 개념은 반드시 나올것같으니 또한 미래 업무에 있어서도 쓸 수 있으니 꼭 공부.

강화학습으로 달려~

 

유튜브 쓸만한 도표 첨부!

  •  Markov decision process 눈여겨봐야함.

PART1

  • 강화학습은 시스템 제어에 딥러닝 분야를 도입한 학문! => 어떻게 자동으로 제어를 잘할 수 있을까에서 탄생하였다.

 

  • Reinforcement learning 의 큰 구성요소는 states, action, reward ; 어떤 조작키를 눌러서, 어떤 행동을 하고, 이에 맞는 피드백를 얻는다.

  • 강화학습에서 control policy를 학습하는것이 핵심
  • supervised learning 과 다른점은 강화학습은 reward의 최대치로 학습, super는 손실함수가 최소값이되도록.

  • motion 과 perception의 적절한 조화! 이 페이퍼 심심할때 읽어 보기 

  •  deep learning model이 가미된것이 deep 강화학습이어라..

PART2: Mathematical problem definition

  • Markov 아저씨가 만든 이론을 이용하여 sequential decision-making process 를 수학적을 표현하는 방식이라 생각하기.(아... decision -making 여기서도 나오는군)
  • MDP의 핵심은 미래 state와 reward가 오직 현재 state에 의해 결정이되고 과거 결과들에 대해서는 독립적인 성질을 갖게하는것에 있다.!!
  • 각 agent 는 액션들을 취하게되고 이로써 한 state에서 다른 state로 나아가게된다. 각 state들을 reward 혹은 panalites와 연관되어 있어 agent가 목표로하는 방향이 maximise 하던지 minimise하는것에따라 프로세스가 진행된다.
  • 각 transition (각 state들의 변화시점) 은 확률적 관점으로 이는 현재 state와 action에 따라 달라질 수 있다. 

  • policy 파이 는 state가 어떻게 action에 배정되는지 결정해준다.

 

 

  • 튜토리얼. discounting concept을 물어보시네.

 

 

 

 

 

댓글