written exam이 나를 괴롭히는 시간 :) 강화학습 개념은 반드시 나올것같으니 또한 미래 업무에 있어서도 쓸 수 있으니 꼭 공부.




- Markov decision process 눈여겨봐야함.
PART1

- 강화학습은 시스템 제어에 딥러닝 분야를 도입한 학문! => 어떻게 자동으로 제어를 잘할 수 있을까에서 탄생하였다.

- Reinforcement learning 의 큰 구성요소는 states, action, reward ; 어떤 조작키를 눌러서, 어떤 행동을 하고, 이에 맞는 피드백를 얻는다.

- 강화학습에서 control policy를 학습하는것이 핵심
- supervised learning 과 다른점은 강화학습은 reward의 최대치로 학습, super는 손실함수가 최소값이되도록.

- motion 과 perception의 적절한 조화! 이 페이퍼 심심할때 읽어 보기

- deep learning model이 가미된것이 deep 강화학습이어라..

PART2: Mathematical problem definition

- Markov 아저씨가 만든 이론을 이용하여 sequential decision-making process 를 수학적을 표현하는 방식이라 생각하기.(아... decision -making 여기서도 나오는군)
- MDP의 핵심은 미래 state와 reward가 오직 현재 state에 의해 결정이되고 과거 결과들에 대해서는 독립적인 성질을 갖게하는것에 있다.!!
- 각 agent 는 액션들을 취하게되고 이로써 한 state에서 다른 state로 나아가게된다. 각 state들을 reward 혹은 panalites와 연관되어 있어 agent가 목표로하는 방향이 maximise 하던지 minimise하는것에따라 프로세스가 진행된다.
- 각 transition (각 state들의 변화시점) 은 확률적 관점으로 이는 현재 state와 action에 따라 달라질 수 있다.

- policy 파이 는 state가 어떻게 action에 배정되는지 결정해준다.



- 튜토리얼. discounting concept을 물어보시네.




'[End]Robotics Lectures in UoS > Deep Learning' 카테고리의 다른 글
| [DL] Lecture 13: Deep Q-learning (0) | 2023.05.25 |
|---|---|
| [DL] Lecture 12: RL using Tabular methods (0) | 2023.05.25 |
| [DL] Lecture8: Natural Language Processing (0) | 2023.05.07 |
| [DL] Lecture7: Recurrent Networks (0) | 2023.05.06 |
| [DL] Lecture6:Deep learning for computer vision (0) | 2023.05.06 |
댓글