본문 바로가기

[End]Robotics Lectures in UoS/Deep Learning

[DL] Lecture11: Intro to Reinforment Learning

by 담백로봇 2023. 5. 24.

written exam이 나를 괴롭히는 시간 :) 강화학습 개념은 반드시 나올것같으니 또한 미래 업무에 있어서도 쓸 수 있으니 꼭 공부.

강화학습으로 달려~

유튜브 쓸만한 도표 첨부!

Markov decision process 눈여겨봐야함.

PART1

강화학습은 시스템 제어에 딥러닝 분야를 도입한 학문! => 어떻게 자동으로 제어를 잘할 수 있을까에서 탄생하였다.

Reinforcement learning 의 큰 구성요소는 states, action, reward ; 어떤 조작키를 눌러서, 어떤 행동을 하고, 이에 맞는 피드백를 얻는다.

강화학습에서 control policy를 학습하는것이 핵심
supervised learning 과 다른점은 강화학습은 reward의 최대치로 학습, super는 손실함수가 최소값이되도록.

motion 과 perception의 적절한 조화! 이 페이퍼 심심할때 읽어 보기

deep learning model이 가미된것이 deep 강화학습이어라..

PART2: Mathematical problem definition

Markov 아저씨가 만든 이론을 이용하여 sequential decision-making process 를 수학적을 표현하는 방식이라 생각하기.(아... decision -making 여기서도 나오는군)
MDP의 핵심은 미래 state와 reward가 오직 현재 state에 의해 결정이되고 과거 결과들에 대해서는 독립적인 성질을 갖게하는것에 있다.!!
각 agent 는 액션들을 취하게되고 이로써 한 state에서 다른 state로 나아가게된다. 각 state들을 reward 혹은 panalites와 연관되어 있어 agent가 목표로하는 방향이 maximise 하던지 minimise하는것에따라 프로세스가 진행된다.
각 transition (각 state들의 변화시점) 은 확률적 관점으로 이는 현재 state와 action에 따라 달라질 수 있다.

policy 파이 는 state가 어떻게 action에 배정되는지 결정해준다.

튜토리얼. discounting concept을 물어보시네.

'[End]Robotics Lectures in UoS > Deep Learning' 카테고리의 다른 글

[DL] Lecture 13: Deep Q-learning (0)	2023.05.25
[DL] Lecture 12: RL using Tabular methods (0)	2023.05.25
[DL] Lecture8: Natural Language Processing (0)	2023.05.07
[DL] Lecture7: Recurrent Networks (0)	2023.05.06
[DL] Lecture6:Deep learning for computer vision (0)	2023.05.06

댓글

티스토리툴바