안녕하세요, '아메리카노10잔' 강화학습연구소장 정의진입니다! 2차 모임(2018-06-16)에서는 열 분의 멤버들 중 4명밖에 모이지 못했습니다ㅠ 대부분 직장인이시라 그 와중에도 멀게는 대전에서부터(부산도 있습니다!) 오시는것만으로도 대단하신것 같습니다. 그리고 초등학교에서 영어선생님을 맡고 계시는 새로운 분도 오늘 스터디에 참가하셨습니다.
오늘은 1차 모임때, 2차 모임으로 모일 때 까지 공부해오기로 한 MDP, Monte-Carlo, Time-Difference, Sarsa, Q-learning의 개념을 다시 정확히 정리하고 넘어가는 과정을 밟았습니다. 100% 이론 중심으로 하다 보니 수식이 많이 오갔습니다. 하지만 강화학습도 결국은 이런 수학적 모델을 그대로 코딩하는 것이라 이론을 정확히 아는것이 매우 중요하다고 생각했기 때문에 이론에만 시간을 할애하는데 갈등하지 않았습니다. 예상대로 PPT를 만들어온 저 또한 그룹원들의 질문을 받다보니 정확히 알지 못했던 부분이 있었다는것을 많이 느낄 수 있었고, 이 시간을 통해 강화학습 이론을 튼튼히 다질 수 있었습니다.
https://www.slideshare.net/LeejinJeong/mdp-montecarlo-timedifference-sarsa-qlearning-1
발표자료는 슬라이드쉐어에 올려두었습니다.