어느새 2월 23일 3기 최종 발표를 4주 남짓 남기고, 24.5 팀은 다섯번째 모임을 가졌습니다.
그동안의 모임에서는 딥러닝과 강화학습에 대한 기본적인 지식을 쌓고 실제 자율주행차의 현황들, 구체적으로는 현재 기업에서 주로 구현하는 방식은 무엇인지, 강화학습이 사용되는 사례는 어떤 것인지에 대해 리서치하고 공유하는 시간을 가졌는데요. 이번 모임에서는 최종 발표를 대비하기 위해 우리 팀이 실질적으로 어떤 Output을 낼 지에 대해 논의해봤습니다.
강화학습 환경 구성에 대한 논의
게임 엔진인 Unity를 이용한 용이한 가상 환경 제작을 기본으로, ML-Agents라고 하는 강화학습을 지원하는 모듈을 이용해 구성할 예정입니다. 3D 환경을 구성하는 툴로 다음을 고려하고 있습니다.
또한 Unity-MLAgent에서 지원하는 기본적인 Reinforcement Learning algorithm은 아직 협소하기 때문에 gym-unity라고하는 툴을 이용해 openGYM에서 구현된 RL algorithm을 이용할 예정입니다.
보다 구체적인 환경 설계를 위해 멤버 각각이 구현 가능성을 검토해보면서 다음과 같은 기준을 따라 설계안을 작성하고 다음 회의에서 논의하기로 결정했습니다.
다음 회의까지 환경 설계해오기: 환경 설계는 최소한 다음을 고려합니다.
State: 예) 자동차의 현재 속도, 위치, 카메라 센서
Reward: 예) 목적지에 도착시 10+, 장애물과 충돌시 -10
구체적인 사항들에 대한 예시
장애물의 종류: 예) 임의의 보행자, 다른 차량
주행 도로의 상태
도로의 종류: 예) 교차로, 직선도로, 곡선도로 등
날씨
앞으로의 일정
화요일에 온라인 미팅으로 환경을 결정한 후 환경 구현팀과 강화학습 구현팀으로 나뉘게 될 것입니다. 그 후 본격적인 개발이 시작될 거고, 화요일 이후 다음 오프라인모임은 토요일 2월 2일에 갖겠습니다.