[2023-동계모각코] 1회차 결과

개발/2023-동계모각코

안녕진 2024. 1. 9. 16:58

강화학습을 위한 기본 내용들

- 보상을 극대화 하기

- 상태와 행동이 연관된 문제

- 상태와 행동이 연관되고, 누적 반환을 고려하는 방법

- 사람이 생각하는 휴리스틱 방법론에 접근했을 때 보상을 부여하는 것이 아닌, 최종 목표에 맞는 형태로 보상을 주는 것이 적합

- 벨만 방정식

마인드맵 기본 UI 작성 완료