전체 메뉴 바로가기 본문 내용 바로가기
헤더 및 전체메뉴 건너뛰기

Unity 기반 Push Block 환경에서 학습 조건의 변화에 따른 PPO 알고리즘 강화학습효율 비교 > 논문 검색첫페이지로 이동

청소년과학창의연구(학술지)

게재 논문 검색

Unity 기반 Push Block 환경에서 학습 조건의 변화에 따른 PPO 알고리즘 강화학습효율 비교

페이지 정보

  • 연번 7-19 
  • 제목(국문) Unity 기반 Push Block 환경에서 학습 조건의 변화에 따른 PPO 알고리즘 강화학습효율 비교 
  • 제목(영문) A Study on the Improvement of Machine Learning Efficiency through the Change of Learning Environment 
  • 학술지명 청소년과학창의연구 
  • 호수 Vol.7 
  • 발간일 2022-02-28 
  • 저자 조민준, 임지혁, 장진수 
  • 분야 정보 
  • 페이지 구간 pp.261-270 
  • 총 페이지 수 10 
  • 키워드(국문) Unity, Push Block, 강화학습, PPO 알고리즘, Epoch 
  • 키워드(영문) Unity, Push Block, Reinforcement Learning, PPO Algorithm, Epoch 
  • 초록(국문)
    강화학습은 현재 아타리 게임, 바둑, 스타크래프트를 비롯한 여러 분야에서 두각을 드러내고 있다. 하지만 이러한 강화학습을 통한 정책 도출은 많은 시행을 필요로 하므로 강화학습의 높은 효율이 요구되는 상황이다. 본 연구는 Unity PushBlock 환경에서 프레임 제한에 따른 학습효율과 학습 난이도(점수를 얻기 위한 조건의 난이도) 및 Epoch 값에 따른 학습효율을 비교하는 두가지 연구를 진행한다. 프레임 제한의 경우 하나의 에피소드에서 점수를 얻기 위한 평균 프레임 값이 가장 학습효율이 높으며 대체로 프레임 제한이 클수록 효율이 높다. 학습 난이도 및 Epoch 값에 따른 학습효율 연구의 경우, 난이도가 높을수록 높은 Epoch 값에서 좋은 효율이 나타난다.
  • 초록(영문)
    Reinforcement learning is currently prominent in various fields, including Atari games, Go, and Starcraft. However, since policy derivation through such reinforcement learning requires a lot of implementation, high efficiency of reinforcement learning is required. This study conducts two experiments, comparing the learning efficiency according to frame limitation in the Unity PushBlock environment, and the learning efficiency due to difficulty (difficulty of conditions for obtaining scores) and Epoch values. In the case of frame limitation, the average frame value for scoring in one episode had the highest learning efficiency, and the larger the frame limit, the higher the efficiency. In the experiment of learning efficiency according to learning difficulty and epoch values, as high the difficulty goes, the better efficiency appears at the higher epoch values.

첨부파일

목록