본문 바로가기
Drawing (AI)/Reinforcement Learning

강화학습 - Intro

by 생각하는 이상훈 2024. 1. 7.
728x90

Introduction

강화학습은 근본적으로 Trial and error learning을 기반으로 한다.

대표적으로 Skinner's experiment처럼 원하는 행동을 하면 보상을 주고 다른 행동을 하면 처벌을 하여 학습을 시키는 것이다.

강화학습(Reinforcement Learning)은 Machine Learning의 한 분야로, 어떤 환경에서 에이전트가 최적의 결정 또는 행동 순서를 학습하는 과정을 다룬다. 강화학습의 핵심은 에이전트가 시행착오를 통해 학습하며, 자신의 행동이 어떤 결과를 가져오는지를 이해하고, 최종적으로는 목표를 달성하거나 최대의 보상을 얻기 위해 최적의 행동 전략을 개발하는 것이다.

 

강화학습의 주요 구성 요소는 아래와 같다.

에이전트(Agent): 학습하는 주체로, 환경에서 행동을 선택하고 결정을 내리는 역할을 한다.

환경(Environment): 에이전트가 상호작용하는 물리적 또는 가상의 공간이다. 환경은 에이전트의 행동에 대한 반응을 제공한다.

행동(Actions): 에이전트가 취할 수 있는 모든 가능한 움직임이나 결정이다.

상태(State): 에이전트와 환경의 현재 상황을 나타낸다.

보상(Reward): 에이전트의 행동에 대한 환경의 피드백으로, 긍정적인 보상은 바람직한 행동을 강화하고, 부정적인 보상은 바람직하지 않은 행동을 억제하는 데 사용된다.

 

강화학습의 학습 과정을 단순화하면 아래와 같다.

탐색(Exploration): 에이전트가 새로운 행동을 시도하여 환경에 대해 배우는 과정이다.

이용(Exploitation): 이미 알려진 정보를 바탕으로 최적의 보상을 얻기 위해 행동하는 과정이다.

정책(Policy): 상태에 따라 어떤 행동을 취할 것인지를 결정하는 전략이다. 정책은 강화학습에서 학습의 대상이다.

 

 

가변적인 환경에서 어떤 action을 취하면 그에 따라 얻어진 새로운 상태와 보상을 agent에게 주어서 학습할 수 있도록 하는 과정이 반복되는 것이다. 같은 환경에서 같은 action을 취했다고 해서 동일한 결과가 나오리라는 보장은 없다. 그러나 아래의 확률분포표처럼 두가지 방향성이 있을때, 우측 확률 분포표의 값들중에도 좌측 확률 분포표의 값보다 보상이 적은 경우가 존재할 수 있지만 우측 확률분포표를 선택하는 것이 높은 확률로 좋은 결과를 초래하기 때문에 그 경우를 선택하듯 agent도 학습해나간다.

환경이 어떤 action에 대해 항상똑같은 결과가 나온다면 deterministic environment라고 하고 확률적으로 다른 상황이 발생할 수 있다면 stochastic environment라고 한다.


 

728x90