반응형

진행중/Reinforcement Learning 2

Ch-2 Multi-armed bandit Q(a) 파이썬 코드

Dec 10, 2023, 7 min read 오케이. 내 스타일대로 해보겠다. 강화학습 해보자 Table of Contents 1 K-armed Bandit problem 2 추정해보기 : Action-value Methods 3 다음 action을 선택해보자 K-armed Bandit problem § k-armed bandit problem은 슬롯 머신을 떠올리면 된다. 근데 팔이 k 개인 슬롯머신이다. 우리가 슬롯머신을 당기는 이유는 간단하다. 잭팟이 터졌으면 좋겠으면 하는 마음이다. 그걸 수학적으로는 기대 보상을 최대화한다라고 말한다. 기대보상이란 최초에 알 수 있는 것이 아닌 실험을 통해 도출해야 한다. 슬롯 머신의 팔이 k 개라 할때 각 팔을 당길때 기대보상은 각기 다르다. 이 각 기대보상을 ..

Unit1 - Introduction to Deep Reinforcement Learning

10 min read 강화학습이란? § Agent가 주위 환경과 상호작용을 통한 보상을 이용해 학습하는 방식. 보상을 통해 따로 감독없이 학습 가능 예) 게임환경에서 상호작용을 통해 학습하는 게임 플레이어 공식 정의 § Info Reinforcement learning is a framework for solving control tasks (also called decision problems) by building agents that learn from the environment by interacting with it through trial and error and receiving rewards (positive or negative) as unique feedback. 게임 예시 § 게임환..

반응형