Dec 10, 2023, 7 min read 오케이. 내 스타일대로 해보겠다. 강화학습 해보자 Table of Contents 1 K-armed Bandit problem 2 추정해보기 : Action-value Methods 3 다음 action을 선택해보자 K-armed Bandit problem § k-armed bandit problem은 슬롯 머신을 떠올리면 된다. 근데 팔이 k 개인 슬롯머신이다. 우리가 슬롯머신을 당기는 이유는 간단하다. 잭팟이 터졌으면 좋겠으면 하는 마음이다. 그걸 수학적으로는 기대 보상을 최대화한다라고 말한다. 기대보상이란 최초에 알 수 있는 것이 아닌 실험을 통해 도출해야 한다. 슬롯 머신의 팔이 k 개라 할때 각 팔을 당길때 기대보상은 각기 다르다. 이 각 기대보상을 ..