AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.09원문 논문 ↗
An Agency-Transferring Model-Free Policy Enhancement Technique
Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko
발행일: 2026.06.08
강화학습 훈련의 가장 큰 비용은 처음부터 모든 것을 탐색해야 한다는 데 있다. 이 논문은 이미 작동하는 준최적 정책을 훈련 내내 중재자로 활용하다가 점진적으로 학습 정책에 제어권을 넘기는 '에이전시 이전' 방식을 제안하며, 이 전환에 대한 이론적 하한까지 도출한다.
강화학습의 가장 큰 역설 중 하나는, 학습을 시작하기 위해 이미 해결책이 필요하다는 점이다. 에이전트가 첫 발을 내딛는 순간부터 보상 신호를 탐색하고, 환경의 역학을 파악하며, 목표에 도달하는 방법을 발견해야 한다. 이 과정에서 수백만 번의 시뮬레이션 스텝이 소요되고, 잘못 설계된 보상 함수 하나가 전체 훈련을 무너뜨릴 수 있다. 이것이 연구자들이 '처음부터 훈련하기'라고 부르는 방식의 실제 비용이다.
그런데 많은 실제 제어 문제에는 완벽하지 않더라도 작동하는 정책이 이미 존재한다. 고전적인 PID 제어기, 전문가가 수작업으로 설계한 휴리스틱, 혹은 이전 세대의 학습 모델이 그런 것들이다. 이들은 최적이 아니지만 에이전트가 목표에 도달하게 해 준다. 이 논문은 바로 이 지점에서 출발한다. 기존의 준최적 정책을 버리는 대신, 그것을 훈련의 구조적 발판으로 삼는다면 어떨까.
기존의 정책 재활용 방식은 크게 두 갈래로 나뉜다. 하나는 모방 학습으로, 전문가의 행동을 따라하도록 초기화한다. 다른 하나는 사전 훈련된 모델을 파인튜닝하는 방식이다. 두 방법 모두 베이스라인을 초기화 도구로 사용한다. 즉, 훈련이 본격화되면 베이스라인은 서서히 잊혀지거나 덮어씌워진다.
이 논문이 제안하는 에이전시 이전(agency transfer) 방식은 근본적으로 다르다. 베이스라인 정책과 학습 정책을 훈련 내내 동시에 유지하면서 그 사이에서 중재(arbitration)를 수행한다. 훈련 초기에는 에이전트의 행동 대부분이 베이스라인에 의해 결정된다. 시간이 지남에 따라 이 비율이 점진적으로 역전되어, 결국 학습 정책이 완전히 독립적으로 작동하는 시점에 도달한다. 베이스라인이 보유했던 에이전시를 학습 정책이 온전히 물려받는 것이다.
이 접근의 설계에는 명확한 수학적 전제가 깔려 있다. 논문은 베이스라인이 '기능적(functional)'이라는 것이 무엇인지를 형식화한다. 구체적으로, 베이스라인 정책 아래에서 에이전트가 목표 집합에 도달하고 높은 확률로 그 안에 머무를 수 있어야 한다는 조건이다. 이는 강한 요구가 아니다. 많은 실용적 제어기가 최적성과 무관하게 이 조건을 충족한다. 그러나 이 조건이 충족될 때, 중재 메커니즘은 훈련 초반부터 에이전트가 의미 있는 상태 공간에서 경험을 쌓도록 보장한다.
중재 메커니즘의 핵심은 학습 정책이 베이스라인보다 더 나은 선택을 내릴 준비가 되었는지를 판단하는 것이다. 이 판단은 단순한 시간 기반 스케줄이 아니라 학습 정책의 성능에 의존적으로 이루어진다. 처음에는 베이스라인이 거의 모든 결정을 내리지만, 학습 정책이 특정 상태에서 더 나은 가치를 제공할 수 있다고 판단될 때 그 상태에서의 제어권이 점차 이전된다.
이 구조가 가져오는 실질적인 이점은 훈련 초반에 특히 두드러진다. 베이스라인이 에이전트를 목표 근처로 데려다 주므로, 학습 정책은 무작위 탐색을 통해 목표 자체를 발견할 필요 없이 이미 의미 있는 경험에서 학습을 시작할 수 있다. 희소 보상 환경에서의 탐색 문제를 구조적으로 완화하는 효과이기도 하다.
이론적으로도 이 접근은 탄탄하다. 논문은 두 방향에서 분석을 제공한다. 첫째, 훈련 과정에서 중재 메커니즘이 높은 목표 도달률을 유지한다는 것을 베이스라인의 기능적 속성으로부터 형식적으로 설명한다. 둘째, 훈련이 완료되어 학습 정책이 베이스라인 없이 단독으로 작동하는 최종 단계에서도 목표 도달 확률에 대한 명시적인 하한을 도출한다. 이는 단순한 경험적 관찰이 아니라, 정책의 성능을 보장하는 이론적 근거이다.
연속 제어 벤치마크 실험에서 이 방법은 경쟁적인 접근들과 비교하여 주목할 만한 결과를 보인다. 수익(return) 측면에서는 비교 대상 방법들과 동등하거나 더 나은 성능을 달성하면서, 훈련 전 과정에 걸쳐 가장 높은 목표 도달률을 유지한다. 특히 인상적인 것은 최종 단계, 즉 학습 정책이 베이스라인 없이 완전히 독립적으로 작동하는 상황에서도 이 우위가 유지된다는 점이다. 많은 정책 향상 기법이 베이스라인의 지원이 사라지는 이 단계에서 성능이 저하되는 반면, 이 방법은 이론적 보장이 실증적 강건함으로 직결된다.
이 결과가 갖는 더 넓은 함의는 강화학습의 실용화 가능성에 있다. 현실의 제어 문제 대부분은 완벽한 해결책은 없지만 어느 정도 작동하는 휴리스틱이나 고전 제어기를 이미 보유하고 있다. 이 방법은 그 기존 지식을 버리지 않고, 오히려 더 나은 학습을 위한 구조적 발판으로 전환할 수 있음을 보여준다. 처음부터 다시 시작하는 대신 이미 아는 것에서 출발하는 것이 더 나을 수 있다는 직관을, 수학적으로 뒷받침한 연구다.