AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.26원문 논문 ↗
Reinforcement Learning without Ground-Truth Solutions can Improve LLMs
Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang
발행일: 2026.06.25
강화학습으로 LLM을 훈련하려면 보통 정답이 필요했다. RiVER는 정답이 존재하지 않는 점수 기반 최적화 문제만으로 모델을 훈련하고도, 정답이 명확한 코딩 벤치마크에서까지 실력이 향상되는 현상을 보여준다. 보상을 어떻게 다듬느냐가 일반화의 열쇠라는 주장이다.
검증 가능한 보상을 활용한 강화학습, 이른바 RLVR은 최근 대형 언어모델의 추론 능력을 끌어올린 핵심 기법으로 자리 잡았다. 수학 문제든 코딩 문제든, 모델이 내놓은 답을 정답과 대조해 맞고 틀림을 판정하고 그 결과를 보상으로 되돌려주는 구조다. 단순하고 강력하지만 결정적인 한계가 있다. 정답이 미리 존재해야만 작동한다는 점이다. 현실의 수많은 문제, 특히 무엇이 최선인지 아무도 모르는 최적화 문제 앞에서 이 방법은 무력해진다. Yingyu Lin과 동료들이 제안한 RiVER는 바로 이 빈틈을 정면으로 파고든다.
RiVER의 출발점은 발상의 전환이다. 정답을 알 수 없는 문제라도, 모델이 내놓은 해법을 실제로 실행해보면 점수는 매길 수 있다. 알고리즘 휴리스틱 대회를 떠올리면 이해가 쉽다. 이런 대회에서는 완벽한 정답이 존재하지 않고, 제출된 풀이가 얼마나 좋은 결과를 내는지를 점수로 환산해 순위를 정한다. 연구진은 AtCoder Heuristic Contest의 12개 과제를 훈련 환경으로 삼아, 결정론적인 실행 피드백을 연속적인 보상 신호로 사용한다. 맞다·틀리다의 이분법 대신, 얼마나 더 나은가라는 연속적인 척도가 학습을 이끄는 것이다.
문제는 이 연속 보상을 그대로 집단 상대 강화학습에 집어넣으면 학습이 망가진다는 데 있다. 연구진은 두 가지 함정을 짚는다. 하나는 규모 지배다. 문제마다 점수의 절대적 크기가 제각각이라, 점수가 큰 일부 인스턴스가 정책 업데이트를 과도하게 좌우해버린다. 어떤 문제는 만 점 단위로, 어떤 문제는 소수점 단위로 채점된다면, 보정 없이 합산하는 순간 큰 숫자가 모든 것을 집어삼킨다. 다른 하나는 빈도 지배다. 모델이 비슷비슷한 평범한 해법을 반복해서 뽑아내면, 드물게 등장하는 진짜 뛰어난 해법이 다수의 평범함에 묻혀 신호를 잃는다.
RiVER의 핵심은 보상 자체를 정교하게 빚어내는 데 있다. 절대 점수를 그대로 쓰지 않고, 같은 문제 안에서 후보들끼리 상대적으로 비교한 결과로 보상을 재구성한다. 이렇게 하면 문제마다 다른 점수 규모가 자연스럽게 평탄해진다. 동시에 가장 우수한 상위 해법에 보상을 집중시키되, 나머지 유효한 해법들에도 일정 범위 안에서 제한된 피드백을 남겨둔다. 최고를 강하게 밀어주면서도 그럭저럭 괜찮은 시도들을 완전히 죽이지 않는 균형이다. 규모 지배와 빈도 지배라는 두 병폐를 동시에 다스리려는 설계다.
결과는 흥미롭다. RiVER로 훈련한 Qwen3-8B와 GLM-Z1-9B-0414는 ALE 레이팅 순위에서 각각 8.9퍼센트, 9.4퍼센트 향상됐다. 점수 기반 과제만으로 훈련했으니 그 영역에서 좋아지는 것은 어찌 보면 당연하다. 정작 주목할 대목은 그다음이다.
정답이라곤 단 한 번도 본 적 없이 점수 기반 과제로만 배운 모델이, 정답이 명확하게 존재하는 별개의 벤치마크에서도 실력이 올랐다. LiveCodeBench에서 평균 2.4퍼센트, USACO에서 3.5퍼센트의 절대적 향상이다. 반대로 가공하지 않은 원시 실행 점수로 훈련한 비교군은 ALE 레이팅은 끌어올렸지만, 정답형 벤치마크로는 실력이 전혀 전이되지 않았다. 같은 데이터, 같은 환경에서 출발했는데도 보상을 어떻게 다듬었느냐에 따라 일반화 여부가 갈린 것이다.
이 차이가 RiVER가 던지는 진짜 메시지다. 모델을 한 분야의 기능공으로 길러낼 것인가, 아니면 더 넓은 의미의 문제 해결 능력을 키울 것인가는 보상 설계에 달려 있다. 정답이 없는 최적화 환경도 적절한 보상 보정만 곁들이면 범용적인 코딩 능력을 기르는 효과적인 훈련장이 될 수 있다는 발견은, RLVR의 적용 범위를 정답이 존재하는 좁은 영역 너머로 확장한다. 세상의 어려운 문제 대부분은 정답이 없다. 그런 문제로부터 배울 길이 열린다면, 강화학습이 닿을 수 있는 영토는 지금보다 훨씬 넓어질 것이다.