추론 시점 검증으로 로봇 정책 자율 진화, 인간 개입 없는 자기 개선 루프 완성

배포된 로봇이 스스로의 경험으로부터 학습하고 성장할 수 있다면 어떨까. VERITAS는 시각 검증 모듈을 행동 평가자로 삼아 추론 시점에서 정책을 조종하고, 검증된 롤아웃을 자기 훈련 데이터로 삼아 인간 개입 없이 정책을 자율 개선하는 프레임워크다. 전문가 시연과 견줄 만한 성능 향상을 사람 손 없이 달성한다는 점에서, 로봇 배포의 경제학을 바꿀 가능성을 품고 있다.

배포 이후 멈추는 로봇이라는 역설

현대 로봇 공학의 현장에는 묘한 역설이 있다. 광대한 시연 데이터를 학습한 거대 정책 모델들은 분명 놀라운 일반화 능력을 보여준다. 그러나 막상 배포 현장에서는 이 모델들이 저지르는 실수를 교정하거나 개선할 방법이 마땅치 않다. 추가 훈련 데이터를 수집하려면 사람의 손이 들어가야 하고, 강화학습 방식의 보상 신호를 설계하는 것도 쉬운 일이 아니다. 결국 배포된 로봇은 학습을 멈춘 채 같은 실수를 반복하는 시스템으로 고착되는 경우가 많다.

VERITAS는 이 문제를 두 단계에서 동시에 풀어낸다. 첫 번째는 추론 시점의 정책 조종이고, 두 번째는 그 결과를 기반으로 한 자율적 정책 개선이다. 핵심 아이디어는 단순하면서도 강력하다. 기존 제너럴리스트 정책을 "생성자"로 삼고, 여기에 시각 기반 "검증자"를 짝지어 놓는다. 검증자는 생성자가 제안하는 후보 행동들을 평가해 가장 그럴듯한 것을 고른다. 그리고 이렇게 검증된 궤적들은 다시 정책의 파인튜닝 데이터로 활용된다.

시각 검증의 작동 방식

시각 검증자의 핵심은 "이 행동을 취하면 어떤 결과가 나타날까"라는 질문에 시각적으로 답하는 능력에 있다. 검증자는 그래디언트를 필요로 하지 않는다. 이는 기존의 정책 개선 방식, 특히 역전파를 통한 미세 조정 접근법과 근본적으로 다른 점이다. 생성자 정책은 주어진 상황에서 여러 개의 후보 행동을 제안하고, 검증자는 각 행동이 목표 달성에 얼마나 기여하는지를 시각적으로 평가한다.

이 구조는 크게 세 가지 이유에서 실용적이다. 먼저 검증자가 생성자와 독립적으로 작동하므로 생성자 모델을 전혀 수정하지 않고도 성능을 끌어올릴 수 있다. 다음으로 추론 시점에서의 계산 비용 증가가 추가 훈련 비용보다 훨씬 낮다. 마지막으로 검증된 롤아웃들이 자연스럽게 고품질 훈련 데이터로 전환되어, 정책이 경험으로부터 학습하는 루프가 완성된다.

연구팀의 실험은 이 접근법이 단순한 이론적 주장에 그치지 않음을 보여준다. 추론 시점 검증만으로도 추가 시연 데이터 없이 제너럴리스트 베이스라인을 일관되게 상회하는 성능을 달성했다. 대규모 언어 모델에서 익숙해진 "테스트 타임 컴퓨팅"의 이점을 조작 정책 영역에서 실증한 것이기도 하다.

자율 개선 루프와 그 의미

VERITAS가 제시하는 자율 개선 루프의 의미는 단순한 성능 수치 향상 이상이다. 검증된 자기 생성 궤적으로 파인튜닝한 정책이 전문가 시연으로 훈련한 것과 비견할 만한 성능 향상을 보였다는 결과는, 로봇 배포 이후의 개선 경제학을 근본적으로 바꿀 가능성을 시사한다.

전통적인 인간 주도 개선 방식은 비용과 시간 측면에서 명확한 한계가 있다. 로봇이 새로운 환경에 배치될 때마다 전문가가 개입해 새로운 시연 데이터를 수집해야 한다면, 로봇 시스템의 확장성은 근본적으로 제한된다. VERITAS는 이 병목을 시각 검증이라는 메커니즘으로 우회한다.

물론 한계도 존재한다. 시각 검증자 자체의 품질이 전체 시스템의 천장을 결정한다. 검증자가 틀린 판단을 내리면 잘못된 롤아웃이 훈련 데이터로 유입될 수 있다. 또한 단순 조작 과제를 넘어 복잡한 장기 계획을 요구하는 작업에도 이 구조가 효과적인지는 후속 연구가 필요하다. 그럼에도 VERITAS가 보여주는 방향은 분명하다. 로봇이 배포 이후에도 인간의 지속적인 개입 없이 환경과의 상호작용을 통해 스스로를 개선해 나갈 수 있다는 가능성을, 이 연구는 실증적으로 뒷받침했다.