AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.23원문 논문 ↗
CoorDex: Coordinating Body and Hand Priors for Continuous Dexterous Humanoid Loco-Manipulation
Sikai Li, Shuning Li, Zhenyu Wei, Yunchao Yao, Chenran Li, Mingyu Ding
발행일: 2026.06.22
휴머노이드 로봇은 늘 멈춰 서야만 물건을 잡을 수 있었다. CoorDex는 몸과 다섯 손가락의 제어를 각각의 잠재 사전으로 압축한 뒤 그 위에 잔차만 학습시켜, 걷는 도중에도 병을 집어 들고 냉장고 문을 여는 20자유도 손재주를 가능하게 했다. 고차원 접촉 제어를 비로소 학습 가능하게 만든 인터페이스 설계의 의미를 짚는다.
휴머노이드 로봇이 물건을 다루는 장면은 대개 같은 리듬으로 흘러간다. 목표물 앞까지 걸어가 일단 멈추고, 자세를 고정한 다음 팔을 뻗어 잡고, 다시 걷기 시작한다. 연구자들은 이 멈춤-조작-재출발의 분절을 오랫동안 당연한 전제로 받아들여 왔다. 이족 보행의 균형을 유지하면서 동시에 손끝의 정교한 접촉까지 제어하는 일이 그만큼 어려웠기 때문이다. 그 결과 상당수 시스템은 손을 단순한 집게로 대체했다. 열고 닫는 두 상태만 가진 저자유도 말단부는 균형 문제에서 손을 떼게 해주지만, 그 대가로 인간이 일상에서 보여주는 손재주의 대부분을 포기하게 만든다. Sikai Li와 Mingyu Ding 등이 내놓은 CoorDex는 바로 이 오래된 타협을 정면으로 겨냥한다.
걷는 동작과 잡는 동작을 하나의 정책으로 동시에 학습시키려는 시도는 차원의 저주에 부딪힌다. Unitree G1 같은 전신 휴머노이드에 20자유도를 가진 WUJI 손까지 얹으면, 제어해야 할 관절의 수가 폭발적으로 늘어난다. 보행을 안정시키는 보상과 손끝의 접촉을 정확히 맞추는 보상은 서로 결이 다르고, 강화학습 정책이 이 둘을 동시에 만족시키는 행동 공간을 직접 탐색하기란 사실상 불가능에 가깝다. 논문이 보고하는 비교 실험은 이 난점을 분명히 드러낸다. 관절 공간에서 직접 PPO를 돌리거나, 손을 관절 공간에서 따로 제어하거나, 전신과 손을 하나의 잠재 표현으로 뭉뚱그려 예측하게 한 방식은 같은 보상 예산 아래에서 모두 실패했다. 차원을 줄이지 않은 채 접촉이 풍부한 이동-조작을 학습시키려는 시도가 왜 번번이 좌초했는지를 설명해 주는 대목이다.
CoorDex의 핵심은 제어 문제를 새로 푸는 대신 학습이 일어나는 공간 자체를 바꾼 데 있다. 먼저 시뮬레이션에서 모은 전신과 손의 시연으로부터, 특권 정보를 활용하는 동작 추종 교사를 몸과 손에 대해 각각 훈련한다. 이 교사들의 능력을 고유수용감각에 조건화된 잠재 사전으로 증류하고, 그렇게 얻은 사전을 얼린 채로 하류 강화학습의 행동 공간으로 삼는다. 정책은 이제 수십 개 관절 각도를 직접 토해내는 대신, 자연스러운 전신 동작과 손동작이 이미 압축되어 있는 잠재 공간 위에서 작은 잔차만 학습하면 된다. 더 나아가 조정된 잔차 정책은 공유된 과제 맥락을 통해 두 사전을 함께 엮으면서도, 몸과 손에 대한 잔차 머리는 분리해 둔다. 덕분에 걸음걸이의 자연스러움을 해치지 않으면서 손가락 단위 접촉의 신뢰도를 끌어올리는 절충이 가능해진다. 멈추지 않고 병을 집어 옮기고, 이동하는 도중에 냉장고 문을 열고, 정육면체를 집어 돌리는 동작이 실제 하드웨어에서 구현된 배경이다.
CoorDex가 던지는 메시지는 알고리즘의 우열을 가리는 데 있지 않다. 같은 PPO, 같은 보상 예산이라도 어떤 행동 공간을 정책에게 쥐여 주느냐에 따라 학습 가능 여부가 갈린다는 점이다. 사전을 동결해 행동 공간으로 재활용하고 그 위에 잔차를 얹는 구조, 그리고 몸과 손을 맥락으로는 묶되 잔차로는 분리하는 설계가 고차원 접촉 제어를 비로소 다룰 수 있게 만들었다. 이는 최근 로보틱스 학습이 거대한 단일 정책을 처음부터 학습시키기보다, 시연에서 추출한 사전을 구조화된 인터페이스로 재조립하는 방향으로 무게중심을 옮기고 있음을 보여주는 또 하나의 사례다. 가정과 산업 현장처럼 걷고 잡는 일이 끊김 없이 이어져야 하는 환경에서, 멈춤이 사라진 손재주는 휴머노이드의 실용성을 가르는 분기점이 될 수 있다.