AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.09원문 논문 ↗
AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing
Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang
발행일: 2026.06.08
로봇이 세상을 이해하는 속도와 손을 움직이는 속도는 같을 필요가 없다. AHA-WAM은 이 통찰에서 출발해 저주파 세계 플래너와 고주파 행동 실행기를 비동기적으로 결합한 이중 확산 트랜스포머 구조를 제안한다. 로봇 전용 데이터 사전 학습 없이 RoboTwin에서 92.8%의 성공률을 달성하고 기존 대비 4.59배 속도 향상을 이끌어냈다.
로봇이 주변 환경을 인식하는 방식과 물리적으로 행동하는 방식이 반드시 같은 속도로 흘러야 한다는 가정은 자연스러워 보이지만, 실제로는 깊은 제약을 내포하고 있다. 사람이 물건을 집을 때를 생각해보면, 눈은 천천히 장면 전체를 파악하고 의미를 추론하지만 손의 미세한 근육 조절은 훨씬 빠른 주기로 피드백을 받으며 움직인다. 이 두 과정이 동일한 시간 단위로 묶여 있다면 오히려 비효율이 생긴다. AHA-WAM(Asynchronous Horizon-Adaptive World-Action Model)은 바로 이 관찰에서 출발한다.
기존의 world-action 모델들은 시각적 장면의 동역학과 행동 정책을 함께 모델링하여 물리적 선험 지식을 정책 학습에 주입하는 방식으로 발전해왔다. 그러나 세계 예측과 행동 실행을 동일한 시간 해상도에서 결합하면, 비디오 브랜치가 근거리 프레임 변화를 모델링하도록 강제된다. 이는 중복되고 정보 가치가 낮은 계산이다. 핵심 문제는 세계 모델이 가진 잠재력, 즉 장기적 장면 진화를 이해하는 능력이 제대로 활용되지 못한다는 점이다.
AHA-WAM은 이중 확산 트랜스포머(Dual Diffusion Transformer, DiT) 아키텍처를 중심으로 설계되어 있다. 구조적 핵심은 두 개의 DiT가 서로 다른 시간적 리듬으로 작동한다는 점이다.
비디오 DiT는 저주파 세계 플래너로 기능한다. 과거 관측에 대한 롤링 키-값 메모리를 유지하며, 장기적 장면 진화를 인코딩하는 레이어별 잠재 컨텍스트를 생성하고 노출한다. 이 컨텍스트는 재사용 가능하다는 점에서 중요하다. 매 행동 스텝마다 처음부터 다시 계산할 필요가 없다. 액션 DiT는 고주파 행동 실행기다. 레이어별 조인트 어텐션을 통해 비디오 DiT가 생성한 컨텍스트를 쿼리하면서 폐루프 방식으로 짧은 행동 청크를 실행한다. 비디오 DiT의 느린 이해를 바탕으로, 액션 DiT는 실시간으로 로봇의 상태에 반응한다.
이 비동기 설계를 지원하기 위해 두 가지 핵심 기법이 추가된다. 하나는 horizon-adaptive offset training으로, 모델이 다양한 시간적 오프셋에서도 안정적으로 작동하도록 훈련하는 방식이다. 다른 하나는 OVCR(Observation-Guided Video-Context Routing)로, 비디오 DiT를 재실행하지 않으면서도 액션 전문가가 장기 세계 컨텍스트를 활용하되 실시간 실행 상태에도 민감하게 반응할 수 있게 하는 라우팅 메커니즘이다.
AHA-WAM은 RoboTwin 벤치마크에서 평균 92.80%의 성공률을 달성했다. 실제 로봇 조작 환경 4가지에서는 78.3%의 성공률을 기록했다. 특히 주목할 만한 점은 로봇 전용 데이터로 사전 학습하지 않고도 최신 성능을 달성했다는 사실이다. 속도 측면에서는 24.17 Hz의 폐루프 제어를 구현했으며, 이는 Fast-WAM 대비 4.59배 빠른 수치다.
이 결과가 갖는 의미는 단순한 벤치마크 수치 이상이다. 세계 모델과 행동 정책을 서로 다른 시간 단위로 분리한다는 아이디어는, 로봇 학습의 근본적인 설계 원칙에 대한 재고를 촉구한다. 비디오 생성 모델이 로봇 정책 학습에 활용되는 방식 자체가 변화할 수 있음을 시사한다. 장기 장면 이해와 즉각적 행동 반응이라는 두 가지 상충하는 요구를 하나의 모델이 동시에 만족할 필요가 없다는 논리는, 계층적 제어 아키텍처나 다중 에이전트 시스템으로의 확장 가능성을 열어둔다.
반사신경은 척수에서 처리되고, 고차원 인지는 피질에서 느리게 진행되는 것처럼, 로봇 시스템도 이제 인식의 계층과 반응의 계층을 분리하는 방향으로 나아가고 있다. AHA-WAM은 그 방향에서 가장 앞서 선 구조적 제안 중 하나다.