AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.05.25원문 논문 ↗
Geo-Align: Video Generation Alignment via Metric Geometry Reward
Zizun Li, Haoyu Guo, Runzhe Teng, Chunhua Shen, Tong He
발행일: 2026.05.22
카메라 경로를 지정하면 해당 시점의 영상을 새로 합성하는 비디오 재렌더링 기술은 그간 합성 데이터 의존이라는 근본적 한계에 묶여 있었다. Geo-Align은 이 문제를 강화학습으로 처음 접근해, 기하학적 보상 신호만으로 모델이 물리적 스케일과 카메라 궤적을 정확히 따르도록 교정한다. 페어드 실제 영상 없이도 기존 지도학습 기반 방식을 일관되게 앞서는 결과는, 비디오 생성 영역에서 강화학습 패러다임의 확산을 예고한다.
카메라 제어 비디오 생성이라는 과제는 최근 몇 년 사이 눈부신 진전을 이뤘다. 하나의 영상을 입력으로 받아 사용자가 지정한 카메라 궤적대로 새로운 시점의 영상을 합성해내는 기술이다. 영화 제작이나 가상현실, 자율주행 시뮬레이션 등 응용 가능성이 넓어 학계와 산업계 모두 주목하고 있다. 그러나 현재 기술의 주류 방식은 합성 데이터셋으로 지도학습(SFT)을 하는 것인데, 이 접근법에는 근본적인 약점이 있다.
비디오 재렌더링 모델을 학습시키려면 동일한 장면을 여러 카메라 시점에서 동시에 촬영한 데이터가 필요하다. 문제는 이런 동기화된 멀티뷰 실제 영상 데이터가 극도로 부족하다는 점이다. 결국 연구자들은 게임 엔진이나 3D 시뮬레이터로 만든 합성 영상에 의존할 수밖에 없었다. 합성 데이터는 제어하기 쉽고 라벨링 비용도 없지만, 실제 세계와의 도메인 갭이 크다. 합성 환경으로 학습된 모델은 실제 영상을 입력받았을 때 물리적 스케일 감각을 잃거나, 지정한 카메라 궤적을 제대로 따르지 못하는 현상이 빈번하게 나타난다. 분포를 벗어난 입력에 취약한 것이다.
이 문제를 회피하는 방법은 두 가지였다. 더 많은 합성 데이터를 만들거나, 합성과 실제의 격차를 줄이는 도메인 적응 기법을 쓰는 것이다. 하지만 둘 다 근본 해결이 아니다. 합성 데이터를 아무리 늘려도 실제 영상의 빛 반사, 질감, 움직임의 복잡성을 완전히 재현할 수 없고, 도메인 적응은 그 자체로 별도의 엔지니어링 부담을 낳는다.
Geo-Align은 이 문제를 강화학습 프레임워크로 접근한 최초의 시도다. 사전학습된 비디오 생성 모델 위에서, 모델이 생성한 영상이 목표 카메라 궤적을 얼마나 정확히 따랐는지를 수치화한 보상 신호로 모델을 추가 최적화한다.
핵심은 metric 3D estimator다. 이 추정기는 모델이 생성한 영상을 분석해 카메라의 회전(rotation)과 이동(translation)을 역으로 추출한다. 그리고 목표로 했던 카메라 궤적과 실제 생성된 영상에서 추출한 궤적 사이의 편차를 명시적으로 페널티로 환산한다. 단순히 영상이 그럴싸해 보이는지를 평가하는 것이 아니라, 실제로 카메라가 원하는 경로를 움직였는가를 기하학적으로 검증하는 것이다. scale-aware perceptual reward라는 이름은 여기서 비롯된다. 스케일을 인지하는 지각적 보상, 즉 물리적 거리와 방향 감각이 보상 설계에 직접 반영되어 있다.
강화학습이 언어 모델에서 RLHF라는 이름으로 자리잡은 이후, 이 패러다임은 이미지 생성, 코드 생성 등 다양한 영역으로 번지고 있다. 비디오 생성에서의 RL 적용은 아직 초기 단계이며, 특히 카메라 제어라는 기하학적 정밀도가 요구되는 과제에 RL을 결합한 것은 Geo-Align이 처음이다. 기존 지각적 품질 지표가 "영상이 좋아 보이는가"를 묻는다면, Geo-Align의 보상은 "물리 법칙이 맞는가"를 묻는다는 점에서 질적으로 다르다.
가장 주목할 대목은 데이터 파이프라인 설계다. Geo-Align은 실제 세계의 조건 영상(conditioning video)과 합성 데이터에서 뽑아낸 목표 카메라 궤적을 조합하는 방식을 택했다. 같은 장면을 다른 카메라로 찍은 페어드 데이터가 전혀 필요 없다. 실제 영상을 입력으로 사용하면서 카메라 궤적 목표값만 합성 데이터에서 빌려오는 것이다. 이렇게 하면 합성 데이터의 풍부한 카메라 궤적 다양성을 활용하면서도, 모델이 실제 영상의 질감과 분포에 적응하도록 유도할 수 있다.
이 설계 덕분에 Geo-Align은 데이터 희소성 문제를 우회하면서 실제 영상에 대한 일반화 능력을 확보했다. 논문의 실험 결과는 카메라 제어 정밀도와 영상 충실도 모두에서 기존 지도학습 기반 베이스라인을 일관되게 앞선다는 것을 보여주며, 특히 분포 외 실제 영상에서 이점이 두드러진다.
Geo-Align이 보여준 접근법, 즉 도메인 전문 지식(기하학적 카메라 모델)을 보상 함수로 변환해 RL로 모델을 정렬하는 방식은 다른 물리적 제약이 중요한 생성 과제에도 그대로 적용될 수 있는 일반적인 원리다. 물리 시뮬레이션 기반 영상 생성, 로봇 궤적 생성, 의료 영상 합성 등 정답을 수치로 검증할 수 있는 과제라면 동일한 설계가 유효하다. 비디오 생성 분야에서 강화학습의 입지는 앞으로 더 넓어질 것이다.