LongLive-2.0, NVFP4로 영상 생성 속도 2배, 긴 비디오 시대의 인프라

영상 생성 모델의 다음 전쟁터는 품질이 아니라 속도와 비용이다. 4비트 부동소수점 정밀도를 훈련과 추론 전 과정에 적용해 훈련 2.15배, 추론 1.84배의 속도 향상을 달성한 연구가 나왔다.

긴 영상을 생성하는 것은 짧은 클립 여러 개를 이어 붙이는 것과 본질적으로 다르다. 시간적 일관성, 장면 전환의 자연스러움, 연산 비용의 기하급수적 증가라는 세 가지 문제가 동시에 작용한다. 5월 24일 공개된 LongLive-2.0(arXiv:2605.18739)은 이 문제를 하드웨어 수준에서 정면 돌파하는 시스템 논문이다.

16명의 공동 저자들이 제안한 핵심은 NVFP4, 즉 4비트 부동소수점 정밀도를 영상 생성 훈련과 추론 전 과정에 적용하는 것이다. FP16이나 BF16 대비 메모리 사용량과 행렬 연산(GEMM) 비용을 크게 줄이는 기법이다. 이 자체는 LLM 분야에서 이미 쓰이는 기술이지만, 장시간 영상 생성의 특성상 다루기가 훨씬 까다롭다.

훈련과 추론의 혁신

훈련 측면에서는 균형 잡힌 시퀀스 병렬(Balanced Sequence-Parallel) 방식이 도입됐다. 각 GPU 랭크에 깨끗한 히스토리 청크와 노이즈가 섞인 타겟 청크를 함께 할당해 교사 강제(teacher-forcing)를 효율화한다. SP 인식 VAE 인코딩과 결합해 훈련 속도를 최대 2.15배 높였다.

추론에서는 NVIDIA Blackwell GPU를 위한 W4A4 NVFP4 추론을 구현하고, KV 캐시도 NVFP4로 양자화해 메모리 효율을 극대화했다. 비동기 스트리밍 VAE 디코딩으로 첫 프레임까지의 지연을 줄였다. 비Blackwell 아키텍처에서는 SP 추론으로 자동 폴백한다. 최종적으로 5B 파라미터 모델이 45.7 FPS를 달성했다.

LongLive-2.0이 흥미로운 이유는 모델 아키텍처의 혁신이 아니라 시스템 엔지니어링의 혁신이라는 점에 있다. 기존 방법들이 ODE 초기화와 분포 매칭 증류에 의존했던 것과 달리, 직접적인 디퓨전 모델 파인튜닝과 단독 LoRA 변환으로 실시간 2~4스텝 생성을 가능하게 했다. 영상 생성 모델의 품질 경쟁이 일단락되어 가는 지금, 이 논문은 그다음 전쟁터가 추론 비용과 속도임을 분명히 보여준다.