PTL-Diffusion, 주기적 터미널 법칙으로 확산 모델의 매니폴드 정밀도 혁신

기존 확산 모델은 데이터를 단 하나의 가우시안 잡음으로 흐트러뜨린 뒤 복원하지만, 이 단순함은 매니폴드 위에 놓인 데이터의 정교한 구조를 역방향 신경망 혼자 감당하게 한다. PTL-Diffusion은 터미널 분포를 단일 분포 대신 주기적 가우시안 패밀리로 대체함으로써, 순방향 잡음 과정 자체에 기하학적 구조를 심는다. 토러스·얼굴 데이터셋 실험은 이 접근이 매니폴드 수준의 분포 정합도를 실질적으로 개선함을 보여준다.

확산 모델은 지난 몇 년간 이미지·음성·분자 생성 분야를 석권하며 생성 AI의 중심 패러다임으로 자리 잡았다. 그 작동 원리는 간명하다. 데이터를 조금씩 가우시안 잡음으로 오염시키는 순방향 과정을 정의하고, 그 역방향 과정—잡음에서 데이터를 복원하는 과정—을 신경망으로 학습한다. 이때 순방향 과정이 충분히 길어지면 어떤 데이터도 결국 하나의 표준 정규분포, 즉 '모든 것을 잊은 백색 잡음'으로 수렴한다. DALL·E부터 Stable Diffusion까지 수많은 모델이 이 단순한 아이디어 위에 세워졌다.

그러나 이 단순함에는 대가가 따른다. 실세계의 많은 데이터—사람 얼굴, 3D 포인트 클라우드, 단백질 구조—는 고차원 공간에 무작위로 흩어져 있지 않다. 이들은 고차원 공간 안의 저차원 '매니폴드' 위에 가지런히 놓여 있다. 얼굴 이미지라면 수천만 픽셀의 공간에서 실제로 의미 있는 얼굴 이미지들이 차지하는 영역은 극히 좁고, 그 영역 안에서도 표정·조명·시선 방향에 따라 서로 다른 국소적 구조가 공존한다. 단 하나의 무구조적 가우시안 잡음으로 이 모든 다양성을 흡수했다가 역방향으로 복원하는 것은, 그 복원 과정 전체를 신경망의 학습 부담으로 떠넘기는 셈이다.

잡음에 구조를 심다: 주기적 터미널 법칙

PTL-Diffusion이 제안하는 것은 단순하지만 근본적인 물음에서 출발한다. 터미널 분포가 반드시 하나여야 할까? 이 논문의 저자들은 확산 과정의 수렴점을 단일 가우시안 대신 '주기적 가우시안 패밀리(periodic Gaussian terminal family)'로 대체한다. 위상(phase) 변수 하나를 도입하면, 순방향 노이징이 끝에 도달했을 때 어떤 분포에 수렴하는지가 그 위상에 따라 달라진다. 위상이 다른 두 데이터 포인트는 서로 다른 잡음 상태를 향해 수렴하는 것이다.

기존의 페이즈 조건부 DDPM 같은 접근이 위상 정보를 역방향 신경망의 입력으로만 넘기는 것과 달리, PTL-Diffusion은 위상 구조를 순방향 과정의 동역학 자체에 내재시킨다. 이를 위해 저자들은 주기적 외력이 가해진 Ornstein-Uhlenbeck 과정—물리학에서 점성 마찰 속 입자의 확률론적 운동을 기술하는 고전적 모델—을 수학적 기반으로 삼는다. 이 선택의 미덕은 순방향 주변 분포와 역방향 사후 분포가 모두 닫힌 형태의 가우시안으로 유도된다는 점이다. 덕분에 PTL-Diffusion의 훈련 과정은 표준 잡음 예측 프레임워크를 그대로 따른다. 아키텍처를 뜯어고치거나 완전히 새로운 훈련 목적 함수를 설계할 필요 없이, 기존 확산 모델 생태계와 자연스럽게 통합된다.

저자들은 여기에 '불변 평균 정규화(invariant-average regularization)'라는 항을 추가한다. 서로 다른 위상에서의 역방향 동역학이 주기적 참조 법칙의 평균을 통해 서로 결합되도록 만드는 장치다. 이 정규화 항이 없으면 각 위상의 역방향 과정이 서로 독립적으로 학습되어 위상 간 일관성을 잃을 수 있다. 이 항은 매니폴드 전역의 기하학적 일관성을 유지하는 역할을 한다.

토러스·얼굴 데이터셋에서의 검증과 앞으로의 물음

저자들은 이 프레임워크를 세 가지 벤치마크에서 시험한다. 토러스와 실린더 포인트 클라우드는 확산 모델의 매니폴드 구조 포착 능력을 측정하는 데 자주 쓰이는 합성 데이터셋이다. 이들은 기하학적으로 명확한 저차원 구조를 갖고 있어, 모델이 얼마나 충실하게 그 구조를 복원하는지 측정하기 쉽다. 세 번째 데이터셋인 Olivetti 얼굴 데이터셋은 400장의 흑백 얼굴 이미지로 구성된 고전적 벤치마크다.

결과는 고무적이다. PTL-Diffusion은 동등하게 설정된 DDPM 기준선 대비 위상 조건부 오류, 특징 공간 공분산 오류, 최근접 이웃 매니폴드 거리 등 세 가지 핵심 지표를 모두 개선했다. 특히 토러스와 실린더처럼 뚜렷한 주기 구조를 지닌 데이터에서 개선 효과가 두드러졌다. 이는 PTL-Diffusion이 주기성을 지닌 데이터 구조와 자연스럽게 정합된다는 직관적 해석을 뒷받침한다.

다만 저자들 스스로 이 연구를 '개념 증명(proof-of-concept)'으로 규정한다는 점을 짚어야 한다. 실험은 소규모 데이터셋에 머물러 있고, 위상 변수를 어떻게 정의하고 학습할지, 더 복잡한 위상 구성을 어떻게 처리할지, 대규모 이미지 생성으로 확장할 때 어떤 계산 비용이 따르는지 같은 열린 질문들이 여전히 남아 있다. 그럼에도 이 연구는 확산 모델의 불변 가우시안 터미널 분포라는 오랜 관습에 정면으로 질문을 던지고, 그 대안의 수학적 타당성을 입증했다는 점에서 의미 있는 첫 걸음이다.

확산 모델 연구의 다음 물결은 아마도 '어떻게 더 잘 복원할 것인가'보다 '어떻게 더 잘 흐트러뜨릴 것인가'를 묻는 방향으로 흘러갈지 모른다. PTL-Diffusion은 그 방향을 가리키는 초기 이정표다.