충돌하는 능력을 한 모델에 담는 법, 온-폴리시 흐름장 증류가 여는 통합 생성

한 모델이 새 이미지를 그리고, 일부를 고치고, 전체 분위기를 바꾸는 일을 모두 해내길 바라지만, 이 능력들은 같은 가중치를 두고 서로를 갉아먹는다. ByteDance의 DanceOPD는 각 능력을 흐름 위의 속도장으로 보고, 학생 모델이 스스로 만든 궤적 위에서 전문가의 능력을 증류받게 함으로써 이 오랜 충돌을 정면으로 푼다.

한 장의 그림을 처음부터 그리는 일과 이미 있는 그림을 고치는 일은 겉보기에 비슷하지만, 모델 내부에서는 학습을 전혀 다른 방향으로 끌어당긴다. 텍스트로 새 이미지를 만드는 능력, 그림의 일부만 바꾸는 국소 편집, 전체 색감과 분위기를 손보는 전역 편집을 하나의 모델 안에 욱여넣으려는 순간 이들은 서로를 갉아먹기 시작한다. 편집을 잘하도록 가르치면 처음부터 그리는 능력이 무뎌지고, 전역 편집과 국소 편집은 같은 가중치를 두고 줄다리기를 벌인다. 오늘날 통합 이미지 생성 모델을 만드는 일이 단순한 데이터 확보의 문제가 아니라 능력의 조합이라는 난제가 된 이유가 여기에 있다. ByteDance 연구진이 내놓은 DanceOPD는 바로 이 충돌을 정면으로 다루는 증류 프레임워크다.

능력을 속도장으로 바라보기

DanceOPD가 기대는 토대는 흐름 정합(flow matching)이다. 이 계열의 생성 모델은 무작위 노이즈에서 실제 데이터로 향하는 변환을 한 점 한 점의 이동 속도, 곧 속도장으로 학습한다. 연구진의 출발점은 이 관점을 능력의 단위로까지 밀어붙인 데 있다. 텍스트-이미지 생성도, 국소 편집도, 전역 편집도 결국 공유된 흐름 상태 공간 위에 정의된 하나의 속도장으로 볼 수 있다는 것이다. 그렇다면 여러 능력을 합친다는 말은 서로 다른 전문가 속도장을 한 학생 모델 안으로 녹여 넣는 일로 바뀐다.

DanceOPD는 이 녹여 넣기를 세 동작으로 정리한다. 들어온 표본 하나를 그에 맞는 능력 속도장으로 보내고, 학생 모델 자신이 만들어 낸 낮은 노이즈 상태 한 점을 골라 그 지점에서 전문가 속도장에 질의하며, 그렇게 얻은 목표 속도와 학생의 예측 속도 사이의 단순한 차이를 줄이도록 학습한다. 복잡한 보조 손실이나 적대적 판별기 없이, 속도의 평균제곱오차 하나로 끝낸다는 점이 이 방법의 미덕이다.

스스로 만든 궤적 위에서 배우기

이 프레임워크에서 가장 중요한 단어는 온-폴리시(on-policy)다. 흔한 증류는 교사가 미리 그려 둔 궤적 위에서 학생을 따라 걷게 한다. 그러나 추론 시점에 학생이 실제로 지나가는 길은 교사의 길과 어긋나기 마련이고, 이 불일치가 누적되면 통합 모델의 품질이 무너진다. DanceOPD는 학생이 자기 롤아웃, 즉 스스로 굴러가며 도달한 상태 위에서만 전문가 속도장에 질의하게 한다. 학생은 자기가 정말로 마주칠 지점에서 전문가라면 어디로 움직였을지를 배우는 셈이고, 덕분에 여러 전문가의 능력이 충돌 없이 한 모델 안에서 조합된다.

이 틀의 또 다른 장점은 사람이 손으로 정의한 연산자 속도장까지 같은 방식으로 흡수한다는 데 있다. 대표적인 예가 분류기 없는 안내(classifier-free guidance)다. 이 기법은 보통 추론 때마다 조건부와 비조건부 예측을 두 번 계산해 그 차이를 키워야 해서 연산이 곱절로 든다. DanceOPD는 안내가 적용된 속도장을 학생의 가중치 안으로 미리 증류해 둠으로써, 추론 단계의 추가 비용 없이 같은 효과를 누린다. 사실성을 끌어올리는 리얼리즘 속도장 역시 동일한 경로로 흡수된다.

연구진은 텍스트-이미지 생성, 편집, 리얼리즘 속도장 흡수, 안내 흡수에 걸친 폭넓은 실험에서 목표 능력은 강화하면서도 기준이 되는 생성 품질은 유지됨을 보였다. 통합 생성 모델 경쟁이 SeedEdit, OmniGen 같은 이름들로 달아오른 지금, 능력 사이의 충돌을 데이터나 규모가 아니라 증류의 구조로 푼다는 발상은 실무적으로도 적지 않은 함의를 갖는다. 여러 능력을 한 모델에 담는 일이 더 이상 타협의 문제가 아닐 수 있다는 가능성을, 이 연구는 흐름장이라는 단정한 언어로 제시한다.