AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.13원문 논문 ↗
Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation
Guo Yu, Wenlin Liu, Yulan Hu, Hao-Xuan Ma, Jun-Peng Jiang, Han-Jia Ye
발행일: 2026.06.11
교사 모델의 밀집 감독이 학생 모델의 파라미터를 어떻게 바꾸는지는 오랫동안 블랙박스였다. 새 연구는 온-폴리시 증류가 좌표 희소 업데이트를 만들어내며, 그 업데이트가 기존 가중치가 비어 있는 공간을 채우는 방향으로 집중된다는 사실을 처음으로 체계적으로 기술한다.
대형 언어 모델의 성능을 높이는 사후훈련(post-training) 기법 중 최근 주목받는 것이 온-폴리시 증류(On-Policy Distillation, OPD)다. 전통적인 지식 증류가 교사 모델의 출력 분포를 학생 모델에 그대로 전달하는 방식이었다면, OPD는 학생 모델이 스스로 생성한 궤적(on-policy trajectory) 위에서 교사 모델의 세밀한 토큰 수준 감독을 받는다. 학생이 자신의 언어로 써 내려간 문장 위에 교사가 빨간 펜으로 교정을 가하는 방식이라고 할 수 있다. 이 조합이 실제로 효과적이라는 것은 여러 연구를 통해 확인됐지만, 정작 이 과정이 모델의 파라미터를 어떻게 바꾸는지는 거의 알려지지 않았다.
여러 언어 모델과 비전-언어 모델 쌍을 대상으로 OPD를 적용하면서 파라미터 업데이트의 구조를 면밀히 분석한 이번 연구는, 두 가지 독립적이면서도 상호 보완적인 발견에 이른다. 하나는 희소성(sparsity)에 관한 것이고, 다른 하나는 기하학(geometry)에 관한 것이다. 두 발견을 합쳐 읽으면, OPD가 단순한 밀집 파라미터 재작성과는 근본적으로 다른 성격을 지닌다는 결론에 도달한다.
연구진이 발견한 첫 번째 사실은 OPD 업데이트가 놀랍도록 희소하다는 점이다. 교사 모델이 매 토큰마다 밀집된 감독 신호를 보내는데도 불구하고, 실제로 크게 변하는 파라미터 좌표는 전체의 일부에 불과했다. 이 변화는 특정 레이어에 집중되지 않고 네트워크 전체에 걸쳐 분산되며, 특히 피드-포워드 네트워크(FFN) 층에서 두드러지게 나타났다.
이 발견은 즉각 실용적인 함의를 가진다. 연구진은 실제로 변화한 좌표들을 서브네트워크로 식별한 다음, 해당 서브네트워크만 훈련했을 때도 전체 OPD와 거의 동일한 성능을 회복할 수 있음을 확인했다. 대부분의 파라미터는 사실상 업데이트에 참여하지 않아도 되는 셈이다.
그런데 흥미로운 반전이 있다. 이 희소한 구조를 보고 희소성을 강제하는 옵티마이저를 쓰면 더 효율적이지 않을까 하는 질문이 자연스럽게 떠오른다. 연구진은 희소성을 유도하는 SGD와 표준 AdamW를 비교해봤는데, SGD가 오히려 성능에서 뒤처졌다. 그 이유는 역설적이게도 교사 모델의 밀집 감독에 있다. 교사가 보내는 신호는 파라미터 좌표마다 기울기의 규모가 제각각인 이질적인 구조를 띠고 있고, AdamW의 좌표별 적응형 스케일링이 이 이질성을 효과적으로 다룬다. 업데이트가 희소하다고 해서 적응형 최적화의 이점이 사라지는 것은 아닌 셈이다.
두 번째 발견은 파라미터 업데이트의 기하학적 특성에 관한 것으로, 더욱 심층적인 함의를 담고 있다. 행렬의 특이값 분해(SVD)를 통해 분석하면, OPD 업데이트는 수치적으로는 풀-랭크(full-rank)다. 이론적으로는 고차원 공간 전체를 건드리고 있다는 뜻이다. 하지만 에너지가 소수의 특이값에 집중되는 스펙트럼 집중(spectral concentration) 현상이 관찰된다.
더 흥미로운 것은 이 업데이트가 파라미터 공간의 어디에 위치하는가다. 연구진은 소스 가중치, 즉 훈련 전 모델의 파라미터가 강하게 자리잡은 주요 특이 부분공간(principal singular subspaces)과 OPD 업데이트의 관계를 분석했다. 결과는 명확했다. OPD 업데이트는 소스 가중치가 이미 강하게 점유한 방향을 피하고, 소스 가중치 값이 0에 가까운 좌표에 불균형적으로 집중되는 경향을 보였다.
이것은 OPD가 기존의 표현을 덮어쓰는 대신, 모델이 아직 충분히 활용하지 않은 공간을 새로 채워나간다는 것을 의미한다. 교사 모델의 밀집 감독이 있더라도, 학생 모델 자신의 궤적에서 출발한다는 사실이 업데이트의 구조에 깊은 흔적을 남긴다. OPD는 단순한 밀집 파라미터 재작성이 아니며, 온-폴리시 사후훈련 특유의 기하학적 서명(geometric signature)을 고스란히 유지한다.
이 연구는 OPD를 성능 향상 기법으로만 보는 시각을 넘어, 그것이 모델 파라미터에 남기는 구조적 흔적을 처음으로 체계적으로 기술했다는 점에서 의의가 크다. 희소성과 기하학이라는 두 렌즈를 통해 들여다본 OPD의 내면은, 파라미터 효율적 미세조정, 모델 병합, 연속 학습 등 다양한 응용 분야에서 새로운 설계 원칙을 제시할 가능성을 열어준다.