AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.25원문 논문 ↗
On-Policy Self-Distillation with Sampled Demonstrations Reduces Output Diversity
Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville
발행일: 2026.06.24
단일 모델을 교사이자 학생으로 쓰는 온폴리시 자기증류는 pass@1 정확도를 끌어올리지만, 그 대가로 롤아웃 다양성이 무너진다. 교사가 자기 자신의 편향을 통해 피드백을 거르면서 이미 우세한 모드에 확률 질량이 더 쏠리기 때문이다. 평균 성능은 강화학습과 대등하거나 앞서지만, 다양한 전략을 요구하는 분포 밖 상황에서 무너지는 이유를 이 논문은 이론과 실험으로 짚어낸다.
최근 대형 언어모델의 추론 능력을 끌어올리는 방법으로 자기증류(self-distillation)가 주목받고 있다. 핵심 발상은 단순하다. 하나의 모델이 교사이자 학생 역할을 동시에 맡되, 교사 쪽에는 정답 시연(correct demonstration)을 조건으로 붙여준다. 정답을 미리 본 교사는 학생이 생성한 각 토큰에 대해 촘촘한 토큰 단위 피드백을 줄 수 있고, 이 밀도 높은 신호 덕분에 모델은 보상이 드문드문 주어지는 강화학습보다 빠르고 안정적으로 pass@1 정확도를 끌어올린다. 표면적으로 보면 거의 공짜 점심처럼 보이는 이 방법에 대해, 이번 논문은 좀처럼 드러나지 않는 비용이 숨어 있다고 경고한다. 정확도는 올라가지만 모델이 내놓는 답의 다양성이 조용히 무너진다는 것이다.
저자들이 포착한 증상은 pass@k 곡선의 평탄화다. 보통 잘 학습된 모델은 한 문제에 대해 더 많은 롤아웃을 뽑을수록, 그중 하나라도 정답일 확률이 올라간다. 그런데 자기증류로 학습한 모델은 롤아웃을 아무리 늘려도 정확도가 더 오르지 않는다. 곡선이 일찍 천장에 닿아버리는 것이다. 이는 모델이 사실상 한두 가지 풀이 방식만 반복 생산하고 있다는 신호다. 같은 문제를 열 번 풀게 해도 거의 같은 경로로만 답하니, 표본을 늘리는 의미가 사라진다.
원인을 추적한 결과 저자들은 자기증류 설계 자체에 누적되는 편향이 있다고 본다. 교사는 학생의 롤아웃을 채점할 때 무작위로 뽑힌 정답 롤아웃 하나를 맥락으로 깔고 있는데, 바로 이 정답 시연이 모델 자신의 분포에서 추출된 것이라는 점이 문제다. 결국 피드백은 모델 자신의 편향이라는 좁은 통로를 통과하게 되고, 모델이 원래 선호하던 방향이 거듭 강화된다. 교사와 학생이 같은 모델이기에, 한쪽의 치우침을 다른 쪽이 교정해 주지 못하고 오히려 서로를 부추긴다.
논문의 이론적 기여는 최적 자기증류 정책이 어떤 모습인지를 분석한 데 있다. 저자들은 자기증류가 기반 분포를 일종의 점별 조건부 상호정보량(pointwise conditional mutual information)만큼 기울인다는 것을 보인다. 학생의 롤아웃과 맥락으로 쓰인 정답 롤아웃 사이의 연관성이 클수록 그 답에 더 큰 가중치가 실린다는 뜻이다. 여기서 이상적인 온폴리시 강화학습과의 결정적 차이가 드러난다. 이상적 강화학습은 똑같이 정답인 여러 풀이 사이의 확률 비율을 보존한다. 즉 A 풀이와 B 풀이가 모두 맞다면, 학습 후에도 둘의 상대적 비중이 유지된다. 반면 자기증류는 이미 벌어져 있던 확률 격차를 오히려 증폭시킨다. 원래 조금 더 자주 나오던 모드에 질량이 더 쏠리면서, 덜 선호되던 정답 경로들은 점점 짓눌린다.
이 차이가 실제로 의미하는 바를 저자들은 통제된 그래프 경로 탐색 과제와 과학 질의응답 벤치마크에서 보여준다. 두 환경 모두에서 자기증류 모델은 평균 성능으로는 강화학습과 대등하거나 오히려 앞선다. 그러나 기능적 다양성과 의미적 다양성은 눈에 띄게 낮았고, 결정적으로 분포 밖(out-of-distribution) 상황에서 무너졌다. 다양한 전략을 동원해야 풀리는 문제 앞에서, 한 가지 풀이에 집착하도록 길든 모델은 길을 찾지 못한 것이다.
이 연구가 던지는 메시지는 분명하다. pass@1이라는 단일 지표만 보고 학습 방법을 고르면, 모델이 실제로는 점점 좁아지고 경직되는 과정을 놓칠 수 있다는 것이다. 추론 모델을 강화하는 여러 갈래의 방법이 경쟁하는 지금, 정확도와 다양성을 함께 저울에 올려야 한다는 이 지적은 단순한 학습 레시피 비교를 넘어, 우리가 모델을 어떤 기준으로 더 똑똑해졌다고 판단하는가라는 질문으로 이어진다.