앞 층에 용량을 몰아주는 테이퍼링, 공짜로 얻는 언어 모델 성능 향상

트랜스포머가 물려준 '모든 층은 동일하다'는 기본값을 의심한 연구가 나왔다. 같은 파라미터 예산이라도 앞쪽 층에 더 많은 용량을 주고 뒤로 갈수록 좁히면, 추가 비용 없이 성능이 오른다는 것이다. 네 가지 아키텍처에서 일관되게 확인된 이 결과는 모델 설계에 숨어 있던 공짜 레버를 드러낸다.

현대 언어 모델은 종류를 가리지 않고 거의 같은 골격을 공유한다. 트랜스포머든 순환형이든 메모리 기반 변종이든, 동일한 층을 차곡차곡 쌓고 그 층들에 파라미터를 균일하게 나눠 준다. 이 균일 분배는 누구도 깊이 고민한 적 없는 기본값이다. 2017년 원조 트랜스포머가 그렇게 설계했고, 그 뒤로 거의 손대지 않은 채 관성처럼 이어져 왔다. Reza Bayat와 Ali Behrouz, Aaron Courville이 내놓은 이 연구는 바로 그 관성에 질문을 던진다. 정말로 모든 층이 똑같은 양의 파라미터를 받을 자격이 있는가.

모든 층은 평등하다는 가정

그동안 여러 분석은 층마다 하는 일이 다르다는 점을 시사해 왔다. 특히 뒤쪽 층들은 정보를 새로 만들어 내기보다, 이미 흐르고 있는 잔차 스트림(residual stream)을 다듬고 미세 조정하는 역할에 가깝다는 관찰이 쌓였다. 앞쪽 층이 입력을 풍부한 표현으로 변환하는 무거운 일을 한다면, 뒤쪽 층은 그 결과를 정리하는 가벼운 일을 한다는 것이다. 그렇다면 일하는 양이 다른데 자원을 똑같이 나눠 주는 것은 비효율일 수 있다.

저자들은 통제된 실험으로 이 직관을 시험했다. 전체 파라미터 예산을 고정한 채 앞쪽 층에 용량을 더 주고 뒤쪽 층의 용량을 줄였더니, 모든 층을 같은 폭으로 둔 기준선보다 퍼플렉서티가 개선됐다. 반대로 뒤쪽에 용량을 몰아주면 오히려 성능이 나빠졌다. 비대칭이 단순한 우연이 아니라 방향성을 가진 구조적 사실이라는 신호다.

깊이를 인지하는 용량 배분

이 발견을 하나의 설계 원리로 끌어올린 것이 테이퍼드 언어 모델(Tapered Language Models)이다. 핵심은 파라미터를 담는 어떤 구성 요소를 깊이에 따라 단조롭게 좁혀 나가되, 전체 예산은 그대로 유지하는 것이다. 그 무대로 가장 자연스러운 곳이 MLP다. MLP는 거의 모든 현대 언어 모델 계열에서 파라미터의 대부분을 차지하고, 폭(width)이라는 깔끔한 단일 축으로 용량을 조절할 수 있기 때문이다. 저자들은 층이 깊어질수록 MLP 폭을 부드러운 코사인 스케줄로 줄여 나가는 방식을 택했다.

결과는 일관됐다. 세 가지 모델 규모와 네 가지 아키텍처, 즉 트랜스포머와 게이티드 어텐션, Hope-attention, 그리고 Titans 전반에 걸쳐 테이퍼링은 균일 기준선 대비 퍼플렉서티와 다운스트림 벤치마크 성능을 꾸준히 끌어올렸다. 중요한 점은 이 향상이 파라미터를 더 쓰거나 연산을 더 들이지 않고 얻어진다는 것이다. 같은 예산을 어떻게 분배하느냐만 바꿨을 뿐이다.

숨어 있던 공짜 레버

이 연구의 매력은 단순함에 있다. 새로운 연산자나 복잡한 학습 기법을 도입한 것이 아니라, 이미 쓰고 있는 자원을 깊이에 맞게 다시 배치했을 뿐이다. 그래서 특정 아키텍처에 묶이지 않고, 층을 쌓아 올리는 거의 모든 모델에 그대로 얹을 수 있다. 저자들의 표현대로 '눈앞에 빤히 보이는 곳에 숨어 있던 공짜 레버'인 셈이다.

물론 한계도 분명하다. 코사인 스케줄이 최적인지, 어텐션이나 메모리 구성 요소에도 같은 원리가 적용되는지, 초대형 모델에서도 이득이 유지되는지는 더 검증해야 한다. 그럼에도 깊이를 인지한 용량 배분이라는 축을 명확히 제시했다는 점만으로 의미가 작지 않다. 우리가 당연하게 여겨 온 균일 분배가 사실은 검증되지 않은 기본값이었음을, 그리고 그 기본값을 조금만 비틀어도 성능을 더 짜낼 여지가 있음을 보여 줬기 때문이다.