파인튜닝의 숨겨진 망각 비용, PEFT-Arena가 제시한 안정성·가소성 척도

파라미터 효율 미세조정(PEFT)은 다운스트림 정확도만으로 평가받아 왔지만, 그 과정에서 사전 학습 능력이 얼마나 손상되는지는 거의 측정되지 않았다. PEFT-Arena는 '안정성-가소성 딜레마'를 기준으로 주요 PEFT 방법들을 재평가하고, 직교 파인튜닝이 가장 유리한 균형을 보인다는 사실을 밝혀낸다. 최종 체크포인트를 그대로 쓰는 관행도 문제로 지목하며, 경로 되감기라는 사후적 개선책을 제시한다.

LLM 파인튜닝의 보이지 않는 비용

대형 언어 모델이 범용 기반 모델로 자리 잡으면서, 이를 특정 태스크에 맞게 조정하는 파인튜닝 기술도 빠르게 발전했다. 파라미터 전체를 업데이트하는 풀 파인튜닝 대신, 소수의 추가 파라미터만 학습시키는 파라미터 효율 미세조정(PEFT) 방법론이 표준으로 자리 잡은 지 오래다. LoRA, Adapter, Prompt Tuning, 직교 파인튜닝(OFT) 등 다양한 변형이 제안되었고, 연구자들은 대부분 다운스트림 태스크의 정확도를 기준으로 이 방법들을 비교해왔다.

문제는 그 평가 기준이 절반짜리라는 데 있다. 모델이 특정 태스크를 더 잘하게 되었는지는 측정하지만, 그 과정에서 사전 학습 단계에서 습득한 일반적 능력이 얼마나 손상되었는지는 묻지 않는다. PEFT-Arena 논문은 바로 이 점을 문제로 삼는다. 파인튜닝이 유발하는 망각은 기존 벤치마크에서 거의 측정되지 않았고, 그 결과 실제로는 사전 학습 능력을 많이 파괴하는 방법이 성능 좋은 방법으로 인정받는 왜곡이 발생해왔다는 것이다.

이 논문이 제시하는 핵심 프레임은 안정성-가소성 딜레마(stability-plasticity dilemma)다. 생물학적 학습 이론에서 빌려온 이 개념은, 새로운 지식을 흡수하는 유연성(plasticity)과 기존 지식을 유지하는 안정성(stability) 사이의 근본적 긴장을 가리킨다. 인간이 새 언어를 배울 때 모국어를 잊는 것처럼, LLM도 특정 도메인에 적응할수록 범용 능력이 떨어질 수 있다. PEFT-Arena 벤치마크는 다운스트림 성능과 일반 능력 유지를 동시에 측정함으로써, 각 PEFT 방법이 이 딜레마를 어떻게 다루는지를 비교한다.

실험 결과는 명확한 패턴을 드러낸다. 비슷한 파라미터 예산 조건에서 직교 파인튜닝(OFT)이 파레토 프론티어에서 가장 유리한 위치를 차지했다. 같은 수준의 태스크 적응 성능을 유지하면서도 망각이 가장 적었다는 뜻이다. LoRA를 비롯한 다른 방법들은 대체로 더 높은 가소성을 얻는 대신 더 많은 안정성을 포기하는 경향을 보였다.

중립적 파라미터는 없다: 기하학으로 본 망각의 구조

왜 방법마다 이렇게 다른 특성을 보이는 걸까. 이 논문은 두 가지 기하학적 관점에서 그 이유를 설명한다.

첫 번째는 가중치 공간에서의 스펙트럴 분석이다. 신경망의 가중치 행렬은 특이값 분해(SVD)로 분석할 수 있는데, 이때 큰 특이값들은 사전 학습 과정에서 중요하게 형성된 정보 구조를 나타낸다. LoRA처럼 저차원 행렬로 업데이트를 근사하는 방법은 이 특이값 구조에 선택적으로 개입하게 되고, 그 과정에서 사전 학습이 만들어놓은 정보 계층을 교란할 수 있다. 반면 직교 파인튜닝은 특이값의 크기는 보존하면서 방향만 조금씩 회전시키는 방식으로 업데이트를 수행하기 때문에, 사전 학습의 스펙트럴 구조를 상대적으로 잘 유지한다.

두 번째는 활성화 공간에서의 표현 보존 분석이다. 어떤 입력이 주어졌을 때 모델 내부에서 만들어지는 벡터 표현이 파인튜닝 전후로 어떻게 변하는지를 측정한 것이다. 연구팀은 망각이 등거리 변환(isometric)이 아닌 왜곡과 연결됨을 발견했다. 즉, 표현 공간에서 거리 관계가 뒤틀릴 때 일반 능력이 손상된다. 파인튜닝이 특정 태스크의 표현은 날카롭게 만들지만 다른 개념들 사이의 관계 구조를 무너뜨릴 때, 그 모델은 다운스트림 성능은 높지만 일반 능력은 낮은 모델이 된다. 이 분석은 망각이 단순히 정보 손실이 아니라 표현 공간의 기하학적 왜곡이라는 점을 보여준다.

더 나은 체크포인트를 찾아서: 경로 되감기

논문의 또 다른 흥미로운 발견은 지도형 파인튜닝(SFT)의 최종 체크포인트에 관한 것이다. 학습이 진행될수록 모델은 태스크에 더 잘 맞춰지지만, 어느 순간부터는 일반 능력이 급격히 훼손되기 시작한다. 최종 체크포인트가 반드시 안정성-가소성 균형의 최적점이 아니라는 뜻이다. 학습 경로 중 어딘가에 태스크 성능과 능력 보존이 더 잘 균형을 이루는 지점이 존재한다.

이로부터 도출된 실용적 제안이 경로 되감기(path-wise rewinding)다. 이미 학습이 완료된 체크포인트를 그대로 쓰는 대신, 학습 과정에서 저장해둔 중간 체크포인트들로 되돌아가서 더 나은 안정성-가소성 균형을 찾는 것이다. 추가 학습 없이 사후적으로 모델 품질을 개선할 수 있다는 점에서, 이미 파인튜닝이 완료된 모델을 재활용하거나 배포 단계에서 적용하기 용이한 방법이다.

PEFT-Arena가 제기하는 문제의식은, 지금 이 순간에도 수천 개의 파인튜닝된 모델이 다운스트림 성능 하나만으로 평가받고 있다는 현실을 돌아보게 한다. 어시스턴트 모델이 특정 도메인에서 뛰어나더라도 상식, 추론, 언어 이해 같은 기반 능력이 함께 손상되었다면 그것을 진정 더 좋은 모델이라 부를 수 있는지 묻는 것이다. 파인튜닝 평가의 패러다임 전환을 촉구하는 이 논문은, LLM 적응 기술이 성숙해가는 이 시점에 적절한 질문을 던지고 있다.