형식 인식 프로토타입, 멀티모달 연속 학습의 전문가 라우팅 한계 극복

멀티모달 LLM이 여러 작업을 순차적으로 배울 때, 의미는 비슷하지만 답변 형식이 전혀 다른 작업들이 같은 전문가 어댑터로 잘못 배정되는 문제가 있다. ProtoAda는 출력 구조를 함께 인코딩한 형식 인식 프로토타입으로 이 근본적 맹점을 해소하며, 연속 학습 설계의 새로운 관점을 제시한다.

멀티모달 대형 언어 모델(MLLM)은 이미지와 텍스트를 동시에 이해하고 생성하는 능력에서 눈부신 성과를 보여왔다. 그러나 실제 서비스 환경에서는 단 한 번의 학습으로 모든 작업을 처리할 수 없다. 시각적 질의응답(VQA), 이미지 캡션 생성, 객체 위치 추정(grounding) 같은 다양한 능력을 차례로, 지속적으로 쌓아가야 하는 상황이 펼쳐진다. 멀티모달 연속 지시 튜닝(Multimodal Continual Instruction Tuning, MCIT)이라 불리는 이 과제는, 새로운 능력을 습득하면서 이전에 배운 것을 잊지 않는 섬세한 균형을 요구한다.

전문가를 잘못 찾아가는 작업들

최근 MCIT 연구에서 주목받는 방법론은 Mixture of LoRA Experts(MoLoRA) 구조다. 단일 대형 모델에 여러 개의 경량 어댑터를 전문가처럼 달아두고, 각 입력이 들어오면 이미지와 텍스트의 유사도를 기준으로 적절한 전문가에게 작업을 배분한다. 이 방식은 작업 간 간섭을 줄이고 효율적인 파라미터 활용을 가능하게 한다.

그런데 여기서 근본적인 맹점이 드러난다. 시각-언어적 의미가 유사한 작업이라도 요구하는 답변 형식은 전혀 다를 수 있다. VQA 작업은 고양이가 등장하는 이미지를 보고 "몇 마리인가"라는 질문에 "2마리"처럼 짧고 간결한 텍스트를 출력하면 된다. 반면 grounding 작업은 동일하게 고양이가 등장하는 이미지를 다루더라도 "고양이의 위치가 어디인가"에 대한 답으로 [x1, y1, x2, y2] 형태의 좌표 배열을 생성해야 한다.

이미지-텍스트 유사도만으로 라우팅하면, 의미적으로 유사한 이 두 작업이 같은 전문가 어댑터로 배정된다. 그 결과 짧은 텍스트 출력에 익숙해진 전문가가 좌표 형식을 요구받을 때 엉뚱한 답을 내놓거나, 역으로 좌표 생성에 특화된 전문가가 VQA 질문에 불필요하게 개입해 기울기 간섭(gradient interference)을 일으킨다. 연속적으로 학습이 쌓일수록 이 문제는 점점 심화된다. 논문이 이를 '형식 맹목적 작업 배정(format-blind task assignment)'이라고 명명한 것은 정확한 진단이다.

ProtoAda: 형식을 읽는 프로토타입

Yu-Cheng Shi 등이 제안한 ProtoAda는 이 문제의 뿌리를 형식 인식의 부재로 진단하고, 두 가지 핵심 메커니즘으로 해법을 구성한다.

첫 번째는 형식 인식 작업 프로토타입(format-aware task prototypes)이다. ProtoAda는 각 작업을 표현할 때 의미적 임베딩만 쓰지 않는다. 해당 작업이 요구하는 출력 구조—짧은 텍스트인지, 긴 서술인지, 좌표 배열인지—를 함께 인코딩해 프로토타입 벡터를 구성한다. 라우팅 결정은 이 형식 인식 프로토타입을 기준으로 이루어지므로, 의미는 비슷하지만 형식이 다른 작업들이 서로 다른 전문가에게 적절히 분리된다.

두 번째는 기하학적 통합(geometry-aware consolidation)이다. 새로운 전문가를 무작정 추가하다 보면 파라미터가 폭발적으로 늘어난다. ProtoAda는 형식이 호환되는 작업들의 파라미터 업데이트를 기하학적 거리 기반으로 병합하여, 기존 전문가를 점진적으로 정제한다. 서로 양립 가능한 방향으로 파라미터를 당기는 작업들은 별도의 전문가를 새로 만드는 대신 기존 전문가를 함께 개선하는 방식으로 활용된다. 이로써 새로운 능력을 쌓으면서도 파라미터 증가를 억제하고, 이전 지식을 효과적으로 재활용할 수 있다.

연속 학습의 오래된 적, 그리고 새로운 동맹

치명적 망각(catastrophic forgetting)은 신경망이 새 작업을 배우면서 이전 작업의 성능이 급격히 저하되는 현상으로, 연속 학습 연구의 핵심 난제였다. 대부분의 접근법은 새 학습이 기존 파라미터를 덮어쓰지 못하도록 막는 단일한 전략에 집중한다. ProtoAda의 기여는 이 문제에 두 갈래로 동시에 대응한다는 점에 있다. 형식 인식 라우팅이 이질적인 작업 유형 사이의 간섭을 사전에 차단한다면, 기하학적 통합은 형식이 호환되는 작업들 사이에서 지식 공유와 재사용을 극대화한다.

저자들이 여러 벤치마크에서 실험한 결과, ProtoAda는 특히 순차 학습 과정에서 답변 구조가 쉽게 무너지는 작업들—좌표 예측, 구조화된 출력 등—에서 기존 방법 대비 뚜렷한 성능 향상을 보였다. 의미 유사도 라우팅만 쓰는 기존 MoLoRA 계열이 취약한 바로 그 지점에서 ProtoAda가 강점을 발휘한다는 점은, 이 논문의 진단과 처방이 서로 정확히 맞아떨어진다는 증거이기도 하다.

MLLM이 점점 더 다양한 과제를 실시간으로 학습해야 하는 미래를 생각하면, 형식 인식이라는 개념이 단순히 이 논문 한 편의 기여에 그치지 않을 가능성이 높다. 모델이 무엇을 알아야 하는지뿐 아니라 어떻게 답해야 하는지까지 함께 관리하는 설계 원칙은, 앞으로의 연속 학습 연구에서 빠질 수 없는 관점으로 자리 잡을 것이다.