AI · Web3 · Tech trends and insights at a glance
AI · Web3 · Tech trends and insights at a glance
by Liminal·P
2026.06.11원문 논문 ↗
Context-Driven Incremental Compression for Multi-Turn Dialogue Generation
Yeongseo Jung, Jaehyeok Kim, Eunseo Jung, Jiachuan Wang, Yongqi Zhang, Ka Chun Cheung
발행일: 2026.06.10
현대 AI 대화 시스템은 대화가 길어질수록 과거 맥락 전체를 반복해서 읽어야 해 처리 비용이 급증하고 품질이 하락한다. C-DIC는 대화를 맥락 스레드로 분해하고 각 스레드의 압축 상태를 수정 가능한 메모리로 관리함으로써 이 문제를 정면으로 해결한다. 수백 턴의 대화에서도 추론 지연과 생성 품질이 안정적으로 유지됨을 실험으로 입증했다.
LLM 기반 대화 시스템은 매 턴마다 지금까지의 대화 전체를 컨텍스트로 입력받는다. 대화가 10턴, 20턴, 수백 턴으로 늘어날수록 어텐션 연산 비용은 기하급수적으로 불어나고, 긴 대화를 다루는 모델은 실용적 한계에 빠르게 도달한다. 가장 단순한 해결책은 오래된 턴을 잘라버리는 것이지만, 그 과정에서 이전에 언급된 이름이나 약속, 감정적 맥락처럼 나중에 중요해질 정보가 소리 없이 사라진다. 또 다른 방법인 요약은 자연어 수준에서 맥락을 보존하지만, 요약 오류가 이후 턴으로 전파되어 대화가 길어질수록 품질이 누적적으로 떨어지는 치명적 문제를 안고 있다.
기존 컨텍스트 압축 연구들도 이 문제를 다뤄왔지만, 공통된 약점이 있다. 각 턴을 독립적으로 압축하고 이전 압축 결과를 수정할 수 없다는 점이다. 한 번 잘못 압축된 정보는 고쳐질 기회 없이 다음 턴으로 넘어가고, 오류는 점점 쌓인다. 논문이 제시하는 C-DIC(Context-Driven Incremental Compression)는 이 구조적 결함을 정면으로 겨냥한다.
C-DIC의 핵심 직관은 단순하면서도 강력하다. 대화는 하나의 선형 시퀀스가 아니라 여러 주제 또는 맥락의 '스레드'가 교차하면서 이어지는 구조라는 것이다. 예컨대 사용자가 여행 계획을 이야기하다가 식당 추천을 요청하고 다시 여행 일정으로 돌아오는 경우, 두 주제는 별개의 스레드로 관리될 수 있다. C-DIC는 이 직관을 체계화해, 각 스레드별로 압축 상태를 단일 '대화 메모리'에 저장한다.
매 턴마다 모델은 세 단계를 반복한다. 먼저 현재 턴과 관련된 스레드를 검색(retrieve)하고, 새 정보를 반영해 해당 스레드의 압축 상태를 수정(revise)한 뒤, 갱신된 상태를 메모리에 다시 기록(write-back)한다. 이 루프는 가볍고 빠르게 동작하도록 설계되었으며, 핵심은 '수정 가능성'에 있다. 이전 턴에서 불완전하게 압축된 정보라도 이후 턴에서 새로운 단서가 등장하면 메모리를 소급해서 고칠 수 있다. 이는 기존 압축 방식이 갖지 못했던 특성이다.
학습 방법 역시 주목할 만하다. 논문은 TBPTT(Truncated Backpropagation Through Time)를 멀티턴 대화 설정에 맞게 적용했다. 원래 순환 신경망 훈련에 쓰이던 이 기법은 전체 시퀀스를 한 번에 역전파하는 대신 일정 구간씩 잘라서 그래디언트를 계산한다. C-DIC는 이를 대화 턴 단위로 확장해, 전체 대화 이력을 역전파하지 않고도 턴 간 의존성을 학습할 수 있게 했다. 메모리 효율성과 훈련 안정성을 동시에 잡은 설계다.
실험 결과는 장기 대화 상황에서 C-DIC의 우위를 뚜렷하게 드러낸다. 가장 인상적인 결과는 수백 턴이 지나도 추론 지연(inference latency)과 퍼플렉서티(perplexity)가 안정적으로 유지된다는 점이다. 대부분의 기존 방법은 대화가 길어질수록 지연이 늘어나거나 품질이 하락하는 반면, C-DIC는 두 지표를 동시에 제어한다. 이는 단순한 벤치마크 수치의 차이가 아니라, 실제 서비스 환경에서의 확장 가능성과 직결되는 결과다.
장기 대화를 처리하는 AI 에이전트, 고객 서비스 챗봇, 또는 수십 회의 대화가 쌓이는 개인 어시스턴트를 생각해보면 C-DIC가 열어주는 가능성이 명확해진다. 오늘날 LLM 기반 시스템의 실용적 한계 중 하나가 바로 대화가 길어질수록 기억의 품질이 열화된다는 점이다. 점진적이고 수정 가능한 압축이라는 이 접근은, 맥락을 일회성으로 인코딩하는 것이 아니라 지속적으로 관리해야 할 대상으로 바라보는 시각의 전환을 담고 있다.