스킬을 살아있는 자산으로 관리, 에이전트 자율 진화의 새 지평

LLM 에이전트가 만들어내는 스킬 대부분은 생성 직후 멈춰버린 정적 아티팩트였다. MUSE-Autoskill은 스킬에 생애주기를 부여해 경험이 쌓일수록 스스로 개선되는 체계를 제안한다. 스킬을 일회용 도구가 아닌 장기 자산으로 다루는 이 관점 전환이 에이전트 연구의 새로운 방향을 열고 있다.

고립된 도구에서 살아 숨 쉬는 자산으로

LLM 기반 에이전트 연구에서 재사용 가능한 스킬을 구축하고 관리하는 문제는 오랫동안 핵심 과제였다. Voyager나 TALM 같은 프레임워크는 에이전트가 새로운 작업을 만날 때마다 코드 형태의 스킬을 생성해 라이브러리에 저장하는 방식을 택했다. 그러나 이들 스킬은 생성된 순간 이후 거의 변하지 않는 정적 아티팩트로 남았다. 한번 만들어진 스킬은 맥락이 달라져도 그대로 재사용되었고, 실패 경험이 쌓여도 개선되지 않았으며, 스킬 간 연관성도 체계적으로 관리되지 않았다.

MUSE-Autoskill은 이 문제를 정면으로 겨냥한다. 논문이 제안하는 핵심 통찰은 단순하지만 강력하다. 스킬을 일회용 도구가 아닌, 경험이 축적되고 테스트되며 지속적으로 개선되는 장기 자산으로 다뤄야 한다는 것이다. 마치 소프트웨어 엔지니어링에서 잘 관리된 라이브러리가 팀 전체의 생산성을 높이듯, 에이전트도 자신의 스킬을 체계적으로 관리하면 더 복잡한 작업을 더 효율적으로 해결할 수 있다는 발상이다. 이 관점 전환은 에이전트의 능력 향상을 단순히 더 큰 모델이나 더 나은 프롬프트의 문제로만 보지 않겠다는 선언이기도 하다.

생애주기로 설계된 스킬 관리 체계

MUSE-Autoskill의 핵심 아키텍처는 스킬의 전체 생애주기를 다섯 단계로 구조화한다. 생성(Creation), 기억(Memory), 관리(Management), 평가(Evaluation), 그리고 정제(Refinement)다.

스킬 생성 단계에서 에이전트는 새로운 작업을 마주쳤을 때 기존 스킬로 해결 가능한지 먼저 판단한 후, 필요하다면 새로운 스킬을 만들어낸다. 여기서 주목할 점은 스킬이 단순한 코드 스니펫이 아니라 자연어 설명, 타입이 명시된 인터페이스, 사용 예시, 그리고 단위 테스트까지 포함하는 완성된 패키지로 만들어진다는 것이다. 이 초기 투자는 이후 평가와 정제 단계에서 테스트할 근거를 마련해준다는 점에서 중요하다.

기억 단계는 이 프레임워크가 기존 접근과 가장 크게 갈라지는 지점이다. MUSE-Autoskill은 태스크 수준의 기억에 그치지 않고 스킬 수준의 기억을 별도로 운영한다. 각 스킬은 자신이 적용된 작업들, 성공과 실패의 경험, 다른 스킬과의 조합 패턴 등을 누적 기록한다. 이 기억은 이후 해당 스킬을 재사용할 때 더 적합한 방식으로 적용하거나 맥락에 맞게 조정하는 데 활용된다. 스킬이 단지 저장되는 것이 아니라 경험을 통해 더 영리해진다는 점이 이 설계의 핵심이다.

관리 단계에서는 늘어나는 스킬들 사이에서 작업에 적합한 스킬을 신속하게 찾아내는 메커니즘이 작동한다. 단순한 키워드 검색이 아니라 작업의 의미론적 특성과 스킬의 역량을 매칭하는 방식이다. 그리고 평가와 정제 단계에서는 런타임 피드백과 단위 테스트 결과를 바탕으로 스킬 자체를 수정하고 개선한다. 실패한 스킬은 폐기되는 것이 아니라 무엇이 잘못되었는지 분석하고 수정된다. 생성 시 작성된 단위 테스트들은 회귀 테스트 스위트로 기능하며, 정제 과정에서 기존에 잘 작동하던 동작이 망가지는 것을 막아준다.

에이전트 간 스킬 전이가 열어주는 가능성

SkillsBench를 대상으로 한 실험에서 특히 흥미로운 결과는 교차 에이전트 스킬 전이 실험이다. MUSE-Autoskill은 한 에이전트가 축적한 스킬 라이브러리를 다른 에이전트가 그대로 활용할 수 있도록 설계되었는데, 스킬 라이브러리를 전이받은 에이전트는 처음부터 스킬을 쌓기 시작하는 에이전트보다 빠르게 성능에 도달했다.

이 결과가 시사하는 바는 좁지 않다. 기업 환경에서 특정 도메인 작업을 수행하며 수개월간 스킬을 쌓은 에이전트의 라이브러리를 새로 배포된 에이전트가 즉시 활용할 수 있다면, 에이전트 시스템의 콜드 스타트 비용을 극적으로 낮출 수 있다. 나아가 도메인별 전문 스킬 라이브러리를 커뮤니티가 공유하고 발전시키는 생태계도 상상해볼 수 있다.

MUSE-Autoskill이 제기하는 더 근본적인 질문은 이것이다. LLM 에이전트의 능력 향상을 단순히 더 큰 모델, 더 나은 프롬프트의 문제로만 볼 것인가, 아니면 경험을 통해 자신의 도구 집합을 진화시키는 메커니즘의 문제로도 볼 것인가. 이 논문은 후자의 방향을 체계적으로 탐구하며, 에이전트가 단순히 지시를 따르는 존재에서 자신만의 역량을 키워가는 존재로 진화하는 경로를 구체적으로 제시한다.