높은 확률이 정답을 보장하지 않는다, LLM 디코딩 통념의 균열

더 그럴듯한 출력이 더 옳은 답이라는 믿음은 디코딩 기법 대부분의 숨은 전제다. 그런데 시퀀스 확률은 어떤 층위에서는 정답과 맞아떨어지지만, 다른 층위에서는 전혀 그렇지 않다. 확률을 끌어올린다고 정확도가 따라 오르지 않는 이유를 네 개의 해상도에서 분해한 연구다.

대규모 언어모델이 한 문장을 완성하는 과정은 겉보기에는 단순하다. 모델은 다음에 올 수 있는 모든 토큰에 확률을 부여하고, 디코딩 알고리즘은 그 분포를 따라 출력을 한 조각씩 골라낸다. 그리디 디코딩, 빔 서치, 뉴클리어스 샘플링처럼 우리가 일상적으로 쓰는 기법들은 결국 하나의 직관을 공유한다. 모델이 더 그럴듯하다고 평가한 출력, 곧 확률이 더 높은 출력이 더 나은 답일 것이라는 믿음이다. 토큰 수준에서든 시퀀스 전체 수준에서든, 디코딩이란 확률 질량을 더 가능성 높은 쪽으로 밀어 넣는 작업으로 정리할 수 있다. 그렇다면 이 모든 방법의 성패는 단 하나의 근본적인 질문에 달려 있다. 프롬프트가 주어졌을 때 특정 연속 출력이 나올 조건부 확률, 즉 시퀀스 확률은 과연 정답 여부와 일치하는가.

Johannes Zenn과 Jonas Geiping의 논문은 이 질문을 막연한 통념의 영역에서 측정 가능한 대상으로 끌어내린다. 연구진은 확률과 정답성의 관계를 한 덩어리로 뭉뚱그리지 않고 네 개의 서로 다른 층위에서 분리해 들여다본다. 여러 디코딩 방법들 사이에서, 한 방법 안에서 하이퍼파라미터를 바꿀 때, 하나의 데이터셋 안에 있는 여러 프롬프트-정답 쌍 사이에서, 그리고 똑같은 프롬프트에 대한 반복 응답들 사이에서. 이 네 가지를 구분하는 순간, 그동안 하나로 보였던 질문이 사실은 전혀 다른 네 개의 질문이었음이 드러난다. 그리고 이들은 같은 답을 공유하지 않는다.

확률이 정답을 가리키는 단 하나의 층위

가장 고무적인 발견은, 시퀀스 확률이 정답을 예측하는 경우가 분명히 존재한다는 것이다. 하나의 고정된 데이터셋 안에서 여러 프롬프트-정답 쌍을 비교하면, 모델이 더 높은 확률을 부여한 답일수록 실제로 맞을 가능성이 높았다. 직관적으로 풀면 모델은 자신이 확신하는 문제와 헷갈리는 문제를 어느 정도 구분할 줄 안다. 쉬운 질문에는 높은 확률로 정답을 내놓고, 어려운 질문 앞에서는 확률 자체가 낮게 흩어진다. 이 층위에서 확률은 일종의 자신감 지표처럼 작동하며 정답성과 양의 상관을 보인다. 모델이 언제 알고 언제 모르는지를 확률값이 어느 정도 비춰 준다는 뜻이다.

문제는 이 상관관계가 다른 층위로 고스란히 옮겨가지 않는다는 데 있다. 서로 다른 질문들을 가로질러 관찰된 경향을, 같은 질문 안에서의 선택이나 디코딩 설정의 변경에까지 적용할 수 있다고 믿는 순간 직관은 어긋나기 시작한다.

통념이 무너지는 지점

상관이 곧 개입의 근거가 되지는 않는다. 연구진이 보여준 핵심은, 하이퍼파라미터를 조정하거나 디코딩 방법 자체를 바꿔 시퀀스 확률을 인위적으로 끌어올려도 정확도가 안정적으로 개선되지는 않는다는 것이다. 더 높은 확률의 출력을 겨냥하도록 디코더를 손본다고 해서 그만큼 더 자주 맞히게 되는 것은 아니라는 얘기다. 또한 같은 프롬프트에 대해 모델이 여러 번 응답을 생성했을 때, 그중 확률이 가장 높은 응답이 정답이라는 보장도 없었다. 한 질문에 대한 여러 후보 사이에서 확률은 정답을 가려내는 좋은 지표가 아니었다.

이 대비는 통계에서 익숙한 함정을 떠올리게 한다. 질문들 사이에서 성립하는 평균적 경향이, 한 질문 내부의 선택이나 시스템에 가하는 조작으로는 그대로 번역되지 않는다. 모델의 확률은 문제의 난이도를 가늠하는 신호일 수는 있어도, 같은 난이도 안에서 옳은 길과 그른 길을 갈라내는 나침반은 아니다.

디코딩과 자기개선에 주는 함의

이 구분은 실무에 직접 닿는다. 더 정교한 확률 최대화 디코더를 들이면 정확도가 따라 오를 것이라는 기대는 신중하게 다뤄야 한다. 자기일관성(self-consistency) 기법이 작동하는 이유 역시 단순히 확률이 높은 응답을 고르기 때문이 아니라, 여러 표본에 걸친 합의 구조에서 비롯된다는 점을 시사한다. 무엇보다 검증기 없는 자기개선, 곧 모델 스스로의 확신도를 기준으로 학습 데이터를 선별하는 전략에는 분명한 경고가 된다. 한 프롬프트 안에서 확률이 높은 출력을 정답으로 가정해 다시 학습에 넣는 방식은, 바로 그 층위에서 확률이 정답을 가리키지 못한다는 이 논문의 발견과 정면으로 부딪힌다. 확률은 언제 믿을 수 있고 언제 믿을 수 없는지를 가려서 써야 하는 신호이며, 그 경계를 네 개의 해상도로 또렷이 그어낸 것이 이 연구의 기여다.