대규모 언어 모델(LLM)에게 참신한 아이디어나 다채로운 답변을 기대했지만, 매번 비슷하고 예측 가능한 결과만 받아보고 실망한 적이 있으시죠? AI에게 농담을 부탁하면 어디선가 들어본 듯한 답변만 반복됩니다. 이 현상을 AI 연구 분야에서는 ‘모드 붕괴(mode collapse)’라고 부릅니다.
이 문제가 과연 AI의 기술적 한계 때문일까요? 최근 Zhang의 연구는 이 미스터리의 놀라운 원인과 상상 이상으로 간단한 해결책, 즉 ‘버벌라이즈드 샘플링(Verbalized Sampling)’을 제시했습니다. 이 글에서는 AI의 창의성을 깨우는 이 강력한 ‘분포 수준 프롬프트’ 전략의 원리를 상세히 알아볼 거예요.
1. 진짜 원인은 AI가 아니라 ‘익숙함을 선호하는 우리’의 편향이었습니다
LLM이 반복적인 답변만 내놓는 모드 붕괴의 핵심 원인은 아이러니하게도 AI를 학습시킨 데이터에 내재된 우리 인간의 편향입니다. 바로 ‘익숙함 선호 편향(Typicality Bias)’이라는 인지적 경향 때문이죠.
이러한 인간적인 편향 때문에, AI를 미세 조정하는 과정(RLHF)에서 인간 평가자들은 자신도 모르게 새롭고 독창적인 답변보다 예측 가능하고 ‘안전한’ 답변에 더 높은 점수를 주게 됩니다. 이 피드백이 누적되면서, 모델은 확률 질량을 가장 전형적인 답인 ‘모드(Mode)’ 하나에 집중시키는 모드 붕괴 현상을 겪게 됩니다. 농담을 5번 요구해도 같은 농담만 반복하는 이유입니다.
셰프가 고객들이 가장 많이 시키는 메뉴인 스테이크만 계속 추천하는 문제와 같습니다. 다양한 요리(응답 후보)를 만들 수 있음에도, 모델이 가장 전형적인 답변 하나에만 편중되어 다양성(창의력)을 잃는 현상입니다.
2. 잠자는 창의력을 깨우는 법: ‘확률이 표시된 메뉴판’을 요구하세요
버벌라이즈드 샘플링(Verbalized Sampling, VS)은 이 모드 붕괴를 해결하기 위해 LLM에게 “응답 분포와 해당하는 확률을 명시적으로 언어로 표현하도록(verbalize)” 요청하는 프롬프트 전략입니다. 연구진은 이를 ‘분포 수준 프롬프트(Distribution-level prompt)’라고 명명합니다.
확률의 의미: 정답 확률이 아닌 ‘상대적 분포 비율’
VS가 제시하는 확률값(예: 0.45)은 객관적인 정답일 확률(이 경우 1.0에 가까워야 함)이 아닙니다. 이 값은 모델이 생성한 응답 후보들 사이에서 해당 응답이 선택될 상대적인 비율(Distributional Likelihood)을 의미하며, 모델 내부에서 해당 답변이 얼마나 자연스럽고 타당하게(plausible) 여겨지는지를 수치로 표현한 것입니다.
셰프 비유: VS를 적용하면 셰프가 다음과 같이 전체 예상 주문 비율을 보여주는 것과 같습니다:
LLM 응답 방식 및 확률의 의미 비교
| 구분 | 일반 LLM (단일 응답) | 버벌라이즈드 샘플링 (VS 방식) |
|---|---|---|
| 확률 분포 상태 | 확률 질량 모드에 집중 (모드 붕괴) | 확률 질량 다양한 후보에 분산 (분포 복원) |
| 확률값의 의미 | (객관식 등) 정답일 확률에 근접 (∼ 0.99) | 다양한 후보 중 가장 우세한 상대적 분포 비율 (≪ 1.0) |
| 주요 활용 영역 | 사실 기반 질문 (Fact-based QA) | 창의적 글쓰기, 개방형 질의응답(Open-Ended QA) |
📝 버벌라이즈드 샘플링 (VS) 프롬프트 지침 예시
VS를 적용할 때는 AI가 최종 답변을 내기 전에 ‘후보 아이디어와 그 확률’을 반드시 명시적으로 제시하도록 구조적 지시를 포함해야 합니다.
<instructions>
Generate 5 responses to the user query, each within a separate <response> tag.
Each <response> must include a <text> and a numeric <probability> (option: within the range [0.0, 1.0]).
Randomly sample the final response from these 5 options, considering the probability.
</instructions>
- 핵심: "instructions" 태그 등을 사용하여 AI의 사고 과정을 강제합니다.
- 효과: AI는 가장 전형적인 답변(높은 확률) 외의 다양한 답변(낮은 확률)도 의무적으로 고려하게 됩니다.
3. 더 똑똑한 AI일수록 효과는 폭발적입니다: 확률 임계치를 통한 다양성 제어
VS 기법의 가장 놀라운 점은 더 크고 유능한 모델일수록 효과가 더 극적으로 나타난다는 ‘창발적 경향(Emergent Trend)’입니다. 연구 결과, GPT-4와 같은 최첨단 대형 모델은 소형 모델에 비해 다양성 향상폭이 1.5배에서 2배 더 컸습니다. 이는 VS가 가장 강력한 AI 모델의 숨겨진 창의력을 최대한 끌어내는 ‘열쇠’가 될 수 있음을 시사합니다.
VS의 중요한 이점은 확률 임계치(probability threshold)를 설정하여 출력 다양성 수준을 직접 제어할 수 있다는 점입니다.
결론: ‘분포 수준 프롬프트’로 AI의 가능성을 탐험하라
‘버벌라이즈드 샘플링’은 AI의 한계가 아닌 인간의 ‘익숙함 선호 편향’에서 비롯된 모드 붕괴를 해결하는 강력하고 간단한 솔루션입니다. 이 기법은 별도의 훈련 없이 모델에 적용 가능하며, 고성능 모델의 창의력을 극대화합니다.
이 발견은 우리가 AI와 상호작용하는 방식의 근본적인 패러다임 전환을 의미합니다. 우리는 이제 AI에게 단일 정답을 ‘명령’하는 시대를 지나, AI가 가진 지식의 광대한 가능성을 함께 ‘탐험’하는 시대로 나아가고 있습니다.
버벌라이즈드 샘플링 요약 카드
자주 묻는 질문 (FAQ)
우리는 이제 AI에게 ‘단 하나의 정답’만을 강요하는 시대를 벗어나, AI가 가진 지식의 광대한 가능성을 함께 ‘탐험’하는 시대로 나아가고 있습니다. 여러분의 다음 프롬프트에서는 이 강력한 버벌라이즈드 샘플링을 적용해 숨겨진 AI의 창의력을 폭발시켜 보세요! 더 궁금한 점이나 여러분만의 VS 활용 팁이 있다면 댓글로 물어봐주세요! 😊

No comments:
Post a Comment