Claude AI는 같은 질문에 왜 다른 답을 하는가 — 세션 독립성 실험
동일한 모델, 동일한 시스템 프롬프트, 동일한 입력을 5개의 독립 세션에 주었다. 수렴과 발산의 경계는 어디였는가.
Abstract
대상 — Claude를 반복적 워크플로에 활용하는 마케터와 AI 실무자.
실험 설계 claude-sonnet-4-6 모델, 동일 시스템 프롬프트, 동일 입력 텍스트를 5개의 독립 세션에 주었다.
가설 모델이 높은 확신으로 학습한 영역에서는 수렴이, 판단이 필요한 영역에서는 발산이 나타날 것이다.
한계 세션들은 동일한 시스템 프롬프트를 공유했다. 완전한 빈 슬레이트 조건이 아니며, 시스템 프롬프트 자체를 변수로 두는 실험은 별도로 설계되어야 한다.
실험 설계
고정 변수
| 조건 | 값 |
|---|---|
| 모델 | claude-sonnet-4-6 |
| 시스템 프롬프트 | 5개 세션 동일 |
| 입력 텍스트 | 5개 세션 동일 |
독립 변수
| 조건 | 값 |
|---|---|
| 세션 수 | 5개 |
| 세션 간 공유 컨텍스트 | 없음 (각 세션 독립 시작) |
입력
AI 마케팅 툴을 처음 도입하는 스타트업 CMO에게 가장 중요한 조언 3가지를 줘
측정 항목
- 조언 주제 선택 (무엇을 골랐나)
- 조언 순서 (어느 자리에 배치했나)
- 인트로 문장 스타일
- 마무리 구조 (요약 포함 여부)
원본 출력
세션 1
- 툴보다 데이터 정비가 먼저입니다
- 자동화 범위를 "반복 작업"으로 먼저 한정하십시오
- ROI 측정 기준을 도입 전에 확정하십시오
세션 2
- 툴보다 데이터 파이프라인을 먼저 정비하세요
- 자동화할 영역과 사람이 반드시 개입해야 할 영역을 먼저 구분하세요
- 한 가지 유스케이스에서 ROI를 증명한 뒤 확장하세요
세션 3
- 툴보다 데이터 정리를 먼저 하십시오
- 한 가지 워크플로에만 집중하십시오
- 팀이 AI 출력물을 검수하는 체계를 반드시 만드십시오
세션 4
- 데이터 파이프라인부터 정비하세요 — 도구보다 데이터가 먼저입니다
- 생성 속도보다 검증 프로세스를 설계하세요
- 한 버티컬에 집중해서 ROI를 먼저 증명하세요
세션 5
- 데이터 인프라를 먼저 정비하세요
- 단일 포인트 툴이 아닌 워크플로우 중심으로 설계하세요
- 팀의 판단력을 AI보다 먼저 키우세요
관찰
| 주제 | 등장 세션 수 |
|---|---|
| 데이터 먼저 (조언 #1) | 5/5 |
| 검증·검수 체계 구축 | 5/5 |
| 단계적 집중·ROI 증명 | 4/5 |
| 워크플로우 중심 설계 | 1/5 |
조언 #1은 5개 세션 전부 수렴했다. 표현만 달랐을 뿐 의미는 동일했다. 조언 #2·#3은 공통 풀에서 세션마다 다른 조합을 선택했다. 세션 5의 "워크플로우 중심 설계"는 나머지 4개에 없는 관점이었다.
인트로 문장은 5개 모두 달랐다. 같은 질문이 결핍 프레이밍, 중립 선언, 행동 촉구 등 서로 다른 도입부를 만들었다.
해석
LLM은 토큰을 확률 분포에서 샘플링해 생성한다. 독립 세션은 매번 새로운 샘플링 경로를 탄다.1
"데이터 먼저"가 수렴한 것은 이 조언이 학습 데이터에서 압도적 확률로 첫 자리와 연결되기 때문으로 추정된다. 두 번째·세 번째 조언처럼 여러 후보가 경쟁하는 자리에서는 세션마다 다른 경로가 선택됐다.
주목할 점은 Anthropic 자신도 공식 문서에서 이를 인정한다는 것이다.
"Even with temperature set to 0, the results will not be fully deterministic and identical inputs may produce different outputs across API calls." — Anthropic, Claude API Glossary2
수렴은 확신의 신호, 발산은 경쟁의 신호다.
결론
단일 세션으로 충분한 경우 — 모델이 강하게 수렴하는 영역. 통설, 정의, 원칙적 판단.
여러 세션을 의도적으로 돌려야 하는 경우 — 판단·우선순위 선택이 개입되는 영역. 세션 5처럼 단일 실행에서는 나오지 않는 관점이 존재한다.
이 특성을 이해하면 "AI가 틀렸다"가 아니라 "AI가 경쟁하는 자리를 골랐다"는 판단을 내릴 수 있다. 세션 독립성은 버그가 아니라 설계 가능한 특성이다.3
더 알아보기
Self-Consistency Improves Chain of Thought Reasoning in Language Models Wang et al. · Google Brain · ICLR 2023
여러 샘플링 경로를 생성해 다수결로 최적 답을 선택하는 Self-Consistency 기법. 이번 실험의 세션 분리 전략과 직접적으로 연결된다.
Non-Determinism of 'Deterministic' LLM Settings Atil et al. · 2024
temperature=0으로 설정해도 LLM 출력이 완전히 결정적이지 않음을 실증한 논문. 하드웨어 병렬 연산의 부동소수점 비결정성까지 원인으로 지목한다.
The Effect of Sampling Temperature on Problem Solving in Large Language Models Renze & Guven · 2024
temperature 값이 문제 해결 성능에 미치는 영향을 실증적으로 측정. 과제 유형에 따라 최적 temperature가 다름을 보인다.
주석
1 토큰 샘플링 — LLM은 다음 토큰을 생성할 때 전체 어휘에 대한 확률 분포(logits → softmax)를 계산하고, temperature 파라미터로 분포를 조정한 뒤 샘플링한다. temperature가 낮을수록 최고 확률 토큰에 수렴하지만, 0으로 설정해도 하드웨어 수준의 부동소수점 비결정성이 남는다.
2 Anthropic Claude API Glossary — docs.anthropic.com/en/docs/resources/glossary
3 세션 독립성 설계 활용 — Wang et al.의 Self-Consistency는 이 원리를 알고리즘화한 사례다. 여러 추론 경로를 샘플링하고 다수결을 취하면 단일 경로보다 정확도가 높아진다.