[Daily morning study] RLHF (Reinforcement Learning from Human Feedback) 개념과 작동 원리
#daily morning study
RLHF란
RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 보상 신호로 삼아 언어 모델을 정렬(align)하는 훈련 기법이다. 단순히 다음 토큰을 잘 예측하는 것을 넘어, 사람이 원하는 방향으로 대답하도록 모델을 유도한다.
GPT-3.5/4, Claude, Gemini 등 현대적인 대화형 AI 모델들이 공통적으로 사용하는 핵심 기법이다.
왜 RLHF가 필요한가
사전 학습된 LLM(Pre-trained LLM)은 방대한 텍스트 코퍼스를 학습해 언어 능력 자체는 뛰어나지만 몇 가지 문제가 있다.
- 유해한 콘텐츠 생성: 학습 데이터에 포함된 나쁜 패턴을 그대로 재현
- 지시 무시: “요약해줘”라고 해도 엉뚱한 내용을 생성
- 사실 왜곡(Hallucination): 그럴듯해 보이지만 틀린 정보를 자신 있게 출력
손실 함수(cross-entropy loss)로 다음 단어를 예측하는 방식은 “정확하고 도움이 되는 대답”을 직접 최적화하지 않기 때문이다.
RLHF 전체 파이프라인
RLHF는 크게 3단계로 구성된다.
1단계: Supervised Fine-Tuning (SFT)
사전 학습된 기반 모델에 인간이 직접 작성한 예시 응답으로 파인튜닝한다.
- 사람이 프롬프트를 주고 “이상적인 답변”을 직접 작성
- 그 (프롬프트, 답변) 쌍으로 지도 학습
이 단계를 거친 모델을 SFT 모델 또는 기반 정책(base policy)이라 부른다.
2단계: Reward Model (RM) 학습
인간 평가자가 모델 응답 여러 개를 보고 순위를 매긴다. 이 선호 데이터로 별도의 보상 모델을 학습한다.
프롬프트: "파이썬에서 리스트 정렬하는 방법?"
응답 A: sorted()를 사용하면 새 리스트를 반환합니다. list.sort()는 제자리 정렬입니다.
응답 B: 정렬은 어렵습니다.
인간 평가: A > B
이런 비교 데이터 수만~수십만 쌍으로 “좋은 응답 vs 나쁜 응답을 구별”하는 보상 모델을 학습한다.
보상 모델은 일반적으로 SFT 모델과 동일한 아키텍처를 쓰되, 마지막 레이어를 스칼라 점수(reward score)를 출력하도록 교체한다.
3단계: PPO로 정책 최적화
SFT 모델을 정책(policy)으로 삼아, 보상 모델이 높은 점수를 주는 방향으로 강화학습을 수행한다.
주로 PPO(Proximal Policy Optimization) 알고리즘을 사용한다.
PPO 적용 방식
[프롬프트] → [현재 정책 모델] → [생성된 응답]
↓
[보상 모델] → [reward score r]
↓
[PPO로 정책 파라미터 업데이트]
업데이트 시 중요한 제약이 하나 추가된다.
KL Divergence 패널티: 정책이 SFT 모델로부터 너무 멀리 벗어나지 않도록 제한한다.
최종 목적함수 = E[r(x, y)] - β * KL(π_RL || π_SFT)
r(x, y): 보상 모델의 점수KL(π_RL || π_SFT): 현재 정책과 SFT 정책 간의 분포 차이β: KL 패널티 가중치 (보통 0.02 ~ 0.2)
KL 패널티가 없으면 모델이 보상 모델을 “해킹”해서 언어 능력이 무너지는 현상(reward hacking)이 발생한다.
보상 모델 학습 방법 (Bradley-Terry 모델)
두 응답 A와 B가 있을 때, 인간이 A를 선호한다면:
P(A > B) = σ(r(A) - r(B))
여기서 σ는 시그모이드 함수, r은 보상 모델의 출력 점수다.
손실 함수:
L = -E[log σ(r(y_w) - r(y_l))]
y_w: 선호된 응답 (winner)y_l: 덜 선호된 응답 (loser)
RLHF의 한계
| 한계 | 설명 |
|---|---|
| 인간 피드백 비용 | 고품질 비교 데이터 수집에 많은 시간과 비용 필요 |
| 보상 해킹 | 보상 모델의 허점을 이용해 점수는 높지만 품질은 낮은 응답 생성 |
| 평가자 편향 | 평가자마다 주관적 기준이 달라 일관성 부족 |
| 분포 이탈 | PPO 학습 중 off-distribution 샘플이 생성되어 불안정 |
RLHF 이후의 발전
RLHF의 복잡성과 비용 문제를 개선하기 위한 후속 연구들이 나왔다.
DPO (Direct Preference Optimization)
- PPO와 보상 모델 없이 선호 데이터만으로 직접 정책을 최적화
- 구현이 훨씬 단순하고 안정적
RLAIF (RL from AI Feedback)
- 인간 평가자 대신 다른 AI 모델이 피드백을 생성
- Constitutional AI(CAI)가 대표적인 예
정리
| 단계 | 목적 | 핵심 재료 |
|---|---|---|
| SFT | 지시 따르기 능력 습득 | 인간 작성 예시 응답 |
| Reward Model 학습 | 좋은 응답 판별 기준 학습 | 인간의 응답 비교 순위 |
| PPO | 보상을 높이는 방향으로 정책 개선 | 보상 모델 + KL 패널티 |
RLHF는 단순 파인튜닝과 달리 “사람이 원하는 것”을 직접 신호로 삼는다는 점에서 LLM 정렬(alignment) 연구의 핵심 축이다. 보상 해킹, 평가 편향 등 여전히 해결 중인 문제들이 있지만, 현재 대부분의 상용 LLM이 이 과정을 거쳐 배포된다.