[Daily morning study] RLHF (Reinforcement Learning from Human Feedback) 개념과 작동 원리

#daily morning study

Image


RLHF란

RLHF(Reinforcement Learning from Human Feedback)는 인간의 피드백을 보상 신호로 삼아 언어 모델을 정렬(align)하는 훈련 기법이다. 단순히 다음 토큰을 잘 예측하는 것을 넘어, 사람이 원하는 방향으로 대답하도록 모델을 유도한다.

GPT-3.5/4, Claude, Gemini 등 현대적인 대화형 AI 모델들이 공통적으로 사용하는 핵심 기법이다.


왜 RLHF가 필요한가

사전 학습된 LLM(Pre-trained LLM)은 방대한 텍스트 코퍼스를 학습해 언어 능력 자체는 뛰어나지만 몇 가지 문제가 있다.

  • 유해한 콘텐츠 생성: 학습 데이터에 포함된 나쁜 패턴을 그대로 재현
  • 지시 무시: “요약해줘”라고 해도 엉뚱한 내용을 생성
  • 사실 왜곡(Hallucination): 그럴듯해 보이지만 틀린 정보를 자신 있게 출력

손실 함수(cross-entropy loss)로 다음 단어를 예측하는 방식은 “정확하고 도움이 되는 대답”을 직접 최적화하지 않기 때문이다.


RLHF 전체 파이프라인

RLHF는 크게 3단계로 구성된다.

1단계: Supervised Fine-Tuning (SFT)

사전 학습된 기반 모델에 인간이 직접 작성한 예시 응답으로 파인튜닝한다.

  • 사람이 프롬프트를 주고 “이상적인 답변”을 직접 작성
  • 그 (프롬프트, 답변) 쌍으로 지도 학습

이 단계를 거친 모델을 SFT 모델 또는 기반 정책(base policy)이라 부른다.

2단계: Reward Model (RM) 학습

인간 평가자가 모델 응답 여러 개를 보고 순위를 매긴다. 이 선호 데이터로 별도의 보상 모델을 학습한다.

프롬프트: "파이썬에서 리스트 정렬하는 방법?"

응답 A: sorted()를 사용하면 새 리스트를 반환합니다. list.sort()는 제자리 정렬입니다.
응답 B: 정렬은 어렵습니다.

인간 평가: A > B

이런 비교 데이터 수만~수십만 쌍으로 “좋은 응답 vs 나쁜 응답을 구별”하는 보상 모델을 학습한다.

보상 모델은 일반적으로 SFT 모델과 동일한 아키텍처를 쓰되, 마지막 레이어를 스칼라 점수(reward score)를 출력하도록 교체한다.

3단계: PPO로 정책 최적화

SFT 모델을 정책(policy)으로 삼아, 보상 모델이 높은 점수를 주는 방향으로 강화학습을 수행한다.

주로 PPO(Proximal Policy Optimization) 알고리즘을 사용한다.


PPO 적용 방식

[프롬프트] → [현재 정책 모델] → [생성된 응답]
                                       ↓
                              [보상 모델] → [reward score r]
                                       ↓
                         [PPO로 정책 파라미터 업데이트]

업데이트 시 중요한 제약이 하나 추가된다.

KL Divergence 패널티: 정책이 SFT 모델로부터 너무 멀리 벗어나지 않도록 제한한다.

최종 목적함수 = E[r(x, y)] - β * KL(π_RL || π_SFT)
  • r(x, y): 보상 모델의 점수
  • KL(π_RL || π_SFT): 현재 정책과 SFT 정책 간의 분포 차이
  • β: KL 패널티 가중치 (보통 0.02 ~ 0.2)

KL 패널티가 없으면 모델이 보상 모델을 “해킹”해서 언어 능력이 무너지는 현상(reward hacking)이 발생한다.


보상 모델 학습 방법 (Bradley-Terry 모델)

두 응답 A와 B가 있을 때, 인간이 A를 선호한다면:

P(A > B) = σ(r(A) - r(B))

여기서 σ는 시그모이드 함수, r은 보상 모델의 출력 점수다.

손실 함수:

L = -E[log σ(r(y_w) - r(y_l))]
  • y_w: 선호된 응답 (winner)
  • y_l: 덜 선호된 응답 (loser)

RLHF의 한계

한계설명
인간 피드백 비용고품질 비교 데이터 수집에 많은 시간과 비용 필요
보상 해킹보상 모델의 허점을 이용해 점수는 높지만 품질은 낮은 응답 생성
평가자 편향평가자마다 주관적 기준이 달라 일관성 부족
분포 이탈PPO 학습 중 off-distribution 샘플이 생성되어 불안정

RLHF 이후의 발전

RLHF의 복잡성과 비용 문제를 개선하기 위한 후속 연구들이 나왔다.

DPO (Direct Preference Optimization)

  • PPO와 보상 모델 없이 선호 데이터만으로 직접 정책을 최적화
  • 구현이 훨씬 단순하고 안정적

RLAIF (RL from AI Feedback)

  • 인간 평가자 대신 다른 AI 모델이 피드백을 생성
  • Constitutional AI(CAI)가 대표적인 예

정리

단계목적핵심 재료
SFT지시 따르기 능력 습득인간 작성 예시 응답
Reward Model 학습좋은 응답 판별 기준 학습인간의 응답 비교 순위
PPO보상을 높이는 방향으로 정책 개선보상 모델 + KL 패널티

RLHF는 단순 파인튜닝과 달리 “사람이 원하는 것”을 직접 신호로 삼는다는 점에서 LLM 정렬(alignment) 연구의 핵심 축이다. 보상 해킹, 평가 편향 등 여전히 해결 중인 문제들이 있지만, 현재 대부분의 상용 LLM이 이 과정을 거쳐 배포된다.