RLHF

[[컴퓨터공학|컴퓨터 과학 & 공학

Computer Science & Engineering

]]

[ 펼치기 · 접기 ]

||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colkeepall><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||

하드웨어 구성	SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술	기계어 · 어셈블리어 · 바이오스 · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구 및 기타	논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영체제(멀티태스킹 · 프로세스 스케줄링 · 데드락 · 식사하는 철학자 문제 · 뮤텍스 · 세마포어 · 인터럽트) · 데이터베이스 · 컴퓨터 언어 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 어휘 분석 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 마크업 언어 · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크(네트워크 포트) · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템)

학습
행동학습				인지학습			기계학습 ⊃ 심층학습
비연합학습		연합학습		사회학습	잠재학습	통찰학습	지도학습	비지도학습	강화학습
습관화	민감화	고전적 조건형성	도구적 조건형성

1. 개요2. 작동 원리3. 도입 시 장점4. 한계5. 주요 활용 사례

1. 개요

RLHF를 쇼거스가 쓴 스마일리 가면으로 묘사한 밈 'AI Shoggoth'

RLHF는 Reinforcement Learning from Human Feedback의 약자로 인간의 피드백을 통한 강화학습.
LLM을 미세 조정(Fine-tuning)하는 기법이다. RLHF에서는 인간이 직접 '좋다/나쁘다' 혹은 'A가 B보다 낫다' 등으로 AI 생성물에 대해 평가해주면 AI가 이 피드백을 학습해 인간이 선호하는 산출물을 내뱉게 된다.

ChatGPT, Claude와 같은 최신 챗봇 AI들의 성능 향상에 결정적인 역할을 한 기술 중 하나로 꼽힌다. 기존의 방식으로는 정의하기 어려웠던 '좋은 답변', '유용한 답변'과 같은 추상적인 목표를 인간의 선호를 직접 반영해 달성하려는 시도 중에 하나였고 이게 ChatGPT로 큰 대박을 치게 된다.

아무래도 인간 평가자가 들어가는만큼 비용이나 확장성 문제가 존재하며 이런 문제점을 해결하기 위해 AI가 생성한 피드백을 활용하는 RLAIF(Reinforcement Learning from AI Feedback) 등의 후속 연구도 속속들이 진행되고 있다. 2025년 초에는 딥시크의 추론 인공지능인 R1이 학습 파이프라인에서 RLHF 과정을 생략했다고 밝혀 파장을 일으키기도 했다.

2. 작동 원리

RLHF는 크게 3단계로 진행된다.

1. 사전훈련(Pre-training)된 언어 모델 준비

사전훈련을 마친 LLM이 필요하다. 이 모델은 방대한 텍스트 데이터를 학습하여 기본적인 언어 능력을 갖추고 있다.

2. 보상 모델(Reward Model) 훈련

준비된 모델에게 특정 프롬프트(지시어)를 주고 여러 개의 답변을 생성하게 한다.
인간 평가자가 이 답변들을 보고 어떤 답변이 더 좋은지 순위를 매기거나 점수를 부여한다. (예: 답변 A > 답변 B > 답변 C)
수집된 인간의 선호도 데이터를 이용해, 어떤 답변이 '좋은' 답변인지를 예측하는 별도의 보상 모델을 훈련시킨다. 이 보상 모델은 특정 답변을 입력받으면 인간이 부여할 법한 '점수'(보상)를 출력한다.

3. 강화학습을 이용한 미세 조정(Fine-tuning)

원본 언어 모델을 강화학습의 환경 에이전트로 삼는다.
모델이 특정 프롬프트에 대해 답변을 생성하면(행동), 2단계에서 훈련된 보상 모델이 이 답변에 대한 점수(보상)를 준다.
모델은 이 보상 점수를 최대로 받는 방향으로 자신의 정책(답변 생성 방식)을 업데이트한다. 이 때 강화학습 알고리즘이 사용되는데, GPT-3을 위시한 대부분의 LLM은 주로 PPO(Proximal Policy Optimization)를 사용한다.
이 과정을 반복해 모델이 점차 인간의 선호도에 맞는 답변을 생성하도록 유도한다.

결과적으로 RLHF를 거친 모델은 기술적으로 정확할 뿐 아니라 인간 사용자가 느끼기에 더 자연스럽고 유용하며 안전한 결과물을 생성할 수 있게 된다.

3. 도입 시 장점

인간의 가치 및 선호도 반영: '좋은 글', '도움되는 답변' 등 수치화하기 어려운 목표를 인간의 피드백을 통해 직접 학습시킬 수 있다.
성능 향상: 특히 대화형 AI, 콘텐츠 생성 등 주관적인 품질이 중요한 분야에서 성능을 크게 개선할 수 있다.
안전성 강화: 유해하거나 편향된 답변 생성을 줄이고, AI가 의도에 맞게 작동하도록(Alignment) 유도하는 데 효과적이다. 사람들이 말하는 '인공지능 정렬'이 지금까지는 RLHF로 주로 이뤄지고 있다고 보면 된다.

4. 한계

높은 비용과 시간: 다수의 인간 평가자가 직접 데이터를 생성하고 평가해야 하므로 비용과 시간이 많이 소요된다.
확장성 문제: 모든 가능한 상황에 대해 인간 피드백을 받는 것은 불가능하며, 데이터 수집 규모에 한계가 있다.
인간 편향성 전이: 평가자들의 주관적인 판단이나 편향이 보상 모델과 최종 모델에 그대로 학습될 수 있다.[1]
보상 해킹(Reward Hacking): 모델이 보상 모델의 허점을 파고들어 점수만 높고 실제로는 이상한 답변을 생성할 가능성이 있다.
복잡성: 전체 프로세스가 여러 단계로 이루어져 구현 및 관리가 복잡하다.

5. 주요 활용 사례

OpenAI의 ChatGPT
Anthropic의 Claude
구글의 Gemini
Meta의 Llama 2-Chat 모델 등 다수의 LLM 파인튜닝

[1] 안드레 카파시(Andrej Karpathy)는 한 트위터 포스트에서 RLHF는 진정한 의미의 강화학습이라고 보기 어렵다는 의견을 내비쳤었다.