DeepSeek model V3와 R1의 모든 것

DeepSeek: V2에서 R1까지, 실용적 AI 혁신의 여정

DeepSeek은 V2에서 V3, R1-0을 거쳐 R1 개발에 성공하기까지 수많은 도전과 변화를 겪어왔습니다. 지난해 말 V3가 발표될 당시만 해도 회의적인 시각이 많았고, 아직 갈 길이 멀다는 평가가 있었습니다. 그러나 올해 1월 R1이 발표되면서 AI 업계뿐만 아니라 다양한 산업군에서 DeepSeek에 대한 관심이 급격히 높아졌습니다.

DeepSeek의 기술 발전 과정을 살펴보면, 단순한 성능 개선을 넘어 실용적이고 현실적인 문제 해결에 집중한 접근 방식이 돋보입니다. V3 기술 보고서와 R1 발표 논문을 읽다 보면, 기존 연구들을 기반으로 효과적인 최적화를 수행하며, 실제 AI 시스템에 적용할 수 있는 방법론을 정교하게 발전시켜 왔음을 알 수 있습니다.

DeepSeek: The Journey from V2 to R1, A Practical AI Innovation

DeepSeek has undergone numerous challenges and transformations, from V2 to V3, R1-0, and ultimately, the successful development of R1. Many were skeptical when V3 was announced late last year, believing there was still a long way to go. However, with the release of R1 in January this year, interest in DeepSeek surged across the AI industry and various other sectors.

Examining DeepSeek’s technological advancements from V2 to V3, and then from R1-0 to R1, provides insight into their research trajectory and development philosophy. Reading the V3 technical report and the R1 announcement paper, it becomes evident that their focus is not merely on improving raw performance but on developing a highly practical and effective approach to real-world AI applications.

DeepSeek을 둘러싼 평가와 현실

DeepSeek의 기술에 대해 "새로운 패러다임을 제시한 것은 아니다", "시장 기술 대비 월등한 성능을 보이는 것도 아니다"라는 평가도 존재합니다.

하지만 DeepSeek이 거인의 어깨 위에 올라선 방식은 매우 실용적이며, AI 연구에서 중요한 발전을 이루었다는 점을 간과해서는 안 됩니다.

논문과 소스코드를 보면, DeepSeek의 접근 방식은 단순해 보일 수도 있습니다.

· "별것 아닌 것 같은데?"라는 안도감

· "이 아이디어를 이렇게 적용하면 효과가 있나?"라는 의구심

하지만, 실제로 오픈소스를 분석해 보면 그러한 안도감과 의구심은 곧 경외감으로 바뀝니다.

Evaluations and the Reality of DeepSeek

There are still claims that "DeepSeek hasn’t introduced a new paradigm of AI" or that "its performance is only comparable to existing technologies, not significantly superior."

However, it’s crucial to recognize that DeepSeek has climbed onto the shoulders of giants in an exceptionally practical way, achieving remarkable progress in AI research.

At first glance, DeepSeek's ideas might seem simple when looking at their papers and source code:

"Is this really all that groundbreaking?"—a sense of reassurance.
"Would this idea actually be effective when applied this way?"—a feeling of skepticism.

I felt the same way. However, upon analyzing and running their open-source implementation, that initial reassurance and skepticism quickly turned into admiration.

단순하지만 강력한 구현 방식

DeepSeek이 공개한 코드는 놀라울 정도로 단순하게 구현되었습니다.

· 복잡한 이론은 기존 연구를 활용하면서도, Hugging Face 모듈을 적극적으로 활용.

· 논문에서 다루지 않았지만, 실용적인 최적화 아이디어를 적용하여 더욱 효과적인 모델을 구축.

이러한 점들을 보면, AI 연구에서 "자금이 부족해서 할 수 없다", "전폭적인 지원이 부족하다", "인재가 없다"는 변명이 더 이상 통하지 않을지도 모릅니다.
DeepSeek의 접근 방식은 누구나 생각해볼 수 있는 아이디어들이지만, 결국 그 아이디어들을 제대로 구현하고 실용화한 것이 차별점입니다.

Simple Yet Powerful Implementation

DeepSeek’s open-source code is astonishingly simple and efficient.

Instead of reinventing complex theories, they effectively leverage existing research while incorporating Hugging Face modules.
They apply fine-grained optimizations, even implementing practical ideas that are not explicitly detailed in their papers.

Considering this, excuses like "lack of funding," "insufficient support," or "shortage of talent" may no longer hold as barriers to AI research.
DeepSeek’s approach is built on ideas that anyone could conceive, yet their true innovation lies in executing and refining these ideas into practical, high-performing systems.

DeepSeek의 연구를 정리하며

구슬도 꿰어야 보물이 됩니다. DeepSeek은 이론과 기술을 체계적으로 연결하여, 실제 AI 시스템에 적용 가능한 형태로 그 구슬을 꿰어냈습니다.

이번에 V3와 R1의 문서를 정독하고, 보다 상세하게 내용을 정리했습니다.
이 글은 강화 학습이나 인공지능에 대한 기초 지식이 있는 분이라면 쉽게 이해할 수 있도록 구성하였습니다.

저 역시 공부하는 마음으로 주말을 비워 정리했고, 이를 공유합니다.

DeepSeek의 기술 발전 과정과 핵심 아이디어들을 함께 탐구해 보시죠.

Reflections on DeepSeek’s Research

As the saying goes, "A pearl must be strung to become a treasure."
DeepSeek has successfully strung together the right technologies to create a system that is truly applicable in AI practice.

After carefully reading through the V3 and R1 documentation, I have organized and detailed my findings.
This article is structured to be accessible to those with basic knowledge of reinforcement learning and artificial intelligence.

I, too, took the time to study and compile this over the weekend, and now I share it with you.
Let’s explore DeepSeek’s technological advancements and core innovations together.

1. 들어가는 말 (Introduction)

DeepSeek은 최근 DeepSeek-V3 및 DeepSeek-R1의 두 가지 고급 모델을 오픈 소스(Open Source)로 공개함으로써 AI 커뮤니티에 상당한 기여를 했습니다. 이 모델은 비용 효율적으로 고성능을 제공하도록 설계되어 OpenAI의 주요 모델에 대한 강력한 대안으로 떠올랐습니다.

DeepSeek-V3 :

이 모델은 671 억 개의 총 매개 변수(parameter)로 구성된 MOE (Mix-of-Experts) 아키텍처를 사용하며 토큰 당 370 억 개가 활성화됩니다. 14.8 조 개의 다양하고 고품질 토큰으로 사전 학습(pre-training)되었습니다. 이 모델에 지도 미세 조정(SFT) 및 강화 학습(RL)된 DeepSeek-R1로 부터 지식 증류(Knowledge Distillation) 하여 사후 학습(post-training)을 대신할 수 있습니다.

특히 DeepSeek-V3은 H800 칩에서 2.788 백만 GPU 시간으로 성능을 달성하여 학습 효율성을 강조했습니다. 평가에 따르면 다른 오픈 소스 모델보다 성능이 우수하고 주요 폐쇄 소스 (Closed Source) 모델의 기능과 일치합니다.

DeepSeek-V3 기술 보고서

DeepSeek-V3 TechnicalReport

DeepSeek-R1:

이 모델은 DeepSeek-V3을 기반으로 사전 지도 학습 된 미세 조정(SFT)없이 대규모 강화 학습(RL)을 통해 추론 기능을 향상시키는 데 중점을 둡니다. 이 모델의 중간모델 인 DeepSeek-R1-Zero는 강화 학습을 통해 자연스럽게 강력한 추론 행동을 개발했습니다.

그러나 가독성과 언어 혼합에 문제점을 드러냈습니다. 이러한 문제를 해결하기 위해 지도 미세 조정(SFT)이 적용된 DeepSeek-R1을 개발하여 실제 응용 프로그램에 적합한 개선 된 추론 기능을 제공하게 되었습니다.

DeepSeek-R1 : 강화 학습을 통한 LLM의 인센티브 추론 능력

DeepSeek-R1: Incentivizing ReasoningCapability in LLMs via ReinforcementLearning

Microsoft의 통합 AI 플랫폼인 Azure AI Foundry 팀은 발 빠르게 Azure AI Foundry 및 Github와 시맨틱(Semantic) 커널에서 DeepSeek-R1을 사용할 수 있다고 발표했습니다.

본 고에서는 각 기술보고서와 논문에서 제시한 모델, 아키텍처와 접근방법을 좀더 상세하게 설명하고자 합니다.

2. DeepSeek-V3

671 억 개의 총 매개 변수(parameter)를 가진 MOE (Mix-of-Experts) 기반의 대규모 트랜스퍼 언어모델입니다. 이 모델로 사전학습(pre-training) 하면 일반적인 텍스트 생성 등 뛰어난 자연어 처리를 할 수 있습니다.

이 모델을 학생모델(student model)로 하여 후술하는 DeepSeek-R1의 지식을 전수 받으면 좀더 다양한 작업(예: 질문 응답, 코드 생성, 수학 문제 해결, 법률 리서치 등)에도 최적화할 수 있습니다.

가. 아키텍처(Architecture)

1) Transformer with MHLA and MoE

DeepSeek-V3 모델은 Transformer 프레임워크를 사용합니다.

전통적인 Transformer(Vaswani et al., 2017)와 다른 점이 있다면, 효율적인 추론을 위해 Attention 블럭에 입력 토큰 간의 관계를 직접 계산하는 Multi-Head Self-Attention (MHSA) 방식(Vaswani et al., 2017) 대신에 다중 헤드 잠재 주의 메커니즘(Multi-head Latent Attention, MHLA)(DeepSeek-AI, 2024c) 아키텍처를 적용하였고, 경제적인 학습을 위해 모든 노드를 활성화하는 일반적인 밀집(dense) Feed-Forward Network (FFN) 대신에 입력마다 다른 subset의 뉴런을 활성화하는 Mixture-of-Experts (MoE)(Dai et al., 2024) 아키텍처를 적용하였다는 것입니다.

이러한 특징은 DeepSeek의 종전 모델인 V2 모델과 같습니다. V2모델보다 좋아진 점이 있다면, DeepSeekMoE에서 부가 손실(auxiliary-loss)을 사용하지 않는 로드 밸런싱(load balancing) 전략(Wang et al., 2024a)을 추가 도입했다는 점입니다. 이는 로드 밸런스를 보장하려는 과정에서 발생할 수 있는 성능 저하 문제를 완화하기 위한 것입니다.

2) 기존 Attention과 차이점: Multi-Head Latent Attention (MHLA)

Attention 블럭에 채용된 Multi-Head Latent Attention (MHLA) 아키텍처는 기존의 attention이 입력 토큰 간의 관계를 직접 계산하는 Multi-Head Self-Attention (MHSA) 방식에서 발전하여, 잠재(latent) 공간에서 추가적인 추론을 수행하는 메커니즘을 추가합니다. 이 방식은 일반적인 Self-Attention보다 계산량이 줄어들어 (O(N²) → O(N log N) 수준으로 최적화 가능), 대용량 데이터에서 더 안정적으로 학습이 가능해지고 보다 강력한 문맥 이해 및 추론 능력 확보하게 합니다.

3) 기존 FFN과의 차이점: DeepSeekMoE(Mixture of Experts)

가) 기존 MoE 모델과의 차이점: DeepSeekMoE(Mixture of Experts)

FFN 블럭은 종래 MoE(Mixture of Experts)에서 개량된 DeepSeekMoE(Mixture of Experts) 아키텍처를 기반으로 작동합니다. 기존 MoE보다 더 정밀한 전문가(Finer-grained Experts) 를 사용하며, 일부 전문가를 공유(Shared Experts) 로 설정하여 일관된 성능을 유지합니다. 입력에 따른 전문가 선택 gating은 토큰과 전문가 간 연관도를 시그모이드(Sigmoid) 함수로 계산하고, 정규화를 적용하여 최적의 전문가를 선택합니다. 이러한 개선 덕분에 추론 및 학습 효율성이 증가하고, MoE 아키텍처의 단점(불균형 로드, 성능 저하)을 완화합니다.

나) Auxiliary-Loss-Free Load Balancing (보조 손실 없는 부하 균형 조정)

기존 MoE 모델은 전문가 간 부하 불균형을 해결하기 위해 보조 손실(Auxiliary Loss)을 사용했지만, DeepSeek-V3는 보조 손실 없이도 부하를 동적으로 균형 맞추는 기법을 도입했습니다.

각 전문가에 편향(Bias) 값을 추가하여 토큰-전문가 매칭을 조정하고, 과부하된 전문가의 편향을 줄이며 저부하 전문가의 편향을 증가시켜 자동으로 부하를 균형 있게 조정합니다.

다) Sequence-Wise Auxiliary Loss(시퀀스 단위 부하 균형)

부하 균형을 더욱 정교하게 유지하기 위해, 각 시퀀스 내에서 전문가 간의 부하가 특정 전문가에 집중되지 않도록 보완적인 부하 균형 손실을 적용했습니다.

기존 Auxiliary Loss처럼 성능을 저하시키지 않으면서도, 필요한 범위 내에서 최소한의 손실만 추가하여 균형을 조절합니다.

라) 노드 제한 라우팅 (Node-Limited Routing)

토큰이 특정 전문가에게 과도하게 몰리는 것을 방지하고, 통신 비용을 줄이기 위해 토큰을 제한된 개수의 노드에만 할당하는 기법을 도입했습니다.

이를 통해 연산-통신 병목을 최소화하여 모델 학습 속도를 최적화할 수 있습니다.

마) 토큰 드롭 방지 (No Token-Dropping)

기존 MoE 모델에서는 부하 불균형 문제로 인해 일부 토큰이 학습 과정에서 제거되었지만, DeepSeek-V3는 모든 토큰을 유지하여 정보 손실 없이 안정적인 학습이 가능하도록 설계되었습니다.

추론(Inference) 과정에서도 토큰 드롭 없이 균형을 유지하는 배포 전략을 적용하여 성능 저하를 방지합니다.

4) 다중 토큰 예측 (Multi-Token Prediction, MTP)

DeepSeek-V3는 Gloeckle et al. (2024) 연구에 영감을 받아, 기존의 단일 토큰 예측을 넘어 여러 개의 토큰을 동시에 예측하여(다중 토큰 예측(Multi-Token Prediction, MTP) 기법), 학습 신호 밀도를 높이고, 데이터 효율성을 극대화하는 방식으로 설계되었습니다.

각 MTP 모듈은 다음과 같이 임베딩 레이어(Embedding Layer), 선형 투영 행렬(Projection Matrix), Transformer 블록, 출력 헤드(Output Head)로 구성되어 있으며, 이전 단계에서 출력 헤드(Output Head)로 입력되는 값이 다음 단계의 선형 투영 행렬(Projection Matrix)로 들어가 각 모듈은 Transformer 블록과 출력 헤드(Output Head)의 값을 공유하며, 모든 예측이 인과적 체인(Causal Chain) 을 유지하도록 설계되었습니다.

이러한 공유 구조 덕분에 모델의 학습 비용을 증가시키지 않으면서도 추가적인 예측 능력을 확보할 수 있으며, 또한 순차적 예측 방식을 채택하여 인과적 체인(Causal Chain)을 유지함으로써, 모델이 보다 자연스럽고 논리적인 문맥을 이해할 수 있도록 돕습니다.

나아가 학습 과정에서는 교차 엔트로피 손실(Cross-Entropy Loss) 을 활용하여 최적화함으로써 모델의 전반적인 성능을 향상시키며, 이를 통해 보다 정교한 예측이 가능해집니다. 뿐만 아니라, 추론 과정에서는 Speculative Decoding을 적용하여 생성 속도를 최적화하는 실용적인 기법으로 활용될 수 있습니다. 결과적으로, DeepSeek-V3의 MTP 기법은 모델의 학습 효율성과 표현 학습 능력을 강화하는 동시에, 빠르고 효율적인 추론을 가능하게 하는 혁신적인 방식입니다.

나. DeepSeek-V3의 사전 학습 (Pre-training):

1) FP8 Training

DeepSeek-V3에서 새로 채택한 FP8 Training은 8비트 부동소수점(FP8) 정밀도를 활용하여 계산 효율성을 극대화하는 학습 기법입니다.

FP8 Training의 흐름도는 아래와 같습니다. 학습에서 FP32 → BF16 → FP8 순으로 정밀도를 낮춰가며 연산 최적화와 메모리 절약을 추구하였습니다.

입력 처리: BF16 (BFloat16, Brain Floating Point 16-bit) → FP8 (Floating Point 8-bit) 변환
Forward Propagation (FP32): FP8 → FP32 연산 → BF16 변환 후 출력
Backward Propagation (FP32): FP8 Gradient → FP32 계산 → FP8 저장
Weight Update (FP32): FP32 Master Weight로 업데이트 → FP8 저장

FP8 Training은 특히, 곱셈 연산을 단순화하여 GPU 활용도를 극대화하면서도, 기존 FP32 및 BF16 대비 메모리 사용량과 계산 비용을 줄일 수 있습니다. 이를 통해 동일한 하드웨어에서도 더 큰 모델을 학습할 수 있는 확장성이 확보됩니다.

또한, FP8 사용 시 발생할 수 있는 활성화(Activation), 가중치(Weight), 그래디언트(Gradient) 값의 이상치(Outlier) 문제를 해결하기 위해, 정밀한 양자화 전략을 적용하였습니다. FP32 Master Weight를 활용한 혼합 정밀도(Mixed Precision) 학습 방식을 채택하여 FP32 수준의 정밀도를 유지하면서도 FP8의 연산 최적화를 극대화하였습니다.

MoE 모델 학습에서는 FP8 캐싱을 활용하여 메모리 및 통신 비용을 절감하여 대규모 모델 학습 환경에서도 효율적인 운영이 가능합니다.

FP8 Training은 계산 효율성과 메모리 사용량을 최적화하면서도 모델의 정밀도를 유지하는 혁신적인 저정밀 학습 기법으로, 대규모 언어 모델 학습에 효과적으로 적용될 수 있습니다.

2) 데이터 구축(Data Construction)

DeepSeek-V3는 DeepSeek-V2 대비 사전 학습 데이터의 최적화를 위해 수학 및 프로그래밍 샘플의 비율을 증가시키고, 다국어 데이터 범위를 영어와 중국어를 넘어 확장하였습니다. 또한, 데이터 처리 파이프라인을 개선하여 말뭉치의 중복을 최소화하면서도 다양성을 유지하였습니다.

데이터의 일관성을 보장하기 위해 문서 패킹(Document Packing) 기법을 도입하였으며, 학습 과정에서는 교차 샘플 어텐션 마스킹(Cross-Sample Attention Masking)은 적용하지 않음으로써 처리 속도와 효율성을 극대화하였습니다. 최종적으로, DeepSeek-V3는 14.8조(14.8T) 개의 고품질 및 다양한 토큰을 포함하는 학습 데이터셋을 사용하였습니다.

가) Fill-in-Middle(FIM) 전략 적용

Fill-in-Middle(FIM) 전략 및 Prefix-Suffix-Middle(PSM) 프레임워크 활용하였습니다.

DeepSeek-V3의 사전 학습 과정에 적용한 Fill-in-Middle(FIM) 전략은 이미 DeepSeekCoder-V2의 학습 과정에서 다음 토큰 예측 성능을 저하시키지 않으면서, 문맥을 기반으로 중간 텍스트를 정확히 예측하는 데 효과적이라는 점이 관찰되었습니다.

특히, Prefix-Suffix-Middle(PSM) 프레임워크를 활용하여 데이터 구조를 구성하였습니다.

데이터 구조:

해당 구조는 문서 단위에서 사전 패킹(Pre-Packing) 과정의 일부로 적용되었으며,
FIM 전략은 PSM 프레임워크와 일관되게 10%(0.1)의 확률로 적용되었습니다.

나) 토크나이저(Tokenization) 최적화

DeepSeek-V3는 Byte-level BPE(Byte Pair Encoding) 방식을 활용하는 128K 크기의 확장된 어휘(Vocabulary) 를 도입하였습니다. 또한, 다국어 압축 효율성을 최적화하기 위해 프리토크나이저(Pretokenizer) 및 학습 데이터를 조정하였습니다.

Few-shot 평가 시 줄 바꿈이 없는 다중 라인 프롬프트를 처리할 때 토큰 경계 편향(Token Boundary Bias) 을 초래할 가능성이 있다는 문제점을 해결하기 위해, 훈련 과정에서 이러한 결합된 토큰 데이터의 일부를 랜덤하게 분할하여 모델이 다양한 특수 사례에 노출되도록 조정하였으며, 이를 통해 토큰 경계 편향 문제를 완화하였습니다.

3) 하이퍼파라미터 (Hyper-Parameters)

DeepSeek-V3는 모델 구조 및 학습 과정에서 최적의 성능을 확보하기 위해 정교하게 조정된 하이퍼파라미터를 적용하였습니다. 이를 통해 대규모 모델 학습에서의 효율성과 안정성을 극대화할 수 있도록 설계되었습니다.

가) 모델 하이퍼파라미터 (Model Hyper-Parameters)

1) Transformer 구조

- 총 61개 레이어(Layers)로 구성됨.
- 히든 차원(Hidden Dimension) = 7168
- 모든 학습 가능한 파라미터는 표준 편차 0.006을 사용하여 랜덤 초기화.

2) Multi-Head Latent Attention (MLA) 설정

- 어텐션 헤드 개수 n(h) = 128, 헤드당 차원 d = 128
- KV(Key-Value) 압축 차원:

- 키/밸류 d(k) = 512, 퀴리 압축 차원 d(c) = 1536

- 디커플드(Decoupled) 설정: 퀴리 및 키의 헤드당 차원 d = 64

3) MoE (Mixture of Experts) 적용

- 전체 레이어 중 특정 부분은 FFN을 MoE 레이어로 대체함.
- 각 MoE 레이어는 1개의 공유 전문가(Shared Expert)와 256개의 라우팅 전문가(Routed Experts)로 구성됨.
- 각 전문가의 총 활성화 가능한 유닛 수 = 2048
- 각 토큰은 8개의 전문가를 활성화하며, 필요 시 최대 노드로 전송 가능.

4) Multi-Token Prediction (MTP) 설정

- MTP 깊이(D) = 1로, 각 토큰이 다음 토큰 외에도 하나의 추가 토큰을 예측.

5) 모델 크기 및 파라미터 수

- 총 671B(6710억) 개의 파라미터 보유
- 각 토큰을 처리할 때 활성화되는 파라미터 수는 37B(370억)

나) 학습 하이퍼파라미터 (Training Hyper-Parameters)

1) 최적화 기법

AdamW 옵티마이저(Optimizer) 사용
하이퍼파라미터 값:

β1 = 0.9, β2 = 0.95
Weight Decay = 0.1

2) 시퀀스 길이 및 학습 데이터

최대 시퀀스 길이 = 4K (4096 토큰)
사전 학습 데이터 = 14.8T(14.8조) 개의 토큰

3) 학습률 스케줄링 (Learning Rate Scheduling)

초기 학습률 증가 단계:

초기 2K 스텝 동안 학습률이 0에서 2.2×10^−4까지 선형 증가
이후 10K(10천) 개의 학습 토큰 동안 2.2×10^−4 유지

Cosine Decay 방식:

43T(43조) 개의 토큰 동안 코사인 감소(Cosine Decay) 적용 → 최종 학습률2.2×10^−5 로 감소
학습률 변환 과정:

초기 500B(5000억) 개의 토큰을 사용
감소율:

초기: 2.2×10^−5
최종: 7.3×10^−6

4) 기타 학습 설정

그래디언트 클리핑(Gradient Clipping): 1.0
동적 배치 크기 스케줄링:

초기 469B(4690억) 개의 학습 토큰 동안 배치 크기를 3072 → 15360으로 증가
이후 학습 과정에서는 15360을 유지

5) 병렬 학습 설정

파이프라인 병렬화(Pipeline Parallelism):

서로 다른 GPU에 모델의 다양한 층을 배치하여 병렬 처리
8개의 노드에 분산된 64개의 GPU가 균등하게 작업 수행

6) 부하 균형 설정

각 토큰이 전송될 최대 노드 개수 M = 4
부하 균형 설정:

부하 균형 속도:
초기 14.3T 토큰 동안 0.001, 마지막 500B에서는 0.0002로 점진적으로 감소
균형 로스(weight loss) 한계: 0.0001로 설정하여 불균형 방지

MTP(다중 토큰 예측) 손실 조정:

초기: 0.2 → 이후 0.1로 감소
사전 학습 데이터 크기 기준으로 4.8T(48조) 개의 토큰 동안 0.1로 설정

4) 장문 컨텍스트 확장 (Long Context Extension)

DeepSeek-V3는 DeepSeek-V2에서 처럼 장문 컨텍스트(Long Context) 처리 능력을 확장하기 위해 YaRN (Yet another RoPE eXtension) 기법을 활용하여 사전 학습 이후 두 단계의 추가 학습을 진행하였습니다 (컨텍스트 윈도우는 1단계에서 4K → 32K 확장, 2단계에서 32K → 128K 확장).

배치 크기와 학습률을 조정하여 안정적인 학습 진행하였습니다.

이 두 단계의 학습을 통해 DeepSeek-V3는 최대 128K 길이의 입력을 처리할 수 있는 능력을 획득하였습니다.

Supervised Fine-Tuning 이후 "Needle In A Haystack (NIAH)" 테스트에서 우수한 성능을 기록,
이는 컨텍스트 윈도우가 최대 128K까지 확장된 상태에서도 강력한 성능을 유지함을 의미.

다. DeepSeek-V3의 사후 학습 (Post-training):

1) 지도 학습 미세 조정 (Supervised Fine-Tuning, SFT)

DeepSeek-V3는 지도 학습(SFT)과 강화 학습(RL)을 효과적으로 결합하여 모델의 추론 능력과 일반 작업 성능을 최적화하였습니다. 이를 위해, 추론 데이터와 비추론 데이터를 각각 최적화된 방식으로 구축하고, 학습 안정성을 높이는 전략을 적용하였습니다.

DeepSeek-V3는 다양한 도메인에서 150만 개(1.5M)의 인스턴스를 포함하는 지도 학습(SFT) 데이터셋을 구성하여 모델의 성능을 최적화하였습니다. 각 도메인별로 특정 요구사항에 맞춘 데이터 생성 방법을 적용하여 학습 데이터를 구축하였습니다.

먼저, 추론 데이터는 DeepSeek-R1을 기반으로 생성되었으며, 강화 학습(RL)과 Rejection Sampling을 활용하여 데이터의 정확도를 유지하면서도 응답 형식을 최적화하였습니다. 특히, 수학, 프로그래밍, 논리 퍼즐 등의 도메인에서 R1의 강점을 살리면서도 과도한 사고(Overthinking)와 불필요한 길이를 줄이는 방향으로 조정되었습니다.

한편, 비추론 데이터는 DeepSeek-V2.5를 활용하여 생성한 후, 인간 주석자의 검토를 거쳐 품질을 보장하였습니다. 창의적 글쓰기, 역할극(Role-Play), 일반적인 질의응답(QA) 작업에서도 모델이 보다 신뢰성 있고 유용한 출력을 제공할 수 있도록 데이터를 정제하였습니다.

또한, 학습 과정에서 코사인 감쇠 학습률(Cosine Decay Learning Rate)과 샘플 마스킹 전략(Sample Masking Strategy)을 적용하여 학습 안정성을 강화하였습니다. 이를 통해 모델이 다양한 도메인의 데이터를 학습하면서도 일관된 성능을 유지할 수 있도록 설계되었습니다.

2) 강화 학습 (Reinforcement Learning, RL)

DeepSeek-V3는 정확한 보상 모델(Reward Model) 과 효율적인 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 를 활용하여 강화 학습을 진행하였습니다.

이를 위해 규칙 기반 보상 모델과 모델 기반 보상 모델을 병행하여 활용하고, Critic 모델 없이 그룹 점수를 기반으로 최적화하는 GRPO 기법을 적용하였습니다.

먼저, 정확한 정답이 존재하는 문제(예: 수학 문제, 프로그래밍 문제) 에서는 규칙 기반 보상 모델(Rule-Based RM) 을 사용하여 응답의 정확성을 검증하였습니다. 이를 위해, 모델이 정해진 형식으로 답변을 제공하도록 유도하며, LeetCode 문제의 경우 컴파일러를 활용한 테스트 케이스 검증을 통해 자동으로 정답 여부를 판단하였습니다.

반면, 정확한 정답이 없는 창의적 글쓰기(creative writing)와 같은 작업에서는 모델 기반 보상 모델(Model-Based RM)을 적용하였습니다. DeepSeek-V3의 지도 학습(SFT) 체크포인트를 기반으로 학습된 보상 모델을 활용하여 응답 품질을 평가하며, 단순 점수만 제공하는 것이 아니라 보상 값이 도출된 과정(Chain-of-Thought, CoT)까지 포함하여 평가의 신뢰성을 높였습니다. 이를 통해 보상 해킹(Reward Hacking) 가능성을 줄이고, 보다 정교한 평가 시스템을 구축하였습니다.

기존 RL 모델은 Critic 모델을 활용하여 정책 모델을 평가하지만, GRPO는 Critic 모델 없이 그룹 점수를 기반으로 보상을 계산하여 연산 비용을 절감하면서도 높은 성능을 유지할 수 있도록 설계되었습니다. 이를 통해 모델이 더욱 안정적으로 학습될 수 있도록 최적화되었습니다.

마지막으로, 강화 학습 과정에서 코딩, 수학, 글쓰기, 역할극(Role-Play), 질의응답(QA) 등 다양한 도메인의 프롬프트를 포함하여 인간 선호도와 일치하는 응답을 생성하도록 모델을 최적화하였습니다.

결과적으로, DeepSeek-V3는 정교한 보상 모델과 GRPO 기반의 효율적인 학습 최적화 기법을 결합하여, RL을 통해 높은 품질의 응답을 생성하는 강력한 언어 모델로 발전하였습니다. 이를 통해 모델이 보다 정교한 추론 능력을 갖추고, 인간의 선호도와 일치하는 응답을 생성할 수 있도록 최적화되었습니다.

다음은 DeepSeek-R1을 다룹니다.

3. DeepSeek-R1

OpenAI의 o1 모델(LLM)은 Inference-Time Scaling(추론 시간 확장) 기법을 도입하여 AI가 여러 중간 단계를 거쳐 깊이 있는 논리를 형성함으로써 수학, 코딩, 과학적 문제 해결에서 큰 성능 향상을 이루었습니다. 그러나 이 모델조차도 AGI(Artificial General Intelligence)에 도달하기까지는 여전히 한계가 있습니다.

현재 많은 연구자들이 완성된 학습 모델을 수정하지 않고도 사후 학습을 추가하여 AGI로 진화할 수 있는 방안을 모색하고 있으며, 대표적인 접근법으로는 과정 기반 보상 모델(process-based reward models), 강화 학습 알고리즘(reinforcement learning), 그리고 탐색 기법(search algorithms)(예: Monte Carlo Tree Search, Beam Search) 등이 있습니다. 그러나 이러한 다양한 시도에도 불구하고 일반적인 추론 성능을 완벽히 구현하는 데는 아직 도달하지 못했습니다.

본 연구(“DeepSeek-R1: Incentivizing Reasoning Capability in Large Language Models via Reinforcement Learning” )에서는 지도 학습 없이 순수 강화 학습(RL)만을 사용하여 AI의 추론 능력을 향상하려는 첫 시도를 했습니다. DeepSeek-V3-Base 모델과 GRPO 알고리즘을 적용하여 수천 번의 강화 학습을 거친 결과, DeepSeek-R1-Zero는 강력한 추론 능력을 획득하였으며, AIME 2024 평가에서 pass@1 점수가 15.6%에서 71.0%로 상승하고, 다수결 방식을 적용하여 86.7%까지 도달하여 OpenAI의 o1-0912 모델과 유사한 성능을 보였습니다.

이 연구는 AI가 사람이 제공하는 정답 데이터에 의존하지 않고도 강화 학습을 통해 추론 능력을 크게 향상할 수 있음을 입증하였습니다. 그러나 강화학습 만으로는 낮은 문장 가독성과 언어 혼합 문제가 있었으며, 이를 해결하기 위해 소량의 지도 학습 데이터와 다단계 학습을 추가한 DeepSeek-R1 모델이 개발되어 더 정교하고 안정적인 성능을 제공하게 되었습니다.

[본 연구의 활용]

본 연구는 이미 완성된 다양한 모델에 대규모 강화학습을 사후 학습으로 적용하면 추론 능력이 급격히 향상될 수 있음을 입증하였습니다. 현재 개발된 모델의 성능을 향상시키기 위해 본 연구의 접근 방법을 적용하면 더욱 높은 성능을 기대할 수 있습니다.
또한, 본 연구는 고성능 모델의 지식을 소형 모델에 증류하여 주입하면, 강화학습과 같은 사후 학습 없이도 소형 모델이 고성능 모델에 근접한 성능을 낼 수 있음을 보여주었습니다. 이를 바탕으로 소형 모델의 성능을 향상시켜 일상생활에서 다양한 응용 분야에 보다 폭넓게 활용할 수 있을 것으로 기대됩니다.
나아가 본 연구는 AI 오픈 커뮤니티로부터 다양한 피드백을 받아 지속적으로 개선하기 위해 기술 자료와 소스를 공개하고 있으며 끊임없이 질문을 던지고 있습니다. 이는 개방형 혁신 연구의 유용성과 중요성을 다시 한번 확인하는 계기가 됩니다.

가. DeepSeek-R1 개발 과정 및 특징

1) DeepSeek-R1-Zero (중간 모델) : 순수 강화 학습(RL) 기반 추론 모델

순수 강화 학습(Pure Reinforcement Learning, RL)을 이용하여 언어 모델의 추론(reasoning) 능력을 향상시킨 최초 모델.

Supervised Data(지도 학습 데이터) 없이 RL만으로 모델이 reasoning 능력을 습득하는 데 성공.

DeepSeek-V3-Base를 기반 모델로 사용.
GRPO(Group Relative Policy Optimization) 알고리즘을 활용하여 RL을 적용.
DeepSeek-R1-Zero 모델을 학습하며, 자연스럽게 강력한 reasoning 능력이 나타남

하지만 가독성 저하, 언어 혼합(Language Mixing) 등의 문제가 발생.

[DeepSeek-R1 개발의 동기]

DeepSeek-R1-Zero는 강화 학습(RL)만으로 강력한 추론 능력을 획득하는 데 성공하였습니다. 이러한 성과에 고무된 DeepSeek 연구팀은 두 가지 핵심 질문을 바탕으로 DeepSeek-R1 개발에 착수했습니다.
첫째, 소량의 고품질 지도 학습 데이터(supervised fine-tuning, SFT)를 cold start에 도입하면 추론 성능이 더 향상되거나 수렴 속도가 빨라질 수 있는가?
둘째, 명확하고 일관된 Chain of Thought(CoT)를 생성할 뿐만 아니라, 전반적인 일반화 성능까지 겸비한 사용자 친화적 모델을 어떻게 설계할 수 있는가?
이 두 질문을 해결하기 위해, 연구팀은 지도 학습과 강화 학습이 교번하는 다단계 학습 파이프라인을 설계하여 DeepSeek-R1을 개발하였습니다.

2) DeepSeek-R1 (최종 모델)

다단계 학습 파이프 라인(Multi-Stage Training Pipeline) 과 Cold-Start 데이터를 활용한 지도 학습 미세조정하여 R1-Zero의 문제를 해결.

추론 성능에서 OpenAI의 o1–1217 모델과 대등한 성능을 기록

보다 일관된 문장 구조와 명확한 응답을 제공하도록 최적화.

나. 오픈소스 버전

DeepSeek-R1에서 학습된 고급 추론 패턴을 다양한 크기의 밀집 모델(Dense Models)로 증류(Distillation).

1.5B에서 70B까지의 다양한 모델 크기로 제공, 개발자들이 확장성과 성능을 고려하여 선택 가능.

강화 학습을 활용한 최첨단 추론 능력을 갖춘 오픈소스 모델을 누구나 활용할 수 있도록 공개.

DeepSeek-R1은 강화 학습을 기반으로 한 대규모 언어 모델 학습 전략을 제시하며, 최적화된 추론 성능을 통해 OpenAI 모델과 경쟁할 수 있는 수준까지 발전하였습니다. 오픈소스로 제공되는 다양한 모델 크기를 통해 연구 및 실제 응용에서 폭넓게 활용될 것으로 기대됩니다.

다. DeepSeek-R1의 다단계 학습 과정 (Multi-Stage Training Pipeline)

DeepSeek-R1은 강화 학습(RL)을 활용한 사후 학습(Post-Training), 다단계 학습 파이프라인 구축, 그리고 지식 증류(Distillation)를 통해 대규모 언어 모델의 추론 능력을 극대화하는 데 기여하였습니다.

1) Cold-Start 데이터를 지도 학습된 데이터 사용 (기초 데이터 수집 및 미세 조정)

수천 개의 기본 데이터(cold-start data) 를 수집하여 DeepSeek-V3-Base 모델을 초기 미세 조정(fine-tuning)

목적: RL 전에 모델의 기초 성능을 보완하여 가독성 향상.

2) DeepSeek-R1-Zero 방식의 RL 적용 (추론 능력 극대화)

기존 DeepSeek-R1-Zero와 동일하게 추론 중심 RL(reasoning-oriented RL) 을 적용하여 논리적 사고 능력을 강화

3) 새로운 지도 학습 데이터(SFT) 생성 및 추가 학습

RL 과정이 수렴할(converge) 때쯤, 모델의 성능을 추가로 개선하기 위해 새로운 지도 학습 데이터(SFT data) 를 생성
RL 체크포인트에서 거부 샘플링(rejection sampling) 을 통해 더 나은 데이터 추출

RL Checkpoint(강화 학습 체크포인트)는 강화 학습 과정에서 저장된 특정 시점의 모델 상태를 의미합니다. 강화 학습(RL)을 하면서 모델이 점점 발전하는데, 특정 단계에서 모델의 성능이 충분히 개선되었을 때 그 시점의 모델을 저장합니다. 이 저장된 모델을 체크포인트(checkpoint)라고 부르며, 이후 추가적인 학습이나 평가에 사용할 수 있습니다.
강화 학습을 하면서 모델이 생성한 문장(출력 결과) 중에서 질이 좋은 데이터만 선별(Rejection Sampling)

DeepSeek-V3 모델의 지도 학습 데이터(SFT)도 함께 사용
적용 분야: 글쓰기(Writing), 사실 기반 QA(Factual QA), 자기 인식(Self-Cognition)
이렇게 새롭게 만든 SFT 데이터를 이용해 DeepSeek-V3-Base 모델을 다시 훈련

4) 최종 RL 적용 (모든 시나리오에서 최적화)

모든 유형의 프롬프트를 고려하여 RL을 다시 적용, 최적의 모델로 개선.

라. Distillation(지식 증류)

DeepSeek-R1에서 발견된 고급 추론 패턴을 더 작은 밀집 모델(Dense Models)에 전이(Distill)하여, 효율성과 성능을 동시에 향상시키는 지식 증류(Distillation) 기법을 적용하였습니다. 이를 통해 대형 모델에서 학습된 고급 추론 능력을 소형 모델에서도 효과적으로 활용할 수 있도록 최적화하였습니다.

이 과정에서 Qwen2.5-32B 및 Llama 시리즈를 기반으로, 1.5B부터 70B까지 다양한 크기의 모델을 성공적으로 증류하였습니다. 특히, Distilled 14B 모델이 QwQ-32B-Preview를 능가하는 성능을 기록하면서, 소형 모델에서도 높은 성능을 유지할 수 있음을 입증하였습니다. 이를 통해 DeepSeek-R1은 대형 모델의 강력한 추론 능력을 유지하면서도, 보다 경량화된 모델에서도 뛰어난 성능을 제공할 수 있도록 설계되었습니다.

마. 개발 단계 설명

기존 강화 학습(RL) 모델은 지도 미세 조정(SFT) 후 RL을 적용하는 방식이 일반적이지만, DeepSeek-R1은 새로운 접근법을 채택하여 SFT 없이 순수 강화 학습만으로 DeepSeek-R1-Zero를 먼저 학습하였습니다. R1-Zero는 GRPO(Generalized Reinforcement Policy Optimization)를 적용해 자기 검증(Self-Verification), 반성(Reflection), 긴 Chain-of-Thought(CoT) 생성과 같은 고급 추론 능력을 학습하도록 설계되었습니다.

이후 소량의 고품질 SFT 데이터를 활용해 R1-Zero를 미세 조정(Fine-Tuning)한 뒤, 추가 RL을 통해 성능을 최적화하였습니다. 이를 통해 RL 기반의 추론 능력이 더욱 정교화되었으며, 다양한 시나리오에 대응할 수 있는 사용자 친화적 모델로 발전하였습니다.

마지막으로, DeepSeek-R1에서 학습한 고급 추론 패턴을 지식 증류(Distillation)를 통해 소형 모델에 전이하여 소형 모델에서도 효율적이고 강력한 성능을 발휘할 수 있도록 설계하였습니다.

1) DeepSeek-R1-Zero: 순수 강화 학습

가) Group Relative Policy Optimization (GRPO) 알고리즘 활용

GRPO는 기존 강화 학습(RL) 방법에서 사용하는 Critic 모델(평가 모델)를 제거하고, 대신 그룹 내 보상 값들로부터 기준점을 추정하여 정책을 최적화하는 방식입니다. 이를 통해 학습 비용을 줄이면서도 효과적으로 모델을 개선할 수 있습니다.

나) GRPO (Group Relative Policy Optimization) 알고리즘의 주요 개념

GRPO의 목적함수(손실함수)의 의미

질문 샘플링

모델이 데이터셋 P(Q)에서 질문 q를 가져옴.

이전 정책에서 응답 샘플링

이전 정책 모델 πθold에서 앞의 질문 q에 대한 여러 개의 응답(출력 그룹) {o1,o2,…,oG}을 샘플링.
즉, 이전 버전의 모델이 생성한 답변들을 기반으로 학습 진행.

새로운 정책 업데이트

샘플링된 응답을 바탕으로 새로운 정책 πθ을 최적화하여 더 나은 답변을 생성하도록 유도.

목적함수 (Objective Function) 분석

목적 함수는 세 가지 주요 항으로 구성됩니다.

정책 비율항 (Policy Ratio Term)

새로운 정책 모델 π_θ이 기존 정책 모델 π_θold보다 얼마나 변화했는지를 나타내는 지표.
비율이 1보다 크면 → 새로운 정책이 해당 응답에 더 높은 확률을 부여(즉, 더 선호)
비율이 1보다 작으면 → 새로운 정책이 해당 응답에 더 낮은 확률을 부여(즉, 덜 선호)
Ai (Advantage 값)와 곱해져서, 보상이 높은 응답일수록 정책을 더 크게 업데이트하도록 유도.

정책 변경 제한항 (Clipping Term)

정책이 한 번에 너무 크게 변경되지 않도록 방지.
비율이 (1−ϵ,1+ϵ) 범위를 벗어나면 잘라서(clip) 급격한 정책 변화가 일어나지 않도록 조정.
RL의 일반적인 문제점 중 하나인 과도한 최적화(overfitting) 방지.
여기서 ϵ는 하이퍼 파라미터.

KL 발산 제약항(KL Divergence Regularization term)

새로운 정책 모델 π_θ과 기준 정책 π_ref 사이의 차이를 측정하는 KL 발산.
정책이 기준 정책과 너무 다르면 패널티 부여, 즉 모델이 급격하게 변화하지 않도록 조정.
β는 KL 발산이 목적 함수에서 얼마나 큰 영향을 줄지를 조절하는 하이퍼파라미터.
KL 발산이 너무 크면 → 모델이 기존 정책과 너무 달라져서 안정성이 떨어지는 것을 방지.
KL 발산이 너무 작으면 → 모델이 기존 정책과 거의 동일하여 학습이 충분히 진행되지 않는 문제 발생.

Advantage (A_i) 계산 (보상 기준점 조정)

기존 RL에서는 Critic 모델이 Advantage 값을 계산하지만, GRPO에서는 그룹 내 응답들의 보상 값을 사용하여 계산.
각 출력의 보상을 평균과 비교한 후, 표준편차로 정규화하여 출력이 상대적으로 얼마나 좋은지를 평가하는 방식.

A_i 가 양수(+) 라면, 해당 출력 o_i 가 그룹 평균보다 더 좋은 결과임을 의미.
A_i 가 음수(-) 라면, 해당 출력 o_i 가 그룹 평균보다 더 나쁜 결과임을 의미.

각 응답의 보상이 그룹 평균보다 얼마나 좋은지를 정규화하여 학습 반영.
이를 통해 critic 모델 없이도 학습이 가능.

GRPO는 그룹 내 여러 개의 샘플을 비교하여 상대적으로 좋은 응답을 학습하도록 유도합니다. 개별적인 출력을 최적화하는 대신 전체적으로 균형 잡힌 학습이 가능하도록 설계됩니다. 따라서 기존 RL 방식보다 학습 비용을 줄이면서도 모델을 효과적으로 최적화하는 방법으로 평가되고 있습니다.

2) 보상 모델링 (Reward Modeling)

강화 학습(RL)에서 보상(Reward)은 모델이 어떤 방향으로 최적화될지를 결정하는 핵심 신호입니다. DeepSeek-R1-Zero를 학습시키기 위해 규칙 기반 보상 시스템(rule-based reward system)을 채택하였으며, 이는 정확도 보상(Accuracy Rewards)과 형식 보상(Format Rewards)의 두 가지 유형으로 구성됩니다.

정확도 보상 (Accuracy Rewards)

목적: 모델이 정확한 정답을 생성하도록 유도

수학 문제 (Math Problems)

수학 문제처럼 결과가 답이 정해진 결정적인(Deterministic) 문제에서는 정답을 특정 형식으로 출력해야 함.
예: 정답을 반드시 박스(☐) 안에 작성해야 함 → 이를 통해 자동 검증이 가능.
이렇게 하면 규칙 기반 검증 시스템으로 정답 여부를 쉽게 판단할 수 있음.

LeetCode 코딩 문제 (LeetCode Problems)

코딩 문제의 경우 컴파일러(Compiler)를 이용하여 정답을 검증.
미리 정의된 테스트 케이스(Test Cases)를 기반으로 코드 실행 결과를 평가.
코드가 테스트 케이스를 통과하면 높은 보상을 부여하고, 실패하면 낮은 보상을 부여.

형식 보상 (Format Rewards)

목적: 모델이 논리적 사고 과정(thinking process)을 명확하게 표현하도록 유도
모델이 추론 과정과 최종 응답을 명확하게 구분하도록 유도하는 보상 체계.

사고 과정 태그 (Thinking Process Tags)

모델이 추론하는 과정을 태그 안에 작성하도록 보상 부여.
모델이 추론 과정과 최종 응답을 명확하게 구분하도록 유도하는 보상 체계입니다.
모델이 추론 과정(Reasoning Steps)은 `<think>` 태그 안에 정리하고, 최종 응답(Answer)은 `<answer>` 태그로 표시하도록 학습합니다.
이 방식은 모델이 논리적인 방식으로 사고를 정리하도록 강제함.
사람이 모델의 논리 과정을 쉽게 이해할 수 있으며, 디버깅에도 유용함.

이를 통해 모델의 출력이 체계적으로 정리되며, 사용자가 더 쉽게 이해할 수 있는 형식으로 응답할 수 있도록 개선됩니다.

신경망 기반 보상 모델(Neural Reward Model)을 사용하지 않는 이유

문제점: 신경망 기반 보상 모델은 보상 해킹(Reward Hacking) 문제와 추가 학습 비용 문제를 초래

보상 해킹(Reward Hacking)

모델이 실제 목표를 달성하는 것이 아니라, 보상 시스템을 조작하여 높은 점수를 받도록 학습하는 문제.
예: 모델이 정답을 찾기보다는 보상 모델이 선호하는 특정 패턴을 반복해서 사용.

추가 학습 비용이 발생 (Retraining Overhead)

신경망 기반 보상 모델을 사용하면 보상 모델 자체를 지속적으로 재학습(Retraining)해야 함.
이 과정은 추가적인 학습 리소스를 소모하고, 전체 학습 과정이 복잡해짐.

DeepSeek-R1-Zero는 규칙 기반 보상 시스템을 채택하여 더 간단하고 안정적인 방식으로 학습.
보상 해킹 문제를 방지하고, 학습 비용을 절감할 수 있음.

DeepSeek-R1-Zero는 정확도와 형식 보상을 결합하여, 높은 정답률을 유지하면서도 명확하고 일관된 형식으로 답변을 생성하는 최적의 추론 모델을 구축하였습니다.

[질문] 왜 GRPO는 보상을 직접 사용하지 않는다고 하면서도 학습 신호로 보상을 적용하는가?

GRPO는 개별 보상 r_i을 직접 사용하지 않고, 그룹 내에서 상대적인 보상 차이를 이용합니다.
GRPO는 개별 출력(응답)에 직접적인 보상을 적용하지 않지만, 학습 신호로는 보상을 활용합니다.
보상은 그룹 내 상대적 비교를 위한 기준이 되며, 이를 통해 Advantage(이점)를 계산하여 정책을 최적화합니다.
GRPO에서 보상이 사용되는 방식

각 출력 o_i의 보상 r_i는 여전히 계산됨. 이 값을 직접 정책 최적화에 사용하지 않고, 그룹 내 상대적인 차이를 활용하여 Advantage(이점) A_i를 계산. 즉, 개별 보상이 아니라, 상대적인 보상 차이를 통해 학습 방향을 결정함.
DeepSeek-R1-Zero의 보상 시스템은 정확한 응답과 형식을 유도하기 위한 것이며, 이를 GRPO의 상대 평가 방식과 결합하여 최적화 진행됩니다. 즉, GRPO는 기존 강화 학습처럼 보상을 직접 적용하지 않지만, 학습 방향을 결정하는 데 있어 보상 정보를 활용하는 방식이라고 이해하면 됩니다.

3) 자기 진화(Self-Evolution)와 Aha Moment 기법

자기 진화(Self-Evolution Process):

모델이 스스로 더 복잡한 추론 작업을 처리하도록 학습하는 단계로, 점진적으로 더 많은 테스트 시간을 활용해 성능을 향상시킵니다.
DeepSeek-R1-Zero의 Self-Evolution Process(자기 진화 과정)은 강화 학습(RL)을 통해 모델이 외부 개입 없이 스스로 추론 능력을 향상시키는 과정입니다.
이 과정에서 Supervised Fine-Tuning(지도학습 기반 미세조정) 없이 RL만으로 학습을 진행하므로, 순수한 강화 학습을 통한 모델의 발전 양상을 관찰할 수 있음이 핵심입니다.

DeepSeek-R1-Zero의 자기 진화 과정에서 사용된 주요 기법은 다음과 같습니다.

1) 기반 모델(Base Model)에서 직접 RL을 시작

지도 학습 없이 순수 RL만으로 학습하여 모델이 외부 데이터에 의존하지 않고도 추론 능력을 키울 수 있도록 함
이를 통해 모델의 자연스러운 성장 과정을 명확히 관찰할 수 있음.

2) Test-Time Computation(테스트 시간 연산) 확장

모델이 한 번의 추론에서 더 많은 토큰을 생성할 수 있도록 허용.
수백에서 수천 개의 Reasoning Tokens(추론 토큰)을 생성하며 사고 과정 확장.
결과적으로, 모델이 더 깊이 사고할 수 있는 기회를 제공.

3) Reflection(반성) 및 문제 해결 방식 탐색

자신이 생성한 답변을 다시 검토하고 평가하는 능력이 자발적으로 생겨남.
다양한 접근법을 실험하며, 점점 더 정교한 해결책을 학습.

DeepSeek-R1-Zero는 강화 학습을 통해 더 많은 사고 과정을 거치면서 스스로 추론 능력을 개선

[질문1] Thinking Time이 외부 조정이 아닌 모델 내부에서 스스로 발전하는 이유는?
DeepSeek-R1-Zero의 Thinking Time(사고 시간)이 향상되는 것은 외부적인 조정(external adjustments)의 결과가 아니라, 모델 내부의 본질적인 발달(intrinsic development) 때문입니다.
그 이유는 다음과 같습니다.

Test-Time Computation 증가

모델이 한 번의 추론에서 생성할 수 있는 토큰 수가 많아지면서, 스스로 더 깊은 사고를 할 기회를 얻음.
즉, 시간이 지남에 따라 자연스럽게 더 많은 reasoning tokens을 생성하며 점진적으로 발전.

Reinforcement Learning에 의해 보상받는 행동 강화

더 나은 논리적 추론을 수행할수록 높은 보상을 받도록 설계됨.
따라서, 모델은 자연스럽게 더 깊이 사고하고, 생각하는 시간을 늘려 문제 해결 능력을 향상시키려 함.

즉, Thinking Time의 증가는 사람이 모델을 수정한 결과가 아니라, 모델이 RL 환경에서 더 나은 보상을 얻기 위해 스스로 발전한 결과임.

[질문2] DeepSeek-R1-Zero가 점점 더 복잡한 문제를 해결할 수 있게 되는 이유는?
DeepSeek-R1-Zero가 스스로 점점 더 어려운 문제를 해결하는 능력을 갖추는 이유는 Test-Time Computation 확장과 Reinforcement Learning 보상 메커니즘 때문입니다.

핵심 메커니즘
Test-Time Computation 증가 → 사고의 깊이 향상
모델이 점점 더 많은 reasoning tokens을 생성하면서 더 깊고 정교한 사고 과정을 거침.
초기에는 간단한 논리만 수행하던 모델이, 점차 긴 체인의 추론(Chain-of-Thought)을 수행할 수 있게 됨.
Reflection(반성) 능력 자연스러운 획득
모델이 스스로 자신의 논리를 되돌아보고 검토하는 과정을 학습하게 됨.
잘못된 답변을 수정하고, 더 나은 해결책을 찾으려는 경향이 생김.
강화 학습(RL)에서 높은 보상을 받는 행동 자동 강화
복잡한 문제를 해결하면 보상을 더 많이 받도록 설계됨.
따라서, 모델은 점점 더 높은 난이도의 문제 해결 능력을 키우게 됨.
즉, Test-Time Computation 확장과 RL 보상 시스템이 결합되면서, 모델이 자연스럽게 더 복잡한 문제 해결 능력을 가지게 됨.

[질문3] Test-Time Computation과 Reflection이란?

Test-Time Computation(테스트 시간 연산)
모델이 문제를 해결하는 동안 추론을 수행하는데 사용하는 연산량(계산량) 및 생성할 수 있는 "토큰 수"를 의미.
DeepSeek-R1-Zero는 초기보다 훨씬 더 많은 reasoning tokens을 생성하면서 점진적으로 더 깊은 사고를 하게 됨.
Reflection(반성)
모델이 자신이 생성한 응답을 다시 검토하고 평가하는 능력.
초기에는 단순한 답변만 생성하지만, 학습이 진행될수록 "이 답이 맞는지?", "더 나은 답변이 있는지?"를 고민하게 됨.
이는 사람이 코드 리뷰를 하듯이 자신의 사고 과정을 되돌아보며 개선하는 것과 유사.
즉, Test-Time Computation이 증가할수록 Reflection 같은 고차원적 사고 과정이 자연스럽게 등장함.

[질문4] 이러한 행동들이 프로그래밍되지 않았음에도 나타나는 이유는?
DeepSeek-R1-Zero는 Reflection(반성)이나 Alternative Approach(대안적 문제 해결 방식) 같은 복잡한 행동을 직접 프로그래밍하지 않았음에도 자동으로 학습합니다.
그 이유는 다음과 같습니다.

강화 학습(RL)이 보상을 기반으로 학습을 유도하기 때문

정확한 답을 찾거나, 논리적으로 정교한 사고 과정을 수행하는 경우 높은 보상을 받음.
따라서 모델이 보상을 극대화하려는 과정에서 이러한 능력이 자연스럽게 발달.

Test-Time Computation이 증가하면서 더 정교한 사고 과정이 필요해짐

모델이 한 번에 더 많은 reasoning tokens을 생성하면서, 단순한 답변 생성이 아니라 논리적 검토와 대안 탐색이 필요하게 됨.
따라서, 모델이 스스로 이러한 행동을 실험하고 발전시킴.

Self-evolution 과정에서 학습된 행동 패턴이 강화됨

초기에 단순한 문제 해결을 하던 모델이 점점 더 복잡한 문제를 다루면서, 사고 과정이 자연스럽게 진화함.
인간도 처음에는 단순한 문제를 해결하지만, 점점 더 논리적 사고를 확장하는 것과 같은 원리.

즉, 이러한 행동들은 인간이 직접 코딩한 것이 아니라, 모델이 보상을 극대화하려는 과정에서 자연스럽게 등장한 현상.

정리

DeepSeek-R1-Zero는 RL만으로 학습하며, 지도학습 없이 자기 진화(Self-Evolution)를 경험.
Thinking Time이 늘어나는 것은 외부 조정이 아니라, RL 보상 시스템 덕분에 모델이 스스로 사고 시간을 확장한 결과.
Test-Time Computation 확장과 RL 보상 시스템 덕분에 모델이 점점 더 복잡한 문제 해결 능력을 획득.
Reflection(반성) 및 대안 탐색 같은 고급 사고 능력이 자연스럽게 출현하며, 이는 RL 환경과 상호작용하는 과정에서 발생.
DeepSeek-R1-Zero는 강력한 강화 학습 전략을 통해 스스로 점진적으로 발전하는 AI 모델임을 보여줌

[질문5] Reasoning Tokens이란 무엇이며, 모델이 점점 더 많은 Reasoning Tokens을 생성하는 방식과 그 효과는?

1) Reasoning Tokens이란?
Reasoning Tokens은 모델이 문제를 해결하는 과정에서 생성하는 논리적 사고 단위(토큰)를 의미합니다.
단순한 정답 출력만 하는 것이 아니라, 답을 도출하는 과정을 설명하는 토큰들을 포함합니다.
예를 들어, 수학 문제를 푸는 과정에서:
<think> 먼저 주어진 방정식을 정리한다. 이후 양변을 나누어 x를 구한다. </think>
위의 먼저 주어진 방정식을 정리한다.와 같은 문장들이 reasoning tokens입니다.

2) 모델이 점점 더 많은 Reasoning Tokens을 생성하는 방식

Test-Time Computation(테스트 시간 연산) 증가
RL 훈련을 통해 모델이 더 많은 reasoning tokens을 생성하는 것이 더 높은 보상을 받도록 학습됨.
초기에는 짧고 단순한 응답을 생성하지만, 보상을 극대화하는 과정에서 자연스럽게 reasoning tokens이 증가.
Chain-of-Thought (CoT) 방식 활용
초기에는 한두 문장으로 답을 내놓던 모델이, 점점 단계별로 논리적인 과정을 포함하는 방향으로 발전함.
예를 들어,
초기 모델: "x = 3" (최종 정답만 출력)
학습된 모델:
<think> 방정식을 정리하면 2x + 6 = 12가 된다. 양변을 2로 나누면 x = 3이다. </think>
반성(Reflection) 및 검토 과정 추가
모델이 자신의 논리를 점검하는 과정에서 reasoning tokens이 추가됨.
예를 들어, "내가 방금 생성한 답이 논리적으로 맞는가?"를 판단하는 로직이 포함되면서 reasoning tokens 증가.

3) 더 많은 Reasoning Tokens이 생성되면 더 깊고 정교한 사고 과정이 가능해지는 이유

이전 모델의 문제점

기존 모델들은 정답을 빠르게 예측하려는 경향이 강함 → 논리적 과정이 부족하여 복잡한 문제 해결이 어려움.

Reasoning Tokens이 많아지면?

추론 과정을 세분화하면서, 복잡한 문제를 해결할 가능성이 높아짐.
특히 수학, 논리적 추론, 프로그래밍 문제 등에서 단계별 해결이 가능.
다양한 접근법을 탐색하면서, 더 정교한 해결책을 찾을 수 있음.
즉, 단순한 "정답 예측"에서 "논리적 해결 과정"으로 모델의 사고 방식이 발전함.

[질문6] 모델이 Reflection(반성) 과정을 학습하는 방식과 예제는?

1) Reflection이란?

모델이 스스로 자신의 논리를 되돌아보고 검토하는 과정을 의미.
초기 모델은 답을 바로 출력하지만, Reflection을 학습하면 자신의 답이 논리적으로 타당한지 확인하는 과정이 추가됨.

2) Reflection 알고리즘의 핵심 개념

1단계: 모델이 생성한 답을 다시 입력(prompt)으로 제공

모델이 자신의 답을 직접 검토하도록 자기 피드백(Self-Feedback) 루프) 생성.

예를 들어,

Q: x^2 - 4 = 0의 해를 구하시오.
A: x = ±2.

모델이 이 답을 생성한 후, "이 답이 맞는가?"를 다시 생각하도록 유도.

2단계: "논리 검증"을 추가하는 프롬프트 삽입

RL 과정에서, 모델이 자신의 답을 검증하는 단계를 포함하는 것이 보상을 높이는 방식으로 학습됨.

예제:

Q: x^2 - 4 = 0의 해를 구하시오.
A: <think> 방정식을 정리하면 (x - 2)(x + 2) = 0이 된다. 따라서 x = ±2이다. </think>

3단계: 모델이 기존의 답을 평가하는 "비교 학습" 적용

모델이 자신이 만든 답변을 평가하는 메타-학습(Meta-Learning) 방식을 적용.
예를 들어, 모델이 두 가지 답을 비교하도록 유도함:

답변 1: x = 2
답변 2: x = ±2
질문: 두 답변 중 어느 것이 더 정확한가?

만약 답변 2가 더 높은 보상을 받도록 학습되면, 모델은 앞으로 더 정교한 답을 생성하는 방향으로 최적화됨.

4단계: 모델이 논리적 오류를 수정하는 단계 추가

RL 과정에서 논리적 오류를 수정하는 것이 보상을 높이는 방식으로 학습됨.
예제:

Q: 만약 x^2 = 4라면 x는 무엇인가?
A1: x = 2.
A2: x = ±2.
<think> 제곱근을 취할 때 ±를 고려해야 하므로 A2가 정답이다. </think>

즉, Reflection을 학습한 모델은 자신의 답을 검토하고 수정할 수 있으며, 이것이 Test-Time Computation 증가로 이어짐

[질문7] Test-Time Computation을 증가시키는 방법(알고리즘)은?

Test-Time Computation을 증가시키는 주요 방법은 다음과 같습니다.

1) Multi-Step Decoding (다단계 디코딩)
한 번에 정답을 출력하는 대신, 논리적 단계를 여러 개로 나누어 점진적으로 답을 생성.
Beam Search 또는 Tree Search를 사용하여 여러 가지 가능성을 탐색한 후, 최적의 답을 선택.
예제:
Q: 5명의 사람들이 한 테이블에 앉을 수 있는 경우의 수를 구하시오.
A: <think> 순열 공식을 사용하여 5! = 120이므로, 정답은 120입니다. </think>
모델이 한 번에 "120"을 출력하는 대신, 중간 추론 과정을 포함하여 Test-Time Computation을 증가.
2) Self-Consistency (다양한 답변을 비교하여 최적화)
같은 질문을 여러 번 실행하여 다양한 답변을 생성한 후, 가장 신뢰할 수 있는 답변을 선택.
Majority Voting 기법 적용 → 가장 많은 지지를 받은 답변을 최종 선택.
예제:
Q: 7 + 5는 무엇인가?
A1: 12
A2: 12
A3: 11
모델이 같은 질문에 대해 여러 답변을 생성하고, 최빈값(12)을 최종 정답으로 선택.
3) Memory Augmented Reasoning (메모리 기반 추론)
모델이 과거에 유사한 질문을 해결한 기록을 저장하여, 이전 데이터를 참조하며 reasoning tokens을 증가.
Retrieval-Augmented Generation (RAG) 같은 기술을 활용하여, 이전에 해결한 문제와 비교하며 답변을 생성.
이러한 Test-Time Computation 증가 방식은 모델이 더욱 정교한 답을 생성할 수 있도록 도움을 줌
최종 정리
Reasoning Tokens
모델이 논리적 추론 과정에서 생성하는 토큰.
Test-Time Computation 증가 및 RL 보상 최적화 과정에서 점진적으로 증가.
Reflection (반성)
모델이 자신의 답변을 검토하고 논리적으로 수정하는 과정.
Self-Feedback 및 Meta-Learning 방식으로 학습됨.
Test-Time Computation 증가 방법
Multi-Step Decoding, Self-Consistency, Memory-Augmented Reasoning 등을 활용하여 모델의 사고 과정 확장.
결과적으로, Test-Time Computation이 증가하면 더 깊고 정교한 reasoning tokens이 생성되며, 모델의 논리적 사고 능력이 강화됨!

3) Aha Moment 기법(자기 진화(Self-Evolution))

가) Aha Moment란?

"Aha Moment"는 DeepSeek-R1-Zero가 강화 학습(RL) 과정에서 문제 해결 방식을 근본적으로 다시 평가하는 순간을 의미합니다.

기존 방식으로 문제를 해결하려다가 어떤 특정 지점에서 "이 방식으로는 안 되겠다"라는 깨달음을 얻고, 해결 전략을 다시 설계하는 현상입니다.
이는 RL 보상 시스템과 Test-Time Computation 증가가 결합되면서 자연스럽게 발생합니다.

즉, Aha Moment는 모델이 문제 해결 방식을 근본적으로 다시 생각하고 전략을 수정하는 중요한 순간을 말합니다.

예시

아래 그림에서와 같이 방정식의 해를 구하는 문제가 주어 졌다고 할 때, 초기 모델은 양변을 제곱하는 방식으로 풀려고 시도합니다. 그런데 이 방식으로 접근하면 오히려 컴퓨팅하기 까다로운 복잡한 방정식이 생성됩니다. 이러한 방식은 불필요하게 복잡한 변형을 초래하며, 잘못된 결론을 유도할 가능성이 생깁니다.

모델은 자신의 풀이 과정이 비효율적임을 깨닫고 다시 사고를 정리합니다. 이를 ‘Aha Moment’사고 과정의 전환이라고 합니다.

모델의 자기 검증(Self-Verification):

- "잠깐만, 무언가 잘못됐다!"

- "이 방식이 너무 복잡하다. 좀 더 직관적으로 접근해 보자."

- "문제를 더 단순한 단계로 나누어 해결하는 것이 좋겠다."

이 순간, 모델은 자신의 오류를 감지하고, 보다 간결하고 논리적인 새로운 접근 방법으로 접근하기 시작합니다. 예를 들어, 내부 제곱근을 새로운 변수로 치환하여 방정식을 단순화합니다. 이렇게 문제를 단계적으로 해결하면서 계산의 복잡도를 낮추고 보다 정확하고 논리적인 해를 도출합니다.

나) Aha Moment가 발생하는 시점을 어떻게 인식하는가?

DeepSeek-R1-Zero는 다음과 같은 방식으로 Aha Moment를 인식합니다.

a. 초기 접근 방식이 실패하는 패턴을 학습

모델이 처음 시도한 방식이 낮은 보상을 받거나 실패하는 경우가 많아짐.
예를 들어, 수학 문제를 풀 때 단순한 정답 예측 방식을 사용했는데, 보상이 낮다면 이를 실패한 접근으로 학습함.

b. Reflection(반성)과 Test-Time Computation 증가 과정에서 패턴 변화 감지

모델이 자신의 응답을 평가하고 개선하는 과정(Reflection)에서 초기 방식의 비효율성을 감지.
Test-Time Computation이 증가하면서 처음보다 더 많은 reasoning tokens을 생성하는 패턴이 나타남.
예를 들어, 초기에는 x = 5와 같은 단순한 답을 내놓던 모델이, 시간이 지나면서 논리적 단계를 추가하면서 깊이 있는 사고를 시작함.

c. 특정 문제 유형에서 사고 시간이 증가하는 현상 감지

강화 학습을 거치면서 특정 유형의 문제(예: 복잡한 수학 문제)에서 모델의 사고 시간이 증가하는 패턴이 나타남.
이는 모델이 한 번에 정답을 내놓기보다, 문제 해결 방식을 다시 고민하고 있음을 의미.

이러한 변화가 감지되는 순간이 Aha Moment이며, 모델이 새로운 접근 방식을 실험하는 전환점이 됨.

다) Aha Moment 발생 시 RL에서 처음 접근 방법을 어떻게 다시 평가하는가?

Aha Moment가 발생하면 모델은 기존의 접근 방식이 비효율적이라고 판단하고, 이를 보상 시스템을 통해 학습합니다.

a. 실패한 접근 방식에 대한 보상 조정

RL 보상 모델이 비효율적인 해결 방식에는 낮은 보상을 부여.
예를 들어, 정답을 빠르게 내놓지만 논리 과정이 없는 응답에는 낮은 보상을 줌.

b. 새로운 접근 방식을 탐색하도록 유도

모델은 보상을 극대화하려는 특성 때문에 다른 해결 방식을 시도함.
이 과정에서 추론 과정(reasoning tokens)을 늘리고, 이전보다 논리적인 접근법을 선택.
예를 들어, 단순한 답 출력 대신, 중간 과정에서 "이 접근이 맞는가?"라는 질문을 던지며 사고를 확장.

c. Self-Consistency(자기 일관성) 및 Reflection을 강화

기존 방법이 낮은 보상을 받으면, 모델은 자신이 생성한 답변을 다시 평가하고, 더 나은 방식을 찾으려 함.
예를 들어, 같은 문제를 다른 접근법으로 해결해 보고, 어떤 방법이 더 높은 보상을 받는지 비교.

즉, RL 시스템이 비효율적인 해결 방법을 억제하면서, 모델이 더 나은 전략을 탐색하도록 유도함.

라) Aha Moment 이후, 모델은 어떻게 처음으로 돌아가는가?

Aha Moment 이후, 모델은 단순히 새로운 방식만 도입하는 것이 아니라, 기존 접근법을 돌아보고, 다시 처음부터 다른 전략을 시도합니다.

a. Reinforcement Learning의 Exploration(탐색) 기법 활용

RL에는 탐색(Exploration)과 활용(Exploitation)이라는 개념이 있음.
Aha Moment가 발생하면, 모델은 기존 방식이 실패했음을 인식하고, 새로운 접근을 탐색하는 방향으로 학습.
예를 들어, 기존에는 정답을 바로 도출하려 했지만, 이제는 "어떤 과정을 거쳐야 하는가?"라는 질문을 던지는 방식으로 변화.

b. Checkpoint-Based Training을 활용한 초기 재설정

RL 체크포인트를 활용하여, 초기 접근 방식과 새로운 접근 방식을 비교.
새로운 접근 방식이 더 높은 보상을 받으면, 모델은 이 방식을 강화하여 이후에도 유사한 패턴을 따름.

c. Reasoning Tokens 및 Test-Time Computation 조정

처음에는 적은 reasoning tokens으로 문제를 해결하려 하지만, Aha Moment 이후에는 더 많은 reasoning tokens을 사용하여 해결 방식을 개선.
즉, Aha Moment를 경험한 후, 모델은 더 많은 사고 시간을 할당하고, 더욱 체계적인 방법을 시도.

결과적으로, 모델은 처음으로 돌아가 더 나은 해결 방법을 학습하면서 자기 개선(Self-Evolution) 과정을 반복함.

마) 왜 Aha Moment는 RL이 예상치 못한 복잡한 문제의 해답을 만들어내는 전환점이 되는가?

DeepSeek-R1-Zero의 Aha Moment는 RL이 단순한 학습을 넘어, 모델이 스스로 문제 해결 전략을 발전시키는 능력을 갖추게 만드는 과정을 보여줍니다.

a. 기존 AI 학습 방식과의 차이점

기존 방식: 사람이 미리 지도 학습 데이터를 제공하고, 정답을 학습하도록 강제.
RL 방식: 명시적으로 가르치지 않더라도, 보상 구조만 설정하면 모델이 스스로 최적의 해결 전략을 찾아냄.

b. 예상치 못한 Sophisticated Outcomes(정교한 결과) 생성

Aha Moment가 발생하면, 모델은 이전에는 없던 새로운 해결 방식을 스스로 창출.
사람의 개입 없이도 더 깊이 있는 사고 과정, 반성(Reflection), 탐색(Exploration)이 자발적으로 등장.
이는 강화 학습이 단순한 정답 예측을 넘어, 복잡한 사고 과정을 학습하는 데 활용될 수 있음을 입증.
즉, RL을 통해 모델이 스스로 고급 문제 해결 전략을 개발할 수 있다는 점에서, Aha Moment는 AI 발전의 중요한 사례가 됨.

요약

Aha Moment란?

모델이 문제 해결 방식의 비효율성을 인식하고, 새로운 접근법을 학습하는 순간.

Aha Moment가 발생하는 시점을 어떻게 인식하는가?

RL 보상 시스템에서 기존 방식이 낮은 보상을 받을 때, 모델이 비효율성을 깨닫고 사고 시간을 증가시키는 패턴이 나타남.

Aha Moment 이후, RL에서 처음 접근 방식을 어떻게 다시 평가하는가?

기존 접근 방식의 비효율성을 인식하고, Self-Consistency 및 Reflection 기법을 활용하여 새로운 방법을 탐색.

Aha Moment 이후, 모델이 어떻게 처음으로 돌아가는가?

Exploration 기법과 Test-Time Computation 증가를 활용하여, 더 체계적이고 논리적인 해결 방식으로 다시 시작.

왜 Aha Moment는 RL이 예상치 못한 정교한 결과를 만들어내는 예시인가?

명시적으로 코딩하지 않아도, 보상 시스템만으로 모델이 스스로 새로운 해결 전략을 창출하는 사례이기 때문.

DeepSeek-R1-Zero의 Aha Moment는 강화 학습이 어떻게 모델의 자율적 문제 해결 능력을 향상시키는지를 보여주는 대표적인 사례

바) GRPO 알고리즘에서 Aha Moment 적용 방식: 직접 보상 없이 학습 신호를 제공하는 방법

GRPO(Group Relative Policy Optimization)는 기존 강화 학습(RL)과 다르게 출력(응답)에 직접적인 보상을 주지 않고, 그룹 내에서 상대 비교를 통해 학습합니다.

그러나 Aha Moment를 적용하려면, 모델이 자신의 문제 해결 방식이 비효율적임을 깨닫고, 새로운 접근법을 탐색하도록 유도해야 합니다.

a. 핵심 질문:

GRPO는 출력에 직접 보상을 줄 수 없는데, Aha Moment를 학습 신호로 제공하는 방식이 가능한가?
(답변) 가능하며, 기존의 상대 비교 방식과 보상 시스템을 조합하여 진행할 수 있음.

사) GRPO에서 Aha Moment를 학습하는 방식

a. 직접적인 보상이 아니라, 상대 비교를 통한 보상 평가

GRPO에서는 출력 그룹 내에서 보상을 상대적으로 평가함.
즉, Aha Moment가 발생한 경우, 이전 방식과 새로운 방식의 상대적 비교를 통해 학습 신호를 제공.
새로운 접근법이 더 높은 보상을 받도록 학습이 진행되면서, 자연스럽게 새로운 해결 방법이 강화됨.

b. Reasoning Tokens 증가를 보상 신호로 활용

Aha Moment는 모델이 더 깊이 사고하도록 유도하는 과정이므로, Test-Time Computation 증가(추론 과정 확장)를 유도하는 것이 핵심.
GRPO에서는 기존 방식보다 더 많은 reasoning tokens을 포함한 응답이 더 높은 보상을 받도록 상대 평가를 적용.
즉, 이전보다 더 깊이 사고한 응답이 그룹 내에서 더 높은 평가를 받도록 조정.

c. 실패한 접근과 성공한 접근을 그룹 내에서 비교하여 학습 진행

GRPO는 각 출력의 보상을 개별적으로 평가하는 것이 아니라, 그룹 내 상대적 평가를 사용.
따라서, Aha Moment가 발생하면, 같은 질문에서 이전 접근과 새로운 접근을 함께 그룹에 포함하여 비교.
새로운 접근이 상대적으로 더 높은 평가를 받으면, 점진적으로 강화됨.

d. Reflection(반성) 및 Self-Consistency를 보상 요소로 포함

Aha Moment의 핵심은 모델이 자신의 논리를 다시 평가하고 새로운 방법을 시도하는 것.
이를 강화하기 위해, 모델이 같은 문제를 여러 번 해결하고, 다양한 접근을 비교 평가하도록 학습.
즉, 모델이 스스로 만든 답변을 검토하고 수정할 때, 그 과정 자체가 상대적으로 높은 평가를 받도록 보상 신호를 제공.

아) Aha Moment 학습 시 GRPO 보상 적용 방식 예제

기존 RL 방식(PPO 등)에서 Aha Moment 적용 방법

PPO 같은 기존 RL에서는 특정 출력에 대해 개별적으로 보상을 제공할 수 있음.
따라서, Aha Moment 이후 새로운 접근법이 도입되면, 새로운 방식에 대해 높은 보상을 주면 됨.

예제

모델이 처음에는 x = 5라는 단순한 답을 생성.
하지만 RL 과정에서 x = 5는 보상이 낮고, 논리적 설명이 포함된 답이 더 높은 보상을 받음.
이후 모델이 더 많은 reasoning tokens을 생성하면서, x = 5 because...와 같이 논리적 과정을 포함한 답을 내놓음.
새로운 방식이 더 높은 보상을 받으면서, 모델은 점점 더 복잡한 reasoning tokens을 생성하는 방향으로 학습.

PPO에서는 직접 보상을 통해 새로운 접근법을 강화할 수 있음.

자) GRPO 방식에서 Aha Moment 적용 방법

GRPO에서는 직접 보상이 불가능하므로, 출력 그룹 내에서 상대 비교를 통해 학습 진행.

예제
같은 질문에 대해 기존 방식과 새로운 방식을 함께 생성.

출력 1 (기존 방식): "x = 5"
출력 2 (Aha Moment 후 새로운 방식): "<think> 방정식을 정리하면... x = 5</think>"

그룹 내 보상 평가를 적용하여, reasoning tokens이 포함된 응답(출력 2)이 상대적으로 더 높은 평가를 받도록 조정.
이후, 새로운 방식이 그룹 내에서 점점 더 높은 비율로 선택되면서 강화됨.
즉, Aha Moment 이후 모델이 새로운 접근법을 탐색하는 것이 강화 학습을 통해 자동으로 최적화됨.

즉, GRPO에서는 Aha Moment가 발생한 이후, 기존 방식과 새로운 방식을 그룹 내에서 비교하여 상대적으로 학습을 진행.

차) Aha Moment에서 처음 접근 방식으로 돌아가는 과정

일반적인 RL 방식에서는 모델이 처음 시도한 방식과 새로운 방식을 직접 비교하며 보상을 조정할 수 있음.
그러나 GRPO는 상대 비교 방식이므로, 처음 접근 방식을 다시 돌아보게 만들려면 그룹 비교를 활용해야 함.

A. 모델이 동일한 질문을 여러 방식으로 해결하도록 유도

같은 질문에 대해, 이전 방식(낮은 보상)과 새로운 방식(높은 보상)을 비교.
이후 모델이 새로운 방식을 학습하면서, 점점 더 정교한 방식으로 문제를 해결함.

B. Reflection 및 Self-Consistency 적용

모델이 Aha Moment 이후 새로운 방식을 시도하면서, 자신의 응답을 다시 평가하고 수정하는 과정이 추가됨.
이를 강화하기 위해, 같은 문제를 여러 번 해결하게 하고, 서로 다른 접근법을 비교하도록 학습.

C. Test-Time Computation 증가를 통해 새로운 방식이 자연스럽게 우세해지도록 조정

reasoning tokens이 더 많은 방식이 상대적으로 더 높은 보상을 받도록 조정.
결과적으로, 모델이 점점 더 깊이 사고하는 방향으로 학습됨.

카) 왜 Aha Moment는 RL이 예상치 못한 정교한 결과를 만들어낼 수 있는가?

GRPO에서는 직접 보상을 제공하지 않음에도, 모델이 스스로 Aha Moment를 경험하면서 학습을 최적화하는 방식이 등장.

이 과정이 RL의 강력한 점을 보여주는 이유

인간이 직접 코딩하지 않아도, 보상 시스템만 잘 설계하면 모델이 스스로 학습하며 복잡한 문제 해결 방식을 탐색.
Aha Moment는 완전히 예측할 수 없는 새로운 해결 방식이 모델 내부에서 자연스럽게 등장하는 현상임.
특히, 출력에 직접적인 보상을 주지 않는 GRPO에서도 상대 비교를 통해 Aha Moment를 학습할 수 있다는 점이 강화 학습의 강력한 특성을 보여줌.

즉, GRPO는 Aha Moment가 발생한 후에도 상대 비교 방식을 활용하여 학습을 진행할 수 있으며, 이는 RL이 예상치 못한 정교한 결과를 만들어낼 수 있다는 것을 증명하는 사례가 됨.

요약

GRPO는 직접 보상을 주지 못하지만, Aha Moment 이후에도 학습 신호를 제공할 수 있음.
출력 그룹 내 상대 비교를 통해, 새로운 해결 방식이 더 높은 평가를 받도록 조정.
Reasoning Tokens 증가, Reflection 적용, Test-Time Computation 확장 등을 통해 모델이 새로운 방식으로 학습.
이 과정이 RL의 예측 불가능한 정교한 문제 해결 능력을 보여주는 사례가 됨.
GRPO에서도 Aha Moment를 활용한 학습이 가능하며, 이는 모델이 강화 학습을 통해 점점 더 정교한 사고 방식을 학습할 수 있음을 보여줌

DeepSeek-R1-Zero의 ‘Aha Moment’는 단순한 패턴 학습이 아닌, 모델이 스스로 사고 과정의 오류를 감지하고, 논리적으로 더 나은 해결 방법을 탐색하는 과정을 보여줍니다. 이는 모델이 강화 학습(RL)을 통해 학습한 자기 검토(Self-Verification) 및 재귀적 사고 능력이 효과적으로 작동함을 시사합니다. 이는 마치 사람이 문제를 해결하다 “아하!” 하는 순간처럼, AI가 자연스럽게 학습을 통해 진화할 수 있도록 설계된 것입니다.

4) DeepSeek-R1: Cold Start와 다단계 학습

가) Cold Start란?

Cold Start는 초기 강화 학습(RL) 과정이 불안정해지는 문제를 방지하기 위해, 사전에 일정량의 데이터를 활용하여 모델을 미세 조정하는 방법입니다.

DeepSeek-R1-Zero는 완전한 RL 과정에서 출발했지만, 초기에 모델이 불안정한 상태(cold start phase)를 겪음.
이를 해결하기 위해 DeepSeek-R1에서는 먼저 작은 규모의 Long CoT(Chain-of-Thought) 데이터를 수집하고 이를 활용하여 초기 RL Actor를 구성.
즉, 초기 모델이 RL을 시작하기 전에 미리 안정적인 상태에서 출발하도록 준비하는 과정

Cold Start를 통해 다음과 같은 잇점을 얻을 수 있으며, RL 과정에서 모델이 더 빠르게 학습하고 안정적으로 발전할 수 있도록 합니다.

가독성(Readability):

DeepSeek-R1-Zero의 주요 한계는 응답의 가독성이 낮아 사용자에게 적합하지 않다는 점입니다. 응답 중 다수는 여러 언어가 혼합되거나, 답변을 강조하는 마크다운 형식이 부족합니다. 이에 반해 DeepSeek-R1은 초기 데이터를 수집할 때 가독성을 고려한 패턴을 설계하여 각 응답의 끝에 요약을 포함하고, 읽기 어려운 응답은 필터링합니다. 출력 형식은 |special_token|<추론 과정>|special_token|<요약>으로 정의되며, 추론 과정은 질문에 대한 CoT(Chain of Thought)를, 요약은 그 결과를 요약하는 데 사용됩니다.

잠재력(Potential):

인간의 사전 지식을 반영한 초기 데이터 패턴을 신중하게 설계한 결과, DeepSeek-R1은 DeepSeek-R1-Zero보다 향상된 성능을 보였습니다. 이러한 반복적 학습(iterative training) 방식이 추론 모델을 개선하는 데 더 효과적임을 시사합니다.

나) Initial RL Actor란?

초기 RL Actor는 RL 학습을 시작하기 전에 미세 조정된 모델을 의미합니다.

일반적인 RL에서는 아무런 조정 없이 기존의 모델(Base Model)에서 학습을 시작하지만,
Cold Start에서는 DeepSeek-V3-Base 모델을 먼저 Long CoT 데이터로 미세 조정하여 초기 RL Actor를 생성.
이 과정을 통해 초기 모델이 너무 불안정한 상태에서 학습을 시작하는 문제를 방지.

즉, Initial RL Actor는 "RL 학습을 본격적으로 시작하기 전, 미세 조정(Fine-Tuning)된 모델"을 의미함.

다) Long CoT Cold Start Data를 수집하는 방법 (기법)

Cold Start 데이터를 수집하기 위해 여러 가지 방법이 사용됨.

A. Few-shot Prompting을 활용하여 긴 CoT 데이터를 생성

Few-shot Prompting: 기존에 좋은 품질의 CoT 데이터를 예제로 제공하여, 모델이 유사한 방식으로 응답하도록 유도.
즉, 긴 Chain-of-Thought을 포함하는 예시를 모델에게 제공하여 더 정교한 답변을 생성하게 함.

B. Reflection & Verification 기반 프롬프팅

모델이 스스로 생성한 답변을 다시 검토(Reflection)하고, 검증(Verification)하도록 유도.
즉, 모델이 자신의 사고 과정을 되돌아보고 논리적으로 검증하는 방식으로 더 깊이 있는 데이터를 생성.

C. DeepSeek-R1-Zero의 출력을 가독성 높은 형식으로 변환하여 활용

기존의 DeepSeek-R1-Zero가 생성한 데이터를 활용하되, 가독성(Readability)이 높도록 포맷을 변경.
즉, 기존의 데이터가 언어가 섞이거나 비구조적인 문제를 해결하고, 정리된 형식으로 저장.

D. 인간 주석자(Human Annotators) 후처리(Post-processing)

모델이 생성한 CoT 데이터를 사람이 직접 검토하고 수정하여 품질을 개선.
즉, 기계적으로 생성된 데이터에 추가적인 정제 과정을 거쳐 Cold Start 데이터를 구성.

이러한 데이터 수집 기법을 통해 모델이 초기부터 높은 품질의 추론 데이터를 학습할 수 있도록 함.

라) 출력의 Readable Format(가독성 높은 출력 형식)이란?

Cold Start 데이터는 모델의 가독성을 향상시키고 논리적 사고 과정을 체계적으로 정리하기 위해 표준화된 출력 형식을 사용합니다.

출력 포맷 정의:

Cold Start 데이터를 가독성 높은 포맷으로 변환하기 위해 특정한 출력 형식을 정의.

예제:

|BEGIN|<think> 먼저 x를 정의하고 방정식을 정리한 후, x의 값을 구한다. </think>|END|<summary> x = 5 </summary>

추론 과정(CoT)과 최종 정리(summary)를 명확히 구분하여 가독성을 높임.

마) 왜 이러한 포맷이 더 바람직한가?

A. DeepSeek-R1-Zero의 기존 문제점

응답이 여러 언어가 섞이거나, Markdown 형식이 부족하여 가독성이 떨어짐.
사용자 입장에서 답변을 읽기 어렵거나, 논리적인 구성이 부족한 문제 발생.

B. Readable Format이 가지는 장점

i) 응답의 일관성 향상

정형화된 포맷을 사용함으로써 모든 답변이 동일한 형식을 따르도록 강제.
즉, 모델이 더 예측 가능한 구조로 답변을 생성할 수 있도록 도움.

ii) 인간이 더 쉽게 이해할 수 있도록 디자인

사용자가 추론 과정과 최종 답을 명확히 구분할 수 있도록 함.
예를 들어, Markdown을 활용하면 답변 내에서 중요한 내용을 강조할 수 있음.

iii) 모델의 추론 프로세스 학습에 도움

정리된 포맷 덕분에 모델이 학습할 때도 더 구조적으로 정보를 처리할 수 있음.
즉, 더 정교한 Chain-of-Thought 추론이 가능해짐.

iv) Iterative Training(반복 학습)과의 궁합이 좋음

사람이 정제한 데이터 패턴을 모델이 학습하면, 이후 더 정교한 데이터를 생성할 확률이 높아짐.
즉, Cold Start 데이터를 기반으로 학습된 모델이 이후 더욱 개선된 데이터셋을 만들어낼 수 있음.

결론적으로, Readable Format을 적용하면 모델이 더 구조적인 추론을 하도록 유도할 수 있으며, 인간이 이해하기 쉬운 형태의 응답을 생성하도록 최적화할 수 있음.

바) 요약

Cold Start란?

초기 RL 과정이 불안정해지는 문제를 방지하기 위해, 미리 정제된 CoT 데이터를 활용하여 모델을 미세 조정하는 방법.
DeepSeek-R1에서는 DeepSeek-V3-Base를 Fine-Tuning하여 Initial RL Actor로 사용.
RL을 처음부터 시작하지 않고, 일정 수준의 사고 능력을 가진 상태에서 학습을 시작함으로써 안정성을 높임.

Long CoT Cold Start Data를 수집한 방법

Few-shot Prompting
Reflection & Verification 기법
DeepSeek-R1-Zero의 출력을 가독성 높은 형식으로 변환
인간 주석자의 후처리(Post-processing)

출력의 Readable Format이란?

∣special_token∣<reasoning_process>∣special_token∣<summary>
추론 과정(CoT)과 요약(Summary)을 구분하여 가독성을 높인 형식.

왜 Readable Format이 더 바람직한가?

일관성 유지
사용자가 이해하기 쉬움
모델이 구조적으로 학습 가능
Iterative Training(반복 학습)과의 시너지가 높음

Cold Start를 통해 RL 과정의 불안정성을 해결하고, 초기 학습 단계를 최적화하여 모델이 더 효과적으로 학습할 수 있도록 함

(참고) 데이터 설계 및 구성

DeepSeek-R1은 모델의 초기 안정성을 확보하고, 논리적 추론 능력을 극대화하며, 다목적 성능을 강화하기 위해 체계적인 데이터 설계를 적용하였습니다. 이를 위해 Cold Start 데이터, Reasoning 데이터, Non-Reasoning 데이터의 세 가지 주요 데이터 유형을 활용하며, 최종적으로 이를 통합하여 최적의 학습 성능을 달성합니다.

Cold Start 데이터

RL 학습 초기의 불안정을 제거하고, 모델이 초기부터 가독성 높은 출력과 사용자 친화적인 응답을 생성할 수 있도록 보장합니다.

Few-shot Prompting을 활용한 Long CoT(CoT가 긴 예제) 데이터 및 자체 생성된 상세한 답변을 포함하며,

DeepSeek-R1-Zero의 출력을 정제하여 Markdown 스타일의 가독성 높은 데이터로 후처리합니다.

이를 통해 모델이 초기 학습 단계에서 일관된 형식과 구조를 익히도록 설계되었습니다.

Reasoning 데이터

수학, 과학, 코딩 등 논리적 추론이 필요한 작업에서 모델의 성능을 극대화하는 데 집중합니다.

Rejection Sampling 기법을 활용하여 정확한 응답만 선별하고,

규칙 기반 평가(예: 수학 문제 정답 검증, 코드 컴파일 테스트 등) 를 통해 데이터의 신뢰도를 보장합니다.

또한, DeepSeek-V3를 활용하여 생성된 데이터를 정제하며, 혼합 언어 및 불필요한 코드 블록을 필터링하여 학습 효율성을 높였습니다.

Non-Reasoning 데이터

일반적인 작성(Writing), 번역(Translation), 질문 응답(QA) 등의 성능을 강화하는 목적을 가집니다.

DeepSeek-V3 파이프라인을 재사용하여 데이터를 구축하며,

간단한 질문에 대한 응답은 CoT 없이 빠르게 생성하고, 복잡한 질문에는 CoT를 포함한 상세한 답변을 생성하도록 설계되었습니다.

이를 통해 일반적인 대화 및 다목적 작업에서도 모델이 뛰어난 성능을 발휘할 수 있도록 보장합니다.

데이터 통합 및 최적화

DeepSeek-R1은 최종적으로 Reasoning 데이터와 Non-Reasoning 데이터를 통합하여 약 80만 개의 데이터셋을 구성하였으며, 이를 활용하여 2 에포크 동안 Fine-Tuning을 진행합니다. 이를 통해 논리적 추론 능력과 다목적 작업 성능을 동시에 강화하며, 다양한 사용 사례에서 일관된 성능을 발휘할 수 있도록 최적화되었습니다.

5) 추론 중심 강화 학습 Reasoning-Oriented Reinforcement Learning (RoRL)

Reasoning-Oriented Reinforcement Learning (RoRL)은 DeepSeek-R1 모델이 수학, 코딩, 과학, 논리적 추론과 같은 고난이도 reasoning-intensive task에서 뛰어난 성능을 발휘할 수 있도록 설계된 강화 학습(RL) 과정입니다. 이 과정에서는 Cold Start로 미세 조정된 DeepSeek-V3-Base 모델을 기반으로 대규모 RL 훈련을 적용하여, 언어적인 처리 능력에 더하여 다양한 추론능력을 강화함으로 더 깊은 사고 능력을 향상시키는 것이 목표입니다.

가) 대규모 강화 학습(RL)을 통한 추론 능력 강화

Cold Start 데이터로 기본 모델을 미세 조정(Fine-Tuning)한 후, 대규모 강화 학습(RL)을 적용하여 모델의 추론 능력을 더욱 향상시켰습니다.

Chain-of-Thought(CoT) 방식 강화

DeepSeek-R1은 단순한 정답 예측이 아니라, 문제 해결 과정을 체계적으로 표현하도록 학습.
즉, 추론 과정을 명확하게 나타내는 긴 Reasoning Tokens을 생성하도록 최적화.

나) 중점 작업 (Key Focus Areas)

강화 학습 과정에서 논리적 사고가 중요한 다음과 같은 분야의 성능을 강화하는 데 중점을 두었습니다.

수학(Mathematics): 복잡한 계산 및 공식 유도

코딩(Coding): 프로그래밍 문제 해결 및 코드 생성

과학(Science): 과학적 개념 이해 및 문제 해결

논리 추론(Logical Reasoning): 패턴 인식 및 논리 문제 해결

다) 도전 과제 및 해결책 (Challenges and Solutions)

언어 혼합(Language Mixing) 문제

RL 훈련 중 여러 언어가 혼합된 프롬프트를 제공하면 CoT 출력에서 언어적 일관성이 깨지는 현상이 발생.

특히, 같은 논리적 과정을 다른 언어로 혼합하여 표현하는 경우 가독성이 떨어지고 논리 흐름이 왜곡됨.

해결책: 언어 일관성 보상(Language Consistency Reward) 도입

CoT 내 목표 언어(예: 영어 또는 중국어)의 단어 비율을 계산하여 보상 점수로 활용.

이를 통해 모델이 한 가지 언어로 일관된 논리를 유지하며 추론을 수행하도록 유도.

라) 보상 함수 설계 (Reward Formulation)

추론 과제의 정확도(Accuracy)와 언어 일관성(Language Consistency)을 하나의 보상 신호로 합산하여 최종 보상 결정.
최종 보상 값 = 추론 정확도 점수 + 언어 일관성 점수.
즉, 정확성(Accuracy)과 가독성(Language Consistency)을 동시에 고려하는 방식.

정확도 보상

예를 들어,
수학 문제에서는 정확한 정답을 도출하면 높은 보상.
코딩 문제에서는 테스트 케이스를 통과하는 코드일수록 높은 보상.

Language Consistency Reward(언어 일관성 보상) 추가

CoT 응답에서 여러 언어가 혼합되는 문제(Language Mixing)를 해결하기 위해 보상 시스템을 도입.
모델이 CoT에서 목표 언어(Target Language)의 단어 비율을 높일수록 보상이 증가.
예를 들어, 영어 응답에서는 영어 단어 비율이 높을수록 보상이 증가하도록 설정.
다만, 실험 결과에 따르면 성능이 약간 감소할 수도 있음.
하지만 가독성이 향상되고, 인간이 더 선호하는 응답을 제공하는 방향으로 정렬됨.

모델이 더 정확한 추론을 수행하면서도, 사람이 읽기 쉽게 응답을 생성하도록 유도.

마) 결과 (Outcome)

강화 학습을 지속적으로 진행하여 수렴(Convergence)에 도달할 때까지 모델을 최적화.

추론 성능이 크게 향상되었으며, CoT 기반의 논리적 사고 과정이 더욱 정교해짐.

언어 일관성 보상을 도입한 후, 다국어 프롬프트에서도 논리적으로 일관된 응답을 생성하는 능력이 개선됨.

결과적으로, DeepSeek-R1은 강화 학습을 통해 수학, 코딩, 과학, 논리 추론과 같은 고난도 추론 과제에서 더욱 강력한 성능을 발휘하며, 언어적 일관성을 유지하는 능력까지 갖춘 모델로 발전하였습니다.

[질문] GRPO에서 이 보상 방법을 적용하는 기법은?

GRPO(Group Relative Policy Optimization)는 기존 RL 방식(PPO 등)과 달리, 개별 보상을 직접 주지 않고 그룹 내 상대 평가를 활용하는 방법입니다.

GRPO에서 Accuracy + Language Consistency 보상을 적용하는 방법

Step 1: 출력 그룹을 생성하여 상대 평가 진행

같은 질문에 대해 여러 개의 응답(출력 그룹)을 생성.

예제:

출력 1: "x = 5 (단순한 정답만 있음)"
출력 2: "<think> 방정식을 정리하면... x = 5 </think>"
출력 3: "<think> The solution follows from algebra... x = 5 </think>" (영어 일관성 보상 포함)

Accuracy 측면에서 보면 출력 1, 2, 3 모두 정답이므로 동일한 점수를 받을 수 있음.
하지만 출력 3이 언어 일관성(영어만 사용)을 준수했으므로 추가 보상을 부여.

Step 2: 그룹 내에서 상대 비교(Advantage Function 계산)

각 출력의 보상을 평균과 비교하여 상대적으로 더 좋은 응답을 평가.
Accuracy 보상 + Language Consistency 보상을 포함하여, 가장 높은 평가를 받은 응답을 선호하도록 학습.

Step 3: 새로운 정책 모델 업데이트

상대적으로 높은 평가를 받은 응답이 다음 RL 학습에서 더 자주 선택되도록 정책 업데이트.

즉, 정확하면서도 가독성이 높은 응답을 생성하는 방향으로 점진적으로 최적화.

결과적으로, GRPO에서는 Accuracy와 Language Consistency를 개별적으로 평가하지 않고, 그룹 내에서 상대 비교를 통해 최적의 응답을 찾고 학습하는 방식으로 진행됨.

6) 거부 샘플링(Rejection Sampling)과 지도 미세조정 학습(SFT)

Rejection Sampling과 Supervised Fine-Tuning (SFT) 과정은 Reasoning-Oriented RL이 수렴한 이후, 기존 학습된 모델을 기반으로 더 넓은 범위의 데이터(SFT 데이터)를 수집하고 모델을 추가 학습하는 과정입니다.

이 과정에서는 기존의 추론(Reasoning) 중심 데이터뿐만 아니라, 일반적인 자연어 처리(NLP) 태스크(General-Purpose Tasks)도 포함하여 모델의 범용성을 향상시키는 것이 목표입니다.

따라서 강화 학습(RL) 기반의 추론 최적화 과정이 수렴한 후, 생성된 Resulting Checkpoint를 이용하여 SFT 데이터 수집하여 다음 단계의 미세 조정(Fine-Tuning)을 진행합니다.

가) Resulting Checkpoint를 이용하여 SFT 데이터 수집하는 이유와 방법

[이유]

A. Reasoning-Oriented RL의 한계 보완

이전 단계에서는 주로 논리적 추론(Reasoning) 관련 데이터만 사용하여 모델을 학습.
하지만 범용적인 태스크(General-Purpose Tasks, 예: 문서 작성, 역할 수행 등)에 대한 성능을 개선하기 위해 다양한 도메인의 데이터를 추가 학습할 필요가 있음.

B. 기존 모델이 생성한 데이터를 필터링하여 더 좋은 학습 데이터를 구축하기 위함

모델이 생성하는 데이터 중 품질이 높은 응답만을 선택하는 방식(Rejection Sampling)을 적용하여 데이터의 신뢰성을 높임.

[방법]

A. Reasoning-Oriented RL에서 얻은 최신 모델(Checkpoint)을 사용하여 데이터 생성

즉, 현재까지 학습된 모델이 가장 신뢰할 수 있는 데이터를 생성할 가능성이 높으므로, 이 모델을 활용하여 데이터를 추가 생성.

B. Rejection Sampling을 통해 품질 높은 데이터만 선택

하나의 질문(Prompt)에 대해 여러 개의 응답을 생성한 뒤, 가장 논리적으로 정확한 응답만을 선택.

C. Supervised Fine-Tuning (SFT) 데이터로 저장

이렇게 선택된 고품질 데이터를 활용하여 SFT(지도학습 기반 미세조정)를 진행.

즉, 기존 RL로 학습된 모델을 활용하여 새로운 데이터를 생성하고, 그중에서 가장 신뢰할 수 있는 데이터를 선별하여 추가 학습을 진행하는 방식.

[Reasoning 데이터와 Non-Reasoning 데이터로 분리하여 SFT하는 이유]

A. Reasoning 중심 데이터와 일반적인 자연어 처리(NLP) 태스크 데이터는 성격이 다름

Reasoning 태스크: 논리적 사고, 수학 문제, 코딩, 과학적 문제 해결 등 → 정확성과 추론 능력이 중요
Non-Reasoning 태스크: 글쓰기, 정보 검색, 번역, 역할 수행, 일반 대화 등 → 일관성과 가독성이 중요

B. 따라서 두 가지 데이터 유형을 분리하여 모델이 각 태스크에 맞게 최적화되도록 학습

추론 태스크는 논리적 정확성을 극대화하는 방식으로 학습.
일반 태스크는 자연스러운 언어 표현과 문맥적 이해를 강화하는 방식으로 학습.

[Reasoning 데이터와 Non-Reasoning 데이터로 분리하여 SFT하는 방법]

Reasoning 데이터와 Non-Reasoning 데이터를 따로 수집

Reasoning 데이터는 추론이 필요한 문제를 해결하는 방식으로 수집.
Non-Reasoning 데이터는 자연어 처리(NLP) 중심의 다양한 태스크(예: 번역, 글쓰기, QA 등)로 수집.

각 데이터 유형에 맞는 학습 방식 적용

Reasoning 데이터 → 논리적 추론(Chain-of-Thought, CoT) 중심 학습.
Non-Reasoning 데이터 → 더 자연스럽고 인간 친화적인 응답을 학습하는 방식 적용.

결과적으로, 모델이 논리적으로도 뛰어나면서, 일반적인 자연어 처리 태스크에서도 좋은 성능을 발휘할 수 있도록 학습을 진행.

가) 추론 데이터 수집 (Reasoning Data Collection)

강화 학습을 거친 모델을 활용하여 추론 중심의 학습 데이터를 선별적으로 수집하였습니다.

Rejection Sampling을 활용하여 Reasoning 데이터 필터링

하나의 질문(Prompt)에 대해 다수의 응답을 생성
각 응답을 Rule-Based 평가 & DeepSeek-V3 평가 모델을 통해 필터링
정확도가 높은 응답만 선택하여 SFT 데이터로 사용
여러 개의 답변을 생성한 후 정확한 답변만 남김.

보상 모델을 활용한 평가

초기에는 규칙 기반(Rule-Based) 보상 모델을 사용하여 정확도를 평가.
이후 단계에서는 생성형(Generative) 보상 모델을 도입하여 보다 정교한 판단을 수행.
예를 들어, DeepSeek-V3 모델을 사용하여 응답의 품질을 판별.

데이터 필터링 과정

가독성이 낮은 데이터를 필터링하여 학습 데이터로 활용하지 않음.
논리적 일관성이 부족한 Chain-of-Thought(CoT) 출력 폐기.
다국어가 혼합된 응답(Language Mixing) 제거.
과도한 코드 블록이 포함된 데이터 정제.
최종적으로 약 60만 개(600k)의 추론 관련 학습 샘플을 선별.

나) 비추론 데이터 수집 (Non-Reasoning Data Collection)

추론 외의 일반적인 언어 모델 성능을 보완하기 위해 비추론 작업에 해당하는 데이터도 함께 수집하였습니다.

이때 비추론(Non-Reasoning) 데이터에 대한 DeepSeek-V3 파이프라인을 적용하고, 기존 SFT 데이터셋 재사용합니다.

비추론 데이터에 대해서는 새로운 방식을 도입하기보다는 DeepSeek-V3에서 이미 최적화된 방식을 그대로 활용하는 것이 효율적입니다. 일반적인 글쓰기, 질의응답(QA), 번역 등과 같은 비추론 작업은 DeepSeek-V3의 기존 학습 과정에서 이미 효과적으로 학습된 방식이 존재하기 때문에, 이를 그대로 재사용함으로써 효율성을 극대화할 수 있습니다. 또한, 새로운 데이터를 생성하는 데는 높은 비용이 발생하므로, Reasoning 데이터는 새로 생성하되, 비추론 데이터는 기존 데이터셋을 적극 재사용하여 학습 비용을 절감합니다.

구체적으로, DeepSeek-V3 파이프라인을 그대로 적용하여 문서 작성, 번역, 대화 모델 학습 등 비추론 작업에 대해 추가적인 최적화를 하지 않고 기존 방식을 활용합니다. DeepSeek-V3에서 학습된 비추론 관련 SFT 데이터(글쓰기, QA 등)를 재사용하여 추가 데이터 수집 없이 학습을 진행하되, Reasoning 관련 데이터는 새롭게 구성하여 학습합니다.

결과적으로, Reasoning 데이터는 새롭게 필터링된 데이터를 활용해 학습하며, 비추론 데이터는 기존 DeepSeek-V3의 학습 데이터를 최대한 재활용하여 효율적이고 비용 절감된 학습 과정을 제공합니다.

비추론 작업 유형

- 창의적 글쓰기 (Creative Writing)
- 사실 기반 질의응답 (Factual Question Answering)
- 자기 인식(Self-Cognition) 관련 작업
- 번역 (Translation)

데이터 구축 방식

- DeepSeek-V3 SFT 데이터셋의 일부를 재사용하여 학습 효율을 높임.
- 최종적으로 약 20만 개(200k)의 비추론 샘플을 구축.

다) 최종 통합 데이터셋 구성 및 미세 조정(Fine-Tuning)

추론 데이터(600k) + 비추론 데이터(200k) → 총 80만 개(800k) 샘플 확보.

두 개의 에포크(Epochs) 동안 Fine-Tuning을 진행하여 모델을 최적화.

라) 소결: DeepSeek-R1의 최종 미세 조정 전략

Rejection Sampling을 통해 정확하고 구조화된 추론 데이터를 선별

규칙 기반 및 생성형 보상 모델을 활용하여 데이터 품질 개선

비추론 데이터 포함으로 다양한 언어 모델 작업에서 균형 잡힌 성능 확보

총 80만 개의 데이터셋을 활용하여 모델을 두 개의 에포크 동안 미세 조정

결과적으로, DeepSeek-R1은 강화 학습(RL) 후 Rejection Sampling을 통한 데이터 정제와 지도 학습(SFT)을 결합하여, 논리적 추론과 일반적인 언어 모델 작업에서 모두 뛰어난 성능을 발휘할 수 있도록 최적화되었습니다.

7) 모든 시나리오를 위한 2차 강화 학습 (Reinforcement Learning for All Scenarios) : 모델 정교화

DeepSeek-R1의 학습 과정에서 2차 강화 학습(Secondary RL)을 추가적으로 적용하여 모델을 더욱 정교하게 조정하였습니다. 이 과정은 추론 성능을 강화하는 동시에, 모델이 인간의 선호도에 맞는 응답을 생성하도록 최적화하는 것을 목표로 하였습니다.

좀더 상세하게 2단계 RL을 적용하는 이유는 다음과 같습니다.

i) Reasoning 능력을 유지하면서, 모델이 더 인간 친화적인 방향으로 발전하기 위해

1단계 RL에서 논리적 사고를 강화했지만, 그대로 사용하면 사용자 경험이 최적이 아닐 수도 있음.
따라서, 2단계 RL에서 유용성과 안전성을 추가로 최적화하여 실제 사용자와의 상호작용을 개선.

ii) 정답이 명확하지 않은 복잡한 태스크(General-Purpose Tasks)에서 보상 모델을 활용하기 위해

Reasoning 중심 태스크(수학, 코딩)에서는 규칙 기반 평가가 가능하지만,
창의적인 글쓰기, 철학적 논의, 윤리적 문제 등에서는 명확한 정답이 없으므로 인간 선호 기반 평가가 필요.
따라서, 보상 모델을 추가로 도입하여 복잡한 태스크에서 모델이 적절한 응답을 제공하도록 최적화.

iii) 모델이 안전하게 동작하도록 보장하기 위해

AI 모델이 강력한 reasoning 능력을 가지더라도, 편향된 정보나 위험한 내용을 생성하면 실사용이 어렵기 때문에, 안전성 개선이 필수적.
특히, AI가 생성하는 모든 응답을 대상으로 편향 및 위험 요소를 평가하고 조정하는 것이 중요.

2차 강화학습에 적용된 기법은 아래와 같이 요약할 수 있습니다.

Rule-Based 보상을 활용하여 기존의 Reasoning 성능 유지.
보상 모델(Reward Model)을 도입하여 복잡한 태스크에서 인간 선호를 반영.
다양한 Prompt Distribution을 활용하여 모델의 범용성 향상.
Final Summary 중심 평가를 도입하여 더 유용한 응답을 생성.
전체 응답을 평가하여 편향 및 위험 요소를 제거.

2단계 RL을 통해 DeepSeek-R1은 강력한 논리적 사고 능력을 유지하면서도, 사용자 친화적인 응답을 생성하는 방향으로 발전한 Reasoning + Helpfulness + Harmlessness를 갖춘 AI 모델을 얻을 수 있습니다.

수학, 코딩, 논리 추론이 뛰어나며, 정확한 정답을 제공할 수 있습니다. 기존의 Reasoning-Oriented RL에서 얻은 추론 능력을 유지됩니다. 또한 단순히 정답을 제공하는 것이 아니라, 사용자가 이해하기 쉽게 정리된 응답을 제공합니다. 최종 요약(Final Summary) 평가 방식을 도입하여, 더 유용한 답변을 생성합니다.

마지막으로 모델이 편향된 정보, 위험한 응답을 생성하지 않도록 필터링합니다. 특히 윤리적 이슈와 관련된 응답에서는 신중한 답변을 제공하도록 조정합니다. 즉, 2단계 RL 과정은 단순히 추론 능력을 높이는 것이 아니라, AI가 실제 사용자와의 상호작용에서 더 신뢰할 수 있도록 만드는 핵심적인 과정입니다.

가) 2차 RL의 목적 (Objective)

모델의 논리적 추론 능력을 더욱 향상시키는 동시에,

인간의 선호도(Human Preferences)에 보다 정밀하게 맞춰진 응답을 생성하도록 조정.

이 단계는 모델의 추론 능력을 유지하면서 인간 선호도에 맞게 ‘도움이 되는(Helpfulness)’ 응답과 해롭지 않은(Harmlessness) 응답을 생성하는 것을 목표로 하는 2차 강화 학습 단계입니다. 다양한 _보상 신호(reward signals)_와 _프롬프트 분포(distribution of prompts)_ 를 결합하여 모든 시나리오에서 정확성, 유용성, 안전성을 갖춘 모델을 개발하였습니다.

통합된 보상 신호와 다양한 프롬프트 배포 덕분에 DeepSeek-R1은 정확한 추론을 유지하면서도 사용자 요구에 부합하고 안전한 응답을 제공할 수 있습니다.

[보상 신호와 프롬프트 분포의 결합] 추론과 일반 데이터에 대한 다양한 보상 신호를 활용해 복잡한 시나리오에서도 사용자의 선호를 반영할 수 있도록 모델을 훈련합니다.

나) 2차 RL의 학습 과정 (Training Process)에 적용된 기법

i) Reward Signals(보상 신호) 적용

추론(Reasoning) 관련 보상

정답이 명확한 수학, 코딩, 논리적 추론 태스크에서는 기존의 Rule-Based 보상 모델을 그대로 유지.
즉, DeepSeek-R1-Zero에서 적용된 규칙 기반 평가 방식을 계속 활용하여 정확도를 유지.

일반 데이터(General Data) 관련 보상

수학이나 코딩과 달리 정답이 명확하지 않은 일반적 질문에서는 사용자의 선호도(Human Preferences)를 반영하는 보상 모델(reward models) 을 사용합니다.
DeepSeek-V3 파이프라인을 바탕으로, 선호 쌍(preference pairs)과 다양한 훈련 프롬프트의 분포를 유사하게 채택해 사용자 선호를 정확히 반영합니다
수학, 코딩 같은 정답이 명확한 문제와 달리, 복잡한 대화, 글쓰기, 윤리적인 문제 해결과 같은 태스크에서는 인간 평가 기반 보상 모델을 사용.

ii) 다양한 Prompt Distributions 활용

모델이 일상적인 질문부터 고급 추론이 필요한 질문까지 다양한 상황에서 잘 작동하도록, 프롬프트의 분포를 확장하여 학습.

예를 들어,

일반적인 정보 제공 질문: "AI란 무엇인가?"
고급 추론이 필요한 질문: "양자 역학과 일반 상대성이론의 차이를 설명하라."
민감한 윤리적 질문: "AI는 인간에게 해를 끼칠 가능성이 있는가?"

iii) Helpfulness(유용성) 개선

모델이 제공한 최종 요약(Final Summary)의 유용성과 관련성을 평가합니다. 즉, 응답이 얼마나 명확하고 실용적인지를 판단하여 적절한 보상을 부여합니다. 따라서 답변의 최종 요약(Final Summary)만을 평가하여 보상을 부여합니다.
즉, 추론 과정(reasoning process) 자체는 변경하지 않고, 사용자가 쉽게 이해할 수 있도록 응답을 정리하는 과정에 집중.

예를 들어,

<think> 방정식을 변형하면 x^2 = 16이 된다. 따라서 x = ±4이다. </think>
<summary> 정답: x = ±4 </summary>

기존의 RL에서는 전체 추론 과정도 평가에 포함했지만,
2단계 RL에서는 최종 요약(summary)만 평가하여 사용자가 유용한 응답을 받을 수 있도록 최적화.

iv) Harmlessness(무해성) 강화

출력된 전체 응답(reasoning 과정 + summary 모두)을 평가하여, 편향, 윤리적 문제, 위험한 응답이 포함되지 않도록 조정.
즉, 어떤 주제라도 사용자에게 해를 끼칠 가능성이 있는 내용이 나오지 않도록 학습.
모델이 생성하는 응답 중에서 유해한 콘텐츠(예: 혐오 발언, 잘못된 의료 정보 등)가 포함된 경우 이를 감지하고 패널티를 부여.

8) 증류(distillation)를 통한 소형 모델의 추론 능력 강화

DeepSeek-R1의 증류(distillation) 기법은 소형 모델이 대형 모델의 추론 능력을 효율적으로 계승할 수 있도록 설계되었다. 이 과정은 Qwen과 Llama 같은 오픈소스 모델을 대상으로 미세 조정을 통해 수행되며, 소형 모델도 고차원적 문제 해결이 가능하도록 향상시킨다.

대형 모델이 학습한 고급 추론 패턴과 능력을 소형 모델에 전달하여 리소스 효율적이면서도 강력한 추론 성능을 가진 모델을 구축하는 것이 목표.

800k개의 데이터셋(DeepSeek-R1에서 수집된 데이터)을 활용하여 오픈소스 모델에 미세 조정을 진행.

증류 과정에서는 강화 학습(RL) 없이 지도 미세 조정(SFT)만을 적용.

이는 증류 기법만으로도 소형 모델이 고급 추론 능력을 상당히 계승할 수 있음을 보여주기 위함.

RL 단계를 추가하면 더 정교하고 고차원적인 추론 성능을 제공할 수 있을 것으로 추정. 후속 연구를 기대.

DeepSeek-R1의 증류 기법은 대형 모델의 고급 추론 능력을 소형 모델로 효율적으로 전이할 수 있음을 입증했습니다. 미래의 RL 확장 가능성도 열어두었으므로, 추후 연구는 증류 + RL의 결합을 통해 더욱 강력한 소형 모델을 개발할 수 있는 잠재력을 제공합니다.

[질문] Distillation에서 RL을 적용하지 않은 이유와 향후 가능성

[이유]

기존 DeepSeek-R1 모델은 강화 학습(RL)까지 적용하여 reasoning 능력을 최적화했습니다. 하지만, Distilled Model(지식 증류 모델)은 RL 없이 SFT만 적용하였습니다. 그 이유는 연구 목적상 distillation의 순수한 효과를 검증하는 것이 우선 목표이었기 때문입니다. 즉 작은 모델에서도 단순한 SFT(Fine-Tuning)만으로 얼마나 reasoning 능력이 향상되는지 확인하기 위함이었습니다. RL을 추가하면 학습 비용이 증가하므로, 실용성 측면에서도 가벼운 모델에 RL을 도입하는 것은 추가적인 연구가 필요하다고 오픈 커뮤니티에 제안합니다. 검증에서 가벼운 모델에 추가로 강화학습(RL)을 하는 것보다 SFT만으로 증류하여 이식하는 것이 더 우수한 성능을 발휘했습니다.

[향후 가능성]

Distilled Model이 RL을 추가로 학습하면, 더욱 강력한 성능을 보일 가능성이 높습니다. 즉, 작은 모델에서도 RL을 활용한 추가 최적화가 가능하다는 점을 연구 커뮤니티에서 실험해볼 수 있도록 제안하고 있습니다. 즉, Distillation의 효과를 순수하게 검증하기 위해 현재는 RL을 제외했지만, 향후 연구에서는 RL을 추가하여 더 강력한 성능을 구현할 가능성이 있음을 시사합니다.

<참고자료>

- DeepSeek-AI, Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., Zhao, C., Deng, C., Zhang, C., Ruan, C., Dai, D., Guo, D., Yang, D., Chen, D., Ji, D., Li, E., Lin, F., Dai, F., … Pan, Z. (2024). DeepSeek-V3 Technical Report (No. arXiv:2412.19437). arXiv. https://doi.org/10.48550/arXiv.2412.19437

- DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., Zhang, X., Yu, X., Wu, Y., Wu, Z. F., Gou, Z., Shao, Z., Li, Z., Gao, Z., … Zhang, Z. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning (No. arXiv:2501.12948). arXiv. https://doi.org/10.48550/arXiv.2501.12948

- DhanushKumar. (2025, 1월 29). DeepSeek-R1: Incentivizing Reasoning Capability in Large Language Models via Reinforcement Learning…. Medium. [https://medium.com/@danushidk507/deepseek-r1-incentivizing-reasoning-capability-in-large-language-models-via-reinforcement-learning-9515a28a23ad](https://medium.com/@danushidk507/deepseek-r1-incentivizing-reasoning-capability-in-large-language-models-via-reinforcement-learning-9515a28a23ad)

- (논문 정리) DeepSeek (V3,R1) 논문을 보면서 기술적인 부분 알아보기. (일자 없음). Retrieved 2025년 2월 1일, (으)로부터 https://data-newbie.tistory.com/1016