A summary of the background technologies applied in DeepSeek-R1
Detailed Explanation of the Foundational Research Behind DeepSeek-R1
The success of DeepSeek-R1 lies in its ability to harness multiple foundational breakthroughs in AI research and strategically merge them to produce a high-performance, cost-efficient system. Below is a closer look at the key research areas and innovations that serve as its backbone:
DeepSeek-R1에 적용된 선행 연구들의 상세한 설명
DeepSeek-R1의 성공은 여러 핵심 AI 연구의 혁신을 전략적으로 결합하여 높은 성능과 비용 효율성을 달성한 데에 있다. 여기에서는 DeepSeek-R1의 근간이 된 주요 연구와 혁신들을 구체적으로 살펴본다.
1. Reinforcement Learning (RL) and Policy Optimization
Core Idea: Reinforcement Learning teaches AI through trial and error by assigning rewards to desired outcomes. The Group Relative Policy Optimization (GRPO) used in DeepSeek-R1 builds upon previous research in Proximal Policy Optimization (PPO), introduced by OpenAI.
-
Foundational Work:
- Schulman et al. (2017), “Proximal Policy Optimization Algorithms”PPO is a method for optimizing policies in reinforcement learning by balancing exploration and exploitation while maintaining stability in updates. GRPO extends this by considering group-level optimization rather than individual sample-based feedback, allowing scalable and global policy adjustments.
- Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
-
Impact on DeepSeek:GRPO enables DeepSeek to efficiently handle diverse inputs and dynamically optimize its policy across various scenarios. This approach ensures that the AI can generalize and improve decision-making without requiring excessive computation.
1. 강화학습(RL)과 정책 최적화
핵심 아이디어: 강화학습은 시행착오를 통해 원하는 결과에 보상을 부여함으로써 AI를 학습시키는 방식이다. DeepSeek-R1는 OpenAI에서 도입한 Proximal Policy Optimization (PPO)의 개념을 확장한 Group Relative Policy Optimization (GRPO) 알고리즘을 사용한다.
기초 연구:
- Schulman et al. (2017), “Proximal Policy Optimization Algorithms”PPO는 탐색과 착취의 균형을 유지하면서 정책 업데이트의 안정성을 확보하기 위한 최적화 방법이다. GRPO는 이를 그룹 수준의 최적화로 확장하여, 개별 샘플이 아닌 글로벌 피드백을 기반으로 정책을 최적화한다.
- Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.
- DeepSeek에 미친 영향:GRPO는 다양한 입력 데이터를 효율적으로 처리하고 정책을 지엽적인 아닌 전 글로벌하게 동적으로 조정할 수 있도록 하여 AI의 의사결정 능력을 향상시킨다.
2. Reward Modeling and Rejection Sampling
DeepSeek-R1 incorporates rejection sampling, a technique that ensures only high-quality responses are used for further training through Supervised Fine-Tuning (SFT). This concept is derived from Paul F. Christiano et al.’s RLHF framework.
-
Foundational Work:
- Christiano et al. (2017), “Deep Reinforcement Learning from Human Preferences”This paper introduced Reinforcement Learning from Human Feedback (RLHF), a method where humans provide feedback on AI-generated responses, and the AI is fine-tuned based on this feedback.
- Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
- Further developments: Rejection sampling extends this by adding a filtering step where suboptimal responses are rejected before being incorporated into the supervised learning dataset.
-
Impact on DeepSeek:DeepSeek-R1 adapts this process to include rule-based feedback (AI-based feedback from RLAIF) in addition to human oversight, allowing for faster feedback loops while avoiding reward hacking and resource-intensive retraining.
2. 보상 모델링과 거부 샘플링
DeepSeek-R1는 거부 샘플링(rejection sampling)을 활용하여 고품질 응답만 학습에 사용되도록 한다. 이는 OpenAI의 RLHF(인간 피드백 기반 강화학습) 프레임워크에서 발전한 개념이다.
기초 연구:
- Christiano et al. (2017), “Deep Reinforcement Learning from Human Preferences”이 논문은 AI가 생성한 응답에 대해 사람이 피드백을 제공하고 이를 바탕으로 AI를 미세 조정하는 RLHF 방법론을 소개했다.
- Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.
- 거부 샘플링의 확장: 거부 샘플링은 이 과정에 필터링 단계를 추가하여, 질 낮은 응답을 걸러내고 고품질 응답만 학습에 반영한다.
- DeepSeek에 미친 영향:DeepSeek-R1는 인간 피드백 대신 AI 피드백을 포함하여 보다 빠르고 효율적인 피드백 루프를 제공하며, 보상 해킹과 자원 소모를 줄인다. 대형 언어 모델(LLM)이 생성한 선호도를 기반으로 보상 모델(RM)을 훈련시키는 AI 피드백에서의 강화 학습(RLAIF)은 Bai 등(2022b)에서 소개되어 있다.
- Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., ... & Kaplan, J. (2022). Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073.
3. Knowledge Distillation for Efficient AI Models
Knowledge distillation, a technique introduced by Geoffrey Hinton, enables the transfer of knowledge from a large Teacher model to a smaller Student model, while retaining most of the performance.
-
Foundational Work:
- Hinton et al. (2015), “Distilling the Knowledge in a Neural Network”This seminal paper introduced the method of training a smaller model to mimic the outputs (or soft probability distributions) of a larger model, thus compressing knowledge without sacrificing much accuracy.
- Hinton, G. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531.
-
Impact on DeepSeek:In DeepSeek-R1, knowledge distillation is key to reducing computational complexity while ensuring high performance. The large-scale DeepSeek-R1 model distills its knowledge into a compact model through supervised fine-tuning using about 800,000 curated samples. As a result, small models achieve comparable performance to larger models, enabling deployment in resource-constrained environments. Reinforcement Learning from AI Feedback (RLAIF), which trains the reward model (RM) based on preferences generated by a large language model (LLM), was introduced in Bai et al. (2022b).
- Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., ... & Kaplan, J. (2022). Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073.
3. 지식 증류(Knowledge Distillation)를 통한 효율적 모델링
지식 증류는 Geoffrey Hinton이 도입한 기법으로, 대형 모델(교사 모델)의 지식을 소형 모델(학생 모델)로 전이하는 방식이다.
기초 연구:
- Hinton et al. (2015), “Distilling the Knowledge in a Neural Network”이 논문은 대형 모델이 예측하는 출력 확률 분포를 소형 모델이 모방하도록 학습시키는 방법을 제안했다.
- Hinton, G. (2015). Distilling the Knowledge in a Neural Network. arXiv preprint arXiv:1503.02531.
- DeepSeek에 미친 영향:DeepSeek-R1는 대형 DeepSeek-R1 모델에서 수집된 약 80만 개의 샘플을 바탕으로 소형 모델이 교사 모델의 추론 패턴을 학습하도록 설계되었다. 이로써 소형 모델에서도 높은 성능을 유지할 수 있게 된다.
4. Mixture of Experts (MoE) for Selective Neural Activation
The Mixture of Experts (MoE) concept, originally proposed by Ronald A. Jacobs, Michael I. Jordan, and Andrew G. Barto, has been refined and adapted by recent language models such as Switch Transformer and GLaM (Google’s MoE-based model).
-
Foundational Work:
- Jacobs et al. (1991), “Adaptive Mixtures of Local Experts”This paper proposed that, instead of using all neurons (dense activation), models can selectively activate only the “expert” networks needed for a particular input.
- Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts. Neural computation, 3(1), 79-87.
- Shazeer et al. (2017), “Outrageously Large Neural Networks”Building upon Jacobs’ work, this paper introduced a sparse gating mechanism to efficiently route inputs to specific subsets of the network, significantly reducing computation without sacrificing performance.
- Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538.
-
Impact on DeepSeek:DeepSeek uses MoE to activate only the necessary sub-models depending on the input. For instance, an input related to math would activate the math expert, while language-related inputs would route through the appropriate language expert. This selective activation leads to dramatic improvements in energy efficiency and scalability compared to traditional dense models.
4. Mixture of Experts (MoE)를 통한 선택적 뉴런 활성화
Mixture of Experts(MoE)는 Ronald A. Jacobs, Michael I. Jordan, Andrew G. Barto가 제안한 개념으로, 입력에 따라 필요한 뉴런만 선택적으로 활성화하는 방식이다.
기초 연구:
- Jacobs et al. (1991), “Adaptive Mixtures of Local Experts”이 논문은 모든 뉴런을 한꺼번에 사용하는 대신, 필요한 뉴런만 활성화하여 효율성을 높이는 기법을 소개했다.
- Jacobs, R. A., Jordan, M. I., Nowlan, S. J., & Hinton, G. E. (1991). Adaptive mixtures of local experts. Neural computation, 3(1), 79-87.
- Shazeer et al. (2017), “Outrageously Large Neural Networks”이 연구는 MoE의 확장 버전으로 스위치 트랜스포머(Switch Transformer)의 기반이 되었다.
- Shazeer, N., Mirhoseini, A., Maziarz, K., Davis, A., Le, Q., Hinton, G., & Dean, J. (2017). Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538.
- DeepSeek에 미친 영향:DeepSeek-R1는 MoE를 사용해 수학, 언어, 코드 등 다양한 도메인에 특화된 서브 모델만 활성화하여 연산 효율성과 성능을 극대화했다.
5. Chain-of-Thought (CoT) Reasoning and Cold Start Training
The Chain-of-Thought prompting method has proven to significantly improve reasoning capabilities by allowing the model to break down complex problems into sequential steps. DeepSeek incorporates CoT training during its Cold Start phase, ensuring that the model has a solid foundation in reasoning tasks before large-scale reinforcement learning begins.
-
Foundational Work:
- Wei et al. (2022), “Chain of Thought Prompting Elicits Reasoning in Large Language Models”This paper demonstrated that models could greatly enhance their reasoning ability by being trained to produce multi-step reasoning chains.
- Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
-
Impact on DeepSeek:By leveraging CoT data during the initial fine-tuning stage, DeepSeek-R1 is better equipped to handle complex, multi-step problems right from the start of its reinforcement learning process, avoiding early-stage instability.
5. Chain-of-Thought (CoT)와 콜드 스타트 학습
Chain-of-Thought(CoT)는 모델이 복잡한 문제를 여러 단계로 나누어 사고하도록 하는 방식으로, DeepSeek-R1는 이를 초기 학습 단계인 콜드 스타트(Cold Start)에서 활용한다.
기초 연구:
- Wei et al. (2022), “Chain of Thought Prompting Elicits Reasoning in Large Language Models”이 연구는 대형 언어 모델이 단계적 사고를 통해 문제를 해결할 때 더 높은 성능을 보인다는 것을 입증했다.
- Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.
- DeepSeek에 미친 영향:DeepSeek-R1는 초기 미세 조정 단계에서 CoT 데이터를 학습하여, 복잡한 문제도 더 쉽게 해결할 수 있는 능력을 갖추게 된다.
6. Self-Evolution and Aha Moment Algorithms
The self-evolution process and Aha Moment algorithm applied in DeepSeek build upon the concept of meta-learning, where models learn how to learn. The goal is for the AI to identify when additional reasoning time is needed and dynamically allocate resources for deeper problem-solving.
-
Foundational Work:
- Bengio et al. (1991), “Learning a Synaptic Learning Rule”This work introduced the idea of meta-learning as a way for neural networks to optimize their own learning process.
- Bengio, Y., Bengio, S., & Cloutier, J. (1990). Learning a synaptic learning rule (pp. 969-975). Université de Montréal, Département d'informatique et de recherche opérationnelle.
- Sutton et al. (1998), “Reinforcement Learning: An Introduction”Sutton’s reinforcement learning framework provides the mathematical basis for self-evolution algorithms in AI systems.
- Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: an introduction, ser. Adaptive computation and machine learning.
-
Impact on DeepSeek:DeepSeek employs self-evolution to iteratively refine its reasoning ability, while the Aha Moment algorithm guides the model to allocate additional processing time for particularly challenging problems. The result is a dynamic learning process where the model continuously improves without external intervention.
6. 자기 진화(Self-Evolution)와 Aha Moment 알고리즘
자기 진화(Self-Evolution)와 Aha Moment 알고리즘은 모델이 문제를 해결하는 과정에서 추가적인 학습 시간을 동적으로 배분하고 더 나은 해결책을 찾을 수 있도록 돕는다.
기초 연구:
- Bengio et al. (1991), “Learning a Synaptic Learning Rule”이 연구는 모델이 스스로 학습 방법을 최적화하는 메타러닝(meta-learning)의 개념을 도입했다.
- Bengio, Y., Bengio, S., & Cloutier, J. (1990). Learning a synaptic learning rule (pp. 969-975). Université de Montréal, Département d'informatique et de recherche opérationnelle.
- Sutton et al. (1998), “Reinforcement Learning: An Introduction”Sutton의 강화학습 프레임워크는 자기 진화 알고리즘의 수학적 기초를 제공한다.
- Sutton, R. S., & Barto, A. G. (1998). Reinforcement learning: an introduction, ser. Adaptive computation and machine learning.
- DeepSeek에 미친 영향:DeepSeek는 Aha Moment 알고리즘을 통해 초기 접근법을 재평가하고 필요할 경우 더 많은 생각 시간을 할당하는 방법을 학습한다. 이 과정에서 예상치 못한 창의적인 해결책이 자연스럽게 도출될 수 있다.
Conclusion: Combining the Best of Multiple Innovations
DeepSeek-R1 stands as a testament to the power of combining foundational research in an innovative way. By integrating ideas from reinforcement learning, knowledge distillation, MoE, and chain-of-thought reasoning, the model achieves optimal performance with minimal computational overhead. Its design reflects not just incremental improvements but a holistic approach to pushing the boundaries of AI development.
DeepSeek R1 exemplifies how modern AI breakthroughs stand on the shoulders of giants, combining existing technologies in novel ways to drive innovation. Great inventions often arise from the creative recombination of known techniques, and DeepSeek R1 is no exception.
Meanwhile, If the technology employed by DeepSeek were protected by patents of industry giants, it could signal the dawn of a new patent war in the AI era. However, the U.S. has historically been passive in granting patent protection for software algorithms under its policy of safeguarding big tech companies. This issue needs to be addressed first.
결론: 다양한 혁신의 조화로운 결합
DeepSeek-R1는 강화학습, 지식 증류, MoE, CoT와 같은 다양한 기술을 조화롭게 결합하여 최적의 성능과 최소한의 연산 비용을 달성했다. 이는 단순한 기술적 진보를 넘어, AI 개발의 새로운 가능성을 열어주는 혁신적인 모델로 평가받을 만하다.
이처럼 DeepSeek R1은 현대 AI 혁신이 거인의 어깨 위에서 어떻게 발전하는지 보여주는 사례로, 기존 기술들을 새로운 방식으로 결합하여 혁신을 이끌어낸다는 것을 보여준다.
위대한 발명들은 종종 알려진 기술들을 어떻게 독창적으로 연결하느냐에 따라 탄생한다.
딥시크가 활용한 기술들이 거인들의 특허로 보호되었다면, 이는 AI 시대에 새로운 특허 전쟁의 서막이 될 수 있다.
그러나 미국은 그동안 빅테크 기업 보호 정책에 따라 소프트웨어 알고리즘의 특허 보호에 소극적이었다. 이 점을 먼저 정비할 필요가 있다.
Comments
Post a Comment