안녕하세요.
오늘은 Agentica와 Together AI가 공동으로 개발한 강력한 오픈소스 코드 생성 모델인 DeepCoder-14B에 대해 소개드립니다. 이 모델은 O3-mini 수준의 성능을 14B 파라미터 규모로 달성하며, 코드 생성과 추론에서 놀라운 가능성을 보여주고 있습니다.
DeepCoder-14B 란?
🚀 오픈소스 코드 생성 모델의 부상
최근 오픈소스 기반의 대형 언어 모델(LLM)들이 빠르게 발전하고 있으며, 그 중에서도 코드 생성 특화 모델은 개발자 커뮤니티에서 큰 관심을 받고 있습니다. DeepCoder-14B는 이러한 흐름 속에서 등장한, 성능과 확장성 모두를 갖춘 혁신적인 코드 생성 AI입니다. 기존 상용 모델과 유사한 성능을 오픈소스로 구현했기 때문에, 누구나 접근 가능하면서도 실무에 활용 가능한 모델이라는 점이 DeepCoder-14B의 가장 큰 가치입니다.
🤝 강화학습을 통한 성능 향상
Deepseek-R1-Distill-Qwen-14B 모델을 기반으로 강화학습(RL)을 활용해 DeepCoder-14B를 개발했습니다. 이 과정에서 고품질 데이터셋과 자체 개발한 최적화 시스템이 활용되었습니다.
DeepCoder-14B의 주요 특징
🧠 모델 구조 및 학습 방식
DeepCoder-14B는 14B 파라미터를 가진 모델로, 기존의 Deepseek-R1-Distill-Qwen-14B를 기반으로 강화학습(RL)을 통해 성능을 끌어올렸습니다. 모델은 최대 64K 문맥 길이까지 일반화가 가능하며, LiveCodeBench 기준 Pass@1 정확도는 60.6%에 달합니다.
📊 LiveCodeBench 성능
- Pass@1 정확도: 60.6%
- Codeforces 레이팅: 1936점 (상위 95.3%)
- HumanEval+: 92.6% 정확도
이 수치는 상용 모델인 OpenAI의 o3-mini 모델과 거의 동등한 수준입니다.
📈 다른 모델과의 비교
DeepCoder-14B는 DeepSeek-R1-Distill-Qwen-14B(53%)보다 약 8% 높은 정확도를 보이며, OpenAI의 O1 및 O3-mini 모델과 비슷한 수준의 성능을 보여줍니다.
심층 강화학습(RL) 전략과 최적화
🧩 희소 보상 기반의 Outcome Reward Model
DeepCoder는 강화학습에서 흔히 발생하는 보상 해킹을 방지하기 위해, 오직 모든 테스트를 통과한 경우에만 보상을 주는 희소 보상 모델을 사용합니다.
- ✅ 테스트 전부 통과: 보상 1
- ❌ 하나라도 실패하거나 출력 형식 오류: 보상 0
⚙️ GRPO+ 알고리즘 도입
기존 GRPO 알고리즘의 한계를 보완한 GRPO+는 학습 안정성과 탐색 능력을 동시에 확보했습니다.
- ❌ KL Loss 제거
- ❌ Entropy Loss 제거
- ✅ Clip High 적용 (탐색 강제)
🧪 24K개의 고품질 문제로 학습
학습에는 TACO Verified, SYNTHETIC-1, LiveCodeBench에서 엄선한 24,000개의 문제를 활용했으며, 모든 문제는 다음 조건을 만족해야 합니다:
- 5개 이상의 테스트 케이스 포함
- 공식 솔루션과 일치
- 중복 제거 완료
시스템 최적화 및 파이프라이닝
⚡ verl-pipeline 도입
DeepCoder는 학습 속도를 2배 이상 향상시키는 'verl-pipeline'이라는 시스템 최적화 프레임워크를 사용했습니다. 이는 기존 RL 훈련보다 훨씬 빠르고 효율적인 학습을 가능케 합니다.
🔁 One-Off Pipelining 방식
학습과 샘플링을 완전히 병렬화하여 GPU 유휴 시간을 최소화하는 방식입니다. 이 방법은 다음과 같은 순서로 작동합니다:
- 🔄 샘플 생성
- 🧮 즉시 리워드 계산
- 📉 이전 샘플로 학습 수행
🧠 RL 학습 시간 단축
코딩 작업은 테스트 실행 시간이 길기 때문에, 병렬 리워드 계산 및 샘플 선제 학습이 전체 학습 시간을 2배가량 단축시켰습니다.
문맥 길이 확장 기술
📐 Iterative Context Lengthening
학습 초기에 짧은 문맥으로 학습을 시작해 점진적으로 문맥 길이를 늘리는 방식입니다. DeepCoder는 16K → 32K → 64K 문맥까지 일반화 성능을 유지하며 확장합니다.
🧱 Overlong Filtering 기법
모델이 생성한 답변이 현재 문맥을 초과하더라도, 손실 계산 시 해당 부분은 무시하여 '긴 사고'를 유도합니다.
📊 일반화 성능 결과
- 16K: 54%
- 32K: 58%
- 64K: 60.6%
모델 성능 종합 비교
Model | LCB (8/1/24–2/1/25) |
Codeforces Rating* |
Codeforces Percentile* |
HumanEval+ Pass@1 |
AIME 2024 |
DeepCoder-14B-Preview (ours) | 60.6 | 1936 | 95.3 | 92.6 | 73.8 |
DeepSeek-R1-Distill-Qwen-14B | 53.0 | 1791 | 92.7 | 92.0 | 69.7 |
O1-2024-12-17 (Low) | 59.5 | 1991 | 96.1 | 90.8 | 74.4 |
O3-Mini-2025-1-31 (Low) | 60.9 | 1918 | 94.9 | 92.6 | 60.0 |
O1-Preview | 42.7 | 1658 | 88.5 | 89.0 | 40.0 |
Deepseek-R1 | 62.8 | 1948 | 95.4 | 92.6 | 79.8 |
Llama-4-Behemoth | 49.4 | - | - | - | - |
⚖️ O1, O3-mini와의 성능 비교
DeepCoder-14B는 O1 (59.5%) 및 O3-mini (60.9%)와 비슷한 수준의 성능을 보여줍니다. 특히 14B 파라미터로 이 정도의 성능을 낸 것은 매우 인상적입니다.
📘 수학 일반화 성능 (AIME 2024)
수학 전용 훈련 없이도 AIME 2024에서 73.8% 성능을 보여, 수학 추론에도 강한 일반화 능력을 보입니다.
🎯 HumanEval+ 결과
92.6%의 정확도를 기록하며, 코드 정확도 평가에서 강력한 성능을 입증했습니다.
오픈소스 접근 및 활용 방법
📁 모델 다운로드 경로
- 🤗 Hugging Face 모델 저장소
- 👨💻 GitHub 코드 저장소
- 📈 학습 로그(W&B)
📖 문서화 및 재현 가능성
공개된 학습 스크립트와 문서는 누구든지 동일한 모델을 재현하고 실험할 수 있도록 구성되어 있습니다.
결론
✅ 주요 성과 요약
DeepCoder-14B는 오픈소스임에도 불구하고 상용 모델에 필적하는 성능을 달성하며, 향후 오픈소스 AI 개발의 이정표를 제시합니다.
🔮 향후 전망
코드 생성뿐만 아니라 수학, 논리, 복잡한 추론 작업에서도 우수한 성능을 바탕으로 다양한 산업과 학술 프로젝트에 응용될 수 있습니다.
🤝 커뮤니티와의 협력
Agentica와 Together AI는 커뮤니티와의 협력을 통해 RL 기반 LLM 개발을 더욱 민주화하고자 하며, 누구나 기여할 수 있는 환경을 제공하고 있습니다.
출처
DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level | Notion
Agentica x Together AI
pretty-radio-b75.notion.site
https://huggingface.co/agentica-org/DeepCoder-14B-Preview
agentica-org/DeepCoder-14B-Preview · Hugging Face
DeepCoder-14B-Preview 🚀 Democratizing Reinforcement Learning for LLMs (RLLM) 🌟 DeepCoder Overview DeepCoder-14B-Preview is a code reasoning LLM fine-tuned from DeepSeek-R1-Distilled-Qwen-14B using distributed reinforcement learning (RL) to scale up t
huggingface.co
'AI 오픈소스' 카테고리의 다른 글
NVIDIA Llama-3.1-Nemotron-Ultra-253B 공개: 차세대 생성형 AI 모델의 모든 것 (1) | 2025.04.11 |
---|---|
오픈소스 Google ADK로 AI 에이전트 손쉽게 개발하기 (0) | 2025.04.11 |
Llama Stack: Meta의 생성형 AI를 위한 올인원 통합 개발 플랫폼 (1) | 2025.04.10 |
Cogito v1 preview – IDA를 통해 초지능으로 가는 새로운 모델 (1) | 2025.04.10 |
Firecrawl MCP Server: MCP로 웹 크롤링 쉽게 하기 (1) | 2025.04.09 |