본문 바로가기
AI 오픈소스

DeepCoder-14B-Preview: O3-mini 수준의 오픈소스 코드 생성 AI의 혁신

by 앨런튜링1 2025. 4. 11.
반응형

안녕하세요.

오늘은 Agentica와 Together AI가 공동으로 개발한 강력한 오픈소스 코드 생성 모델인 DeepCoder-14B에 대해 소개드립니다. 이 모델은 O3-mini 수준의 성능을 14B 파라미터 규모로 달성하며, 코드 생성과 추론에서 놀라운 가능성을 보여주고 있습니다.


DeepCoder-14B 란?

🚀 오픈소스 코드 생성 모델의 부상

최근 오픈소스 기반의 대형 언어 모델(LLM)들이 빠르게 발전하고 있으며, 그 중에서도 코드 생성 특화 모델은 개발자 커뮤니티에서 큰 관심을 받고 있습니다. DeepCoder-14B는 이러한 흐름 속에서 등장한, 성능과 확장성 모두를 갖춘 혁신적인 코드 생성 AI입니다. 기존 상용 모델과 유사한 성능을 오픈소스로 구현했기 때문에, 누구나 접근 가능하면서도 실무에 활용 가능한 모델이라는 점이 DeepCoder-14B의 가장 큰 가치입니다.

🤝 강화학습을 통한 성능 향상

Deepseek-R1-Distill-Qwen-14B 모델을 기반으로 강화학습(RL)을 활용해 DeepCoder-14B를 개발했습니다. 이 과정에서 고품질 데이터셋과 자체 개발한 최적화 시스템이 활용되었습니다.


DeepCoder-14B의 주요 특징

🧠 모델 구조 및 학습 방식

DeepCoder-14B는 14B 파라미터를 가진 모델로, 기존의 Deepseek-R1-Distill-Qwen-14B를 기반으로 강화학습(RL)을 통해 성능을 끌어올렸습니다. 모델은 최대 64K 문맥 길이까지 일반화가 가능하며, LiveCodeBench 기준 Pass@1 정확도는 60.6%에 달합니다.

📊 LiveCodeBench 성능

  • Pass@1 정확도: 60.6%
  • Codeforces 레이팅: 1936점 (상위 95.3%)
  • HumanEval+: 92.6% 정확도

 

이 수치는 상용 모델인 OpenAI의 o3-mini 모델과 거의 동등한 수준입니다.

📈 다른 모델과의 비교

DeepCoder-14B는 DeepSeek-R1-Distill-Qwen-14B(53%)보다 약 8% 높은 정확도를 보이며, OpenAI의 O1 및 O3-mini 모델과 비슷한 수준의 성능을 보여줍니다.


심층 강화학습(RL) 전략과 최적화

🧩 희소 보상 기반의 Outcome Reward Model

DeepCoder는 강화학습에서 흔히 발생하는 보상 해킹을 방지하기 위해, 오직 모든 테스트를 통과한 경우에만 보상을 주는 희소 보상 모델을 사용합니다.

  • ✅ 테스트 전부 통과: 보상 1
  • ❌ 하나라도 실패하거나 출력 형식 오류: 보상 0

⚙️ GRPO+ 알고리즘 도입

기존 GRPO 알고리즘의 한계를 보완한 GRPO+는 학습 안정성과 탐색 능력을 동시에 확보했습니다.

  • ❌ KL Loss 제거
  • ❌ Entropy Loss 제거
  • ✅ Clip High 적용 (탐색 강제)

🧪 24K개의 고품질 문제로 학습

학습에는 TACO Verified, SYNTHETIC-1, LiveCodeBench에서 엄선한 24,000개의 문제를 활용했으며, 모든 문제는 다음 조건을 만족해야 합니다:

  • 5개 이상의 테스트 케이스 포함
  • 공식 솔루션과 일치
  • 중복 제거 완료

반응형

시스템 최적화 및 파이프라이닝

⚡ verl-pipeline 도입

DeepCoder는 학습 속도를 2배 이상 향상시키는 'verl-pipeline'이라는 시스템 최적화 프레임워크를 사용했습니다. 이는 기존 RL 훈련보다 훨씬 빠르고 효율적인 학습을 가능케 합니다.

🔁 One-Off Pipelining 방식

학습과 샘플링을 완전히 병렬화하여 GPU 유휴 시간을 최소화하는 방식입니다. 이 방법은 다음과 같은 순서로 작동합니다:

  1. 🔄 샘플 생성
  2. 🧮 즉시 리워드 계산
  3. 📉 이전 샘플로 학습 수행

🧠 RL 학습 시간 단축

코딩 작업은 테스트 실행 시간이 길기 때문에, 병렬 리워드 계산 및 샘플 선제 학습이 전체 학습 시간을 2배가량 단축시켰습니다.


문맥 길이 확장 기술

📐 Iterative Context Lengthening

학습 초기에 짧은 문맥으로 학습을 시작해 점진적으로 문맥 길이를 늘리는 방식입니다. DeepCoder는 16K → 32K → 64K 문맥까지 일반화 성능을 유지하며 확장합니다.

🧱 Overlong Filtering 기법

모델이 생성한 답변이 현재 문맥을 초과하더라도, 손실 계산 시 해당 부분은 무시하여 '긴 사고'를 유도합니다.

📊 일반화 성능 결과

  • 16K: 54%
  • 32K: 58%
  • 64K: 60.6%

모델 성능 종합 비교

Model LCB
(8/1/24–2/1/25)
Codeforces
Rating* 
Codeforces
Percentile*
HumanEval+
Pass@1
AIME 2024
DeepCoder-14B-Preview (ours) 60.6 1936 95.3 92.6 73.8
DeepSeek-R1-Distill-Qwen-14B 53.0 1791 92.7 92.0 69.7
O1-2024-12-17 (Low) 59.5 1991 96.1 90.8 74.4
O3-Mini-2025-1-31 (Low) 60.9 1918 94.9 92.6 60.0
O1-Preview 42.7 1658 88.5 89.0 40.0
Deepseek-R1 62.8 1948 95.4 92.6 79.8
Llama-4-Behemoth 49.4 - - - -

 

⚖️ O1, O3-mini와의 성능 비교

DeepCoder-14B는 O1 (59.5%) 및 O3-mini (60.9%)와 비슷한 수준의 성능을 보여줍니다. 특히 14B 파라미터로 이 정도의 성능을 낸 것은 매우 인상적입니다.

📘 수학 일반화 성능 (AIME 2024)

수학 전용 훈련 없이도 AIME 2024에서 73.8% 성능을 보여, 수학 추론에도 강한 일반화 능력을 보입니다.

🎯 HumanEval+ 결과

92.6%의 정확도를 기록하며, 코드 정확도 평가에서 강력한 성능을 입증했습니다.


오픈소스 접근 및 활용 방법

📁 모델 다운로드 경로

  • 🤗 Hugging Face 모델 저장소
  • 👨‍💻 GitHub 코드 저장소
  • 📈 학습 로그(W&B)

📖 문서화 및 재현 가능성

공개된 학습 스크립트와 문서는 누구든지 동일한 모델을 재현하고 실험할 수 있도록 구성되어 있습니다.


결론

✅ 주요 성과 요약

DeepCoder-14B는 오픈소스임에도 불구하고 상용 모델에 필적하는 성능을 달성하며, 향후 오픈소스 AI 개발의 이정표를 제시합니다.

🔮 향후 전망

코드 생성뿐만 아니라 수학, 논리, 복잡한 추론 작업에서도 우수한 성능을 바탕으로 다양한 산업과 학술 프로젝트에 응용될 수 있습니다.

🤝 커뮤니티와의 협력

Agentica와 Together AI는 커뮤니티와의 협력을 통해 RL 기반 LLM 개발을 더욱 민주화하고자 하며, 누구나 기여할 수 있는 환경을 제공하고 있습니다.


출처

https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51

 

DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level | Notion

Agentica x Together AI

pretty-radio-b75.notion.site

 

https://huggingface.co/agentica-org/DeepCoder-14B-Preview

 

agentica-org/DeepCoder-14B-Preview · Hugging Face

DeepCoder-14B-Preview 🚀 Democratizing Reinforcement Learning for LLMs (RLLM) 🌟 DeepCoder Overview DeepCoder-14B-Preview is a code reasoning LLM fine-tuned from DeepSeek-R1-Distilled-Qwen-14B using distributed reinforcement learning (RL) to scale up t

huggingface.co

 

반응형