Ornith-1.0 - 에이전트형 코딩을 위한 자기 개선 오픈소스 모델

강화학습 기반 Scaffold 최적화로 SWE-bench Verified 82.4% 달성

xguru2026년 7월 1일12분advanced

AI 요약

Context

기존 코딩 모델들은 단순 솔루션 생성에 집중하여 복잡한 에이전트 환경에서의 검색 궤적 최적화가 부족한 한계 존재. 단순 챗봇 형태를 넘어 도구 호출과 추론 과정이 유기적으로 결합된 Agentic Workflow 구현 필요성 증대.

Technical Solution

RL 기반의 자기 개선 훈련 프레임워크를 통한 솔루션 Rollout 및 Scaffold 동시 최적화 설계
reasoning_content와 tool_calls를 물리적으로 분리하여 에이전트 프레임워크와의 결합도 최적화
Gemma 4 및 Qwen 3.5 모델을 기반으로 한 후훈련(Post-training)을 통해 코딩 벤치마크 성능 극대화
256K 토큰 컨텍스트 창 확보를 통해 대규모 코드베이스 분석 및 장기 메모리 유지 능력 강화
Dense 및 MoE 구조의 다변화된 모델 라인업으로 인프라 환경에 따른 추론 비용 효율화 도모

실천 포인트

- Agentic Workflow 구축 시 추론 블록(<think>)과 도구 호출 블록을 분리하여 파싱 오버헤드 최소화 검토 - 모델 크기별(9B, 35B, 397B) VRAM 제약 사항을 고려하여 FP8 양자화 및 Tensor Parallelism 적용 여부 결정 - 단순 챗 인터페이스가 아닌 Shell/Python 등 실제 Tool 접근 권한이 부여된 환경에서 벤치마크 재검증 수행 - vLLM 또는 SGLang의 reasoning_content 필드를 활용해 Chain-of-Thought 추적 및 모니터링 체계 구축

태그

#MoE #Reinforcement Learning #Scaffolding #Agentic Workflow #Post-training

원문 읽기