피드로 돌아가기
Atlarix vs opencode on Terminal-Bench 2.0 — same model, only the harness changes (k=1, receipts included)
Dev.toDev.to
AI/ML

Atlarix 하네스를 통한 open-weight 모델의 성능 병목 제거 확인 (정확도 47%)

Atlarix vs opencode on Terminal-Bench 2.0 — same model, only the harness changes (k=1, receipts included)

Amariah Kamau2026년 6월 29일3intermediate

Context

Open-weight 모델의 성능이 순수 가중치(raw weights)뿐만 아니라 Retrieval, Tool surface, Control loop를 포함한 하네스(Harness) 구조에 의해 결정된다는 가설 검증 필요. 기존 하네스가 모델의 잠재 능력을 제한하는 병목 지점으로 작용하는지 분석하기 위해 제어된 환경에서의 비교 실험 수행.

Technical Solution

  • 변인 통제를 위해 동일 모델(minimax-m3), 동일 Provider(OpenRouter), 동일 인프라(Modal) 기반의 실험 설계
  • Harbor 프레임워크를 활용한 89개 태스크의 격리된 컨테이너 환경 구축
  • Native function-calling 강제 적용을 통한 텍스트 기반 Tool shim 제거 및 인터페이스 단순화
  • ATLARIX_AUTONOMOUS_DANGER 플래그 설정을 통한 무인 벤치마크 환경에서의 쓰기/명령 권한 자동 승인 처리
  • k=1 설정을 통해 단일 시도 기반의 모델 추론 능력과 하네스 효율성 간의 상관관계 분석

Impact

  • Atlarix 하네스 적용 시 47%(42/89)의 해결률 달성 및 opencode(44%, 39/89) 대비 대등한 성능 확인
  • 전체 태스크의 약 25%가 AgentTimeoutError로 실패하며, 이는 모델 능력이 아닌 Wall-clock 타임아웃에 의한 물리적 제약임을 식별

Key Takeaway

LLM 에이전트 설계 시 모델 자체의 성능 개선만큼이나 이를 둘러싼 제어 루프와 도구 인터페이스(Harness)의 최적화가 중요하며, 적절한 하네스 설계 시 open-weight 모델로도 상용 프레임워크 수준의 성능 구현 가능


- LLM 에이전트 성능 측정 시 k-shot variance를 고려한 통계적 유의성 검토 - 단순 실패와 타임아웃으로 인한 실패를 구분하여 인프라 제약 사항과 모델 능력 한계 분리 분석 - 에이전트의 도구 사용 인터페이스에서 불필요한 추상화 계층(Shim)을 제거하고 Native 호출 방식 채택 검토

원문 읽기