피드로 돌아가기
Self improving code using the agentic evaluator workflow
Dev.toDev.to
AI/ML

Multi-Agent Loop 기반의 Self-improving 코드 생성 파이프라인 구축

Self improving code using the agentic evaluator workflow

codecowboydotio2026년 6월 30일7intermediate

Context

LLM의 단일 생성 방식은 일회성 결과물에 의존하여 품질 보장이 어렵고 코드 오류 수정에 수동 개입이 필요함. 특히 반복적인 정제 과정에서 이전 수정 사항을 망각하여 품질이 퇴보하는 Regression 문제가 발생함.

Technical Solution

  • Generator, Scorer, Refiner의 역할 분리를 통한 Multi-Agent 워크플로우 설계
  • Claude-Opus-4-8(추론 중심)과 Claude-Haiku-4-5(비용/속도 중심)를 혼합 배치한 Model Tiering 전략 적용
  • 정성적 피드백 대신 구체적인 REMOVE/ADD 쌍을 포함한 Structured Diff 포맷을 사용하여 Refiner의 결정론적 동작 유도
  • 전체 시도 이력을 포함하는 History Injection을 통해 반복 생성 시 발생하는 Score Regression 방지
  • MIN_SCORE(9.6) 및 MAX_REFINEMENTS(3) 임계치를 설정하여 무한 루프 방지 및 품질 하한선 보장
  • 최종 승인된 코드를 Temp 파일로 작성 후 Subprocess로 실행하는 자동화된 Runtime 검증 구조 구현

1. LLM 기반 코드 수정 시 단순 피드백 대신 정확한 코드 교체 범위(Diff)를 요구하고 있는가?

2. 반복 루프 설계 시 이전 단계의 모든 결과물과 피드백을 History로 전달하여 Regression을 방지했는가?

3. 작업의 복잡도에 따라 High-reasoning 모델과 Fast-model을 적절히 분리하여 비용 효율성을 확보했는가?

4. 생성된 결과물을 실제 런타임 환경(Subprocess 등)에서 검증하는 자동화 파이프라인이 포함되었는가?

원문 읽기