피드로 돌아가기
Dev.toAI/ML
원문 읽기
80.6점 벤치마크 1위 달성 및 Multi-vendor Agent 통합 제어 아키텍처 구현
oh-my-agent: 9 new skills, cursor as first-class vendor, 80/100 benchmark
AI 요약
Context
기존 Agent 시스템의 버전 오설정, 린트 설정 무시, 스토리지 누락 등 일관성 없는 코드 생성 문제 발생. 각 벤더별 CLI 도구의 파편화로 인한 설정 Drift 현상 및 플랫폼 간 호환성 부족이 주요 병목 지점으로 작용.
Technical Solution
- Cursor를 First-class Vendor로 격상하여 전용 Preset 및 Composer-2 Routing을 통한 정밀한 제어 구조 설계
- NFKC Normalization 및 Two-tier CLI Invocation Guard 도입으로 IME 우회 공격 방어 및 명령어 라우팅 정확도 향상
- .agents/skills/ Frontmatter 기반의 빌드 타임 자동 등록 방식을 통해 하드코딩된 SKILLS Map의 의존성 제거
- Junction 및 Hardlink Fallback 메커니즘을 적용하여 Windows 환경의 Symlink EPERM 권한 문제 해결
- Magic-byte MIME Validation 및 경로 정규화를 통한 Path Traversal 취약점 제거 및 파일 시스템 안정성 확보
- 5축(Functional, Spec, Visual, Engineering, Efficiency) 기준의 Multi-judge 평균 벤치마크 체계 구축으로 객관적 성능 검증
Impact
- 5-axis 벤치마크 결과 80.6점으로 1위 기록 (omc 74.1, superpowers 72.9 대비 우세)
- 1,492개 테스트 케이스 통과 및 Ubuntu/macOS/Windows 전체 CI 매트릭스 커버리지 확보
- CJK 타이포그래피 준수를 위해 173개 파일 내 약 1,900개의 em-dash 구조 재편
Key Takeaway
멀티 벤더 환경의 AI Agent 시스템 설계 시 개별 도구의 추상화 레이어를 통합하고, 빌드 타임 자동 등록 및 정규화된 입력 검증 체계를 갖추는 것이 시스템 안정성과 확장성 확보의 핵심임.
실천 포인트
- Multi-vendor CLI 통합 시 NFKC 정규화를 통한 입력값 일관성 확보 여부 검토 - 하드코딩된 설정 맵 대신 파일 시스템 기반의 자동 등록(Auto-registration) 패턴 적용 고려 - OS별 파일 시스템 제약(Symlink 등) 해결을 위한 Fallback 전략 수립 - 단일 지표가 아닌 다각도(Multi-axis)의 벤치마크 지표를 통한 LLM 생성물 품질 정량화