피드로 돌아가기
Dev.toAI/ML
원문 읽기
Agentic Skills 도입을 통한 UI Accessibility 통과율 12%에서 86%로 개선
AI-generated accessibility, an update — frontier models still fail, but skills change the game
AI 요약
Context
Frontier LLM들이 웹상의 비접근적 코드를 학습하며 기본적으로 Accessibility가 결여된 UI 코드를 생성하는 한계 발생. 단일 Prompt 기반의 One-shot API 호출 방식으로는 복잡한 WCAG 준수 기준을 충족하기 어려운 구조적 제약 존재.
Technical Solution
- GitHub Copilot SDK 기반의 Agent Runtime 도입을 통한 Multi-turn Reasoning 체계 구축
- 단순 Context 주입을 넘어 특정 태스크에 최적화된 Guidance와 Tool-use를 결합한 Skill 메커니즘 설계
- Generate 후 Review 단계를 거치는 Two-turn Workflow를 통해 모델의 자가 수정 루프 구현
- 전체 Context Window 부하를 방지하기 위해 필요한 시점에만 해당 Skill 슬라이스를 로드하는 동적 로딩 전략 채택
- Basic Instruction Set을 통한 상시 가드레일 설정과 고위험 작업 대상의 Skill 기반 절차적 안내 분리 운영
Impact
- Control 그룹 평균 Pass Rate 12%에서 Skill 적용 시 최대 86%까지 상승(+74.6pp)
- Basic Instruction 적용만으로 Pass Rate 60% 달성(+48.5pp)
- Gemini 3.1 Pro Preview 모델의 경우 Baseline 8%에서 Skill 적용 후 86%로 성능 극대화
- Skill Review 단계 도입 시 Control 대비 Input Token 약 5.5배, API Call 2.7배 증가하는 비용 Trade-off 발생
Key Takeaway
모델의 기본 추론 능력(Baseline)보다 Agentic Workflow와 Task-specific Guidance(Skill) 설계가 최종 출력 품질을 결정하는 핵심 변수임. 비용과 품질의 균형을 위해 상시 적용되는 가벼운 Instruction과 고정밀 작업용 무거운 Skill을 계층적으로 배치하는 아키텍처 전략이 유효함.
실천 포인트
- 프로젝트 스택 및 디자인 시스템에 최적화된 Custom Instruction 파일 우선 적용 - UI 생성 등 고위험 작업에 대해 '생성-검토' 단계의 Multi-turn Agent 루프 설계 검토 - 자동화된 Accessibility Check(axe-core 등)를 CI/CD 파이프라인에 통합하여 Regression 방지 - Token 비용 증가분을 고려하여 중요도에 따른 Skill 활성화 트리거 정의