Agentic Skills 도입을 통한 UI Accessibility 통과율 12%에서 86%로 개선

AI-generated accessibility, an update — frontier models still fail, but skills change the game

Michael Fairchild2026년 5월 21일7분intermediate

AI 요약

Context

Frontier LLM들이 웹상의 비접근적 코드를 학습하며 기본적으로 Accessibility가 결여된 UI 코드를 생성하는 한계 발생. 단일 Prompt 기반의 One-shot API 호출 방식으로는 복잡한 WCAG 준수 기준을 충족하기 어려운 구조적 제약 존재.

Technical Solution

GitHub Copilot SDK 기반의 Agent Runtime 도입을 통한 Multi-turn Reasoning 체계 구축
단순 Context 주입을 넘어 특정 태스크에 최적화된 Guidance와 Tool-use를 결합한 Skill 메커니즘 설계
Generate 후 Review 단계를 거치는 Two-turn Workflow를 통해 모델의 자가 수정 루프 구현
전체 Context Window 부하를 방지하기 위해 필요한 시점에만 해당 Skill 슬라이스를 로드하는 동적 로딩 전략 채택
Basic Instruction Set을 통한 상시 가드레일 설정과 고위험 작업 대상의 Skill 기반 절차적 안내 분리 운영

Impact

Control 그룹 평균 Pass Rate 12%에서 Skill 적용 시 최대 86%까지 상승(+74.6pp)
Basic Instruction 적용만으로 Pass Rate 60% 달성(+48.5pp)
Gemini 3.1 Pro Preview 모델의 경우 Baseline 8%에서 Skill 적용 후 86%로 성능 극대화
Skill Review 단계 도입 시 Control 대비 Input Token 약 5.5배, API Call 2.7배 증가하는 비용 Trade-off 발생

Key Takeaway

모델의 기본 추론 능력(Baseline)보다 Agentic Workflow와 Task-specific Guidance(Skill) 설계가 최종 출력 품질을 결정하는 핵심 변수임. 비용과 품질의 균형을 위해 상시 적용되는 가벼운 Instruction과 고정밀 작업용 무거운 Skill을 계층적으로 배치하는 아키텍처 전략이 유효함.

실천 포인트

- 프로젝트 스택 및 디자인 시스템에 최적화된 Custom Instruction 파일 우선 적용 - UI 생성 등 고위험 작업에 대해 '생성-검토' 단계의 Multi-turn Agent 루프 설계 검토 - 자동화된 Accessibility Check(axe-core 등)를 CI/CD 파이프라인에 통합하여 Regression 방지 - Token 비용 증가분을 고려하여 중요도에 따른 Skill 활성화 트리거 정의

태그

#LLM Evaluation #Prompt Engineering #Accessibility #Multi-turn Reasoning #Agentic Workflow

원문 읽기