피드로 돌아가기
Dev.toAI/ML
원문 읽기
개발자가 AI 에이전트가 앱 UI를 탐색하지 않고 Capability Manifest를 통해 직접 API를 호출하는 capman을 개발했다
I built a tool that lets AI agents interact with your app without navigating the UI
AI 요약
Context
AI 에이전트가 앱 기능을 파악할 때 홈 → 탐색 → 카테고리 → 세부 페이지 순서로 UI를 클릭하며 탐색하는 방식에는 속도 저하와 불필요한 화면 노출이라는 문제가 있다. 기존 LangChain, OpenAI 함수 호출, 커스텀 에이전트에서는 AI가 특정 기능을 선택한 이유나 실패 원인을 추적할 수 없는 블박 박스 상태였다.
Technical Solution
- 앱은 Capability Manifest를publish하여 수행 가능한 기능, 호출할 API, 허용된 데이터 범위를 구조화된 목록으로 공개한다.
- 쿼리 실행 시 전체 Execution Trace를 반환하여 매칭된 후보 목록, 신뢰도 점수, 추출된 파라미터, 처리 단계별 소요 시간을 투명하게 제공한다.
- 키워드 매칭만 사용하는 cheap 모드, LLM 폴백이 있는 balanced 모드, 항상 LLM을 사용하는 accurate 모드를 지원한다.
- 각 기능마다 user_owned, admin 등隐私 수준을 설정하여 인증 컨텍스트 기반으로 접근을 제어한다.
- Anthropic Claude, OpenAI 등 다양한 LLM 공급자를 플러그인 형태로 연동한다.
Impact
샘플 쿼리 실행 시 전체 처리 시간이 4ms(ms: 4) 내에 완료되며 캐시 체크, 키워드 매칭,隐私 확인, API 해결의 단계별 소요 시간이 기록된다.
Key Takeaway
AI 에이전트의사결정 과정을 구조화된 매니페스트와 실행 추적으로 기록하면/backend 코드 디버깅처럼 AI 실행 결과를 분석할 수 있다.
실천 포인트
AI 에이전트 개발 환경에서 기존 UI 탐색 패턴 대신 Capability Manifest 기반 직접 API 호출 아키텍처를 적용 시 처리 속도 향상과 디버깅 가능성을 확보할 수 있다