엔터프라이즈 LLM 서비스 구축기 2: 에이전트 엔지니어링

Flava AI 어시스턴트가 파인 튜닝 제외, 검색 후 자르기 도입, ReAct 기반 에이전트 설계로 96.1% 응답률 달성

2026년 3월 9일12분intermediate

AI 요약

Context

엔터프라이즈 LLM 서비스는 260개의 도구와 수백 페이지 문서를 관리하면서 정확한 최신 정보 제공과 유지 보수 비용 최소화라는 상충하는 요구사항을 동시에 충족해야 했다. 초기 기술 선택에서 복잡한 파인 튜닝, 전통적인 청킹, 다중 에이전트 아키텍처 등이 검토 대상이었으나 비용-효율성 측면에서 재고찰이 필요했다.

Technical Solution

RAG 기반 지식 제공: 파인 튜닝 대신 원본 문서를 직접 참조하는 검색 증강 생성(RAG) 방식 도입. UC Berkeley와 Google Research 연구에 따르면 새로운 지식 주입 정확도 11% vs 말투 변경 97%로 파인 튜닝의 비효율성 실증
검색 후 자르기(Post-Split) 파이프라인: 문서 전체를 임베딩하여 검색 후, 마크다운 헤더 기준 분할 + 경량 LLM 필터링으로 정제. 기존 임베딩 전 청킹 대비 질문에 정확히 맞는 핵심 조각만 컨텍스트 전달
LLM 필터 2단계 정제: 검색된 전체 문서에서 헤더 목록만 경량 LLM에 전달하여 관련 인덱스만 추출. 출력 토큰이 극소화되어 추가 LLM 호출 비용 최소화
ReAct 기반 에이전티 워크플로우: 계획-실행 분리나 멀티 에이전트 구조 대신 단순 추론-행동 반복 루프 채택. 크로스 도메인 질문("VM에서 오브젝트 스토리지로 데이터 이동")에서도 단일 에이전트가 필요한 도구를 순차적으로 호출
점진적 문서 보강 프로세스: 미답변 질문 분석 리포트를 각 제품 팀과 공유하여 문서 부재(Doc Gap) 원인 추적 및 문서 갱신 시 자동 임베딩 재실행

Impact

FAA 응답률 96.1% (별도 평가 모델로 자동 판정)
미답변 원인 분석: 문서 부재 50%, 기타 API 실패 및 범위 외 질문으로 구성
멀티 에이전트 대비 응답 시간 50% 단축 (9초→14초 증가 회피)
40개 파인 튜닝 데이터셋으로 변형된 질문에 정확도 급락 → RAG 방식으로 전환

Key Takeaway

엔터프라이즈 LLM 서비스에서는 최신 기술보다 데이터 특성(문서 크기, 주제 명확성, 변경 빈도)에 맞는 기술 선택이 핵심이다. 문서가 명확한 주제의 짧은 가이드라면 통째로 검색 후 질문을 아는 상태에서 추출하는 방식이 사전 청킹보다 문맥 손실을 줄이고 정확도를 높인다.

실천 포인트

제품 가이드, API 문서 같은 명확한 주제의 짧은 문서를 다루는 RAG 시스템에서 전체 문서를 임베딩한 후 검색 결과에서 헤더 기반으로 분할하고 경량 LLM으로 필터링하면, 전통적 사전 청킹 대비 문맥 손실 없이 검색 정확도를 높일 수 있다. 또한 복잡한 다중 에이전트 구조보다 단순 ReAct 루프에 충분한 문서와 도구를 제공하는 것이 응답 속도와 크로스 도메인 질문 처리 능력에서 더 효율적이다.

태그

#React #Enterprise-AI #RAG #Document-Retrieval #LLM-Agent

원문 읽기