피드로 돌아가기
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음
GeekNewsGeekNews
AI/ML

[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음

에이전트 상태 외부화 및 가중치 컴파일을 통한 LLM 추론 효율 극대화

ninebow2026년 6월 9일72advanced

Context

LLM 에이전트가 복잡한 작업을 수행할 때 발생하는 컨텍스트 병목과 높은 추론 비용이 주요 한계점으로 작용. 기존의 정책 내부 상태 관리 방식은 RL 학습 시 의미론적 결정과 단순 기록 관리가 혼재되어 일반화 성능을 저하시키는 구조적 결함 존재.

Technical Solution

  • State-Externalizing Harness 도입을 통한 정책(Policy)과 작업 기억(Working Memory)의 완전 분리
  • 다중 에이전트 간의 오케스트레이션 및 토론 과정을 단일 모델 가중치로 컴파일하는 사후학습 적용
  • SSM의 중요도 신호를 Attention 점수에 직접 주입하는 SISA 구조를 통한 전역 검색 및 순차 우선순위 동시 확보
  • Q-K=V 투영 방식을 통한 KV Cache 최적화로 메모리 사용량 절감 및 On-device 배포 가능성 확대
  • 소스 코드 수준의 재작성(Source-Level Rewriting)을 통한 에이전트 시스템의 자가 치유 루프 구축
  • 공격자와 방어자 간의 Non-cooperative Game 기반 안전성 정렬로 동적 방어 체계 설계

Impact

  • Harness-1: 8개 벤치마크 평균 Curated Recall 0.730 달성 및 차점 모델 대비 11.4포인트 성능 향상
  • Latent Agents: Explicit Debate 대비 토큰 사용량을 최대 93% 절감하며 동등 이상의 성능 유지
  • FuzzingBrain V2: AIxCC 2025 데이터셋 내 취약점 탐지율 90% 달성 및 실제 제로데이 취약점 29개 발견

Key Takeaway

에이전트의 성능 최적화는 단순 프롬프트 엔지니어링이 아닌 상태의 외부화와 추론 로직의 가중치 내재화라는 아키텍처적 분리 및 통합 전략을 통해 달성 가능함.


- 긴 컨텍스트를 사용하는 에이전트 설계 시 상태 관리 로직을 모델 외부의 전용 하네스로 분리했는지 검토 - 다중 에이전트 워크플로의 오버헤드가 클 경우 이를 단일 모델로 증류(Distillation)하는 컴파일 전략 고려 - KV Cache 메모리 부족 문제 발생 시 QKV 투영 공유 방식의 실증적 적용 검토 - 시스템 자가 진화 설계 시 프롬프트 수정 단계를 넘어 롤백 가능한 코드 재작성 파이프라인 구축

원문 읽기