Show GN: Gemento: 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강해보는 실험 하네스

외부 상태 및 역할 분리를 통한 4B LLM의 추론 성능 극대화

kurthong2026년 5월 5일4분advanced

AI 요약

Context

로컬 LLM의 제한된 파라미터로 인한 단발 추론 한계와 컨텍스트 윈도우 비용 증가 문제 직면. 모델 내부 지능에 의존하는 기존 방식으로는 복잡한 긴 작업의 세션 유지 및 자기 오류 수정에 한계 발생.

Technical Solution

Tattoo: 작업 기억과 중간 상태를 구조화된 JSON으로 외부화하여 컨텍스트 오염 방지 및 상태 일관성 유지
Tools: 계산 및 정밀 작업의 함수 호출 기반 외부화를 통한 추론 오류 제거
Role: Proposer, Critic, Judge로 역할을 분리하여 단일 모델의 자기 검증 한계를 극복한 상호 검증 구조 설계
Orchestrator: Python 루프를 이용한 종료 조건 제어 및 반복 추론으로 정답 수렴 가능성 확대
Pre-stage Extractor: 입력 데이터 정제 단계를 추가하여 로컬 모델의 초기 인식률 향상
Post-stage Reducer 배제: 최종 요약 과정에서 발생하는 정보 손실(Abstraction Loss) 방지를 위해 압축 공정 최소화

실천 포인트

- 소형 모델 사용 시 단순 프롬프트 확장보다 상태값의 JSON 외부화 검토 - 자기 수정 프롬프트 대신 Proposer-Critic 구조의 역할 분리 적용 - 정밀 계산이 필요한 구간은 LLM 추론이 아닌 전용 Tool Call로 강제 격리 - 결과 요약 단계에서의 정보 손실 가능성을 고려하여 최종 출력 파이프라인 설계

태그

#Context Window #Local-LLM #Role Separation #State Management #Agentic Workflow

원문 읽기