Gemma 4 기반 10/10 Boundary Check 달성 및 4.7s/turn 로컬 NPC 구현

Kenji's Ramen: How Gemma 4 Runs the NPC That NVIDIA's Demo Never Built

Danny2026년 5월 12일7분intermediate

AI 요약

Context

기존 LLM NPC는 경계 없는 대화와 단순한 페르소나 설정으로 인해 몰입감이 낮고 캐릭터 붕괴가 빈번한 한계 존재. 단순한 텍스트 주입 방식으로는 사용자의 신뢰 수준이나 상황에 따른 동적인 정보 공개 제어를 구현하기 어려움.

17개 섹션으로 구성된 7,300 토큰 규모의 Character Contract를 통해 모델의 행동 강제
Trust Tiers(stranger → regular → close_friend → inner_circle) 설계를 통한 단계적 정보 공개 및 접근 권한 제어
Disclosure Gates와 Refusal Shapes를 정의하여 특정 주제에 대한 접근을 차단하고 캐릭터 정체성을 유지하는 거절 로직 구현
Sparse Priming Representations 기법을 적용하여 모델 내 잠재 지식을 활성화하고 토큰 효율성 최적화
모델 사이즈별 최적화된 Spec(e2b: 대화 전용, e4b+: 장면+대화)을 적용하여 추론 리소스 효율화
Tamagotchi Principle을 도입하여 신뢰 상실 시 회복 불가능한 상태를 설계함으로써 상호작용의 긴장감 부여

실천 포인트

1. 단순 페르소나 서술 대신 Trust Tier 기반의 정보 접근 제어 매트릭스 설계

2. 일반적인 거절 문구가 아닌 캐릭터 특성이 반영된 Refusal Shape 정의

3. 모델의 Pre-training 지식을 활용하는 Sparse Priming 기법 검토

4. 추론 속도와 캐릭터 유지력 사이의 Trade-off 분석을 통한 최적 모델 사이즈(Sweet Spot) 선정

태그