Fine-tuning 없이 Runtime 활성화 벡터 조작을 통한 LLM 페르소나 제어

You Don't Have to Fine-Tune Your LLM to change it's Behavior. You Can Just… Steer It.

Ankit Dey2026년 5월 14일8분advanced

AI 요약

Context

프롬프트 엔지니어링의 토큰 소모와 표현 한계, Fine-tuning의 고비용 및 데이터 준비 부담이라는 제약 존재. 모델의 기본 성향을 극복하고 특정 페르소나를 유지하기 위한 실시간 제어 메커니즘 필요.

Technical Solution

Linear Representation Phenomenon에 기반하여 고차원 벡터 공간 내 개념을 특정 방향(Direction)으로 정의
HuggingFace transformers의 Hook 기능을 활용하여 Forward pass 과정 중 특정 레이어의 출력을 가로챔
모델 가중치 변경 없이 런타임에 스케일링된 Steering Vector를 Hidden State에 더해 내부 상태를 강제 변환
입력 데이터의 문자적 해석을 담당하는 초기 레이어와 출력 생성 준비 단계인 후기 레이어 사이의 중간 레이어(Layer 15 등)를 타겟팅하여 추상적 개념 제어
Coefficient 조절을 통해 개념 주입 강도를 동적으로 제어함으로써 출력의 페르소나 농도를 결정

실천 포인트

- 모델의 특정 성향 제어를 위해 Fine-tuning 전 Activation Steering 가능 여부 검토 - 개념 제어 효율을 극대화하기 위해 개념이 인코딩된 최적의 중간 레이어 위치 식별 - 실시간 페르소나 전환이 필요한 경우 Hook 기반의 동적 벡터 주입 구조 설계 - 모델이 이미 학습한 개념 내에서만 제어가 가능하다는 제약 사항을 고려한 범위 설정

태그

#Hidden State #Transformer Hook #Forward Pass #Linear Representation #Activation Steering

원문 읽기