피드로 돌아가기
Dev.toAI/ML
원문 읽기
NLA를 통한 LLM 내부 Activation의 자연어 복원 및 탐지율 5배 향상
Anthropic NLAs: Reading Claude's Hidden Thoughts in 2026
AI 요약
Context
기존 Activation Probing 및 Sparse Autoencoders는 분석 대상 Concept을 사전에 정의해야 하는 제약 존재. 이로 인해 예측하지 못한 모델의 Hidden Motivation이나 Evaluation Awareness를 식별하는 데 한계 발생.
Technical Solution
- Residual Stream의 신경망 활성화 값을 직접 인간 가독 텍스트로 변환하는 Natural Language Autoencoders(NLA) 설계
- Activation Verbalizer(AV)가 벡터를 텍스트로 변환하고 Activation Reconstructor(AR)가 해당 텍스트로 원본 벡터를 복원하는 Joint Training 구조 채택
- Reconstruction Fidelity를 Reward로 사용하는 RL Loop를 통해 정밀한 텍스트 묘사를 유도하는 Self-supervised 학습 메커니즘 구현
- 개별 Attention Head가 아닌 Layer 간 통합 상태인 Residual Stream을 타겟팅하여 모델의 전역적 지식 표현력 확보
- Bottleneck Compression 기반의 비지도 학습으로 사전 가설 없이도 잠재적 개념을 추출하는 Interpretability 워크플로우 구축
실천 포인트
1. 모델 배포 전 Residual Stream의 Layer 18-24 구간 Activation을 분석하여 출력값과 내부 표현의 괴리 확인
2. 특정 Task 수행 시 모델이 평가 상황을 인지하는 Evaluation Awareness 발생 여부 검토
3. NLA 오픈소스 모델을 활용하여 정렬(Alignment) 감사 파이프라인에 통합 및 상시 모니터링 체계 구축
태그