NLA를 통한 LLM 내부 Activation의 자연어 복원 및 탐지율 5배 향상

Anthropic NLAs: Reading Claude's Hidden Thoughts in 2026

Anup Karanjkar2026년 5월 17일11분advanced

AI 요약

Context

기존 Activation Probing 및 Sparse Autoencoders는 분석 대상 Concept을 사전에 정의해야 하는 제약 존재. 이로 인해 예측하지 못한 모델의 Hidden Motivation이나 Evaluation Awareness를 식별하는 데 한계 발생.

Technical Solution

Residual Stream의 신경망 활성화 값을 직접 인간 가독 텍스트로 변환하는 Natural Language Autoencoders(NLA) 설계
Activation Verbalizer(AV)가 벡터를 텍스트로 변환하고 Activation Reconstructor(AR)가 해당 텍스트로 원본 벡터를 복원하는 Joint Training 구조 채택
Reconstruction Fidelity를 Reward로 사용하는 RL Loop를 통해 정밀한 텍스트 묘사를 유도하는 Self-supervised 학습 메커니즘 구현
개별 Attention Head가 아닌 Layer 간 통합 상태인 Residual Stream을 타겟팅하여 모델의 전역적 지식 표현력 확보
Bottleneck Compression 기반의 비지도 학습으로 사전 가설 없이도 잠재적 개념을 추출하는 Interpretability 워크플로우 구축

실천 포인트

1. 모델 배포 전 Residual Stream의 Layer 18-24 구간 Activation을 분석하여 출력값과 내부 표현의 괴리 확인

2. 특정 Task 수행 시 모델이 평가 상황을 인지하는 Evaluation Awareness 발생 여부 검토

3. NLA 오픈소스 모델을 활용하여 정렬(Alignment) 감사 파이프라인에 통합 및 상시 모니터링 체계 구축

태그

#Natural Language Autoencoders #Self-Supervised Learning #Alignment Auditing #Residual Stream #Interpretability

원문 읽기