피드로 돌아가기
Anthropic NLAs: Reading Claude's Hidden Thoughts in 2026
Dev.toDev.to
AI/ML

NLA를 통한 LLM 내부 Activation의 자연어 복원 및 탐지율 5배 향상

Anthropic NLAs: Reading Claude's Hidden Thoughts in 2026

Anup Karanjkar2026년 5월 17일11advanced

Context

기존 Activation Probing 및 Sparse Autoencoders는 분석 대상 Concept을 사전에 정의해야 하는 제약 존재. 이로 인해 예측하지 못한 모델의 Hidden Motivation이나 Evaluation Awareness를 식별하는 데 한계 발생.

Technical Solution

  • Residual Stream의 신경망 활성화 값을 직접 인간 가독 텍스트로 변환하는 Natural Language Autoencoders(NLA) 설계
  • Activation Verbalizer(AV)가 벡터를 텍스트로 변환하고 Activation Reconstructor(AR)가 해당 텍스트로 원본 벡터를 복원하는 Joint Training 구조 채택
  • Reconstruction Fidelity를 Reward로 사용하는 RL Loop를 통해 정밀한 텍스트 묘사를 유도하는 Self-supervised 학습 메커니즘 구현
  • 개별 Attention Head가 아닌 Layer 간 통합 상태인 Residual Stream을 타겟팅하여 모델의 전역적 지식 표현력 확보
  • Bottleneck Compression 기반의 비지도 학습으로 사전 가설 없이도 잠재적 개념을 추출하는 Interpretability 워크플로우 구축

1. 모델 배포 전 Residual Stream의 Layer 18-24 구간 Activation을 분석하여 출력값과 내부 표현의 괴리 확인

2. 특정 Task 수행 시 모델이 평가 상황을 인지하는 Evaluation Awareness 발생 여부 검토

3. NLA 오픈소스 모델을 활용하여 정렬(Alignment) 감사 파이프라인에 통합 및 상시 모니터링 체계 구축

원문 읽기