피드로 돌아가기
Natural Language Autoencoders: Claude의 생각을 텍스트로 바꾸기
GeekNewsGeekNews
AI/ML

Natural Language Autoencoders: Claude의 생각을 텍스트로 바꾸기

NLA를 통한 LLM 활성값의 자연어 번역 및 내부 사고 가시화

neo2026년 5월 9일11advanced

Context

LLM의 내부 활성값은 고차원 벡터 형태로 존재하여 인간이 해석 불가능한 블랙박스 구조임. 기존 SAE(Sparse Autoencoders) 기법은 특정 피처 추출에는 유효하나, 전체적인 사고 흐름을 자연어로 직관적으로 파악하는 데 한계가 있음.

Technical Solution

  • Activation Verbalizer(AV)와 Activation Reconstructor(AR)를 활용한 Autoencoder 구조 설계
  • AV가 특정 레이어의 활성값을 자연어 텍스트로 디코딩하고, AR이 해당 텍스트를 다시 활성값 벡터로 인코딩하는 왕복 루프 구성
  • 동일 아키텍처의 LLM을 초기값으로 사용하여 대상 모델의 내재적 통찰을 학습에 반영
  • 초기 단계에서 Opus 모델의 가상 내부 처리 과정을 상상하게 하여 모델을 올바른 방향으로 유도하는 Warm-up 전략 적용
  • 생성된 텍스트의 신뢰성 확보를 위해 정답 신호와의 상관관계 분석 및 텍스트 재서술(Paraphrasing)을 통한 일관성 검증 수행
  • 모델의 층(Layer)별로 NLA를 개별 학습시켜 입력 데이터가 의미론적으로 진화하는 과정을 추적하는 구조 채택

1. 모델 내부 상태 분석 시 단순 피처 추출을 넘어 Autoencoder 기반의 텍스트 변환 구조 검토

2. 분석 대상 모델과 유사한 아키텍처의 모델을 해석기로 활용하여 도메인 정렬 최적화

3. 해석 결과의 신뢰성 검증을 위해 텍스트 변형 후에도 동일한 활성값이 재구성되는지 확인

4. 레이어별 NLA 적용을 통해 사고의 진화 단계 및 병목 지점 파악

원문 읽기