Engram이 벡터 데이터베이스와 계층 간 메모리 주입으로 12계층 트랜스포머와 동등한 성능을 900K 파라미터 규모에서 구현

Engram: A new type of AI

chowderhead2026년 3월 24일12분advanced

AI 요약

Context

대규모 언어모델의 할루시네이션 문제를 해결하기 위해 저자가 추구해온 접근 방식 중에서, 벡터 데이터베이스를 학습 중에 활용하고 계층 간에 추론을 적용할 수 있는 새로운 아키텍처의 필요성이 대두되었다.

Technical Solution

96차원 벡터 공간에서 단어를 좌표로 표현: 의미적으로 유사한 단어들이 수학적으로 인접하도록 임베딩
4개 계층의 어텐션 메커니즘 도입: Query-Key-Value 연산으로 이전 문맥에서 관련성 높은 토큰에 가중치 부여
2개 지점에서 ChromaDB 벡터 데이터베이스 메모리 룩업 추가: 어텐션과 피드포워드 네트워크 사이에 외부 메모리 주입
피드포워드 네트워크 확장-압축 구조 도입: 96차원을 384차원으로 확대 후 GELU 활성화 함수 적용 후 원래 크기로 복원
Adaptive Pondering 메커니즘 구현: 입력의 난이도에 따라 계산 리소스를 동적 배분
잔여 연결(Residual Connection)과 Context-Aware Gating 적용: 정보 손실 방지 및 신뢰도 기반 필터링
Surprise-Weighted Gradients 도입: 예측 오차가 큰 데이터에 더 높은 학습 가중치 부여

Impact

DeepSeek 논문(2026년 1월) 검증 결과에 따르면 메모리 주입이 적용된 5계층 모델이 메모리 없는 12계층 모델과 동등한 성능 달성.

Key Takeaway

기술 산업의 일반적인 매개변수 규모 확대 전략과 달리, 메모리와 계산을 분리된 보완 시스템으로 취급하는 아키텍처 재설계만으로도 동등 이상의 추론 성능을 저규모 모델에서 구현할 수 있으며, 이는 해석 가능성과 수정 가능성을 동시에 확보할 수 있다.

실천 포인트

언어모델 개발을 수행하는 엔지니어 팀에서 벡터 데이터베이스(ChromaDB 등)를 신경망의 외부 메모리로 계층 간에 주입하고, Query-Key-Value 어텐션 메커니즘에 Surprise-Weighted Gradients를 적용하면, 동일 파라미터 수의 기존 트랜스포머 대비 추론 능력을 현저히 향상시킬 수 있다.

태그

#Architecture #Attention #Memory #LLM #VectorDatabase

원문 읽기