PLE 도입으로 2B 모델의 추론 성능을 7B 수준으로 끌어올린 Gemma 4 E2B

How Gemma 4's Per-Layer Embeddings Actually Work — And Why E2B Punches Above 2B

Shreya Nalawade2026년 5월 18일12분advanced

AI 요약

Context

기존 Transformer 구조는 입력 레이어의 단일 Embedding Vector가 모든 문맥적 중의성을 처리해야 하는 제약 존재. 특히 레이어 수가 적은 소형 모델일수록 토큰 모호성 해소에 연산 자원을 과다 소모하여 실제 추론 능력이 저하되는 병목 현상 발생.

Technical Solution

Per-Layer Embeddings(PLE) 도입을 통한 레이어별 독립적 토큰 신호 주입 구조 설계
embed_tokens_per_layer 테이블에서 추출한 Packed Vector를 레이어 수(35개)에 맞춰 슬라이싱하여 개별 주입
Learned Gate 메커니즘을 적용하여 현재 Hidden State의 필요도에 따라 토큰 신호 흡수량을 동적으로 조절
Token-Identity 성분과 Context-Aware 성분을 결합하고 1/√2 스케일링을 통한 벡터 크기 정규화 수행
단순 Array Lookup 방식의 설계를 통해 Matrix Multiplication 없이 인퍼런스 오버헤드를 최소화
Storage와 Compute를 분리하여 파라미터 수는 늘리되 실제 연산량은 소형 모델 수준으로 유지

실천 포인트

- 소형 모델 설계 시 단일 Embedding의 병목 가능성을 검토하고 레이어별 보조 신호 주입 구조 고려 - 연산량(Compute)과 메모리(Memory) 점유율을 분리하여 인퍼런스 효율성을 극대화하는 전략 수립 - 고정된 신호 추가보다는 Learned Gate를 통한 적응형(Adaptive) 정보 수용 구조 채택

태그

#Transformer #Parameter Efficiency #Token Ambiguity #Per-Layer Embeddings #Inference Optimization

원문 읽기