피드로 돌아가기
The RegisterAI/ML
원문 읽기
SEMQ 도입을 통한 FP32 수준 정밀도 유지 및 메모리 부하 획기적 감소
Changing AI math could reduce the hardware burden, researchers show
AI 요약
Context
AI 모델의 가중치 및 Embedding 저장 시 FP32 기반의 높은 메모리 점유율로 인한 인프라 비용 증가 문제 발생. 기존 Quantization 방식은 데이터 크기를 줄이나 수치 정밀도 하락에 따른 모델 성능 저하라는 Trade-off 존재.
Technical Solution
- 절대적 수치 값 대신 벡터 간 상대적 방향성과 기하학적 구조를 보존하는 Semantic Abstraction Layer 설계
- Raw Vector를 관계적 특성이 유지되는 고정 차원 Symbolic Structure로 대체하여 데이터 표현 방식 분리
- Magnitude(크기) 정보의 의존도를 낮추고 Relative Orientation(상대적 방향) 중심으로 Semantic State를 정의
- 기존 LLM이나 Vector Database 변경 없이 Sidecar 레이어 형태로 추가 가능한 SDK 기반 아키텍처 구현
- Transformer KV-cache 상태를 .semq 파일로 스냅샷 및 복구하여 프로세스 간 런타임 상태 전송 가능 구조 채택
실천 포인트
1. Embedding 기반 시스템 설계 시 단순 Quantization 외에 관계 보존형 압축 방식 검토
2. 모델 상태 전송 및 복구가 필요한 런타임 워크플로우에 KV-cache 스냅샷 기법 적용 고려
3. 인프라 비용 절감을 위해 데이터 인제스션 단계에서 Semantic Abstraction 레이어 도입 타당성 분석