피드로 돌아가기
Changing AI math could reduce the hardware burden, researchers show
The RegisterThe Register
AI/ML

SEMQ 도입을 통한 FP32 수준 정밀도 유지 및 메모리 부하 획기적 감소

Changing AI math could reduce the hardware burden, researchers show

2026년 6월 30일5advanced

Context

AI 모델의 가중치 및 Embedding 저장 시 FP32 기반의 높은 메모리 점유율로 인한 인프라 비용 증가 문제 발생. 기존 Quantization 방식은 데이터 크기를 줄이나 수치 정밀도 하락에 따른 모델 성능 저하라는 Trade-off 존재.

Technical Solution

  • 절대적 수치 값 대신 벡터 간 상대적 방향성과 기하학적 구조를 보존하는 Semantic Abstraction Layer 설계
  • Raw Vector를 관계적 특성이 유지되는 고정 차원 Symbolic Structure로 대체하여 데이터 표현 방식 분리
  • Magnitude(크기) 정보의 의존도를 낮추고 Relative Orientation(상대적 방향) 중심으로 Semantic State를 정의
  • 기존 LLM이나 Vector Database 변경 없이 Sidecar 레이어 형태로 추가 가능한 SDK 기반 아키텍처 구현
  • Transformer KV-cache 상태를 .semq 파일로 스냅샷 및 복구하여 프로세스 간 런타임 상태 전송 가능 구조 채택

1. Embedding 기반 시스템 설계 시 단순 Quantization 외에 관계 보존형 압축 방식 검토

2. 모델 상태 전송 및 복구가 필요한 런타임 워크플로우에 KV-cache 스냅샷 기법 적용 고려

3. 인프라 비용 절감을 위해 데이터 인제스션 단계에서 Semantic Abstraction 레이어 도입 타당성 분석

원문 읽기