Zama가 완전 동형암호(FHE)를 GPT2 모델에 적용하여 사용자 데이터와 모델 지적재산권을 동시에 보호하면서 4비트 양자화로 96% 정확도 유지

Towards Encrypted Large Language Models with FHE

2023년 8월 2일12분advanced

AI 요약

Context

Large Language Model(LLM) 서비스는 사용자 쿼리를 처리할 때 민감 정보 노출 위험이 있습니다. 온프레미스 배포는 모델 학습 비용(GPT3 기준 460만 달러)과 지적재산권 유출 위험으로 인해 최적의 솔루션이 아닙니다.

Technical Solution

완전 동형암호(FHE) 도입: 클라우드 서버에서 암호화된 데이터 위에서 함수 실행을 가능하게 하여 사용자 개인정보와 모델 IP를 동시 보호
GPT2 아키텍처 변환: Hugging Face transformers 라이브러리의 GPT2 구현을 Concrete-Python으로 재작성하여 FHE 호환 연산 구현
양자화 기반 정수 표현: 모델 가중치와 활성화값을 정수로 변환하고 4비트 양자화 적용으로 정확도 96% 유지
프로그래머블 부트스트래핑(PBS) 활용: 비선형 함수를 테이블 룩업 연산으로 암호화된 데이터 위에서 구현하여 임의 계산 가능
하이브리드 추론 구조: 클라이언트가 로컬에서 초기 레이어 추론 수행 후 중간 결과를 암호화하여 서버로 전송하고 복호화하여 계속 진행

Impact

4비트 양자화로 원본 모델 정확도의 96% 유지
시퀀스 길이 6에서 11,622개의 PBS 연산 수행
하드웨어 개선 시 CPU 기준 수 분 수준의 연산을 ASIC에서 100ms 이하로 단축 가능(1,000~10,000배 지연시간 감소 예상)

Key Takeaway

LLM 서비스에서 완전 동형암호를 부분 적용할 때 양자화를 통한 정확도 손실을 최소화(4비트에서 96% 유지)하면서도 민감한 계산 부분만 암호화된 도메인에서 처리하는 것이 프로덕션 배포의 현실적 경로입니다. 미래 하드웨어 개선으로 성능 병목이 해결될 때까지 단계적 도입이 가능합니다.

실천 포인트

의료·금융·법률 등 개인정보 보호가 핵심인 도메인의 LLM 서비스 제공자는 Concrete-ML 같은 FHE 라이브러리를 사용하여 Multi-Head Attention 등 계산 집약적 레이어를 암호화된 도메인에서 실행하고, 사후 양자화(post-training quantization)로 4비트 이상 유지하면 모델 지적재산권 노출 없이 사용자 데이터 프라이버시를 보장할 수 있습니다.

태그

#FHE #Quantization #Encryption #Privacy #LLM

원문 읽기