피드로 돌아가기
Sentiment Analysis on Encrypted Data with Homomorphic Encryption
Hugging Face BlogHugging Face Blog
AI/ML

Concrete-ML 라이브러리를 활용해 트랜스포머 표현과 XGBoost를 결합하여 암호화된 데이터에서 감정 분석을 수행하면서 정확도 85% 달성

Sentiment Analysis on Encrypted Data with Homomorphic Encryption

2022년 11월 17일10intermediate

Context

감정 분석 모델은 일반적으로 평문(암호화되지 않은) 텍스트에 접근해야 하므로 개인 메시지 같은 민감한 데이터 처리 시 개인정보 보호 위험이 발생한다.

Technical Solution

  • Homomorphic Encryption(FHE)을 활용한 암호화 데이터 연산: 데이터 복호화 없이 암호화된 상태에서 직접 계산 수행
  • Concrete-ML 라이브러리 도입: 암호학 사전 지식 없이 FHE 모델을 구축할 수 있도록 추상화
  • 트랜스포머 은닉층 표현 활용: BERT 모델(RoBERTa)의 768차원 은닉 표현을 추출하고 평균값으로 텍스트 수준 표현으로 변환
  • XGBoost 분류기와 트랜스포머 결합: 트랜스포머 표현을 입력으로 FHE 친화적 머신러닝 모델(XGBoost) 학습
  • Client/Server 배포 아키텍처: 클라이언트가 개인키/공개키 생성 → 메시지 암호화 → 서버에서 암호화된 데이터로 예측 수행 → 클라이언트가 결과 복호화

Impact

최종 모델 정확도 85% (트랜스포머만 사용한 경우 80%에서 5%p 향상) FHE 실행 시간: 16코어 CPU에서 샘플당 4.4초

Key Takeaway

트랜스포머의 강력한 표현력과 FHE의 암호화 계산 능력을 결합하면 개인정보 보호를 훼손하지 않으면서 높은 정확도의 민감한 데이터 분석이 가능하다. 이는 Concrete-ML 같은 추상화 라이브러리가 암호학 복잡성을 숨겨주면서 데이터 사이언티스트의 진입장벽을 낮출 수 있음을 보여준다.


개인 메시지나 금융 거래 같은 민감한 데이터 분석이 필요한 서비스에서 Concrete-ML을 사용하면, 트랜스포머 모델의 표현을 XGBoost 같은 경량 분류기로 처리하여 클라이언트가 데이터 암호화 상태를 유지하면서도 서버의 예측 요청을 처리할 수 있다.

원문 읽기