피드로 돌아가기
토스의 AI 기술력, 세계 최고 권위 NeurIPS 2025에서 인정받다: FedLPA 연구
토스 기술블로그토스 기술블로그
AI/ML

토스의 AI 기술력, 세계 최고 권위 NeurIPS 2025에서 인정받다: FedLPA 연구

토스가 NeurIPS 2025에서 FedLPA 알고리즘 발표로 데이터 주권 제약 하에서 분산 학습 및 신규 클래스 자동 발견을 동시에 해결

2025년 12월 23일12advanced

Context

기존 연합학습(Federated Learning) 기술은 서로 다른 국가의 데이터 분포 차이(Non-IID)와 운영 중 발생하는 미지의 데이터 패턴(Novel Class)을 학습하지 못했다. 개인정보 보호법으로 인해 국경을 넘어 사용자 생체 데이터를 중앙 서버로 이전할 수 없는 환경에서 고성능 AI 모델을 구축하기 어려웠다.

Technical Solution

  • 신뢰도 기반 로컬 구조 발견(Confidence-guided Local Structure Discovery, CLSD): 각 클라이언트에서 라벨 있는 데이터와 높은 확률로 예측된 데이터(High-confidence samples)를 선별하여 유사도 그래프(Similarity Graph)를 구축하고 강화
  • InfoMap 커뮤니티 탐지 알고리즘 도입: 확률적 랜덤 워크(Random Walk)를 통해 서버 개입 없이 클라이언트가 데이터 내 숨겨진 범주 개수를 자동으로 추정
  • 로컬 사전 확률 정렬(Local Prior Alignment, LPA) 정규화: 모델의 배치 예측 결과 분포가 실제 데이터 분포와 일치하도록 강제하여 불균형한 데이터에서의 편향 제거
  • 자가 증류(Self-distillation) 메커니즘: 발견된 클러스터 중심(Prototypes) 기준으로 데이터의 증강된 뷰들이 일관된 예측을 하도록 유도

Key Takeaway

분산 환경에서 서버 개입을 최소화하면서도 데이터 불균형과 신규 패턴에 자동으로 대응하려면, 신뢰도 기반 그래프 구축 → 자동 클러스터링 → 동적 정규화의 3단계 파이프라인을 순차적으로 적용해야 한다.


글로벌 금융 서비스를 개발하는 팀에서 각국의 데이터 주권 규제를 준수하면서 다중 국가 데이터로 모델을 학습해야 할 때, 로컬 클라이언트에서 신뢰도 기반 그래프 생성 후 InfoMap으로 자동 범주 추정하고 LPA 정규화로 분포 불균형을 교정하면 서버 이전 없이 지역별 데이터 특성을 반영한 고성능 모델을 운영할 수 있다.

원문 읽기