Frontier API 대비 26배 빠른 특화 SLM 기반 Hybrid Pipeline 설계

Three small models for healthcare intake — and what shipping all three taught me

Raihan2026년 5월 12일6분intermediate

AI 요약

Context

의료 행정 데이터 처리 시 Frontier LLM의 높은 Latency와 Cost가 병목으로 작용함. 범용 모델의 높은 성능에도 불구하고 실시간 추론 환경에서의 효율성 저하와 데이터 보안 요구사항으로 인해 경량화된 특화 모델의 필요성이 대두됨.

Technical Solution

RoBERTa 및 DeBERTa-v3 기반의 125M-184M 파라미터 SLM을 통한 Intent Classification 및 NER Task 수행
Synthetic Data 생성 시 LLM 특유의 'Polite style' 및 'Cue-word' 포함 노이즈를 제거하는 clean_data.py 전처리 파이프라인 구축
동일 생성기 기반의 Validation Split으로 인한 과적합(Overconfidence) 방지를 위해 서로 다른 프롬프트 스타일의 Cross-generator Test Set 적용
고정된 어휘집 기반의 Linguistic Entity는 SLM이 처리하고, 포맷 변동성이 큰 Structured-ID는 Frontier API를 Fallback으로 사용하는 Hybrid Architecture 설계
BIO-tagging 기반 Token Span 추출 후 JSON 객체로 변환하여 하위 Billing 시스템과의 인터페이스 통합

실천 포인트

- Synthetic Data 활용 시 LLM 생성 라벨의 체계적 노이즈를 식별하는 Label QA 단계 필수 포함 - 모델 성능 검증 시 Train/Val과 다른 생성 경로(다른 모델/프롬프트)를 통한 Test Set 구성 여부 확인 - 전 영역 Frontier API 사용 대신, 도메인별 엔티티의 포맷 변동성을 분석하여 SLM 적용 범위 결정

태그

#Fine-Tuning #Hybrid Pipeline #SLM #Synthetic Data #NER

원문 읽기