T4 GPU 1장으로 일궈낸 올리브영의 Gemma 3 기반 sLLM 구축기

올리브영이 Gemma 3-4B 모델을 SFT로 학습해 Tesla T4 1장 환경에서 상용 LLM 대비 95% 정확도 유지하면서 운영 비용을 획기적으로 절감

2026년 1월 21일12분intermediate

AI 요약

Context

사용자 리뷰로부터 추천 문구를 자동 생성해야 했으나, 규칙 기반 시스템은 다양성과 확장성에 한계가 있었다. 상용 LLM API는 토큰 비용이 호출량에 비례해 증가하고 모델 업데이트에 따라 응답이 불안정해져 재현성을 보장하기 어려웠다.

Technical Solution

파운데이션 모델을 Gemma 3-4B로 선정: HyperCLOVA X SEED(라이선스 제약), Qwen 2.5-3B(한국어 오타 정정 약함) 등을 검토한 후 멀티링구얼 지원과 메모리 효율성이 우수한 Gemma 3-4B 채택
Supervised Fine-Tuning(SFT) 방식으로 모델 학습: 올리브영의 업무 매뉴얼(학습 데이터)을 기반으로 도메인 특화 모델 구축해 짧은 프롬프트만으로 안정적 출력 달성
Tesla T4 16GB 환경에서 추론 최적화: Gemma의 Sliding Window Attention, Local-Global Attention 혼합, Multi-Query Attention(MQA), Grouped-Query Attention(GQA) 기법으로 메모리 효율화 및 추론 속도 향상
학습 전 품질 기준과 출력 형식 명확히 정의: 모델이 학습할 구체적 기준을 검증 가능하게 형식화해 Task 안정성 확보
Human-in-the-loop 검수 프로세스 수립: 자동 검증 모델로 1차 필터링 후 사람이 정성적·정량적 기준에 따라 최종 검수

Impact

상용 LLM 대비 95% 정확도 유지, 운영 비용을 시간당 수 USD 수준으로 예측 가능하게 통제

Key Takeaway

제한된 GPU 환경(T4 1장)에서도 도메인 특화 SFT를 통해 상용 모델 수준의 성능을 달성할 수 있으며, 이는 재현성 확보, 버전 통제 가능성, 비용 예측 가능성이라는 측면에서 상용 API보다 우수한 기술적 기반이 된다.

실천 포인트

고객 리뷰나 사용자 생성 콘텐츠 기반 생성 서비스를 운영하는 팀에서 프롬프트 엔지니어링만으로 품질을 맞추기 어려울 때, 4B~9B 규모의 경량 오픈소스 모델을 선택해 SFT로 학습시키면 상용 API 호출보다 비용을 예측 가능하게 통제하면서도 재현 가능한 결과물을 얻을 수 있다.

태그

#Cost Optimization #Fine-Tuning #Domain-Specific #Gemma #LLM

원문 읽기