HackerRank 오픈소스 ATS, 같은 이력서 점수가 90점·74점·88점으로 흔들림

LLM 기반 ATS의 비결정성으로 인한 점수 변동폭 33점 및 65% 탈락 위험

xguru2026년 6월 30일19분intermediate

AI 요약

Context

PDF 이력서 파싱 후 LLM을 다단계로 호출하여 후보자를 구조화 및 평가하는 Open Source ATS 설계 구조. 확률적 생성 모델의 특성과 낮은 파라미터 규모(4B) 모델 채택으로 인해 동일 입력에 대해서도 출력 값이 불일치하는 비결정성 문제 발생.

PDF 텍스트 추출 후 6회 이상의 LLM 호출을 통한 기본 정보, 경력, 학력 등 도메인별 데이터 구조화 파이프라인 설계
GitHub 프로필 스캔 데이터를 추가 맥락으로 결합하여 최종 100점 만점 및 보너스 20점 기반의 정량 평가 로직 구현
Temperature 설정을 0.1 및 0으로 조정하여 출력의 결정성을 확보하려 시도했으나, 부동소수점 오차 및 모델 내부 아키텍처로 인한 변동성 잔존
gemma3:4b 로컬 모델에서 Gemini 모델로 교체하여 점수 분포의 분산을 축소하고 평가 일관성을 개선하려는 시도 수행
단순 Vibe-check 기반의 점수화가 아닌, 명확한 기준점(Anchor)과 예시가 포함된 프롬프트 엔지니어링의 부재로 인한 평가 왜곡 발생

실천 포인트

1. LLM 평가 시스템 설계 시 단일 결과값이 아닌 다수 샘플링을 통한 신뢰 구간 설정 검토

2. 정량적 평가 항목에 대해 LLM이 참조할 수 있는 구체적인 Scoring Rubric과 Few-shot 예시 제공

3. 단순 추출(Extraction)과 주관적 평가(Evaluation) 단계를 분리하여 평가 로직의 투명성 확보

4. 모델 규모에 따른 추론 능력의 한계를 인지하고, 복잡한 판단이 필요한 경우 Chain-of-Thought 또는 더 큰 규모의 모델 채택 고려

태그