피드로 돌아가기
17만 개 영어 단어 중 몇 개를 알고 있나요?
GeekNewsGeekNews
AI/ML

17만 개 영어 단어 중 몇 개를 알고 있나요?

Stratified Sampling과 Gemini 3 Flash 기반의 어휘량 추정 시스템 설계

neo2026년 6월 20일11intermediate

Context

17만 개의 방대한 영어 단어 데이터셋에서 사용자의 실제 어휘 수준을 효율적으로 추정하기 위한 도구 설계. 전체 전수 조사가 불가능한 제약 하에 최소한의 문항으로 전체 규모를 예측하는 통계적 접근 방식 채택.

Technical Solution

  • Stratified Sampling 기법을 적용하여 난이도별 5개 구간(Core Basics, Intermediate, Advanced, Expert, The Obscure)으로 데이터 층화
  • Gemini 3 Flash AI를 활용하여 단어 선택 및 각 단어에 대응하는 객관식 정의 및 오답 선택지 생성 자동화
  • 각 구간의 정확도와 구간 크기를 곱해 합산하는 가중치 기반의 정량적 추정 알고리즘 구현
  • 100개 문항의 고정 챌린지를 통해 사용자 응답 데이터를 수집하고 이를 기반으로 Scientific Word Count 산출
  • Cloud Run(us-west1) 인프라를 통한 서버리스 배포로 확장성 확보

- 적응형 테스트(Adaptive Testing) 도입을 통한 ELO 평점 기반의 빠른 수준 보정 로직 검토 - 오답 선택지 생성 시 LLM의 패턴(정답의 길이 증가, 특정 단어 반복)을 제거하는 Prompt Engineering 적용 - 단순 클릭 기반 UI에서 키보드 단축키 및 '모르겠음(Unknown)' 옵션을 추가하여 데이터 노이즈 제거 - 통계적 추정 시 전체 모집단(OED)과 샘플 구간의 합산 수치가 일치하는지 검증하는 Data Validation 절차 필수

원문 읽기