MediaPipe 전처리와 Gemma4:e4b 기반의 로컬 ASL 인식 시스템 구축

I built a real-time ASL interpreter for the Gemma4 challenge, no cloud needed

Ngawang Tenzin2026년 5월 17일4분intermediate

AI 요약

Context

기존 ASL 인식 도구의 Cloud API 의존성에 따른 프라이버시 침해 문제와 전용 모델의 낮은 확장성이라는 제약 존재. 범용 Vision 모델을 활용해 데이터셋 학습 없이 로컬 환경에서 동작하는 실시간 해석기 구현 필요성 대두.

MediaPipe를 활용한 Hand Detection 및 512x512 Tight Cropping으로 모델의 Attention 분산 방지 및 정확도 향상
로컬 실행 가능하며 미세한 손 모양 추론이 가능한 최적의 크기인 gemma4:e4b 모델 채택
정교한 Letter Description 및 헷갈리기 쉬운 문자쌍(A vs S, M vs N vs T)에 대한 명시적 Disambiguation Rule을 Prompt에 삽입
정지 이미지 기반 모델의 한계를 극복하기 위해 움직임이 필요한 문자(J, Z)에 대해 Low Confidence 응답을 유도하는 신뢰도 설계
Ground Truth 기반의 Batch Tester와 사용자 피드백 루프를 통한 정량적 성능 평가 파이프라인 구축

실천 포인트

1. 모델의 추론 정확도가 낮을 때 Prompt 길이를 늘리기 전 입력 데이터의 Crop/Filter 최적화 여부 검토

2. 유사한 클래스 간 오분류 발생 시 구체적인 차이점(Disambiguation Rules)을 명시한 Prompt Engineering 적용

3. 정성적 판단을 배제하고 Ground Truth 기반의 자동화된 Evaluation Pipeline 구축

태그