피드로 돌아가기
Building Shruthi Bandhu: How We Engineered an AI Gesture Tool for the Deaf-Mute Community (And Won the Vishwakarma Awards)
Dev.toDev.to
AI/ML

1,000+ 커스텀 영상 데이터셋 기반 ISL AI 제스처 번역 시스템 구축

Building Shruthi Bandhu: How We Engineered an AI Gesture Tool for the Deaf-Mute Community (And Won the Vishwakarma Awards)

SHAIK TAUFEEQ AHMAD2026년 5월 15일3intermediate

Context

기존 Indian Sign Language(ISL) 데이터셋의 부재와 파편화로 인해 신뢰도 높은 모델 학습이 불가능한 제약 상황 발생. 오픈소스 저장소 기반의 접근 방식으로는 실사용 가능한 수준의 정확도 확보에 한계가 있음.

Technical Solution

  • 데이터 부족 문제 해결을 위해 직접 ISL을 습득하여 1,000개 이상의 고품질 영상을 수집 및 큐레이션한 Brute-force 데이터셋 구축
  • 실제 사용 환경의 다양성을 고려하여 Egocentric View와 Exocentric View라는 두 가지 관점의 아키텍처 설계
  • 스마트 글래스 POV를 적용한 Egocentric View 설계를 통해 물리적 환경 내 실시간 번역 기능 구현
  • 노트북 웹캠 최적화를 통한 Exocentric View 설계를 통해 가상 회의 및 디지털 워크스페이스 내 접근성 확보
  • 현장 방문 및 사용자 피드백 기반의 Product Validation 과정을 거쳐 실제 사용자의 페인포인트를 설계에 반영

- 고품질 데이터셋 부재 시 도메인 지식 습득을 통한 직접적인 데이터 큐레이션 전략 검토 - 사용자 인터페이스(POV)에 따른 다각적 모델 최적화(Egocentric vs Exocentric) 적용 여부 확인 - 기술 구현 전 실제 사용자 환경 분석을 통한 요구사항 정의 및 가설 검증 프로세스 수립

원문 읽기