피드로 돌아가기
Dev.toAI/ML
원문 읽기
MediaPipe Skeletonization 및 Transformer 기반 실시간 ASL 번역 파이프라인 구축
From Pixels to Predictions: Data Pipelines and Training the Sequence Model (Part 2)
AI 요약
Context
Raw RGB 비디오 데이터의 과도한 연산 비용과 노이즈로 인한 실시간 추론 제약 발생. 고사양 GPU 없이 소비자용 하드웨어에서 구동 가능한 경량화된 시퀀스 모델 설계 필요.
Technical Solution
- MediaPipe Holistic 활용을 통한 RGB 프레임의 Skeletonization 처리로 수백만 픽셀 데이터를 1,662차원 벡터로 압축
- 양쪽 어깨 중앙점을 원점으로 설정하는 Shoulder-based Normalization 도입을 통한 Translation-invariant 데이터 확보
- BiLSTM 대비 장거리 의존성 모델링과 병렬 처리 효율이 뛰어난 Transformer Encoder 구조 채택
- 6개 레이어의 Multi-head Self-attention 및 Sinusoidal Positional Encoding 기반의 시퀀스 컨텍스트 분석
- 비정형 입력 스트림의 정렬 문제를 해결하기 위한 Connectionist Temporal Classification(CTC) Loss 적용
- Gradient Clipping 및 ReduceLROnPlateau 스케줄러를 통한 CTC 학습 과정의 수렴 안정성 확보
실천 포인트
- 실시간 비전 모델 설계 시 Raw Image 대신 Keypoint 기반의 Skeletonization 고려 - 사용자 위치 변화에 강건한 모델을 위해 신체 특정 부위를 기준으로 한 좌표 정규화 적용 - 입력-출력 길이 불일치 및 세그먼트 미지정 시퀀스 학습 시 CTC Loss 검토 - 시퀀스 데이터의 장거리 문맥 파악이 중요할 경우 RNN 계열보다 Transformer Encoder 우선 고려