피드로 돌아가기
Dev.toMobile
원문 읽기
Diction 3.0 is out
Diction 3.0이 커서 위치와 선택된 텍스트를 인식하는 컨텍스트 인식 AI를 추가해 문장 중간 받아쓰기와 선택 텍스트 실시간 수정 기능 구현
AI 요약
Context
기존 Diction은 커서 위치와 선택된 텍스트를 읽지 못해 문장 중간에 받아쓰기하면 대문자 오류나 공백이 누락되었다. 또한 잘못된 받아쓰기 결과를 수정하려면 앱 전환과 복사-붙여넣기 과정이 필수였다.
Technical Solution
- 커서 위치 감지 및 문맥 읽기: 마이크 탭 시 커서 위치와 기존 텍스트 상태를 캡처해 삽입 위치의 대문자화와 공백을 자동으로 조정
- 선택 텍스트 실시간 수정: 문장을 선택하고 음성 명령("Make this shorter", "More formal", "Replace with I will follow up Thursday")으로 AI가 선택된 범위 내에서 원본을 즉시 변경
- 음성 활동 표시기: 마이크 상태 불확실성 제거를 위해 Diction이 수신 중일 때 액션 바에 펄스 표시
- 지배 손 설정: 왼손 사용자를 위해 UI 레이아웃을 좌측으로 이동하는 옵션 추가
- 히스토리 탭 구조 개선: Recent와 All 두 탭으로 분류하고 검색을 양쪽에 적용, 항목 탭으로 즉시 복사
- 음성 녹음 복원력: 네트워크 오류나 요청 중단 시 오디오를 자동 저장하고 키보드에 재시도 스트립 표시
- 전용 키보드 설정 화면: 자동 언어 감지 기본 활성화와 함께 키보드 설정을 별도 전용 화면으로 분리
- Full Access 명확한 가이드: Full Access 누락 시 설정 단계를 포함한 명확한 설명 화면 표시 (기존: 무음 실패)
Key Takeaway
모바일 입력 애플리케이션에서 시스템 UI 상태(커서 위치, 선택 범위)를 감지해 AI 모델에 문맥으로 전달하면 오류 수정과 사용자 흐름을 크게 단순화할 수 있다.
실천 포인트
음성 입력을 지원하는 모바일 앱 개발 시 OS 레벨의 입력 커서 위치와 선택된 텍스트 상태를 읽어 AI 모델의 입력값으로 포함하면, 문맥에 맞는 올바른 대문자화와 공백 처리로 사용자의 복사-붙여넣기 작업을 제거할 수 있다.