피드로 돌아가기
Dev.toAI/ML
원문 읽기
1.2T 파라미터 Gemini 기반 PCC 인프라와 투명한 AI Extensions 설계
Apple WWDC 2026: Rebuilt Siri, the Extensions API, and What Claude on 1.4 Billion iPhones Means for Developers
AI 요약
Context
기존 Siri의 제한적인 온디바이스 모델(150B 파라미터)로 인한 복잡한 추론 능력 부족 및 낮은 응답 품질 발생. 단순 키워드 매칭 기반의 App Intents 구조로 인해 사용자 의도 파악과 실시간 응답성 확보에 한계 노출.
Technical Solution
- Private Cloud Compute(PCC) 인프라 구축을 통한 1.2T 파라미터 규모의 Custom Gemini 모델 구동 및 데이터 프라이버시 보장
- Cryptographic Attestation 도입으로 Apple 엔지니어조차 쿼리 내용에 접근 불가능한 보안 아키텍처 설계
- Extensions Framework 구현을 통해 사용자가 Claude, ChatGPT 등 외부 LLM을 Siri 백엔드로 지정하는 투명한 라우팅 구조 채택
- App Intents 2.0의 Streaming Response 도입으로 전체 결과 생성 전 부분 결과물을 즉시 반환하여 체감 지연 시간(Perceived Latency) 개선
- Richer Entity Types 적용을 통한 단순 문자열 매칭에서 시맨틱 도메인 객체 이해 기반의 Intent Understanding으로 전환
- Multi-turn interaction API 설계를 통한 단일 인보케이션 내 대화 맥락 유지 및 세부 작업 정제 기능 구현
실천 포인트
1. 사용자 체감 성능 향상을 위해 Blocking API를 Streaming API로 전환할 수 있는 지점 검토
2. 단순 키워드 검색 대신 데이터 모델의 의미적 관계를 정의하는 Semantic Entity 설계 적용
3. 외부 API 통합 시 인터페이스를 표준화하여 백엔드 제공자를 투명하게 교체할 수 있는 추상화 레이어 구축