피드로 돌아가기
InfoQInfoQ
Mobile

Apple Improves Context Window Management for its Foundation Models

Apple이 iOS 26.4에서 Foundation Models의 context window 관리 도구를 도입해 4096토큰 제약 환경에서 동적 토큰 추적 및 사전 관리 가능

Sergio De Simone2026년 3월 23일6intermediate

Context

Apple의 Foundation Models는 온디바이스 실행으로 인해 4096토큰의 제한된 context window를 가지고 있다. 채팅 같은 연속 세션에서 사용자 프롬프트와 LLM 응답이 누적되면서 .exceededContextWindowSize 에러가 발생하고 세션 중단으로 사용자 경험이 손상된다.

Technical Solution

  • contextSize 프로퍼티 추가: SystemLanguageModel에서 현재 사용 가능한 context 용량을 동적으로 반환하여 4096토큰 상한을 하드코딩하지 않아도 됨
  • tokenCount(for:) 메서드 구현: 입력 텍스트가 소비하는 토큰 수를 정확히 계산하여 앱이 토큰 소비량을 사전에 추적 가능
  • 시스템 프롬프트와 도구 정의 포함: tool 사용 시 name, description, argument schema까지 serialization되어 전송되므로 이들을 모두 토큰 계산에 포함
  • 멀티 세션 전략 권장: 큰 작업을 여러 LLM 세션으로 분할하고 프롬프트를 요약하여 컨텍스트 관리
  • iOS 26.4 이전 버전 지원: @backDeployed 속성으로 Foundation Models를 지원하는 모든 iOS 버전에서 새로운 기능 사용 가능

Key Takeaway

온디바이스 LLM에서 context window는 메모리처럼 능동적으로 관리해야 하는 제약 자원이며, 토큰 수 측정과 사용량 추적 도구를 갖추면 세션 중단 없이 상태를 유지하는 대화형 애플리케이션 설계가 가능하다.


iOS 온디바이스 Foundation Models를 사용하는 개발자는 contextSize로 남은 용량을 확인하고 tokenCount(for:)로 새 입력의 토큰 비용을 미리 계산한 후, 초과하면 세션을 나누거나 기존 턴(turn)을 요약 제거하는 방식으로 context overflow를 사전에 방지할 수 있다.

원문 읽기