Gemma 4: Native CoT 토큰 도입으로 AIME 89.2% 달성 및 로컬 추론 최적화

Gemma 4's Thinking Mode: A Practical Guide to the `<|think|>` Token

pulkitgovrani2026년 5월 24일7분intermediate

AI 요약

Context

기존 LLM의 System Prompt 기반 CoT 유도는 일관성 부족과 토큰 낭비 문제를 야기함. 단순 포스트 프로세싱이나 프롬프트 트릭으로는 복잡한 논리적 추론 과정의 제어가 어려웠던 한계 존재.

Technical Solution

모델 학습 단계부터 내장된 전용 Control Token인 <|think|>를 통한 Native Reasoning 구조 설계
내부 Chain-of-Thought(CoT)를 생성하는 전용 Scratch Pad 영역을 확보하여 최종 답변 전 논리 검증 수행
enable_thinking 플래그와 max_thinking_tokens 파라미터를 통한 추론 예산(Budget)의 정밀 제어 구현
추론 토큰과 최종 답변 토큰을 명확히 분리하여 UI 수준에서 선택적 노출이 가능한 출력 구조 채택
Apache 2.0 라이선스 기반의 로컬 실행 환경을 통해 데이터 외부 유출 없는 보안 추론 아키텍처 제공

Impact

AIME 2026 벤치마크 89.2% 달성
GPQA Diamond 지표 84.3% 기록
Codeforces ELO 2150 달성

Key Takeaway

추론 성능의 극대화는 모델 크기 증가가 아닌, 사고를 위한 전용 공간(Thinking Budget)의 확보와 제어 가능성에 달려 있음.

실천 포인트

- 단순 팩트 체크 및 정형 데이터 추출 시 Thinking Mode 비활성화를 통한 Latency 감소 - 수학, 로직, 코드 아키텍처 설계 시 Task 복잡도에 따라 512~4096 토큰의 Budget 차등 할당 - JSON 등 엄격한 포맷 요구 시 Thinking 과정의 간섭을 막기 위해 Format Constraint 우선 적용 - 실시간 응답 경험 제공을 위해 Thinking 토큰 스트리밍 UI 구현 검토

태그

#Chain-of-Thought #Local-LLM #Reasoning Budget #Control Token #Apache 2.0

원문 읽기