피드로 돌아가기
Dev.toAI/ML
원문 읽기
Reasoning 모델 Chain-of-Thought 유출 차단하는 Post-Processor 설계
Your AI summarizer is leaking its own chain-of-thought. Here's the 30-line fix.
AI 요약
Context
Multi-model Cascade 구조에서 DeepSeek-R1, Qwen3 등 Reasoning 모델을 혼용함에 따른 내부 추론 과정( 태그) 노출 문제 발생. 특히 OpenRouter나 Self-hosted API 등 일부 Provider가 추론 트레이스를 필터링하지 않고 그대로 반환하는 제약 사항 존재.
Technical Solution
- 정규표현식 기반의 정밀한 Post-processing 레이어를 추론 엔드포인트 직전에 배치하여 불필요한 토큰 제거
- 중첩된 Thinking 블록 처리를 위해 문자열 변화가 없을 때까지 반복 실행하는 루프 구조 채택
- 모델의 Token Limit 도달로 인해 닫는 태그가 없는 Unclosed 상황을 대비한 문자열 분할 및 후단 절삭 로직 적용
- <|channel|>analysis 등 gpt-oss 계열의 고유한 Harmony 포맷을 처리하는 전용 정규식 패턴 추가
- 불필요한 개행 문자(3개 이상)를 표준 2개 개행으로 정규화하는 텍스트 정제 프로세스 통합
실천 포인트
1. Multi-provider 라우팅 사용 시 각 모델의 Reasoning 태그(<think>, <|channel|>) 식별
2. Token Limit으로 인한 미완성 태그 발생 가능성을 고려한 절삭 로직 검토
3. 중첩된 추론 구조를 처리하기 위한 반복적 정제 프로세스 적용
4. `curl` 루프 테스트를 통한 간헐적 추론 트레이스 유출 여부 전수 조사