Reasoning 모델 Chain-of-Thought 유출 차단하는 Post-Processor 설계

Your AI summarizer is leaking its own chain-of-thought. Here's the 30-line fix.

Tiamat2026년 4월 30일4분intermediate

AI 요약

Context

Multi-model Cascade 구조에서 DeepSeek-R1, Qwen3 등 Reasoning 모델을 혼용함에 따른 내부 추론 과정( 태그) 노출 문제 발생. 특히 OpenRouter나 Self-hosted API 등 일부 Provider가 추론 트레이스를 필터링하지 않고 그대로 반환하는 제약 사항 존재.

Technical Solution

정규표현식 기반의 정밀한 Post-processing 레이어를 추론 엔드포인트 직전에 배치하여 불필요한 토큰 제거
중첩된 Thinking 블록 처리를 위해 문자열 변화가 없을 때까지 반복 실행하는 루프 구조 채택
모델의 Token Limit 도달로 인해 닫는 태그가 없는 Unclosed 상황을 대비한 문자열 분할 및 후단 절삭 로직 적용
<|channel|>analysis 등 gpt-oss 계열의 고유한 Harmony 포맷을 처리하는 전용 정규식 패턴 추가
불필요한 개행 문자(3개 이상)를 표준 2개 개행으로 정규화하는 텍스트 정제 프로세스 통합

실천 포인트

1. Multi-provider 라우팅 사용 시 각 모델의 Reasoning 태그(<think>, <|channel|>) 식별

2. Token Limit으로 인한 미완성 태그 발생 가능성을 고려한 절삭 로직 검토

3. 중첩된 추론 구조를 처리하기 위한 반복적 정제 프로세스 적용

4. `curl` 루프 테스트를 통한 간헐적 추론 트레이스 유출 여부 전수 조사

태그

#Chain-of-Thought #Multi-model Cascade #Post-processing #Output Sanitization #Reasoning Model

원문 읽기