피드로 돌아가기
Local-First AI Done Right: How Gemma 4 E2B and 'Thinking Mode' Powered DiagramFlowAI
Dev.toDev.to
AI/ML

Gemma 4 Edge 모델과 Thinking Mode를 활용한 로컬 퍼스트 다이어그램 생성 엔진 구현

Local-First AI Done Right: How Gemma 4 E2B and 'Thinking Mode' Powered DiagramFlowAI

Carlos Barbero2026년 5월 13일4intermediate

Context

사내 보안 규정으로 인한 클라우드 LLM 사용 제한과 아키텍처 설계 도구의 개인정보 보호 요구사항 충돌 상황. 기존 대규모 모델의 높은 하드웨어 요구사항과 API 인증 절차로 인한 사용자 온보딩 진입 장벽 발생.

Technical Solution

  • 4-6GB RAM 환경 구동을 위해 31B/26B 모델 대신 Gemma 4 E2B 및 E4B Edge 변형 모델 채택
  • Mermaid DSL의 구문 오류 해결을 위해 Thinking Mode를 활성화하여 출력 전 구조적 계획 단계 강제
  • 단순 페르소나 설정 대신 출력 계약(Output Contract) 중심의 500라인 System Prompt 및 XML 구분자 도입
  • 4B 모델의 낮은 신뢰도를 보완하기 위해 Mermaid Parser 에러 메시지를 피드백하는 ReAct 스타일의 재시도 루프 설계
  • 사용자 경험 최적화를 위해 E2B(속도)와 E4B(정확도) 모델 간 선택 가능한 토글 구조 구현
  • flutter_gemma 및 LiteRT 기반의 100% 로컬 실행 구조로 외부 통신 및 텔레메트리 완전 제거

1. 소형 모델 도입 시 페르소나보다 구체적인 문법 가이드와 금지 사례를 포함한 System Prompt 설계

2. 정교한 구문(DSL) 생성이 필요할 경우 추론 단계(Reasoning Trace)를 분리하여 출력 안정성 확보

3. 100% 성공률의 프롬프트 엔지니어링 대신 파서 에러를 다시 입력으로 넣는 복구 루프(Recovery Loop) 구축

원문 읽기