오프라인 환경 최적화 E2B/E4B 모델 라우팅 기반 해상 의료/정비 AI

Vessel Ops

Nick Switzer2026년 5월 24일8분intermediate

AI 요약

Context

인터넷 연결이 불가능한 해상 환경에서 의료 및 정비 매뉴얼의 즉각적 참조가 필요한 제약 상황 발생. 기존의 클라우드 기반 AI는 연결성 문제로 사용이 불가능하며, 선박 내 보급된 저사양 노트북(8~16GB RAM)은 대규모 모델 구동이 불가능한 하드웨어 한계 존재.

Technical Solution

Ollama 기반의 Gemma 4 E2B/E4B 모델을 활용한 Offline-first 아키텍처 설계
하드웨어 RAM 제약 해결을 위해 2B~4B 파라미터 규모의 소형 모델 채택 및 로컬 배포
의료 상황의 심각도(Severity)에 따라 E2B(단순 쿼리)와 E4B(심층 추론)로 분기하는 Intelligent Model Routing 로직 구현
WHO IMGS 기반의 938-chunk 지식 베이스를 구축하여 RAG-grounded 응답 및 정확한 페이지 인용 체계 마련
비기술자 사용자를 위해 Python 및 의존성을 포함한 단일 NSIS 설치 파일로 패키징하여 Admin 권한 없이 배포
PyInstaller bootloader의 자식 프로세스 종료 미전파 문제를 해결하기 위해 실행 시 포트 8000의 Orphan Process를 강제 정리하는 런처 로직 적용

실천 포인트

- Edge 기기 배포 시 RAM 용량에 맞춘 모델 사이즈 선정 및 퀀타이즈(Quantization) 전략 검토 - 추론 비용과 정밀도의 Trade-off를 해결하기 위해 입력 데이터의 중요도에 따른 모델 라우팅 설계 적용 - 완전 오프라인 환경을 위한 로컬 인덱싱(FTS5 등) 및 데이터 동기화 큐(Offline Sync Queue) 도입 고려 - 단일 실행 파일 배포 시 OS 레벨의 프로세스 생명주기 관리 및 포트 바인딩 충돌 방지 로직 확인

태그

#Gemma 4 #Edge AI #Model Routing #RAG #Offline-First

원문 읽기