피드로 돌아가기
Dev.toAI/ML
원문 읽기
Glue Code 제거를 통한 Multi-Model Pipeline 시각적 오케스트레이션 구현
Ollama Pipelines on Mac: Chain Models Without Writing Glue Code
AI 요약
Context
Ollama의 단일 모델 실행 제약으로 인해 다단계 워크플로우 구현 시 Python 기반의 커스텀 오케스트레이션 레이어 작성이 강제되는 구조. 모델 교체 및 파이프라인 수정 시마다 매번 Glue Code를 수정해야 하는 유지보수 비용 발생.
Technical Solution
- JSON 기반 설정 저장 방식을 통한 시각적 Workflow 설계 구조 채택
- STT, OCR, Embedding 등 서로 다른 Capability를 가진 블록 단위의 모듈화 설계
- Localhost:11434 통신 및 CORS 설정을 통한 Ollama 모델의 Provider화
- 모델별 강점에 따른 적재적소 배치(Classification은 Small Model, Generation은 Large Model) 전략 적용
- 각 블록의 Output을 다음 블록의 Input으로 자동 매핑하는 Data Flow 자동화
- Resource Monitor를 통한 실행 전 RAM 가용량 사전 검증 로직 도입
실천 포인트
1. 다단계 모델 체이닝 시 모델별 RAM 합산 점유율을 계산하여 OOM 발생 가능성 검토
2. 실시간 인터랙션이 필요한 서비스의 경우 체인 길이를 최소화하여 누적 Latency 제어
3. 단순 단발성 질의응답과 복합 Capability 워크플로우를 구분하여 오버헤드 최적화