피드로 돌아가기
Dev.toAI/ML
원문 읽기
Gemini-Qwen 하이브리드 파이프라인을 통한 PDF 분석 최적화
How I Built an AI Exam App in 8 Months to outsource studying
AI 요약
Context
AI 기반 POC 단계에서 무분별한 Agent 생성 코드로 인한 데이터 정합성 훼손 및 유지보수 불가 상태 발생. 초기 Streamlit-PostgreSQL 기반 구조의 한계로 인한 시스템 전면 재설계 필요성 대두.
Technical Solution
- 유지보수성 확보를 위해 Streamlit에서 Django로 프레임워크 전환 및 LangGraph 도입을 통한 워크플로우 제어
- PDF 파싱 오류 해결을 위해 PyMuPDF 등 텍스트 파서 대신 Llama-3.2-3B-Instruct 기반의 Sliding Context Window 및 Multimodal 이미지 입력 방식 적용
- 추론 속도와 품질의 트레이드오프 해결을 위해 Gemini 1.5 Flash-Lite(PDF 파싱)와 Qwen 2.5 35B(텍스트 라우팅)를 조합한 Hybrid Architecture 설계
- 코드 품질 유지를 위해 AI Agent에 전권을 위임하는 대신 엔지니어가 Base Architecture를 직접 설계한 후 정밀 수정(Precise Edit) 방식으로 운영
- Speculative Decoding 및 Local LLM 벤치마킹을 통해 검증한 후 실무 적용 가능성이 낮은 오버엔지니어링 요소 제거
실천 포인트
1. AI Agent 활용 시 전체 구조 설계는 엔지니어가 직접 수행하고 AI는 부분적 구현 및 수정에만 활용할 것
2. 복잡한 PDF 구조 분석 시 단순 텍스트 추출보다 Multimodal 모델 기반의 페이지별 이미지 분석과 상태 전이(State JSON) 방식 검토
3. 단일 모델의 한계를 극복하기 위해 태스크별(파싱 vs 라우팅) 특성에 맞는 모델을 조합한 Hybrid Pipeline 구성 고려