Gemini-Qwen 하이브리드 파이프라인을 통한 PDF 분석 최적화

How I Built an AI Exam App in 8 Months to outsource studying

Mohammed Ibrahim Khan2026년 6월 28일5분intermediate

AI 요약

Context

AI 기반 POC 단계에서 무분별한 Agent 생성 코드로 인한 데이터 정합성 훼손 및 유지보수 불가 상태 발생. 초기 Streamlit-PostgreSQL 기반 구조의 한계로 인한 시스템 전면 재설계 필요성 대두.

유지보수성 확보를 위해 Streamlit에서 Django로 프레임워크 전환 및 LangGraph 도입을 통한 워크플로우 제어
PDF 파싱 오류 해결을 위해 PyMuPDF 등 텍스트 파서 대신 Llama-3.2-3B-Instruct 기반의 Sliding Context Window 및 Multimodal 이미지 입력 방식 적용
추론 속도와 품질의 트레이드오프 해결을 위해 Gemini 1.5 Flash-Lite(PDF 파싱)와 Qwen 2.5 35B(텍스트 라우팅)를 조합한 Hybrid Architecture 설계
코드 품질 유지를 위해 AI Agent에 전권을 위임하는 대신 엔지니어가 Base Architecture를 직접 설계한 후 정밀 수정(Precise Edit) 방식으로 운영
Speculative Decoding 및 Local LLM 벤치마킹을 통해 검증한 후 실무 적용 가능성이 낮은 오버엔지니어링 요소 제거

실천 포인트

1. AI Agent 활용 시 전체 구조 설계는 엔지니어가 직접 수행하고 AI는 부분적 구현 및 수정에만 활용할 것

2. 복잡한 PDF 구조 분석 시 단순 텍스트 추출보다 Multimodal 모델 기반의 페이지별 이미지 분석과 상태 전이(State JSON) 방식 검토

3. 단일 모델의 한계를 극복하기 위해 태스크별(파싱 vs 라우팅) 특성에 맞는 모델을 조합한 Hybrid Pipeline 구성 고려

태그