GPU 없이 CPU-only 클러스터로 1만 편 논문 LLM 데이터 추출 성공

Running 35B–400B LLMs on a GPU-less Cluster to Mine 10,000 Papers — and the 4 Bugs That Almost Ruined the Data

byeongsoo kang2026년 6월 3일11분advanced

AI 요약

Context

데이터 거버넌스 이슈로 온프레미스 환경 유지가 필수적인 상황에서 GPU 자원이 전무한 x86 서버 클러스터만으로 대규모 텍스트 추출 필요성 대두. 단순 RAG 방식으로는 수치 기반의 메타 분석을 위한 정밀한 Structured Extraction 구현에 한계 존재.

MoE(Mixture of Experts) 모델 채택을 통한 CPU 추론 효율 극대화 및 3B Active Parameter 기반의 사용 가능한 생성 속도 확보
llama.cpp 기반 GGUF 양자화 모델 활용으로 메모리 대역폭 제한 환경 내 추론 최적화
Regex Pre-filter와 LLM Mapping의 하이브리드 파이프라인 설계를 통한 데이터 처리량 최적화 및 판단 단계의 분리
CPU의 Memory-bandwidth Bound 특성을 고려하여 노드당 --parallel 1 설정 및 ThreadPoolExecutor 기반의 단순 큐 오케스트레이션 적용
LLM의 무한 루프 방지를 위해 태그 강제 종료 및 출력 브래킷 시딩을 통한 결정론적 JSON 생성 유도
데이터 누락 방지를 위해 단순 대시보드 모니터링 대신 단계별 Input-vs-Output 정량적 Reconciliation 프로세스 도입

실천 포인트

1. Idempotency 보장을 위해 Vector DB의 Point ID 생성 시 세션/섹션 독립적인 결정론적 해시 함수 사용 여부 검토

2. LLM 구조화 출력 시 추론 예산(Thinking Budget) 제어를 위한 프롬프트 시딩 및 종료 토큰 강제 설정 적용

3. RAG와 Extraction의 목적 차이를 명확히 하여, 수치 집계가 필요한 경우 단순 검색이 아닌 정밀 추출 파이프라인 설계

4. 파이프라인 각 단계에서 데이터 유실을 탐지하기 위한 입력/출력 카운트 대조 로직 필수 구현

태그