피드로 돌아가기
Dev.toAI/ML
원문 읽기
Local LLM 기반 Multi-Agent 설계를 통한 1,065건의 데이터셋 무비용 자동 생성
How I Built an Autonomous Dataset Generator with CrewAI + Ollama (72-hour run, 1,065 entries)
AI 요약
Context
상용 데이터셋의 높은 비용($500-2,000)과 도메인 특화 데이터 부족이라는 제약 사항 발생. 기존의 수동 생성 방식은 확장성 결여 및 시간 소모가 큰 병목 지점으로 작용.
Technical Solution
- Curator, Producer, Critic으로 구성된 Multi-Agent 파이프라인 설계를 통한 생성 및 검증 자동화
- Qwen 7B(생성)와 DeepSeek 1.5B(검증) 모델을 분리 배치하여 Hallucination 억제 및 논리적 정밀도 확보
- ChromaDB의 Similarity Search를 활용한 임베딩 기반 중복 검사 로직 구현으로 데이터 다양성 유지
- Agent 인스턴스의 상태 누적으로 인한 Memory Leak 해결을 위해 매 사이클마다 객체를 재생성하는 Stateless 구조 채택
- Ollama Modelfile 설정을 통한 Context Window(8k) 고정으로 런타임 설정 오버헤드 및 호환성 문제 제거
Impact
- 72시간 가동 결과 총 1,065개의 전문 Instruction-Response 쌍 생성
- API 비용 0원 달성 및 전 과정 100% Local 환경에서 수행
- ChromaDB 적용을 통해 452개의 고유 토픽 확보 및 중복 생성 원천 차단
- RAM 사용량 24.2GB 수준의 안정적인 시스템 가용성 유지
실천 포인트
1. LLM 에이전트 장기 실행 시 메모리 누수 방지를 위해 상태를 유지하지 않는 객체 재생성 패턴 검토
2. 데이터 생성 파이프라인 구축 시 생성 모델과 검증 모델을 서로 다른 아키텍처로 분리하여 교차 검증 체계 구축
3. 대량 데이터셋 생성 시 단순 키워드 매칭이 아닌 Vector DB 기반의 Similarity Threshold 설정으로 중복 제거
4. 런타임 설정값의 일관성을 위해 Model-level 설정 파일(Modelfile)을 통한 환경 고정 적용