피드로 돌아가기
Building an Open Bilingual Q&A Dataset for Swedish Construction Law (503 entries, CC BY 4.0)
Dev.toDev.to
AI/ML

스웨덴 건설법 특화 503개 Bilingual Q&A 데이터셋 구축 및 LLM Grounding 최적화

Building an Open Bilingual Q&A Dataset for Swedish Construction Law (503 entries, CC BY 4.0)

DecDEPO2026년 4월 17일5intermediate

Context

스웨덴 건설법 데이터의 파편화된 PDF 구조와 다국어 LLM의 전문 도메인 지식 부족으로 인한 환각 현상 발생. 특히 Swedish-English 간의 법률 용어 매핑 부재와 학습 데이터의 낮은 밀도가 정밀한 법률 답변 생성의 병목 지점으로 작용.

Technical Solution

  • 전문 용어 보존을 위해 English set 내 Swedish 법률 용어를 유지하고 괄호로 설명을 추가하는 Bilingual Glossing 전략 채택
  • 모델의 인용 습관 학습을 위해 Citation 정보를 메타데이터에서 분리하지 않고 Answer 텍스트 내에 Inline 형태로 직접 삽입
  • Grounding 성능과 텍스트 드리프트 간의 Trade-off 분석을 통해 30~150 단어의 최적 답변 길이 구간 도출
  • 사용자 접근성 및 파이프라인 통합 효율화를 위해 JSON, JSONL, Alpaca, ShareGPT, CSV 등 5종의 Multi-format 인터페이스 제공
  • 상용 제품 도입 시 Copyleft 마찰을 제거하기 위한 CC BY 4.0 라이선스 적용으로 배포 제약 최소화

- 전문 분야 데이터셋 구축 시 원어 용어와 번역어를 병기하여 모델의 매핑 능력 향상 유도 - RAG 및 Fine-tuning 모델의 인용 정확도를 높이려면 Citation을 텍스트 내부에 Inline으로 배치 - 데이터셋의 범용성을 위해 다양한 ML 프레임워크 전용 포맷(Alpaca, ShareGPT 등)을 동시에 제공

원문 읽기