피드로 돌아가기
How I Built a RAG System Over more than 100 USCIS Administrative Appeals Office Decisions with Gemini
Dev.toDev.to
AI/ML

Gemini 기반 하드 필터링 RAG로 법률 도메인 데이터 편향 및 오염 해결

How I Built a RAG System Over more than 100 USCIS Administrative Appeals Office Decisions with Gemini

Heartlin Machado2026년 6월 28일10intermediate

Context

USCIS AAO 결정문 데이터셋의 거부 사례 편향성과 비정형 PDF 구조로 인한 정보 추출의 어려움 존재. 일반적인 LLM 학습 데이터만으로는 실제 심사관의 구체적인 판단 기준과 증거 평가 논리를 정밀하게 재현하는 데 한계 직면.

Technical Solution

  • Gemini 2.5 Flash 기반 JSON 모드 및 Pydantic 스키마를 적용한 비정형 텍스트의 구조적 데이터 추출
  • 데이터 품질 확보를 위해 스키마 검증 실패 건을 격리하는 Quarantine 프로세스를 도입한 데이터 정제
  • 법적 기준의 혼선을 방지하기 위해 유사 카테고리 간 Soft Signal 대신 Hard Filter 기반의 Hybrid Retrieval 설계
  • 토큰 수 기준이 아닌 법리적 추론 단위(Reasoning Unit) 기반의 Chunking 전략 채택
  • 데이터 편향성을 억지로 보정하는 대신 투명하게 공개하는 Bias Disclosure 레이어 구현
  • 시스템 구축 전 Eval Suite를 선제적으로 작성하여 검색 및 생성 결과의 계약적 요구사항 정의

1. 도메인 특화 RAG 설계 시 단순 Token Chunking 대신 논리적 단위의 Chunking 검토

2. 유사도가 높은 서로 다른 카테고리 존재 시 Metadata 기반 Hard Filter 적용

3. LLM 추출 데이터의 신뢰성 보장을 위해 Pydantic 기반 Validation 및 Quarantine 파이프라인 구축

4. 개발 착수 전 Eval Suite를 작성하여 시스템 성능 측정 기준 선제적 정의

원문 읽기