Pure ML의 한계를 극복한 Domain Knowledge 기반 Hybrid 엔진 설계

Building Tri-Fort: Why We Abandoned Pure Machine Learning and Built a Construction Intelligence Engine Instead

WolfOf420Stret2026년 6월 18일6분intermediate

AI 요약

Context

초기 설계는 사용자 입력값을 기반으로 Regression 모델이 비용을 예측하는 ML-first 아키텍처로 구성됨. 하지만 실제 건설 데이터의 파편화와 추정치(Estimate) 위주의 데이터 분포로 인해 모델이 현실의 실제 비용(Actual Cost)을 학습하지 못하는 데이터 품질 병목 현상이 발생함.

Technical Solution

데이터 감사 파이프라인 구축을 통한 PDF, Excel 등 비정형 데이터의 Project Grouping 및 Duplicate Detection 수행
단순 모델 학습을 배제하고 Quantity Surveying 핸드북을 구조화된 Rule Graph로 변환하는 Extraction Pipeline 설계
정적 핸드북 데이터를 지역별 요율, 건물 분류, 비용 보정 계수로 정규화하여 Knowledge Source로 활용
Handbook Intelligence, Historical Project Intelligence, User Feature Intelligence를 결합한 Hybrid Cost Engine 구현
Black-box 형태의 ML 예측 대신 도메인 지식에 근거한 Explainable Estimate 산출 구조로 전환

실천 포인트

1. 데이터셋의 단순 Row 수가 아닌 실제 독립 프로젝트(Distinct Projects) 수의 유효성 검증

2. 데이터 희소성 단계에서 ML 모델 고도화보다 도메인 전문가의 지식을 정형화한 Rule-based 시스템 우선 고려

3. 추정치(Estimate)와 실제 결과값(Actual)의 데이터 성격 차이를 구분하여 Labeling 전략 수립

4. 예측 결과의 신뢰도가 중요한 도메인일수록 모델의 성능보다 결과의 설명 가능성(Explainability)을 우선한 아키텍처 설계

태그

#Data Audit #Explainable AI #Hybrid Architecture #Knowledge Graph #Domain Expertise

원문 읽기