피드로 돌아가기
Dev.toAI/ML
원문 읽기
Pure ML의 한계를 극복한 Domain Knowledge 기반 Hybrid 엔진 설계
Building Tri-Fort: Why We Abandoned Pure Machine Learning and Built a Construction Intelligence Engine Instead
AI 요약
Context
초기 설계는 사용자 입력값을 기반으로 Regression 모델이 비용을 예측하는 ML-first 아키텍처로 구성됨. 하지만 실제 건설 데이터의 파편화와 추정치(Estimate) 위주의 데이터 분포로 인해 모델이 현실의 실제 비용(Actual Cost)을 학습하지 못하는 데이터 품질 병목 현상이 발생함.
Technical Solution
- 데이터 감사 파이프라인 구축을 통한 PDF, Excel 등 비정형 데이터의 Project Grouping 및 Duplicate Detection 수행
- 단순 모델 학습을 배제하고 Quantity Surveying 핸드북을 구조화된 Rule Graph로 변환하는 Extraction Pipeline 설계
- 정적 핸드북 데이터를 지역별 요율, 건물 분류, 비용 보정 계수로 정규화하여 Knowledge Source로 활용
- Handbook Intelligence, Historical Project Intelligence, User Feature Intelligence를 결합한 Hybrid Cost Engine 구현
- Black-box 형태의 ML 예측 대신 도메인 지식에 근거한 Explainable Estimate 산출 구조로 전환
실천 포인트
1. 데이터셋의 단순 Row 수가 아닌 실제 독립 프로젝트(Distinct Projects) 수의 유효성 검증
2. 데이터 희소성 단계에서 ML 모델 고도화보다 도메인 전문가의 지식을 정형화한 Rule-based 시스템 우선 고려
3. 추정치(Estimate)와 실제 결과값(Actual)의 데이터 성격 차이를 구분하여 Labeling 전략 수립
4. 예측 결과의 신뢰도가 중요한 도메인일수록 모델의 성능보다 결과의 설명 가능성(Explainability)을 우선한 아키텍처 설계