피드로 돌아가기
Dev.toAI/ML
원문 읽기
1D CNN 기반 외계행성 분류 모델 구현 및 0.96 ROC-AUC 달성
I trained a neural network to find exoplanets. Here's what actually worked.
AI 요약
Context
Kepler 망원경의 시계열 밝기 데이터인 light curve 분석을 통한 외계행성 식별 필요성 증대. 대량의 데이터 중 기기 노이즈 및 binary star로 인한 false positive가 다수 포함된 데이터셋 처리의 한계 존재.
Technical Solution
- 400개 데이터 포인트의 phase-folded light curve를 입력값으로 처리하는 1D CNN 아키텍처 설계
- 모델의 신뢰도 저하 방지를 위해 검증되지 않은 CANDIDATE 레이블을 학습 데이터에서 전면 제외
- 데이터 누수(Data Leakage) 방지를 위한 엄격한 train/val/test split 프로세스 적용
- Confirmed 행성의 낮은 비율(1%)로 인한 클래스 불균형 해결을 위해 Class Weights 적용
- NASA 아카이브 데이터 수집 효율화를 위한 8개 worker 기반의 병렬 데이터 파이프라인 구축
Impact
- 테스트 세트 기준 0.96 ROC-AUC 달성
실천 포인트
희소 데이터셋 학습 시 Accuracy 지표의 함정을 경계하고 Class Weights 도입 및 ROC-AUC 등의 정밀 지표를 검토하십시오. 검증되지 않은 모호한 레이블(Candidate)은 모델의 Confident Error를 유발하므로 학습 데이터셋에서 제거하는 전략을 고려하십시오.