피드로 돌아가기
GeekNewsInfrastructure
원문 읽기
NASA가 Artemis II의 내결함성 컴퓨터를 구축한 방법
BAE RAD750 및 4중 중복 구조를 통한 우주급 Fail-Silent 시스템 구현
AI 요약
Context
우주 환경의 방사선으로 인한 Bit-flip 및 하드웨어 결함 발생 가능성 상존. 인명 사고와 직결되는 임무 특성상 일반적인 웹 서비스의 '충분히 괜찮음' 기준을 넘어선 절대적인 결정론적 컴퓨팅(Deterministic Computing)과 내결함성 확보가 필수적인 상황.
Technical Solution
- BAE RAD750 프로세서와 Green Hills INTEGRITY RTOS 기반의 4중 중복 구조 설계
- Lockstep 구조를 통한 동일 연산 동시 수행 및 결과 비교 기반의 오류 감지
- 오류 발생 시 즉각적으로 동작을 멈추는 Fail-Silent 메커니즘 적용을 통한 잘못된 명령 전달 방지
- LEON3 프로세서 및 VxWorks 기반의 BFS(Board Flight Software)와 cFS 프레임워크를 활용한 모듈형 재사용 아키텍처 구축
- 단일 지점 실패를 방지하기 위한 이기종 중복(Dissimilar Redundancy) 개념 도입으로 공통 모드 실패(Common Mode Failure) 최소화
실천 포인트
1. 단일 벤더/라이브러리 의존성에 따른 공통 오류 가능성 검토
2. 시스템 장애 시 '잘못된 동작'보다 '안전한 정지(Fail-Silent)'가 유리한 지점 식별
3. WCET(최악 실행 시간) 분석을 통한 결정론적 응답 시간 보장 여부 확인
4. 하드웨어 결함 허용을 위한 Lockstep 또는 다수결(Voting) 메커니즘 검토