피드로 돌아가기
Dev.toAI/ML
원문 읽기
AI Safety는 정의 불가능한 인간 피해를 계산하려 하며 Law Zero의 실패를 반복하고 있다
AI Safety is uncomputable. It's Law Zero all over again
AI 요약
Context
Asimov의 로봇 3법칙은 실용적 지침이 아닌 SF적 사고 실험이었다. Law Zero(로봇은 인류를 해쳐서는 안 된다)는 모든 가능한 미래의 결과를 모델링해야 하므로 계산 불가능하다. 현대 AI Safety 프레임워크도 본질적으로 동일한 구조적 한계를 가진다.
Technical Solution
- [Engineering Safety] → [정해진 운영 조건 내 미발생 보장을 요구하나 General Purpose AI는 운영 조건이 무한대]
- [Formal Proof] → [정의역 D의 모든 입력에 대해 속성 P 성립을 증명하나 무한 도메인에서 증명 불가]
- [Red Teaming] → [시도한 입력에서 발견된 실패만 증명하며 실패 부재는 증명 불가]
- [EU AI Act] → [안전 확보가 아닌 오류 발생 시 책임 소재 명시 목적]
- [AI Explainability] → [현재 기술적 해결책 부재 상태에서 요구만 존재하는 구조]
Impact
실제 안전 공학의 3요건(경계 운영 조건, 경계 실패 모드, 검증 가능성) 중 General Purpose AI는 모두 실패한다.
Key Takeaway
AI Safety 프레임워크는 본질적으로 Liability Framework이며, 진정한 안전 확보는 정의되지 않은 운영 조건과 구조적 검증 불を 극복해야 가능해진다.
실천 포인트
General Purpose AI 시스템에서 Red Teaming과 Formal Proof의 한계를 인식하고, 완전한 안전 대신 가능한 범위 내 실패 모드 식별 및 감사 추적 가능성을 목표로 설계해야 한다