SandboxAQ가 530만 개의 AI 생성 단백질-리간드 3D 구조와 IC₅₀ 실험값을 쌍으로 제공하는 SAIR 데이터셋을 공개하여 신약 개발의 구조 데이터 부족 문제 해결

SAIR: Accelerating Pharma R&D with AI-Powered Structural Intelligence

2025년 9월 2일9분intermediate

AI 요약

Context

AI 기반 신약 설계는 분자 구조로부터 효능·독성 등 핵심 약물 특성을 예측하는 능력이 부족했으며, 신뢰할 수 있는 3D 단백질 구조 결정에 X-ray 결정화·Cryo-EM 같은 실험 방법이 수개월이 소요되었다. AlphaFold와 같은 기존 알고리즘은 정적 스냅샷만 예측했기 때문에 동적으로 변화하는 분자의 특성을 반영하지 못했다.

Technical Solution

단백질-리간드 쌍의 공동 폴딩 구조 생성: Boltz1 AI 모델을 이용해 130만 개의 고유한 단백질-리간드 쌍에서 5개씩의 서로 다른 공동 폴딩 구조를 생성하여 총 524만 개의 3D 복합체 구성
실험값 큐레이션 및 링크: ChEMBL과 BindingDB에서 IC₅₀ 측정값을 수집하여 각 3D 구조와 검증된 약물 효능 데이터를 직접 연결
GPU 활용 최적화: NVIDIA H100 760개를 포함한 DGX Cloud 클러스터에서 노드·연산자·스케줄러·GPU 메트릭을 세밀하게 수집하고 병목 지점을 식별하여 GPU 활용률 95% 이상 달성
품질 검증 자동화: PoseBuster 오픈소스 도구로 97%의 구조가 화학적 타당성과 물리적 신뢰성 체크를 통과
공개 배포 및 접근성: Hugging Face에서 CC BY 4.0 라이선스로 무료 공개하여 상용·비상용 R&D 파이프라인에 즉시 사용 가능하도록 제공

Impact

데이터셋 생성 시간 4배 단축: 원래 예상 3개월에서 실제 3주 내 완성
GPU 활용률 95% 이상 달성
구조 검증율 97%: PoseBuster 체크 통과
Boltz-2 같은 딥러닝 친화성 모델에서 기존 first-principle 방식 대비 최대 1,000배 속도 향상 사례 제시

Key Takeaway

대규모 과학 데이터셋 구축 시 단순한 계산 자동화보다 GPU 인프라 수준의 세밀한 병목 분석과 최적화가 4배 이상의 시간 단축을 가능하게 한다. 또한 실험값과 구조 정보의 직접 연결은 AI 모델 학습의 데이터 품질 격차를 해소하는 핵심 설계 원칙이다.

실천 포인트

AI 신약 개발팀이나 구조 생물정보 연구자들이 자체 단백질-리간드 3D 구조 생성 파이프라인을 구축할 때, 단일 GPU 인스턴스 대신 대규모 클러스터 환경에서 노드·연산자·스케줄러 수준의 메트릭을 실시간 수집하고 병목을 제거하면 3~4배의 처리량 향상을 달성할 수 있다.

태그

#DrugDiscovery #GPUOptimization #OpenData #AI/ML #StructuralBiology

원문 읽기