피드로 돌아가기
Arc Virtual Cell Challenge: A Primer
Hugging Face BlogHugging Face Blog
AI/ML

Arc Institute가 Virtual Cell Challenge를 통해 CRISPR 유전자 침묵 효과를 예측하는 신경망 모델 개발에 220k개 단일세포 RNA 시퀀싱 데이터셋과 Transformer 기반 STATE 아키텍처 공개

Arc Virtual Cell Challenge: A Primer

2025년 7월 18일12intermediate

Context

약물 후보물질 검증을 위해 세포에서 특정 유전자를 침묵시켰을 때의 생물학적 변화를 예측해야 하는데, 트랜스크립톰 측정이 세포를 파괴하기 때문에 동일 세포의 처치 전후 상태를 직접 비교할 수 없다. 또한 기저 세포 집단의 생물학적 이질성이 실제 섭동 신호를 노이즈로 가린다.

Technical Solution

  • State Embedding Model(SE) 도입: Transformer 기반 모델로 세포의 의미있는 임베딩을 생성하여 서로 다른 세포 유형 간 일반화 성능 향상
  • State Transition Model(ST) 개발: Llama 백본을 가진 Transformer로 기저 세포 트랜스크립톰과 원-핫 인코딩된 유전자 섭동 벡터를 입력받아 예상 섭동 트랜스크립톰 출력
  • 독립적 인코더 구조 적용: 기저 세포 세트와 섭동 벡터 각각을 4층 MLP(GELU 활성화)로 인코딩하여 실제 섭동 효과 식별 능력 강화
  • Maximum Mean Discrepancy 손실함수 사용: 예측된 확률분포와 실제 분포 간 차이를 최소화하도록 모델 학습
  • 공변량 매칭 기저 세포 활용: 각 섭동 세포마다 특성이 일치하는 대조군 세포 집합을 쌍으로 제공하여 신호-노이즈 분리 강화

Key Takeaway

생물학 영역의 특수성(파괴적 측정, 생물학적 이질성)을 머신러닝 모델링 문제로 재프레이밍하고 기저 집단의 표현학습과 상태 변환을 분리된 Transformer로 처리하는 접근은 관측 불가능한 인과 추론 문제를 집단 수준의 통계적 모델링으로 해결하는 설계 원칙을 보여준다.


세포 생물학 데이터셋을 다루는 머신러닝 엔지니어는 STATE 모델의 공개 Colab 노트북(transformers 라이브러리의 pre-trained 600M 파라미터 모델 포함)을 기준선으로 시작하면 Transformer 백본(코드 예시: from transformers import StateEmbeddingModel)으로 5120차원 입력 임베딩을 처리할 수 있으며, 이를 통해 미측정 섭동 조건과 미관찰 세포 유형에 대한 일반화 성능을 검증할 수 있다.

원문 읽기