생물학자들이 BERT/GPT 기반 단백질 언어모델(ESM-2, ProtBERT)을 전이학습으로 파인튜닝해 제한된 학습 데이터로 단백질 분류 및 폴딩 작업 수행

Deep Learning with Proteins

2022년 12월 2일12분intermediate

AI 요약

Context

2016년 당시 딥러닝 모델들은 각 작업마다 처음부터 학습해야 했기 때문에 대량의 학습 데이터가 필수적이었다. 생물학 분야에서는 특정 단백질 작업에 대한 라벨링된 데이터가 충분하지 않아 딥러닝 적용이 어려웠다.

Technical Solution

언어모델 아키텍처를 단백질 시퀀스에 적용: 2018년 ULMFiT와 BERT 논문에서 소개한 전이학습 기법을 단백질 도메인에 도입
사전학습된 모델 재사용: Facebook의 ESM-2(현재 SOTA) 또는 Rostlab의 ProtBERT를 기본 모델로 선택하고 체크포인트 경로만 변경해 로드
신경망의 출력층만 수정: 사전학습된 전체 신경망 구조는 유지하면서 새로운 작업에 맞춰 출력층의 뉴런만 변경
시퀀스 분류 및 토큰 분류 작업 지원: 단백질 시퀀스 리스트와 라벨 리스트만 준비하면 예제 노트북 코드를 적용 가능하도록 설계(데이터 로딩 부분 독립화)
모델 공유 및 배포: 학습된 모델을 Hub에 업로드해 커뮤니티가 자유롭게 접근·개선하고 Spaces로 웹 데모 제공

Impact

ULMFiT와 BERT 도입 사례에서 전이학습 사용 시 100배 이상의 학습 데이터를 보유한 경우와 동등한 성능을 3개 작업에서 달성했다.

Key Takeaway

단백질 도메인에 언어모델 기반 전이학습을 적용하면 데이터가 부족한 생물학 작업에서도 효과적으로 고성능 모델을 구축할 수 있으며, 코드 수준에서 체크포인트 경로만 변경해 다양한 사전학습 모델 간 전환이 가능하다.

실천 포인트

단백질 분류나 폴딩 예측 작업을 진행하는 생물정보학 팀에서 facebook/esm2 또는 Rostlab/prot_bert 같은 사전학습 모델을 기본 체크포인트로 사용하고, 자신의 단백질 시퀀스와 라벨 데이터만 준비한 후 제공된 PyTorch/TensorFlow 노트북의 파인튜닝 코드를 적용하면 처음부터 학습하는 것 대비 100배 적은 라벨링된 데이터로도 실용적 수준의 성능을 달성할 수 있다.

태그

#Transfer Learning #Protein Folding #Language Models #Deep Learning #BioinformaticsML

원문 읽기