피드로 돌아가기
Hugging Face BlogAI/ML
원문 읽기
Token Sequence 길이 최적화로 Compute Cost 3배 절감
OlmoEarth v1.1: A more efficient family of models
AI 요약
Context
위성 이미지 분석을 위한 Transformer 기반 모델에서 Token Sequence 길이가 Compute Cost에 Quadratic하게 영향을 미치는 구조적 한계 존재. 기존 OlmoEarth v1은 해상도별로 Token을 분리하여 생성함에 따라 대규모 지역 처리 시 과도한 연산 비용 발생.
Technical Solution
- Resolution-based Patching 방식을 통한 Token 생성 구조의 효율화 설계
- 3가지 해상도(10m, 20m, 60m)별 개별 Token 생성 방식을 단일 Token으로 Collapsing 하여 Sequence Length 3배 단축
- Token 병합 시 발생하는 성능 저하를 방지하기 위해 Pre-training Regimen을 수정하여 Cross-band 관계 모델링 능력 유지
- 모델 크기(Base, Tiny, Nano)를 다양화하여 Compute Budget에 따른 유연한 선택지 제공
- 동일 데이터셋 학습을 통한 Architecture 및 Methodological 변경 사항의 영향도 정밀 격리 분석
실천 포인트
1. 고차원 텐서 데이터를 Token화할 때 해상도/채널별 분리 전략이 반드시 필요한지 검토
2. Token 병합 시 발생하는 성능 저하를 모델 구조 변경이 아닌 학습 스케줄(Training Regimen) 최적화로 해결 가능한지 분석
3. Compute Cost가 핵심 병목인 경우 Sequence Length를 줄이는 Token Collapsing 전략 적용 고려